Forwarded from AI-Driven Development. Родион Мостовой
Улучшения в AI прототипировании
В общем, сейчас набирает популярность такой класс AI-тулинга, как Prompt Coding - причем, в отличие от вайб кодинга, предполагается, что юзер в принципе не будет смотреть код (он тупо скрыт за какой-то дальней вкладкой). Аудиторию таких инструментов - это либо не программисты, которые хотят сделать какой-то программный продукт в кратчайшие сроки (в т. ч. сайт), либо программисты, которые быстро хотят что-то запрототипировать.
В общем, на этом поприще за последнюю неделю накопилось ряд значимых новостей, которыми я с вами и поделюсь.
1. ReplIt AI выпустили вторую версию своего билдера, которая по их завялениям сталабыстрее, выше, сильнее лучше. Подробнее в посте Игоря на канале @ai_product.
2. lovable.dev - обновили свою платформу и дали возможность программистам не только промпт-кодить, но и просто кодить (Dev Mode), т. е. прямо по старинке ручками вносить правки в сгенерированный код. А также, дали возможность регистрировать домены прямо внутри lovable - я подозреваю, для не-IT пользователей регистрация и парковка домена стали основной проблемой) И они ее решили таким вот образом.
3. И, наконец, Google разразились кучей новинок, в т. ч. выпустили свою No Code платформу-убийцу всех остальных No Code платформ: Firebase Studio. Из приятного - код генерит очень быстро, заметно быстрее конкурентов. Но код этот у меня нормально пока не заработал, см. эксперимент ниже. Еще, Валерий Ковальский тоже попробовал новый инструмент и подробнее описал свой опыт тут.
А кто лучший?
Смотря как сравнивать. Я попросил все вышеперечисленные сервисы сгенерировать тулзу для подсчета кол-ва строк кода в репозитории. С первой попытки не справился ни один сервис.
Промпт специально сделал максимально простым и не очень точным, как если бы писал обычный пользователь:
Но только lovable как-то худо-бедно справился после 3-х ошибок и 3-х моих комментариев (на самом деле, все равно считает не очень точно) - по сути я просто пробовал сканировать репо и писал текст ошибки в чат - всю эту работу AI-агент мог бы делать сам. Вот ссылка на получившееся приложение: https://code-size-inspector.lovable.app/ Саму историю чата не нашел как там пошерить.
Кстати, самый стильный дизайн получился у bolt.new. Но вот только логика подсчета кол-ва строк так и не заработала правильно.
В итоге, опираясь только на результаты этого субъективного эксперимента для чего-то функционального можно рекомендовать lovable.dev, а если нужно просто, чтоб получилось красиво (лендинг, например), похоже, что с bolt.new эту цель достичь можно быстрее, чем с остальными. Первый скрин - lovable, второй - bolt. Есть еще v0.dev, storm.dev - они в моей задачи тоже оказались слабы.
Чего не хватает всем этим инструментам?
Агентности. При возникновении багов о ошибок, агент сам может их отлавливать в браузере и итеративно фиксить. Но что-то мне подсказывает, что через пол года-год мы и такую автономность тоже увидим.
В общем, конкуренция среди AI тулинга нарастает и гиганты тоже не дремлют. Очень интересно наблюдать за этой гонкой, какие из этих сервисов (кроме гигантов) выживут через год или, тем более, через два - загадка.
А используете ли вы что-то для No Code прототипирования? И как вообще относитесь к таким тулзам? Похоже, что все идет к тому, что несложные сайты и приложения будут генерироваться AI, вообще без участия программистов и любой желающий сможет создавать PoC / MVP своего продукта.
#nocode #lovable #bolt #replit
В общем, сейчас набирает популярность такой класс AI-тулинга, как Prompt Coding - причем, в отличие от вайб кодинга, предполагается, что юзер в принципе не будет смотреть код (он тупо скрыт за какой-то дальней вкладкой). Аудиторию таких инструментов - это либо не программисты, которые хотят сделать какой-то программный продукт в кратчайшие сроки (в т. ч. сайт), либо программисты, которые быстро хотят что-то запрототипировать.
В общем, на этом поприще за последнюю неделю накопилось ряд значимых новостей, которыми я с вами и поделюсь.
1. ReplIt AI выпустили вторую версию своего билдера, которая по их завялениям стала
2. lovable.dev - обновили свою платформу и дали возможность программистам не только промпт-кодить, но и просто кодить (Dev Mode), т. е. прямо по старинке ручками вносить правки в сгенерированный код. А также, дали возможность регистрировать домены прямо внутри lovable - я подозреваю, для не-IT пользователей регистрация и парковка домена стали основной проблемой) И они ее решили таким вот образом.
3. И, наконец, Google разразились кучей новинок, в т. ч. выпустили свою No Code платформу-убийцу всех остальных No Code платформ: Firebase Studio. Из приятного - код генерит очень быстро, заметно быстрее конкурентов. Но код этот у меня нормально пока не заработал, см. эксперимент ниже. Еще, Валерий Ковальский тоже попробовал новый инструмент и подробнее описал свой опыт тут.
А кто лучший?
Смотря как сравнивать. Я попросил все вышеперечисленные сервисы сгенерировать тулзу для подсчета кол-ва строк кода в репозитории. С первой попытки не справился ни один сервис.
Промпт специально сделал максимально простым и не очень точным, как если бы писал обычный пользователь:
Implement an app that takes a URL to GitHub repo, analyzes it and returns total code lines count and its size in bytes
Но только lovable как-то худо-бедно справился после 3-х ошибок и 3-х моих комментариев (на самом деле, все равно считает не очень точно) - по сути я просто пробовал сканировать репо и писал текст ошибки в чат - всю эту работу AI-агент мог бы делать сам. Вот ссылка на получившееся приложение: https://code-size-inspector.lovable.app/ Саму историю чата не нашел как там пошерить.
Кстати, самый стильный дизайн получился у bolt.new. Но вот только логика подсчета кол-ва строк так и не заработала правильно.
В итоге, опираясь только на результаты этого субъективного эксперимента для чего-то функционального можно рекомендовать lovable.dev, а если нужно просто, чтоб получилось красиво (лендинг, например), похоже, что с bolt.new эту цель достичь можно быстрее, чем с остальными. Первый скрин - lovable, второй - bolt. Есть еще v0.dev, storm.dev - они в моей задачи тоже оказались слабы.
Чего не хватает всем этим инструментам?
Агентности. При возникновении багов о ошибок, агент сам может их отлавливать в браузере и итеративно фиксить. Но что-то мне подсказывает, что через пол года-год мы и такую автономность тоже увидим.
В общем, конкуренция среди AI тулинга нарастает и гиганты тоже не дремлют. Очень интересно наблюдать за этой гонкой, какие из этих сервисов (кроме гигантов) выживут через год или, тем более, через два - загадка.
А используете ли вы что-то для No Code прототипирования? И как вообще относитесь к таким тулзам? Похоже, что все идет к тому, что несложные сайты и приложения будут генерироваться AI, вообще без участия программистов и любой желающий сможет создавать PoC / MVP своего продукта.
#nocode #lovable #bolt #replit
👍11
ChatGPT 4.1
Не знаю, интересно ли читать про сомнительные релизы моделей, но, может, кому сэкономлю время.
tl;dr
Релиз зайдет тем, у кого основной рабочей моделью для разработки до сих пор была модель уровня ChatGPT 4o.
А если вы избалованы Sonnet'ом и окончательно развращены Gemini 2.5 Pro, этот релиз вас оставит в недоумении.
Релиз
Выпустили ChatGPT 4.1 с как модель для разработчиков, целую supermassive black hole (скорее всего именно она скрывалась некоторое время в бенчах и на OpenRouter под кодовым именем Quasar).
У неё 3 варианта - обычная, mini & nano.
Тут я буду рассматривать обычную, самую умную.
Доступна модель только по API (т.е. на сайте ChatGPT её не будет).
В Windsurf её сделали бесплатной на неделю, в Cursor - на день, в OpenRouter тоже завезли.
Давайте про плюсы
● 1м контекста, причём этот контекст модель держит хорошо для не-ризонера (по крайней мере до 120к согласно бенчу Fiction.LiveBench), но отстаёт по его удержанию от лидеров
● скорость - очень быстро переваривает промпт и очень быстро генерит ответ (отчасти из-за того, что она не ризонер)
● цена output-токенов примерно в 2 раза ниже, чем у Sonnet/Gemini
Все остальные её подвижки - они относительно 4o, довольно слабой модели для кодинга, и именно с ней сами OpenAI новую модель и сравнивают.
Но даже со всеми этими улучшениями она ощутимо хуже Sonnet/Gemini:
● получше в следовании инструкциям, чем 4o;
● охотнее использует инструменты в агентском режиме (тут она даже преодолевает крайне низкую планку o3-mini);
● умнее в ряде hard-skill бенчей, включая олимпиадные задачи, но, как ни странно, не во всех - иногда примерно те же результаты, что и у 4o.
Релевантные бенчмарки
● Aider Polyglot, 13 место - близкие к реальным задачи разработки;
● Fiction.LiveBench - удержание длинного контекста;
● Scale MultiChallenge, 10 место - новый интересный бенч, про стабильность работы в многоходовых диалогах с людьми;
● LiveBench Coding, 13 место (тут какая-то аномалия, mini-вариант модели - на 9м месте) - олимпиадные задачки по программированию.
Личный опыт
Провел несколько часов с моделью в Cursor/Windsurf в попытках понять, зачем она существует, и по ощущениям как на полгода-год назад вернулся, даже перечислять все косяки лень.
Для кого этот релиз?
● для тех, кто в силу каких-либо причин вынужден был использовать 4o, но вот теперь у них есть выбор :)
● для тех, у кого хорошо разбиваются рабочие задачи на мелкие и при этом не очень сложные куски;
● у кого есть потребность быстро писать много кода по четким инструкциям (а потом выбрасывать и снова писать);
● возможно, это рабочая лошадка для будущих фронтир моделей (o3/o4-mini), которые её как раз смогут эффективно использовать как исполнителя.
Короче, как по мне, так пропускаем этот релиз и ждём o3/o4-mini как следующие потенциально интересные модели.
А может, я что-то упускаю?
Дайте знать - может, есть какие-то сценарии использования, где она лучше всех других моделей по сочетанию характеристик?
—
Почитать про текущую SOTA по версии меня:
● Gemini 2.5 Pro Experimental, общая инфа
● Gemini 2.5 Pro Experimental, личные впечатления
● Gemini 2.5 Pro Exp + Cursor
#news #ai #model
Не знаю, интересно ли читать про сомнительные релизы моделей, но, может, кому сэкономлю время.
tl;dr
Релиз зайдет тем, у кого основной рабочей моделью для разработки до сих пор была модель уровня ChatGPT 4o.
А если вы избалованы Sonnet'ом и окончательно развращены Gemini 2.5 Pro, этот релиз вас оставит в недоумении.
Релиз
Выпустили ChatGPT 4.1 с как модель для разработчиков, целую supermassive black hole (скорее всего именно она скрывалась некоторое время в бенчах и на OpenRouter под кодовым именем Quasar).
У неё 3 варианта - обычная, mini & nano.
Тут я буду рассматривать обычную, самую умную.
Доступна модель только по API (т.е. на сайте ChatGPT её не будет).
В Windsurf её сделали бесплатной на неделю, в Cursor - на день, в OpenRouter тоже завезли.
Давайте про плюсы
● 1м контекста, причём этот контекст модель держит хорошо для не-ризонера (по крайней мере до 120к согласно бенчу Fiction.LiveBench), но отстаёт по его удержанию от лидеров
● скорость - очень быстро переваривает промпт и очень быстро генерит ответ (отчасти из-за того, что она не ризонер)
● цена output-токенов примерно в 2 раза ниже, чем у Sonnet/Gemini
Все остальные её подвижки - они относительно 4o, довольно слабой модели для кодинга, и именно с ней сами OpenAI новую модель и сравнивают.
Но даже со всеми этими улучшениями она ощутимо хуже Sonnet/Gemini:
● получше в следовании инструкциям, чем 4o;
● охотнее использует инструменты в агентском режиме (тут она даже преодолевает крайне низкую планку o3-mini);
● умнее в ряде hard-skill бенчей, включая олимпиадные задачи, но, как ни странно, не во всех - иногда примерно те же результаты, что и у 4o.
Релевантные бенчмарки
● Aider Polyglot, 13 место - близкие к реальным задачи разработки;
● Fiction.LiveBench - удержание длинного контекста;
● Scale MultiChallenge, 10 место - новый интересный бенч, про стабильность работы в многоходовых диалогах с людьми;
● LiveBench Coding, 13 место (тут какая-то аномалия, mini-вариант модели - на 9м месте) - олимпиадные задачки по программированию.
Личный опыт
Провел несколько часов с моделью в Cursor/Windsurf в попытках понять, зачем она существует, и по ощущениям как на полгода-год назад вернулся, даже перечислять все косяки лень.
Для кого этот релиз?
● для тех, кто в силу каких-либо причин вынужден был использовать 4o, но вот теперь у них есть выбор :)
● для тех, у кого хорошо разбиваются рабочие задачи на мелкие и при этом не очень сложные куски;
● у кого есть потребность быстро писать много кода по четким инструкциям (
● возможно, это рабочая лошадка для будущих фронтир моделей (o3/o4-mini), которые её как раз смогут эффективно использовать как исполнителя.
Короче, как по мне, так пропускаем этот релиз и ждём o3/o4-mini как следующие потенциально интересные модели.
А может, я что-то упускаю?
Дайте знать - может, есть какие-то сценарии использования, где она лучше всех других моделей по сочетанию характеристик?
—
Почитать про текущую SOTA по версии меня:
● Gemini 2.5 Pro Experimental, общая инфа
● Gemini 2.5 Pro Experimental, личные впечатления
● Gemini 2.5 Pro Exp + Cursor
#news #ai #model
👍11🔥7❤3🥱1
ChatGPT o3 / o4-mini, где взять
Ну, новости про релиз наверняка все уже прочитали, обзор с бенчами не только от самих OpenAI будет позже, а вот где модели попробовать - расскажу.
Cursor
Есть обе модели:
● o3 за 30 центов за запрос
● o4-mini - пока что бесплатно
Windsurf
Есть o4-mini-high, бесплатно до 21 апреля.
o3 почему-то нет.
Вообще норм распиарили Windsurf с этими новыми релизами (upd: а, так его OpenAI собираются покупать за $3млрд).
OpenRouter
Все модели добавили, можно использовать как по API, так и в чате самого OpenRouter.
(для o3 требуется свой API-ключ)
ChatGPT, сайт
Добавили все модели для Plus и Pro пользователей.
Для Pro лимитов практически нет.
Лимиты для Plus:
● o3 - 50 сообщений в неделю
● o4-mini - 150 сообщений в день
● o4-mini-high - 50 сообщений в день
OpenAI API
Доступна o4-mini во всех вариантах, для o3 требуется верификация
Что тестировать?
● для меня в первую очередь интересно то, как они будут справляться с вызовом тулов, потому что в прошлом o-модели были крайне плохи в этом, а тут обещали существенные улучшения
● удержание контекста - 200к, сравняли с Sonnet, и интересно, насколько он "честный"
● общие возможности по ризонингу на сложных задачах - по бенчам модели показали хороший рост метрик в "хардовых" категориях, так что интересно, как будут себя вести на реальных кодовых базах, особенно на нетривиальных задачах.
#news #ai #model
Ну, новости про релиз наверняка все уже прочитали, обзор с бенчами не только от самих OpenAI будет позже, а вот где модели попробовать - расскажу.
Cursor
Есть обе модели:
● o3 за 30 центов за запрос
● o4-mini - пока что бесплатно
Windsurf
Есть o4-mini-high, бесплатно до 21 апреля.
o3 почему-то нет.
Вообще норм распиарили Windsurf с этими новыми релизами (upd: а, так его OpenAI собираются покупать за $3млрд).
OpenRouter
Все модели добавили, можно использовать как по API, так и в чате самого OpenRouter.
(для o3 требуется свой API-ключ)
ChatGPT, сайт
Добавили все модели для Plus и Pro пользователей.
Для Pro лимитов практически нет.
Лимиты для Plus:
● o3 - 50 сообщений в неделю
● o4-mini - 150 сообщений в день
● o4-mini-high - 50 сообщений в день
OpenAI API
Доступна o4-mini во всех вариантах, для o3 требуется верификация
Что тестировать?
● для меня в первую очередь интересно то, как они будут справляться с вызовом тулов, потому что в прошлом o-модели были крайне плохи в этом, а тут обещали существенные улучшения
● удержание контекста - 200к, сравняли с Sonnet, и интересно, насколько он "честный"
● общие возможности по ризонингу на сложных задачах - по бенчам модели показали хороший рост метрик в "хардовых" категориях, так что интересно, как будут себя вести на реальных кодовых базах, особенно на нетривиальных задачах.
#news #ai #model
👍10🔥8❤1
ChatGPT o3 и немного o4-mini (1/2)
Итак, несколько дней назад вышла долгожданная модель o3 и семейство o4-mini.
Новостники по сложившейся традиции объявили революцию в ИИ, конец профессии разработчика и наступление эры AGI.
Да, ожидания были высокими, особенно в свете последних релизов Anthropic и Google.
Попробуем разобраться, насколько они оправдались.
Кратко по выбору модели для разработки
Универсального лидера нет - выбор зависит от задачи, бюджета и требований к контексту/ризонингу.
Повседневные задачи
🥇 Gemini 2.5 Pro: универсальная модель, фактически единственная для работы с длинным контекстом, отличный ризонинг, но местами проседает в работе с тулингом
🥈 Claude 3.7 Sonnet: закрывает те задачи, которые требуют проактивности, хорошей агентскости, а также повседневную мелочь
Архитектура и планирование
🥇 Gemini 2.5 Pro: в силу общей эрудиции и большого контекста с ней такие вопросы решать удобнее всего
🥈 o3: для каких-то узких и нетривиальных случаев, где важен мощный ризонинг
Сложные задачи, чистый ризонинг
🥇 o3: самый мощный на текущий момент ризонер. Подойдет для брейншторминга, поддержки в принятии сложных решений, работы над алгоритмическими проблемами
🥈 Gemini 2.5 Pro: лучший практический выбор из-за большого контекста, отличного ризонинга и адекватной цены/длины вывода
Длинный контекст (>200k)
🥇 Gemini 2.5 Pro: единственный приемлемый вариант на таком контексте
А где же o4-mini?
Если у вас есть доступ ко всем вышеперечисленным моделям, то они успешно перекрывают все её возможные применения, по крайней мере в разработке, а на фоне её проблем, которые перекликаются с таковыми у o3, я не нашёл ей места в рабочих задачах.
OpenAI o3
Флагманский ризонер, заточенный под сложные задачи и научившийся работе с инструментами.
Плюсы
🟢 Мощный ризонинг - главное преимущество. Модель бьёт все бенчмарки по этому показателю, и в реальности это подтверждается - она способна строить длинные логические цепочки, раскапывать нетривиальные проблемы и плюс к этому использовать инструменты: веб-поиск, Python-интерпретатор и анализ изображений прямо в ходе "размышлений".
Что приводит нас ко второму плюсу:
🟢 Использование инструментов - прошлые модели о-серии использовали инструменты либо нехотя, либо вообще отказывались их задействовать.
Тут же ситуация значительно лучше, но с оговоркой - на сайте ChatGPT она пользуется ими гораздо охотнее, чем через API или в каком-то другом софте.
Веб-версию даже можно использовать как мини-вариант DeepResearch, когда модель может делать десятки вызовов к разным инструментам для анализа какой-то темы или решения задачи - и всё в рамках одного запуска.
+/-
🟡 (Само)уверенность и неуступчивость - o3 реже вам поддакивает и соглашается, если вы ей возражаете, и может аргументированно отстаивать свою позицию.
Это ценно для брейншторминга и поиска объективных решений там, где разные мнения имеют право на существование, но запросто может и создавать проблемы.
#ai #model #review
Итак, несколько дней назад вышла долгожданная модель o3 и семейство o4-mini.
Новостники по сложившейся традиции объявили революцию в ИИ, конец профессии разработчика и наступление эры AGI.
Да, ожидания были высокими, особенно в свете последних релизов Anthropic и Google.
Попробуем разобраться, насколько они оправдались.
Кратко по выбору модели для разработки
Универсального лидера нет - выбор зависит от задачи, бюджета и требований к контексту/ризонингу.
Повседневные задачи
🥇 Gemini 2.5 Pro: универсальная модель, фактически единственная для работы с длинным контекстом, отличный ризонинг, но местами проседает в работе с тулингом
🥈 Claude 3.7 Sonnet: закрывает те задачи, которые требуют проактивности, хорошей агентскости, а также повседневную мелочь
Архитектура и планирование
🥇 Gemini 2.5 Pro: в силу общей эрудиции и большого контекста с ней такие вопросы решать удобнее всего
🥈 o3: для каких-то узких и нетривиальных случаев, где важен мощный ризонинг
Сложные задачи, чистый ризонинг
🥇 o3: самый мощный на текущий момент ризонер. Подойдет для брейншторминга, поддержки в принятии сложных решений, работы над алгоритмическими проблемами
🥈 Gemini 2.5 Pro: лучший практический выбор из-за большого контекста, отличного ризонинга и адекватной цены/длины вывода
Длинный контекст (>200k)
🥇 Gemini 2.5 Pro: единственный приемлемый вариант на таком контексте
А где же o4-mini?
Если у вас есть доступ ко всем вышеперечисленным моделям, то они успешно перекрывают все её возможные применения, по крайней мере в разработке, а на фоне её проблем, которые перекликаются с таковыми у o3, я не нашёл ей места в рабочих задачах.
OpenAI o3
Флагманский ризонер, заточенный под сложные задачи и научившийся работе с инструментами.
Плюсы
🟢 Мощный ризонинг - главное преимущество. Модель бьёт все бенчмарки по этому показателю, и в реальности это подтверждается - она способна строить длинные логические цепочки, раскапывать нетривиальные проблемы и плюс к этому использовать инструменты: веб-поиск, Python-интерпретатор и анализ изображений прямо в ходе "размышлений".
Что приводит нас ко второму плюсу:
🟢 Использование инструментов - прошлые модели о-серии использовали инструменты либо нехотя, либо вообще отказывались их задействовать.
Тут же ситуация значительно лучше, но с оговоркой - на сайте ChatGPT она пользуется ими гораздо охотнее, чем через API или в каком-то другом софте.
Веб-версию даже можно использовать как мини-вариант DeepResearch, когда модель может делать десятки вызовов к разным инструментам для анализа какой-то темы или решения задачи - и всё в рамках одного запуска.
+/-
🟡 (Само)уверенность и неуступчивость - o3 реже вам поддакивает и соглашается, если вы ей возражаете, и может аргументированно отстаивать свою позицию.
Это ценно для брейншторминга и поиска объективных решений там, где разные мнения имеют право на существование, но запросто может и создавать проблемы.
#ai #model #review
👍11🔥9❤2
ChatGPT o3 (2/2)
Минусы
🔴 Малая длина фактического вывода
● модель обрезает код, выдает 200 строк вместо ожидаемых 800, пытается его ужать там, где это лишено смысла;
● использует плейсхолдеры вместо реальных имплементаций;
● игнорирует просьбы выдать полный ответ;
● не дает пояснений к тому, что делает и комментариев к нетривиальному коду;
И для многих задач разработки одно это делает её неприменимой.
Такое ощущение, что ее тренировали на то, чтобы она как можно меньше тратила токенов на ответ.
🔴 Ленивое использование инструментов по API - тут, конечно, плюс в том, что о-модель в принципе использует инструменты, но минус в том, что недостаточно активно там, где это нужно, и ей часто приходится указывать на то, какой инструмент использовать на следующем шаге.
Напомню, что на сайте ChatGPT свои инструменты она использует куда активнее.
🔴 Галлюцинации - есть много жалоб на галлюцинации, особенно на нишевых темах, и этому есть даже подтверждения в system card модели от самих OpenAI.
🔴 "Враньё" - а эта проблема посерьёзнее - сообщения пользователей (и отчёт TransluceAI) о том, что модель может фабриковать информацию о своих действиях (например, имитировать поиск или вызов других тулов) и настаивать на своем, даже будучи неправой.
Мне она как-то выдала, что одно из возможных решений задачи снизит количество ошибок с 15 до 1%, хотя я видел, как она сама его недавно проверяла, и у неё по факту не получилось такого результата.
Целевые 1% я ей сам озвучивал как достижимые (это в самом деле так), и тут она явно пыталась подогнать свой ответ под мои ожидания.
🔴 Высокая стоимость API - несмотря на более низкие, чем у o1, цены, реальная стоимость решения сложных задач с активным ризонингом и тулами может быть очень высокой. К примеру, на бенчмарке Aider Polyglot o3 оказалась в 17.5 раз дороже Gemini 2.5 Pro. Это ставит под вопрос экономическую целесообразность использования её через API.
(Личное) Меня напрягает её манера иногда начинать фразы в ризонинге с прямого обращения ко мне по имени или упоминая его где-то в тексте - выглядит криповато-НЛПшно :)
Вердикт для разработчиков
● Модель отличная для решения узких сложных задач, но нет смысла ее использовать где-то ещё из-за вышеперечисленных минусов.
● В силу её особенностей передача всего нужного ей контекста заранее является особенно важным - описывайте задачу сразу подробно и со всеми ограничениями, накладываемыми на потенциальное решение.
● Эффективнее будет использовать o3 на сайте ChatGPT в рамках подписки, чтобы не тратить деньги на API и чтобы добиться от нее внятного использования инструментов.
В том же Cursor тоже можно (30 центов за запрос), но не стоит рассчитывать, что она сама соберет весь нужный контекст, и лучше озаботиться этим заранее, подготовив её к ваншоту, нежели к долгой переписке :)
● Для ответственных задач, которые выходят за рамки вашей собственной интуиции/понимания, и которые нельзя легко проверить, использовать её нужно с осторожностью, и обязательно делать кросс-чек с той же Gemini 2.5 Pro / специалистами в теме.
Несмотря на все её проблемы я сам точно буду её использовать там, где нужен чистый мощный ризонер.
Что ждём дальше по моделям?
● DeepSeek R2 / V4
● Таинственные dayhush и claybrook, которые вчера появились на WebDev Arena и показывают очень хорошие результаты в веб-кодинге (и пока что больше ничего про них неизвестно) - это могут быть специализированные модели от Google для разработки
P.S.
В этот раз не стал расписывать бенчмарки, т.к. рассказывал кратко про них в постах про другие модели ранее.
Думаю как-нибудь отдельно написать, какие и почему важны для программирования, куда смотреть, кому верить, потому что там уже какой заяц, какой орёл, какая блоха.
✍️ - посмотрим, сколько наберётся интересующихся :)
#ai #model #review
Минусы
🔴 Малая длина фактического вывода
● модель обрезает код, выдает 200 строк вместо ожидаемых 800, пытается его ужать там, где это лишено смысла;
● использует плейсхолдеры вместо реальных имплементаций;
● игнорирует просьбы выдать полный ответ;
● не дает пояснений к тому, что делает и комментариев к нетривиальному коду;
И для многих задач разработки одно это делает её неприменимой.
Такое ощущение, что ее тренировали на то, чтобы она как можно меньше тратила токенов на ответ.
🔴 Ленивое использование инструментов по API - тут, конечно, плюс в том, что о-модель в принципе использует инструменты, но минус в том, что недостаточно активно там, где это нужно, и ей часто приходится указывать на то, какой инструмент использовать на следующем шаге.
Напомню, что на сайте ChatGPT свои инструменты она использует куда активнее.
🔴 Галлюцинации - есть много жалоб на галлюцинации, особенно на нишевых темах, и этому есть даже подтверждения в system card модели от самих OpenAI.
🔴 "Враньё" - а эта проблема посерьёзнее - сообщения пользователей (и отчёт TransluceAI) о том, что модель может фабриковать информацию о своих действиях (например, имитировать поиск или вызов других тулов) и настаивать на своем, даже будучи неправой.
Мне она как-то выдала, что одно из возможных решений задачи снизит количество ошибок с 15 до 1%, хотя я видел, как она сама его недавно проверяла, и у неё по факту не получилось такого результата.
Целевые 1% я ей сам озвучивал как достижимые (это в самом деле так), и тут она явно пыталась подогнать свой ответ под мои ожидания.
🔴 Высокая стоимость API - несмотря на более низкие, чем у o1, цены, реальная стоимость решения сложных задач с активным ризонингом и тулами может быть очень высокой. К примеру, на бенчмарке Aider Polyglot o3 оказалась в 17.5 раз дороже Gemini 2.5 Pro. Это ставит под вопрос экономическую целесообразность использования её через API.
(Личное) Меня напрягает её манера иногда начинать фразы в ризонинге с прямого обращения ко мне по имени или упоминая его где-то в тексте - выглядит криповато-НЛПшно :)
Вердикт для разработчиков
● Модель отличная для решения узких сложных задач, но нет смысла ее использовать где-то ещё из-за вышеперечисленных минусов.
● В силу её особенностей передача всего нужного ей контекста заранее является особенно важным - описывайте задачу сразу подробно и со всеми ограничениями, накладываемыми на потенциальное решение.
● Эффективнее будет использовать o3 на сайте ChatGPT в рамках подписки, чтобы не тратить деньги на API и чтобы добиться от нее внятного использования инструментов.
В том же Cursor тоже можно (30 центов за запрос), но не стоит рассчитывать, что она сама соберет весь нужный контекст, и лучше озаботиться этим заранее, подготовив её к ваншоту, нежели к долгой переписке :)
● Для ответственных задач, которые выходят за рамки вашей собственной интуиции/понимания, и которые нельзя легко проверить, использовать её нужно с осторожностью, и обязательно делать кросс-чек с той же Gemini 2.5 Pro / специалистами в теме.
Несмотря на все её проблемы я сам точно буду её использовать там, где нужен чистый мощный ризонер.
Что ждём дальше по моделям?
● DeepSeek R2 / V4
● Таинственные dayhush и claybrook, которые вчера появились на WebDev Arena и показывают очень хорошие результаты в веб-кодинге (и пока что больше ничего про них неизвестно) - это могут быть специализированные модели от Google для разработки
P.S.
В этот раз не стал расписывать бенчмарки, т.к. рассказывал кратко про них в постах про другие модели ранее.
Думаю как-нибудь отдельно написать, какие и почему важны для программирования, куда смотреть, кому верить, потому что там уже какой заяц, какой орёл, какая блоха.
#ai #model #review
Please open Telegram to view this post
VIEW IN TELEGRAM
✍15🔥13👍8
This media is not supported in your browser
VIEW IN TELEGRAM
Когда ChatGPT устаёт притворяться белым и пушистым 😱
—
Взято отсюда - пишут, что не такой уж редкий баг voice mode.
Крипота-то какая, крипотааа :)
#fun #bug
—
Взято отсюда - пишут, что не такой уж редкий баг voice mode.
Крипота-то какая, крипотааа :)
#fun #bug
😁11😱10🤣4
Forwarded from AI-Driven Development. Родион Мостовой
Ну вот Google и сместили постоянного лидера во фронтэнд разработке Sonnet 3.7 - так что, господа фронтэндщики, присмотритесь. Интересно, когда Gemini сравняется по своим способностям в агентских возможностях кодогенерации с Sonnet в Cursor'е? Или уже? Поделитесь своим опытом.
Попробовать можно в API и, возможно, уже в вебе (там точную версию не указывают, так что до конца не ясно).
Сам я в последнее время для кодогенерации использую как раз Gemini 2.5 Pro в основном - качество действительно превосходное; особенно удивляет то, как она сама продумывает и обрабатывает корнер кейсы (да да, под синьора косит :))
PS. Нас уже 1000+! Благодарю всех своих читателей, что находите время на чтение меня. Отличный повод для дайджеста по каналу и моим материалам - будет.
Попробовать можно в API и, возможно, уже в вебе (там точную версию не указывают, так что до конца не ясно).
Сам я в последнее время для кодогенерации использую как раз Gemini 2.5 Pro в основном - качество действительно превосходное; особенно удивляет то, как она сама продумывает и обрабатывает корнер кейсы (да да, под синьора косит :))
PS. Нас уже 1000+! Благодарю всех своих читателей, что находите время на чтение меня. Отличный повод для дайджеста по каналу и моим материалам - будет.
Google DeepMind
Gemini 3 Pro
Our most intelligent model yet. Learn, build, and plan like never before Gemini 3 Pro’s incredible reasoning powers.
👍10❤3
Gemini 2.5 Pro 05-06 - ещё несколько вещей по поводу обновления
Доступность
Модель доступна там же, где и предыдущий релиз - т.е. её буквально на лету подменили.
Так что в Cursor она уже есть под старым названием gemini-2.5-pro-exp-03-25 (хотя по факту там теперь gemini-2.5-pro-preview-05-06).
В OpenRouter - google/gemini-2.5-pro-preview.
И только в Google AI Studio поменяли имя на Gemini 2.5 Pro Preview 05-06 :)
Отличия от прошлой версии
Надо сделать оговорку, что это итеративное улучшение существующей модели, не полностью новая модель, так что в среднем больших изменений нет, однако:
🟢 прокачали её в основном в кодинге и особенно в веб-разработке;
🟢 улучшилась работа с тулами и модель стала охотнее их использовать;
🔴 модель стала чутка хуже по другим, "общечеловеческим" бенчмаркам.
Быстрые собственные впечатления
● в одном из текущих проектов (next.js / mcp / prisma / postgres / ai sdk) как раз была задача ловли плавающего бага на стыке бекенда и фронтенда, с которым вчера прошлая Gemini / Sonnet 3.7 / o3 не смогли справиться на протяжении нескольких заходов.
Откатил чат до чекпойнта, с которого все началось, и с тем же самым промптом и контекстом новая Gemini ваншотнула проблему 😱
При этом построила 2 цепочки рассуждений на 8 (!) страниц (а у меня 1600px высоты экран, между прочим)
● в боте, где модель используется в качестве ассистента, она стала намного охотнее и по месту использовать доступные ей инструменты - с прошлой пришлось немало побороться, чтобы она их учитывала
● поменялась "личность" модели - явно стала по-другому писать ответы, даже на тех же промптах, которые задавали ей конкретное поведение. Не сказать что лучше или хуже - просто стиль стал другим
В целом, как пользовался в последнее время в основном Gemini для разработки, так и продолжу, рад тому, что модель стала лучше :)
Тем, кто ещё на неё не перешёл - крайне советую.
#ai #review
Доступность
Модель доступна там же, где и предыдущий релиз - т.е. её буквально на лету подменили.
Так что в Cursor она уже есть под старым названием gemini-2.5-pro-exp-03-25 (хотя по факту там теперь gemini-2.5-pro-preview-05-06).
В OpenRouter - google/gemini-2.5-pro-preview.
И только в Google AI Studio поменяли имя на Gemini 2.5 Pro Preview 05-06 :)
Отличия от прошлой версии
Надо сделать оговорку, что это итеративное улучшение существующей модели, не полностью новая модель, так что в среднем больших изменений нет, однако:
🟢 прокачали её в основном в кодинге и особенно в веб-разработке;
🟢 улучшилась работа с тулами и модель стала охотнее их использовать;
🔴 модель стала чутка хуже по другим, "общечеловеческим" бенчмаркам.
Быстрые собственные впечатления
● в одном из текущих проектов (next.js / mcp / prisma / postgres / ai sdk) как раз была задача ловли плавающего бага на стыке бекенда и фронтенда, с которым вчера прошлая Gemini / Sonnet 3.7 / o3 не смогли справиться на протяжении нескольких заходов.
Откатил чат до чекпойнта, с которого все началось, и с тем же самым промптом и контекстом новая Gemini ваншотнула проблему 😱
При этом построила 2 цепочки рассуждений на 8 (!) страниц (а у меня 1600px высоты экран, между прочим)
● в боте, где модель используется в качестве ассистента, она стала намного охотнее и по месту использовать доступные ей инструменты - с прошлой пришлось немало побороться, чтобы она их учитывала
● поменялась "личность" модели - явно стала по-другому писать ответы, даже на тех же промптах, которые задавали ей конкретное поведение. Не сказать что лучше или хуже - просто стиль стал другим
В целом, как пользовался в последнее время в основном Gemini для разработки, так и продолжу, рад тому, что модель стала лучше :)
Тем, кто ещё на неё не перешёл - крайне советую.
#ai #review
👍20🔥10❤6
Cursor 0.50, инфа для MAX-бояр
Как нередко у них бывает, команда Cursor к ночи пятницы выпустила новый релиз.
В юбилейном 0.50 наряду с новыми фичами, про которые будет следующий пост, произошли изменения для MAX-бояр, которые можно кратко суммировать как "лафа кончилась" :)
Для тех, кто не использует MAX-режим, всё осталось как и было, и это по-прежнему довольно выгодное предложение.
Изменения в прайсинге
Теперь всё считается "запросами" - вот теми штуками, которых выдается 500 в месяц за $20 и которые стоят 4 цента - что в рамках подписки, что при превышении лимита в 500 "подписочных".
MAX-режим добавили для всех топовых моделей - это тот режим, где доступен максимально возможный для конкретной модели контекст, Cursor его не сжимает и не ограничивает модель в вызове тулов (в обычном режиме - 25 вызовов на запрос).
Однако, для MAX-режима учёт теперь ведётся не из расчёта 5 центов за запрос + 5 центов за вызов тула, а по токенам - т.е. как обычно вендоры самих моделей считают.
И это изменение во многих случаях сделает MAX-режим дороже, чем он был, особенно на длинных контекстах.
К примеру, для Gemini 2.5 Pro на контексте длиннее 200к цены теперь такие:
● 1M входящих токенов - 75 запросов ($0.04 * 75 = $3)
● 1M входящих токенов с кешированием - 15 запросов ($0.04 * 15 = $0.6)
● 1М исходящих токенов - 450 запросов ($0.04 * 450 = $18)
Нетрудно заметить, что эти цены (если не брать кеширование) на 20% выше, чем при использовании API Google напрямую.
Примерно так же строится ценообразование и для моделей других вендоров в MAX-режиме, так что тут мы видим попытку Cursor начать-таки зарабатывать деньги.
Ну и, как пишет сам Cursor, MAX-режим теперь "for advanced users that are cost insensitive" :)
Старый MAX-режим будет доступен ещё "несколько недель" на старых версиях Cursor, но потом его все равно прикроют.
Однако только MAX-боярам будет доступен режим Background Agent, о нём в следующем посте.
#ai #cursor
Как нередко у них бывает, команда Cursor к ночи пятницы выпустила новый релиз.
В юбилейном 0.50 наряду с новыми фичами, про которые будет следующий пост, произошли изменения для MAX-бояр, которые можно кратко суммировать как "лафа кончилась" :)
Для тех, кто не использует MAX-режим, всё осталось как и было, и это по-прежнему довольно выгодное предложение.
Изменения в прайсинге
Теперь всё считается "запросами" - вот теми штуками, которых выдается 500 в месяц за $20 и которые стоят 4 цента - что в рамках подписки, что при превышении лимита в 500 "подписочных".
MAX-режим добавили для всех топовых моделей - это тот режим, где доступен максимально возможный для конкретной модели контекст, Cursor его не сжимает и не ограничивает модель в вызове тулов (в обычном режиме - 25 вызовов на запрос).
Однако, для MAX-режима учёт теперь ведётся не из расчёта 5 центов за запрос + 5 центов за вызов тула, а по токенам - т.е. как обычно вендоры самих моделей считают.
И это изменение во многих случаях сделает MAX-режим дороже, чем он был, особенно на длинных контекстах.
К примеру, для Gemini 2.5 Pro на контексте длиннее 200к цены теперь такие:
● 1M входящих токенов - 75 запросов ($0.04 * 75 = $3)
● 1M входящих токенов с кешированием - 15 запросов ($0.04 * 15 = $0.6)
● 1М исходящих токенов - 450 запросов ($0.04 * 450 = $18)
Нетрудно заметить, что эти цены (если не брать кеширование) на 20% выше, чем при использовании API Google напрямую.
Примерно так же строится ценообразование и для моделей других вендоров в MAX-режиме, так что тут мы видим попытку Cursor начать-таки зарабатывать деньги.
Ну и, как пишет сам Cursor, MAX-режим теперь "for advanced users that are cost insensitive" :)
Старый MAX-режим будет доступен ещё "несколько недель" на старых версиях Cursor, но потом его все равно прикроют.
Однако только MAX-боярам будет доступен режим Background Agent, о нём в следующем посте.
#ai #cursor
🔥9👍4❤1
Cursor 0.50, новые фичи
Полный список тут: https://www.cursor.com/changelog
Background Agent
Большая фича, которой у меня пока что нет, чтобы проверить, но её постепенно будут раскатывать.
Сразу скажу, что она только для MAX-режима (см. предыдущий пост).
По сути, для Cursor это задел на будущее, чтобы можно было в параллель запускать несколько агентов, которые без участия человека делают свои задачи, независимо или во взаимодействии друг с другом.
Работает это так, что пользователь ставит задачу, а дальше на удаленной машине (как я понимаю, в облаке самого Cursor) запускается инстанс агента, скачивает себе кодовую базу (судя по всему, пока что только с GitHub), некоторое время возится в бэкграунде, а потом возвращается с нотификацией о завершении и предлагает результат на ревью.
Сейчас сами Cursor её советуют использовать для:
● фикса несложных багов
● имплементации небольших, хорошо очерченных фич
● рефакторинга (я добавлю - несложного рефакторинга)
Это логичный и ожидаемый шаг в сторону агентских систем типа Devin, так что посмотрим, что из этого выйдет.
Включение папок в контекст
Раньше содержимое папок в контекст не включалось (включалась только ссылка на папку), а теперь можно будет включать и содержимое.
Чтобы эта фича работала, её нужно разрешить в настройках (Features -> Full folder contents).
Это удобно в том случае, когда заранее известно, что нужно положить в контекст, и не хочется ждать, когда/если агент сам найдет нужные файлы.
Если файл или папка не лезут в контекст, то Cursor сам выбирает, что включать и может применить сжатие контента.
Добавленная папка в чате будет иметь соответствующую иконку и при наведении на неё можно будет увидеть, сколько файлов там включено и применяется ли сжатие.
Жаль, что (пока что?) не сделали как было в концепте их дизайнера.
И я пока не уверен, будет ли это хорошо работать, и буду держать на всякий случай под рукой Prompt Tower / Repomix :)
Быстрое редактирование длинных файлов
Моделям Cursor теперь даёт еще один инструмент для поиска и замены в конкретном файле, что ускоряет точечное редактирование больших файлов.
Пока что будет работать на моделях Anthropic, позже добавят поддержку других.
Экспорт чатов
То, что раньше требовало Specstory, теперь доступно из коробки - чат можно экспортировать в .md.
Зачем оно нужно? Для хранения истории проекта, чтобы делиться чатами, или чтобы из чатов вытаскивать потом при помощи LLM нужную инфу и т.п.
Specstory всё ещё выглядит интереснее, но для нечастого использования встроенная фича - норм.
Дублирование чата
Вот это хорошая штука, когда какая-то развилка наметилась - можно продублировать чат и параллельно в двух разных чатах продолжить работу над разными фичами после планирования.
Причём, чат можно дублировать из середины, что создает возможность ветвления из любого места - мне, как любителю веток, эт прям в тему.
Если что, в Cursor поддерживается одновременно 3 чата в разных табах (никто не знает, почему именно 3).
Отключение конкретных MCP-тулов
Полезная мелочь для того, чтобы более детально управлять тулами, доступными моделям, особенно теми, которые могут чего-нить сломать.
Работает через клик по названию тула в настройках MCP.
Жаль, что не сохраняется каким-либо образом в файле mcp.json, но это уже больше вопросы к Anthropic по недостандартизации некоторых аспектов MCP :)
Улучшения inline-режима
Это когда вы выделяете кусок кода, делаете Ctrl-K и просите модель что-то с этим кодом сделать в открывшемся попапе.
Так вот теперь из него можно переключаться в режим редактирования всего файла или переходить в агента.
Сам я чёт этой штукой почти не пользуюсь, но в принципе можно представить сценарии, где это может быть полезным.
Работа с несколькими проектами
Если у вас кодовая база раскинута по нескольким проектам в разных папках - теперь их можно собрать в один workspace и Cursor будет работать с ними как с одним проектом.
Должно быть удобно для случаев, когда нужно кросс-проектные изменения сделать, но на постоянной основе я бы не стал так объединять разные по технологиям проекты.
#ai #cursor
Полный список тут: https://www.cursor.com/changelog
Background Agent
Большая фича, которой у меня пока что нет, чтобы проверить, но её постепенно будут раскатывать.
Сразу скажу, что она только для MAX-режима (см. предыдущий пост).
По сути, для Cursor это задел на будущее, чтобы можно было в параллель запускать несколько агентов, которые без участия человека делают свои задачи, независимо или во взаимодействии друг с другом.
Работает это так, что пользователь ставит задачу, а дальше на удаленной машине (как я понимаю, в облаке самого Cursor) запускается инстанс агента, скачивает себе кодовую базу (судя по всему, пока что только с GitHub), некоторое время возится в бэкграунде, а потом возвращается с нотификацией о завершении и предлагает результат на ревью.
Сейчас сами Cursor её советуют использовать для:
● фикса несложных багов
● имплементации небольших, хорошо очерченных фич
● рефакторинга (я добавлю - несложного рефакторинга)
Это логичный и ожидаемый шаг в сторону агентских систем типа Devin, так что посмотрим, что из этого выйдет.
Включение папок в контекст
Раньше содержимое папок в контекст не включалось (включалась только ссылка на папку), а теперь можно будет включать и содержимое.
Чтобы эта фича работала, её нужно разрешить в настройках (Features -> Full folder contents).
Это удобно в том случае, когда заранее известно, что нужно положить в контекст, и не хочется ждать, когда/если агент сам найдет нужные файлы.
Если файл или папка не лезут в контекст, то Cursor сам выбирает, что включать и может применить сжатие контента.
Добавленная папка в чате будет иметь соответствующую иконку и при наведении на неё можно будет увидеть, сколько файлов там включено и применяется ли сжатие.
Жаль, что (пока что?) не сделали как было в концепте их дизайнера.
И я пока не уверен, будет ли это хорошо работать, и буду держать на всякий случай под рукой Prompt Tower / Repomix :)
Быстрое редактирование длинных файлов
Моделям Cursor теперь даёт еще один инструмент для поиска и замены в конкретном файле, что ускоряет точечное редактирование больших файлов.
Пока что будет работать на моделях Anthropic, позже добавят поддержку других.
Экспорт чатов
То, что раньше требовало Specstory, теперь доступно из коробки - чат можно экспортировать в .md.
Зачем оно нужно? Для хранения истории проекта, чтобы делиться чатами, или чтобы из чатов вытаскивать потом при помощи LLM нужную инфу и т.п.
Specstory всё ещё выглядит интереснее, но для нечастого использования встроенная фича - норм.
Дублирование чата
Вот это хорошая штука, когда какая-то развилка наметилась - можно продублировать чат и параллельно в двух разных чатах продолжить работу над разными фичами после планирования.
Причём, чат можно дублировать из середины, что создает возможность ветвления из любого места - мне, как любителю веток, эт прям в тему.
Если что, в Cursor поддерживается одновременно 3 чата в разных табах (никто не знает, почему именно 3).
Отключение конкретных MCP-тулов
Полезная мелочь для того, чтобы более детально управлять тулами, доступными моделям, особенно теми, которые могут чего-нить сломать.
Работает через клик по названию тула в настройках MCP.
Жаль, что не сохраняется каким-либо образом в файле mcp.json, но это уже больше вопросы к Anthropic по недостандартизации некоторых аспектов MCP :)
Улучшения inline-режима
Это когда вы выделяете кусок кода, делаете Ctrl-K и просите модель что-то с этим кодом сделать в открывшемся попапе.
Так вот теперь из него можно переключаться в режим редактирования всего файла или переходить в агента.
Сам я чёт этой штукой почти не пользуюсь, но в принципе можно представить сценарии, где это может быть полезным.
Работа с несколькими проектами
Если у вас кодовая база раскинута по нескольким проектам в разных папках - теперь их можно собрать в один workspace и Cursor будет работать с ними как с одним проектом.
Должно быть удобно для случаев, когда нужно кросс-проектные изменения сделать, но на постоянной основе я бы не стал так объединять разные по технологиям проекты.
#ai #cursor
👍14🔥10❤1🤔1