LLM-фотошоп от Google
Сорри, гайз, не удержался, чтобы не поделиться. Давненько меня AI так не удивлял. В общем, новая моделька от Google (
Ссылка на наш полный диалог: https://aistudio.google.com/app/prompts?state=%7B%22ids%22:%5B%221leiAYVPmJFRFkU1KdrNu3xgr0TcjckQn%22%5D,%22action%22:%22open%22,%22userId%22:%22112838537316031640393%22,%22resourceKeys%22:%7B%7D%7D&usp=sharing
Самое крутое, что эта штука уже доступна по API, т. е. гипотетически можно делать AI-фотошоп в виде телеграм бота и при должной раскрутке, вероятно, неплохо зарабатывать на этом. Моделька эта экспериментальная и пока адекватный результат может выдавать не с первого раза. Но вот вам возможное решение: берем и дружим эту модель с какой-нибудь другой хорошей VL моделью - генерим изменение через
Доступно это великолепие в Google AI Studio (модель gemini-2.0-flash-exp), либо через API.
Сорри, гайз, не удержался, чтобы не поделиться. Давненько меня AI так не удивлял. В общем, новая моделька от Google (
gemini-2.0-flash-exp) получилась настолько мультимодальная, что научилась не только принимать изображения, но и отдавать отредактированное в соответствии с запросом пользователя изображение обратно. Посмотрите скрины, сразу станет понятно.Ссылка на наш полный диалог: https://aistudio.google.com/app/prompts?state=%7B%22ids%22:%5B%221leiAYVPmJFRFkU1KdrNu3xgr0TcjckQn%22%5D,%22action%22:%22open%22,%22userId%22:%22112838537316031640393%22,%22resourceKeys%22:%7B%7D%7D&usp=sharing
Самое крутое, что эта штука уже доступна по API, т. е. гипотетически можно делать AI-фотошоп в виде телеграм бота и при должной раскрутке, вероятно, неплохо зарабатывать на этом. Моделька эта экспериментальная и пока адекватный результат может выдавать не с первого раза. Но вот вам возможное решение: берем и дружим эту модель с какой-нибудь другой хорошей VL моделью - генерим изменение через
gemini-2.0-flash-exp, отправляем результат на анализ другой ллмке, и затем, если вышло плохо, повторяем попытку - вот уже и результаты будут сильно стабильнее. В общем, дарю идею и подход) Ну, и наверняка, можно напридумывать массу частных кейсов, решающих какую-то конкретную узкую задачу для бизнеса.Доступно это великолепие в Google AI Studio (модель gemini-2.0-flash-exp), либо через API.
👍6🔥5
This media is not supported in your browser
VIEW IN TELEGRAM
Идея: Автоматизация проектирования в AutoCAD через MCP
Для тех, кто впервые видит аббревиатуру MCP (написала GPT 4.5):
Model Context Protocol (MCP) — это новый открытый стандарт, который позволяет искусственному интеллекту напрямую «общаться» с любыми приложениями и сервисами, от GitHub до Blender. Представьте себе универсальный переходник, с помощью которого нейросети легко подключаются к программам и начинают ими управлять — буквально «руками» и «глазами» ИИ становится софт, который мы используем ежедневно.
Кратко, MCP позволяет делать своего рода коннекторы для LLMок к разным сервисам/сайтам/программам. Вот сделали BlenderMCP, который позволяет ллмкам управлять моделированием в Blender.
По моим наблюдениям в сферу архитектуры все еще очень слабо проник AI и похоже, что, например, через связку AutoCAD .NET API + MCP можно наделить LLM способностью к проектированию прямо в AutoCAD - потенциально, из такого инструмента можно было бы сделать прибыльный бизнес или, как минимум, интересный пет проект.
Так совпало, что моя прекрасная супруга - опытный архитектор, поэтому если вдруг кто-то вдохновится делать такой продукт - пишите мне - можно сразу в наш чатик, попробую помочь чем смогу.
PS. Для тех, кому интересно подробнее ознакомиться с устройством MCP, могу порекомендовать тематическую серию постов на канале "Этихлид": https://news.1rj.ru/str/etechlead/136
Для тех, кто впервые видит аббревиатуру MCP (написала GPT 4.5):
Кратко, MCP позволяет делать своего рода коннекторы для LLMок к разным сервисам/сайтам/программам. Вот сделали BlenderMCP, который позволяет ллмкам управлять моделированием в Blender.
По моим наблюдениям в сферу архитектуры все еще очень слабо проник AI и похоже, что, например, через связку AutoCAD .NET API + MCP можно наделить LLM способностью к проектированию прямо в AutoCAD - потенциально, из такого инструмента можно было бы сделать прибыльный бизнес или, как минимум, интересный пет проект.
Так совпало, что моя прекрасная супруга - опытный архитектор, поэтому если вдруг кто-то вдохновится делать такой продукт - пишите мне - можно сразу в наш чатик, попробую помочь чем смогу.
PS. Для тех, кому интересно подробнее ознакомиться с устройством MCP, могу порекомендовать тематическую серию постов на канале "Этихлид": https://news.1rj.ru/str/etechlead/136
👍12😁1
LiveSWEBench: Реальный бенчмарк SWE-агентов для народа
Пока все пишут о новой лламе, AI-2027 и картинках в Гибли-стиле, расскажу вам про новый интересный бенчмарк, оценивающий качество AI агентов-программистов. Причем не всех в подряд, а тех, которые AI-разработчики чаще всего используют в реальности (Cursor, Windserf, aider, GitHub Copilot).
В чём проблема существующих бенчмарков?
Когда мы оцениваем AI-ассистентов для программирования, то выясняем, что большинство тестов либо проверяют их на изолированных задачах (HumanEval, LiveCodeBench), либо в полностью автономном режиме (SWE-Bench). Но это не совсем отражает реальность.
В повседневной работе мы взаимодействуем с AI по-разному: иногда просим его полностью решить задачу, иногда — внести конкретные правки в файл, или просто используем автодополнение для ускорения написания кода.
Как LiveSWEBench это исправляет?
LiveSWEBench оценивает AI-ассистентов в трёх ключевых сценариях:
1️⃣ Полностью агентные задачи
AI получает только описание проблемы из GitHub и должен самостоятельно решить её от начала до конца: найти нужные файлы в большой кодовой базе, разобраться в архитектуре, написать решение и протестировать его.
2️⃣ Задачи на "целевые правки"
Более реалистичный сценарий: разработчик уже знает, какой файл нужно изменить, и может объяснить на высоком уровне, что требуется сделать. AI должен внести правильные изменения в указанные файлы.
3️⃣ Задачи автодополнения (tab-autocompletion)
Самый "легкий" для AI случай (но внезапно не самый простой!): разработчик начал писать строку или функцию, а AI должен корректно её завершить в контексте всего проекта.
В чем же фишки LiveSWEBench?
1. Реальные задачи из реальных проектов: тесты основаны на парах "проблема-решение" из крупных open-source репозиториев c GitHub, включая freeCodeCamp, PyTorch, Wagtail (Django), JUnit5 и JSON for Modern C++. Обратите внимание на мултиязычность! (в отличие от SWE-bench)
2. Защита от "загрязнения": используются только относительно свежие PR (за последний год), которые с меньшей вероятностью попали в обучающие данные AI. Бенчмарк регулярно обновляется.
3. Попытка объективной оценки: решения проверяются запуском реальных тестов из проекта.
И что в итоге?
В полностью агентных задачах лидируют SWE-Agent, Github Copilot (VSCode), Windsurf - почти все на базе нашей любимой Claude 3.7 Sonnet.
В задачах целевых правок многие инструменты показывают заметный прирост производительности (особенно Aider).
Задачи автодополнения оказались неожиданно сложными: AI часто находят правильное решение, но затем добавляют лишний код, который ломает тесты. Тут вообще интересно, у них autocompletion Копайлота (44.83) показал лучшие результаты, чем Курсор (41.38) - вот так неждан.
Немного критики от меня
Несмотря на все усилия по борьбе с "загрязнением" данных (использование недавних PR (до года) и регулярное обновление), фундаментальная проблема остаётся: оценка проводится на популярных публичных репозиториях, которые с высокой вероятностью уже были включены в обучающие выборки современных LLM. Даже если конкретные PR не попали в тренировочные данные, модели могли "видеть" структуру проектов, стиль кода и общую архитектуру этих репозиториев. Это даёт им неявное преимущество.
Действительно показательным был бы бенчмарк на основе больших, но закрытых кодовых баз — внутренних проектов компаний, которые гарантированно не попали в обучающие данные. Такой подход позволил бы более объективно оценить способность AI-ассистентов разбираться в незнакомом коде и решать реальные, "свежие" для них задачи, с которыми сталкиваются разработчики в корпоративной среде. Но сделать такое сложно по понятным причинам.
Авторы обещают, что бенчмарк будет развиваться. Надеюсь, появится возможность фильтровать результаты для конкретного ЯП (создал issue). Ну и, ждем результатов по Cline и по Roo-Code.
Подробнее про бенчмарк тут: https://liveswebench.ai/details
Код бенчмарка тут: https://github.com/LiveBench/liveswebench
Что думаете про результаты и про сам бенчмарк? На сколько бьется с вашим опытом?
#бенчмарк #LiveSWEBench
Пока все пишут о новой лламе, AI-2027 и картинках в Гибли-стиле, расскажу вам про новый интересный бенчмарк, оценивающий качество AI агентов-программистов. Причем не всех в подряд, а тех, которые AI-разработчики чаще всего используют в реальности (Cursor, Windserf, aider, GitHub Copilot).
В чём проблема существующих бенчмарков?
Когда мы оцениваем AI-ассистентов для программирования, то выясняем, что большинство тестов либо проверяют их на изолированных задачах (HumanEval, LiveCodeBench), либо в полностью автономном режиме (SWE-Bench). Но это не совсем отражает реальность.
В повседневной работе мы взаимодействуем с AI по-разному: иногда просим его полностью решить задачу, иногда — внести конкретные правки в файл, или просто используем автодополнение для ускорения написания кода.
Как LiveSWEBench это исправляет?
LiveSWEBench оценивает AI-ассистентов в трёх ключевых сценариях:
1️⃣ Полностью агентные задачи
AI получает только описание проблемы из GitHub и должен самостоятельно решить её от начала до конца: найти нужные файлы в большой кодовой базе, разобраться в архитектуре, написать решение и протестировать его.
2️⃣ Задачи на "целевые правки"
Более реалистичный сценарий: разработчик уже знает, какой файл нужно изменить, и может объяснить на высоком уровне, что требуется сделать. AI должен внести правильные изменения в указанные файлы.
3️⃣ Задачи автодополнения (tab-autocompletion)
Самый "легкий" для AI случай (но внезапно не самый простой!): разработчик начал писать строку или функцию, а AI должен корректно её завершить в контексте всего проекта.
В чем же фишки LiveSWEBench?
1. Реальные задачи из реальных проектов: тесты основаны на парах "проблема-решение" из крупных open-source репозиториев c GitHub, включая freeCodeCamp, PyTorch, Wagtail (Django), JUnit5 и JSON for Modern C++. Обратите внимание на мултиязычность! (в отличие от SWE-bench)
2. Защита от "загрязнения": используются только относительно свежие PR (за последний год), которые с меньшей вероятностью попали в обучающие данные AI. Бенчмарк регулярно обновляется.
3. Попытка объективной оценки: решения проверяются запуском реальных тестов из проекта.
И что в итоге?
В полностью агентных задачах лидируют SWE-Agent, Github Copilot (VSCode), Windsurf - почти все на базе нашей любимой Claude 3.7 Sonnet.
В задачах целевых правок многие инструменты показывают заметный прирост производительности (особенно Aider).
Задачи автодополнения оказались неожиданно сложными: AI часто находят правильное решение, но затем добавляют лишний код, который ломает тесты. Тут вообще интересно, у них autocompletion Копайлота (44.83) показал лучшие результаты, чем Курсор (41.38) - вот так неждан.
Немного критики от меня
Несмотря на все усилия по борьбе с "загрязнением" данных (использование недавних PR (до года) и регулярное обновление), фундаментальная проблема остаётся: оценка проводится на популярных публичных репозиториях, которые с высокой вероятностью уже были включены в обучающие выборки современных LLM. Даже если конкретные PR не попали в тренировочные данные, модели могли "видеть" структуру проектов, стиль кода и общую архитектуру этих репозиториев. Это даёт им неявное преимущество.
Действительно показательным был бы бенчмарк на основе больших, но закрытых кодовых баз — внутренних проектов компаний, которые гарантированно не попали в обучающие данные. Такой подход позволил бы более объективно оценить способность AI-ассистентов разбираться в незнакомом коде и решать реальные, "свежие" для них задачи, с которыми сталкиваются разработчики в корпоративной среде. Но сделать такое сложно по понятным причинам.
Авторы обещают, что бенчмарк будет развиваться. Надеюсь, появится возможность фильтровать результаты для конкретного ЯП (создал issue). Ну и, ждем результатов по Cline и по Roo-Code.
Подробнее про бенчмарк тут: https://liveswebench.ai/details
Код бенчмарка тут: https://github.com/LiveBench/liveswebench
Что думаете про результаты и про сам бенчмарк? На сколько бьется с вашим опытом?
#бенчмарк #LiveSWEBench
👍16
Улучшения в AI прототипировании
В общем, сейчас набирает популярность такой класс AI-тулинга, как Prompt Coding - причем, в отличие от вайб кодинга, предполагается, что юзер в принципе не будет смотреть код (он тупо скрыт за какой-то дальней вкладкой). Аудиторию таких инструментов - это либо не программисты, которые хотят сделать какой-то программный продукт в кратчайшие сроки (в т. ч. сайт), либо программисты, которые быстро хотят что-то запрототипировать.
В общем, на этом поприще за последнюю неделю накопилось ряд значимых новостей, которыми я с вами и поделюсь.
1. ReplIt AI выпустили вторую версию своего билдера, которая по их завялениям сталабыстрее, выше, сильнее лучше. Подробнее в посте Игоря на канале @ai_product.
2. lovable.dev - обновили свою платформу и дали возможность программистам не только промпт-кодить, но и просто кодить (Dev Mode), т. е. прямо по старинке ручками вносить правки в сгенерированный код. А также, дали возможность регистрировать домены прямо внутри lovable - я подозреваю, для не-IT пользователей регистрация и парковка домена стали основной проблемой) И они ее решили таким вот образом.
3. И, наконец, Google разразились кучей новинок, в т. ч. выпустили свою No Code платформу-убийцу всех остальных No Code платформ: Firebase Studio. Из приятного - код генерит очень быстро, заметно быстрее конкурентов. Но код этот у меня нормально пока не заработал, см. эксперимент ниже. Еще, Валерий Ковальский тоже попробовал новый инструмент и подробнее описал свой опыт тут.
А кто лучший?
Смотря как сравнивать. Я попросил все вышеперечисленные сервисы сгенерировать тулзу для подсчета кол-ва строк кода в репозитории. С первой попытки не справился ни один сервис.
Промпт специально сделал максимально простым и не очень точным, как если бы писал обычный пользователь:
Но только lovable как-то худо-бедно справился после 3-х ошибок и 3-х моих комментариев (на самом деле, все равно считает не очень точно) - по сути, я просто пробовал сканировать репо через получившееся приложение и писал текст ошибки в чат - всю эту работу AI-агент мог бы делать сам. Вот ссылка на получившееся приложение: https://code-size-inspector.lovable.app/ Саму историю чата не нашел как там пошерить.
Кстати, самый стильный дизайн получился у bolt.new. Но вот только логика подсчета кол-ва строк так и не заработала правильно.
В итоге, опираясь только на результаты этого субъективного эксперимента, для чего-то более-менее функционального можно рекомендовать lovable.dev, а если нужно просто, чтоб получилось красиво (лендинг, например), похоже, что с bolt.new эту цель достичь можно быстрее, чем с остальными. Первый скрин - lovable, второй - bolt. Есть еще v0.dev, storm.dev - они в моей задачи тоже оказались слабы.
Чего не хватает всем этим инструментам?
Агентности. При возникновении багов о ошибок, агент сам может их отлавливать в браузере и итеративно фиксить. Но что-то мне подсказывает, что через пол года-год мы и такую автономность тоже увидим.
В общем, конкуренция среди AI тулинга нарастает и гиганты тоже не дремлют. Очень интересно наблюдать за этой гонкой, какие из этих сервисов (кроме гигантов) выживут через год или, тем более, через два - загадка.
А используете ли вы что-то для No Code прототипирования? И как вообще относитесь к таким тулзам? Похоже, что все идет к тому, что несложные сайты и приложения будут генерироваться AI, вообще без участия программистов и любой желающий сможет создавать PoC / MVP своего продукта.
#nocode #lovable #bolt #replit
В общем, сейчас набирает популярность такой класс AI-тулинга, как Prompt Coding - причем, в отличие от вайб кодинга, предполагается, что юзер в принципе не будет смотреть код (он тупо скрыт за какой-то дальней вкладкой). Аудиторию таких инструментов - это либо не программисты, которые хотят сделать какой-то программный продукт в кратчайшие сроки (в т. ч. сайт), либо программисты, которые быстро хотят что-то запрототипировать.
В общем, на этом поприще за последнюю неделю накопилось ряд значимых новостей, которыми я с вами и поделюсь.
1. ReplIt AI выпустили вторую версию своего билдера, которая по их завялениям стала
2. lovable.dev - обновили свою платформу и дали возможность программистам не только промпт-кодить, но и просто кодить (Dev Mode), т. е. прямо по старинке ручками вносить правки в сгенерированный код. А также, дали возможность регистрировать домены прямо внутри lovable - я подозреваю, для не-IT пользователей регистрация и парковка домена стали основной проблемой) И они ее решили таким вот образом.
3. И, наконец, Google разразились кучей новинок, в т. ч. выпустили свою No Code платформу-убийцу всех остальных No Code платформ: Firebase Studio. Из приятного - код генерит очень быстро, заметно быстрее конкурентов. Но код этот у меня нормально пока не заработал, см. эксперимент ниже. Еще, Валерий Ковальский тоже попробовал новый инструмент и подробнее описал свой опыт тут.
А кто лучший?
Смотря как сравнивать. Я попросил все вышеперечисленные сервисы сгенерировать тулзу для подсчета кол-ва строк кода в репозитории. С первой попытки не справился ни один сервис.
Промпт специально сделал максимально простым и не очень точным, как если бы писал обычный пользователь:
Implement an app that takes a URL to GitHub repo, analyzes it and returns total code lines count and its size in bytes
Но только lovable как-то худо-бедно справился после 3-х ошибок и 3-х моих комментариев (на самом деле, все равно считает не очень точно) - по сути, я просто пробовал сканировать репо через получившееся приложение и писал текст ошибки в чат - всю эту работу AI-агент мог бы делать сам. Вот ссылка на получившееся приложение: https://code-size-inspector.lovable.app/ Саму историю чата не нашел как там пошерить.
Кстати, самый стильный дизайн получился у bolt.new. Но вот только логика подсчета кол-ва строк так и не заработала правильно.
В итоге, опираясь только на результаты этого субъективного эксперимента, для чего-то более-менее функционального можно рекомендовать lovable.dev, а если нужно просто, чтоб получилось красиво (лендинг, например), похоже, что с bolt.new эту цель достичь можно быстрее, чем с остальными. Первый скрин - lovable, второй - bolt. Есть еще v0.dev, storm.dev - они в моей задачи тоже оказались слабы.
Чего не хватает всем этим инструментам?
Агентности. При возникновении багов о ошибок, агент сам может их отлавливать в браузере и итеративно фиксить. Но что-то мне подсказывает, что через пол года-год мы и такую автономность тоже увидим.
В общем, конкуренция среди AI тулинга нарастает и гиганты тоже не дремлют. Очень интересно наблюдать за этой гонкой, какие из этих сервисов (кроме гигантов) выживут через год или, тем более, через два - загадка.
А используете ли вы что-то для No Code прототипирования? И как вообще относитесь к таким тулзам? Похоже, что все идет к тому, что несложные сайты и приложения будут генерироваться AI, вообще без участия программистов и любой желающий сможет создавать PoC / MVP своего продукта.
#nocode #lovable #bolt #replit
👍9❤1
Forwarded from Этихлид
ChatGPT 4.1
Не знаю, интересно ли читать про сомнительные релизы моделей, но, может, кому сэкономлю время.
tl;dr
Релиз зайдет тем, у кого основной рабочей моделью для разработки до сих пор была модель уровня ChatGPT 4o.
А если вы избалованы Sonnet'ом и окончательно развращены Gemini 2.5 Pro, этот релиз вас оставит в недоумении.
Релиз
Выпустили ChatGPT 4.1 с как модель для разработчиков, целую supermassive black hole (скорее всего именно она скрывалась некоторое время в бенчах и на OpenRouter под кодовым именем Quasar).
У неё 3 варианта - обычная, mini & nano.
Тут я буду рассматривать обычную, самую умную.
Доступна модель только по API (т.е. на сайте ChatGPT её не будет).
В Windsurf её сделали бесплатной на неделю, в Cursor - на день, в OpenRouter тоже завезли.
Давайте про плюсы
● 1м контекста, причём этот контекст модель держит хорошо для не-ризонера (по крайней мере до 120к согласно бенчу Fiction.LiveBench), но отстаёт по его удержанию от лидеров
● скорость - очень быстро переваривает промпт и очень быстро генерит ответ (отчасти из-за того, что она не ризонер)
● цена output-токенов примерно в 2 раза ниже, чем у Sonnet/Gemini
Все остальные её подвижки - они относительно 4o, довольно слабой модели для кодинга, и именно с ней сами OpenAI новую модель и сравнивают.
Но даже со всеми этими улучшениями она ощутимо хуже Sonnet/Gemini:
● получше в следовании инструкциям, чем 4o;
● охотнее использует инструменты в агентском режиме (тут она даже преодолевает крайне низкую планку o3-mini);
● умнее в ряде hard-skill бенчей, включая олимпиадные задачи, но, как ни странно, не во всех - иногда примерно те же результаты, что и у 4o.
Релевантные бенчмарки
● Aider Polyglot, 13 место - близкие к реальным задачи разработки;
● Fiction.LiveBench - удержание длинного контекста;
● Scale MultiChallenge, 10 место - новый интересный бенч, про стабильность работы в многоходовых диалогах с людьми;
● LiveBench Coding, 13 место (тут какая-то аномалия, mini-вариант модели - на 9м месте) - олимпиадные задачки по программированию.
Личный опыт
Провел несколько часов с моделью в Cursor/Windsurf в попытках понять, зачем она существует, и по ощущениям как на полгода-год назад вернулся, даже перечислять все косяки лень.
Для кого этот релиз?
● для тех, кто в силу каких-либо причин вынужден был использовать 4o, но вот теперь у них есть выбор :)
● для тех, у кого хорошо разбиваются рабочие задачи на мелкие и при этом не очень сложные куски;
● у кого есть потребность быстро писать много кода по четким инструкциям (а потом выбрасывать и снова писать);
● возможно, это рабочая лошадка для будущих фронтир моделей (o3/o4-mini), которые её как раз смогут эффективно использовать как исполнителя.
Короче, как по мне, так пропускаем этот релиз и ждём o3/o4-mini как следующие потенциально интересные модели.
А может, я что-то упускаю?
Дайте знать - может, есть какие-то сценарии использования, где она лучше всех других моделей по сочетанию характеристик?
—
Почитать про текущую SOTA по версии меня:
● Gemini 2.5 Pro Experimental, общая инфа
● Gemini 2.5 Pro Experimental, личные впечатления
● Gemini 2.5 Pro Exp + Cursor
#news #ai #model
Не знаю, интересно ли читать про сомнительные релизы моделей, но, может, кому сэкономлю время.
tl;dr
Релиз зайдет тем, у кого основной рабочей моделью для разработки до сих пор была модель уровня ChatGPT 4o.
А если вы избалованы Sonnet'ом и окончательно развращены Gemini 2.5 Pro, этот релиз вас оставит в недоумении.
Релиз
Выпустили ChatGPT 4.1 с как модель для разработчиков, целую supermassive black hole (скорее всего именно она скрывалась некоторое время в бенчах и на OpenRouter под кодовым именем Quasar).
У неё 3 варианта - обычная, mini & nano.
Тут я буду рассматривать обычную, самую умную.
Доступна модель только по API (т.е. на сайте ChatGPT её не будет).
В Windsurf её сделали бесплатной на неделю, в Cursor - на день, в OpenRouter тоже завезли.
Давайте про плюсы
● 1м контекста, причём этот контекст модель держит хорошо для не-ризонера (по крайней мере до 120к согласно бенчу Fiction.LiveBench), но отстаёт по его удержанию от лидеров
● скорость - очень быстро переваривает промпт и очень быстро генерит ответ (отчасти из-за того, что она не ризонер)
● цена output-токенов примерно в 2 раза ниже, чем у Sonnet/Gemini
Все остальные её подвижки - они относительно 4o, довольно слабой модели для кодинга, и именно с ней сами OpenAI новую модель и сравнивают.
Но даже со всеми этими улучшениями она ощутимо хуже Sonnet/Gemini:
● получше в следовании инструкциям, чем 4o;
● охотнее использует инструменты в агентском режиме (тут она даже преодолевает крайне низкую планку o3-mini);
● умнее в ряде hard-skill бенчей, включая олимпиадные задачи, но, как ни странно, не во всех - иногда примерно те же результаты, что и у 4o.
Релевантные бенчмарки
● Aider Polyglot, 13 место - близкие к реальным задачи разработки;
● Fiction.LiveBench - удержание длинного контекста;
● Scale MultiChallenge, 10 место - новый интересный бенч, про стабильность работы в многоходовых диалогах с людьми;
● LiveBench Coding, 13 место (тут какая-то аномалия, mini-вариант модели - на 9м месте) - олимпиадные задачки по программированию.
Личный опыт
Провел несколько часов с моделью в Cursor/Windsurf в попытках понять, зачем она существует, и по ощущениям как на полгода-год назад вернулся, даже перечислять все косяки лень.
Для кого этот релиз?
● для тех, кто в силу каких-либо причин вынужден был использовать 4o, но вот теперь у них есть выбор :)
● для тех, у кого хорошо разбиваются рабочие задачи на мелкие и при этом не очень сложные куски;
● у кого есть потребность быстро писать много кода по четким инструкциям (
● возможно, это рабочая лошадка для будущих фронтир моделей (o3/o4-mini), которые её как раз смогут эффективно использовать как исполнителя.
Короче, как по мне, так пропускаем этот релиз и ждём o3/o4-mini как следующие потенциально интересные модели.
А может, я что-то упускаю?
Дайте знать - может, есть какие-то сценарии использования, где она лучше всех других моделей по сочетанию характеристик?
—
Почитать про текущую SOTA по версии меня:
● Gemini 2.5 Pro Experimental, общая инфа
● Gemini 2.5 Pro Experimental, личные впечатления
● Gemini 2.5 Pro Exp + Cursor
#news #ai #model
👍8
Forwarded from ИИволюция 👾 (Сергей Пахандрин)
Не без ложки дёгтя для OpenAI в свежем тесте Aider polyglot coding benchmark:
– o3 дал 79,6% правильных ответов — выше, чем Gemini 2.5 Pro (72,9%), но стоит в 17 раз дороже — $111 против $6.32.
– o4-mini набрал 72%, то есть чуть хуже Gemini 2.5 Pro, и при этом оказался в 3 раза дороже — $19.64 против $6.32.
Выводы: по балансу цена/качество Gemini 2.5 Pro по-прежнему выглядит сильнее и интереснее для разработчиков, несмотря на крутость новых моделей OpenAI.
При этом Google вроде как готовит новую модель заточенную на разработку - Night Whisper и думаю, вполне могут прыгнуть выше по качеству сохранив при этом доступные цены.
ИИволюция
– o3 дал 79,6% правильных ответов — выше, чем Gemini 2.5 Pro (72,9%), но стоит в 17 раз дороже — $111 против $6.32.
– o4-mini набрал 72%, то есть чуть хуже Gemini 2.5 Pro, и при этом оказался в 3 раза дороже — $19.64 против $6.32.
Выводы: по балансу цена/качество Gemini 2.5 Pro по-прежнему выглядит сильнее и интереснее для разработчиков, несмотря на крутость новых моделей OpenAI.
При этом Google вроде как готовит новую модель заточенную на разработку - Night Whisper и думаю, вполне могут прыгнуть выше по качеству сохранив при этом доступные цены.
ИИволюция
👍3
А у вас какие результаты показали новые модели? Чувствуется прирост в качестве?
Ещё, OpenAI выпустили свой аналог aider'a под названием Codex - это автономный агент для программирования, работающий из командой строки, фишка которого в мультимодальности (он умеет принимать изображения на вход), ну и оптимизированного под новые модельки OpenAI GPT-4.1, o3, o4-mini. Если они научат этого агента автономно запускать и проверять результат своей работы в браузере, то получится конкурент Devin'у.
Как известно, антропик накануне тоже выпустили похожий инструмент (мастерски сжигающий токены) Claude Code. Но у Codex, в отличие от Claude Code, исходники открыты: https://github.com/openai/codex
Демка от OpenAI: https://youtu.be/FUq9qRwrDrI?si=0wjY42NT_zwp1pBx
Ждём результатов сравнения с другими агентами в LiveSWEBench.
Как известно, антропик накануне тоже выпустили похожий инструмент (мастерски сжигающий токены) Claude Code. Но у Codex, в отличие от Claude Code, исходники открыты: https://github.com/openai/codex
Демка от OpenAI: https://youtu.be/FUq9qRwrDrI?si=0wjY42NT_zwp1pBx
Ждём результатов сравнения с другими агентами в LiveSWEBench.
GitHub
GitHub - openai/codex: Lightweight coding agent that runs in your terminal
Lightweight coding agent that runs in your terminal - openai/codex
👍2
Суть вайб-кодинга в одном меме)) Не удержался :)
😁2
Forwarded from Откровения от Олега
This media is not supported in your browser
VIEW IN TELEGRAM
🤣23👍5
Forwarded from Этихлид
ChatGPT o3 и немного o4-mini (1/2)
Итак, несколько дней назад вышла долгожданная модель o3 и семейство o4-mini.
Новостники по сложившейся традиции объявили революцию в ИИ, конец профессии разработчика и наступление эры AGI.
Да, ожидания были высокими, особенно в свете последних релизов Anthropic и Google.
Попробуем разобраться, насколько они оправдались.
Кратко по выбору модели для разработки
Универсального лидера нет - выбор зависит от задачи, бюджета и требований к контексту/ризонингу.
Повседневные задачи
🥇 Gemini 2.5 Pro: универсальная модель, фактически единственная для работы с длинным контекстом, отличный ризонинг, но местами проседает в работе с тулингом
🥈 Claude 3.7 Sonnet: закрывает те задачи, которые требуют проактивности, хорошей агентскости, а также повседневную мелочь
Архитектура и планирование
🥇 Gemini 2.5 Pro: в силу общей эрудиции и большого контекста с ней такие вопросы решать удобнее всего
🥈 o3: для каких-то узких и нетривиальных случаев, где важен мощный ризонинг
Сложные задачи, чистый ризонинг
🥇 o3: самый мощный на текущий момент ризонер. Подойдет для брейншторминга, поддержки в принятии сложных решений, работы над алгоритмическими проблемами
🥈 Gemini 2.5 Pro: лучший практический выбор из-за большого контекста, отличного ризонинга и адекватной цены/длины вывода
Длинный контекст (>200k)
🥇 Gemini 2.5 Pro: единственный приемлемый вариант на таком контексте
А где же o4-mini?
Если у вас есть доступ ко всем вышеперечисленным моделям, то они успешно перекрывают все её возможные применения, по крайней мере в разработке, а на фоне её проблем, которые перекликаются с таковыми у o3, я не нашёл ей места в рабочих задачах.
OpenAI o3
Флагманский ризонер, заточенный под сложные задачи и научившийся работе с инструментами.
Плюсы
🟢 Мощный ризонинг - главное преимущество. Модель бьёт все бенчмарки по этому показателю, и в реальности это подтверждается - она способна строить длинные логические цепочки, раскапывать нетривиальные проблемы и плюс к этому использовать инструменты: веб-поиск, Python-интерпретатор и анализ изображений прямо в ходе "размышлений".
Что приводит нас ко второму плюсу:
🟢 Использование инструментов - прошлые модели о-серии использовали инструменты либо нехотя, либо вообще отказывались их задействовать.
Тут же ситуация значительно лучше, но с оговоркой - на сайте ChatGPT она пользуется ими гораздо охотнее, чем через API или в каком-то другом софте.
Веб-версию даже можно использовать как мини-вариант DeepResearch, когда модель может делать десятки вызовов к разным инструментам для анализа какой-то темы или решения задачи - и всё в рамках одного запуска.
+/-
🟡 (Само)уверенность и неуступчивость - o3 реже вам поддакивает и соглашается, если вы ей возражаете, и может аргументированно отстаивать свою позицию.
Это ценно для брейншторминга и поиска объективных решений там, где разные мнения имеют право на существование, но запросто может и создавать проблемы.
#ai #model #review
Итак, несколько дней назад вышла долгожданная модель o3 и семейство o4-mini.
Новостники по сложившейся традиции объявили революцию в ИИ, конец профессии разработчика и наступление эры AGI.
Да, ожидания были высокими, особенно в свете последних релизов Anthropic и Google.
Попробуем разобраться, насколько они оправдались.
Кратко по выбору модели для разработки
Универсального лидера нет - выбор зависит от задачи, бюджета и требований к контексту/ризонингу.
Повседневные задачи
🥇 Gemini 2.5 Pro: универсальная модель, фактически единственная для работы с длинным контекстом, отличный ризонинг, но местами проседает в работе с тулингом
🥈 Claude 3.7 Sonnet: закрывает те задачи, которые требуют проактивности, хорошей агентскости, а также повседневную мелочь
Архитектура и планирование
🥇 Gemini 2.5 Pro: в силу общей эрудиции и большого контекста с ней такие вопросы решать удобнее всего
🥈 o3: для каких-то узких и нетривиальных случаев, где важен мощный ризонинг
Сложные задачи, чистый ризонинг
🥇 o3: самый мощный на текущий момент ризонер. Подойдет для брейншторминга, поддержки в принятии сложных решений, работы над алгоритмическими проблемами
🥈 Gemini 2.5 Pro: лучший практический выбор из-за большого контекста, отличного ризонинга и адекватной цены/длины вывода
Длинный контекст (>200k)
🥇 Gemini 2.5 Pro: единственный приемлемый вариант на таком контексте
А где же o4-mini?
Если у вас есть доступ ко всем вышеперечисленным моделям, то они успешно перекрывают все её возможные применения, по крайней мере в разработке, а на фоне её проблем, которые перекликаются с таковыми у o3, я не нашёл ей места в рабочих задачах.
OpenAI o3
Флагманский ризонер, заточенный под сложные задачи и научившийся работе с инструментами.
Плюсы
🟢 Мощный ризонинг - главное преимущество. Модель бьёт все бенчмарки по этому показателю, и в реальности это подтверждается - она способна строить длинные логические цепочки, раскапывать нетривиальные проблемы и плюс к этому использовать инструменты: веб-поиск, Python-интерпретатор и анализ изображений прямо в ходе "размышлений".
Что приводит нас ко второму плюсу:
🟢 Использование инструментов - прошлые модели о-серии использовали инструменты либо нехотя, либо вообще отказывались их задействовать.
Тут же ситуация значительно лучше, но с оговоркой - на сайте ChatGPT она пользуется ими гораздо охотнее, чем через API или в каком-то другом софте.
Веб-версию даже можно использовать как мини-вариант DeepResearch, когда модель может делать десятки вызовов к разным инструментам для анализа какой-то темы или решения задачи - и всё в рамках одного запуска.
+/-
🟡 (Само)уверенность и неуступчивость - o3 реже вам поддакивает и соглашается, если вы ей возражаете, и может аргументированно отстаивать свою позицию.
Это ценно для брейншторминга и поиска объективных решений там, где разные мнения имеют право на существование, но запросто может и создавать проблемы.
#ai #model #review
👍4
Forwarded from Этихлид
ChatGPT o3 (2/2)
Минусы
🔴 Малая длина фактического вывода
● модель обрезает код, выдает 200 строк вместо ожидаемых 800, пытается его ужать там, где это лишено смысла;
● использует плейсхолдеры вместо реальных имплементаций;
● игнорирует просьбы выдать полный ответ;
● не дает пояснений к тому, что делает и комментариев к нетривиальному коду;
И для многих задач разработки одно это делает её неприменимой.
Такое ощущение, что ее тренировали на то, чтобы она как можно меньше тратила токенов на ответ.
🔴 Ленивое использование инструментов по API - тут, конечно, плюс в том, что о-модель в принципе использует инструменты, но минус в том, что недостаточно активно там, где это нужно, и ей часто приходится указывать на то, какой инструмент использовать на следующем шаге.
Напомню, что на сайте ChatGPT свои инструменты она использует куда активнее.
🔴 Галлюцинации - есть много жалоб на галлюцинации, особенно на нишевых темах, и этому есть даже подтверждения в system card модели от самих OpenAI.
🔴 "Враньё" - а эта проблема посерьёзнее - сообщения пользователей (и отчёт TransluceAI) о том, что модель может фабриковать информацию о своих действиях (например, имитировать поиск или вызов других тулов) и настаивать на своем, даже будучи неправой.
Мне она как-то выдала, что одно из возможных решений задачи снизит количество ошибок с 15 до 1%, хотя я видел, как она сама его недавно проверяла, и у неё по факту не получилось такого результата.
Целевые 1% я ей сам озвучивал как достижимые (это в самом деле так), и тут она явно пыталась подогнать свой ответ под мои ожидания.
🔴 Высокая стоимость API - несмотря на более низкие, чем у o1, цены, реальная стоимость решения сложных задач с активным ризонингом и тулами может быть очень высокой. К примеру, на бенчмарке Aider Polyglot o3 оказалась в 17.5 раз дороже Gemini 2.5 Pro. Это ставит под вопрос экономическую
целесообразность использования её через API.
(Личное) Меня напрягает её манера иногда начинать фразы в ризонинге с прямого обращения ко мне по имени или упоминая его где-то в тексте - выглядит криповато-НЛПшно :)
Вердикт для разработчиков
● Модель отличная для решения узких сложных задач, но нет смысла ее использовать где-то ещё из-за вышеперечисленных минусов.
● В силу её особенностей передача всего нужного ей контекста заранее является особенно важным - описывайте задачу сразу подробно и со всеми ограничениями, накладываемыми на потенциальное решение.
● Эффективнее будет использовать o3 на сайте ChatGPT в рамках подписки, чтобы не тратить деньги на API и чтобы добиться от нее внятного использования инструментов.
В том же Cursor тоже можно (30 центов за запрос), но не стоит рассчитывать, что она сама соберет весь нужный контекст, и лучше озаботиться этим заранее, подготовив её к ваншоту, нежели к долгой переписке :)
● Для ответственных задач, которые выходят за рамки вашей собственной интуиции/понимания, и которые нельзя легко проверить, использовать её нужно с осторожностью, и обязательно делать кросс-чек с той же Gemini 2.5 Pro / специалистами в теме.
Несмотря на все её проблемы я сам точно буду её использовать там, где нужен чистый мощный ризонер.
Что ждём дальше по моделям?
● DeepSeek R2 / V4
● Таинственные dayhush и claybrook, которые вчера появились на WebDev Arena и показывают очень хорошие результаты в веб-кодинге (и пока что больше ничего про них неизвестно) - это могут быть специализированные модели от Google для разработки
P.S.
В этот раз не стал расписывать бенчмарки, т.к. рассказывал кратко про них в постах про другие модели ранее.
Думаю как-нибудь отдельно написать, какие и почему важны для программирования, куда смотреть, кому верить, потому что там уже какой заяц, какой орёл, какая блоха.
✍️ - посмотрим, сколько наберётся интересующихся :)
#ai #model #review
Минусы
🔴 Малая длина фактического вывода
● модель обрезает код, выдает 200 строк вместо ожидаемых 800, пытается его ужать там, где это лишено смысла;
● использует плейсхолдеры вместо реальных имплементаций;
● игнорирует просьбы выдать полный ответ;
● не дает пояснений к тому, что делает и комментариев к нетривиальному коду;
И для многих задач разработки одно это делает её неприменимой.
Такое ощущение, что ее тренировали на то, чтобы она как можно меньше тратила токенов на ответ.
🔴 Ленивое использование инструментов по API - тут, конечно, плюс в том, что о-модель в принципе использует инструменты, но минус в том, что недостаточно активно там, где это нужно, и ей часто приходится указывать на то, какой инструмент использовать на следующем шаге.
Напомню, что на сайте ChatGPT свои инструменты она использует куда активнее.
🔴 Галлюцинации - есть много жалоб на галлюцинации, особенно на нишевых темах, и этому есть даже подтверждения в system card модели от самих OpenAI.
🔴 "Враньё" - а эта проблема посерьёзнее - сообщения пользователей (и отчёт TransluceAI) о том, что модель может фабриковать информацию о своих действиях (например, имитировать поиск или вызов других тулов) и настаивать на своем, даже будучи неправой.
Мне она как-то выдала, что одно из возможных решений задачи снизит количество ошибок с 15 до 1%, хотя я видел, как она сама его недавно проверяла, и у неё по факту не получилось такого результата.
Целевые 1% я ей сам озвучивал как достижимые (это в самом деле так), и тут она явно пыталась подогнать свой ответ под мои ожидания.
🔴 Высокая стоимость API - несмотря на более низкие, чем у o1, цены, реальная стоимость решения сложных задач с активным ризонингом и тулами может быть очень высокой. К примеру, на бенчмарке Aider Polyglot o3 оказалась в 17.5 раз дороже Gemini 2.5 Pro. Это ставит под вопрос экономическую
целесообразность использования её через API.
(Личное) Меня напрягает её манера иногда начинать фразы в ризонинге с прямого обращения ко мне по имени или упоминая его где-то в тексте - выглядит криповато-НЛПшно :)
Вердикт для разработчиков
● Модель отличная для решения узких сложных задач, но нет смысла ее использовать где-то ещё из-за вышеперечисленных минусов.
● В силу её особенностей передача всего нужного ей контекста заранее является особенно важным - описывайте задачу сразу подробно и со всеми ограничениями, накладываемыми на потенциальное решение.
● Эффективнее будет использовать o3 на сайте ChatGPT в рамках подписки, чтобы не тратить деньги на API и чтобы добиться от нее внятного использования инструментов.
В том же Cursor тоже можно (30 центов за запрос), но не стоит рассчитывать, что она сама соберет весь нужный контекст, и лучше озаботиться этим заранее, подготовив её к ваншоту, нежели к долгой переписке :)
● Для ответственных задач, которые выходят за рамки вашей собственной интуиции/понимания, и которые нельзя легко проверить, использовать её нужно с осторожностью, и обязательно делать кросс-чек с той же Gemini 2.5 Pro / специалистами в теме.
Несмотря на все её проблемы я сам точно буду её использовать там, где нужен чистый мощный ризонер.
Что ждём дальше по моделям?
● DeepSeek R2 / V4
● Таинственные dayhush и claybrook, которые вчера появились на WebDev Arena и показывают очень хорошие результаты в веб-кодинге (и пока что больше ничего про них неизвестно) - это могут быть специализированные модели от Google для разработки
P.S.
В этот раз не стал расписывать бенчмарки, т.к. рассказывал кратко про них в постах про другие модели ранее.
Думаю как-нибудь отдельно написать, какие и почему важны для программирования, куда смотреть, кому верить, потому что там уже какой заяц, какой орёл, какая блоха.
#ai #model #review
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5