NEW BOT Телеграм, страница

Этихлид

Gemini 2.5 Pro Exp + Cursor

(... после нескольких дней и $50 на тестирование)

Вкратце
● для повседневных небольших задач и задач, где требуется ~~слабоумие и отвага~~ инициативная модель, у меня так и остаётся Sonnet 3.7 в режиме агента;
● сложные задачи - Gemini 2.5;
● исследование кодовых баз, ревью, архитектура, планирование, глобальные рефакторинги для небольших проектов - паритет между Sonnet 3.7 и Gemini 2.5;
● всё, что требует больше ~50k контекста - Gemini 2.5;
● для MCP, пока хватает контекста - Sonnet 3.7, а дальше - Gemini 2.5 (да, она работает с MCP в Cursor).

Теперь подробности.

Ничего неожиданного - самые интересные особенности модели были видны уже на важных для разработки бенчмарках, про которые я писал и рассказывал, почему они важны.
Предварительные впечатления тоже остаются в силе.

Контекст
Это самая важная фича модели.

В Cursor для не-MAX режима Gemini 2.5 даётся 120к контекста (как и Sonnet 3.7), а вот в MAX режиме - все 1м.

Но даже задолго до 120к, на мой взгляд, Gemini удерживает контекст лучше, чем Sonnet.

Она лучше помнит далеко ушедшие по истории куски чата, что помогает как для широких изменений в проекте, так и в плане удержания правил / задач.

Как-то модель в точности вспомнила, что мы с ней делали ~150к токенов назад.
Ради интереса после ~350к токенов я её просил составить отчёт по проделанной работе и она ничего не потеряла.

Работа с контекстом не идеальна - модель может что-то случайно "забыть" и "вспомнить" при повторном/следующем запросе.
И она так же постепенно деградирует по мере удлинения контекста, может путаться, ходить кругами и т.п.
Но всё равно в этом плане показывает результаты лучше, чем конкуренты.

Работа в режиме агента
На фоне не-Anthropic моделей агентский режим хотя бы работает :)
Но ощутимо хуже, чем Sonnet 3.7, поэтому он и остаётся рабочей лошадкой.

Другое дело, что Sonnet 3.7 - это такая немного упоротая лошадка, а вот Gemini 2.5 делает то, что скажут, не проявляя инициативы.
Модель чаще приходится направлять в нужные места проекта, добрасывать ей файлы руками, просить запустить программу, MCP-тул и т.п.

Иногда даже чувствуется вайб старых моделей - "я тут написала часть кода, теперь твоя очередь".
Но для кого-то это будет плюсом.

А ещё Gemini работает ощутимо шустрее Sonnet'a.

MCP
Работает, но хуже, чем в Sonnet, модель "ленится" :)
(если нужно общее понимание MCP, можно почитать мой цикл постов или статью на Хабре)

Ризонинг
Там, где не нужно много думать, модель работает примерно на уровне Sonnet 3.6-3.7.

А вот там, где нужно копнуть поглубже - алгоритмы, сложные задачи, я раньше использовал o3-mini, но теперь это потеряло смысл, т.к. Gemini эти задачи решает примерно так же, но при этом работает в режиме агента и не ограничена знаниями 2023г.

Проблемы
● на 1 из 50 запросов сбивается форматирование и весь последующий чат ломается (помогает возврат к последнему чекпойнту). Но я ожидал, что будет хуже, судя по бенчам :)

● свои правила форматирования кода - нередко, несмотря на то, что в контексте есть примеры оформления кода в проекте, модель всё равно пишет его так, как ей нравится. Я не сторонник километровых правил в Cursor, но тут начал понемногу пополнять список :)

● непрошенное переписывание кода - чаще, чем у Sonnet. Мимоходом может поменять порядок методов, алгоритм, какой-то неоптимальный код и т.п.
Но, как ни странно, эти изменения бывают по делу - я так несколько раз оставлял переписанный код

● нестабильная работа в целом - модель экспериментальная и может остановиться посреди ответа, вернуть ошибку, быть недоступной некоторое время и т.п.

● ЦЕНА - MAX-режим с 1м контекста - это 5с за промпт + 5с за каждый вызов тула.
(где-то можно попробовать сэкономить при помощи Repomix)

Что дальше
Модель экспериментальная, так что какие-то вещи улучшатся к релизу.

Ещё обещались контекст до 2м увеличить.

Кстати, без дневных лимитов модель сейчас только в Cursor можно использовать (Google подсуетился), что говорит о значимости Cursor и о высокой вероятности того, что сценарии, связанные с разработкой, важны для команды Gemini.

#ai #model #review

🔥14👍7❤1

768 viewsedited 05:13

Этихлид

Лента сегодня :)

😁7👍2

628 views20:30

Этихлид

AI 2027, хронология влияния ИИ на разработку ПО (1/3)

Тут вышел интересный прогнозный сценарий развития ИИ с середины 2025 по 2030+ год.
Сайт: AI 2027; PDF; и на сайте есть ссылки на аудио.

Настоятельно советую прочитать его целиком, просто чтобы быть в курсе предсказаний от мыслящих людей, которые находятся на передовой ИИ, и при этом в прошлом давали уже сбывшиеся прогнозы.
Ну и обязательно читать, если вы цените футуризм как жанр, а тут это ещё и подкреплено большим количеством ссылок на объективную реальность.
(предупрежу, однако, что там довольно много политоты)

Я выделил из документа основные предсказания, которые относятся к разработке ПО - в нём немало посвящено именно этой теме, так как от этого зависит скорость прогресса в исследованиях, посвящённых улучшению самого ИИ.
Думаю, будет интересно отслеживать будущее по этому таймлайну, проверяя его предсказательную силу, да и просто чтобы быть в курсе того, что может произойти на следующем этапе развития технологий.
Это выжимка и вольный пересказ, (комментарии в скобках) - мои.

—

В центре повествования - вымышленная передовая ИИ-лаборатория "OpenBrain" (кто бы это мог быть) и её все более мощные модели ИИ (Agent-0, Agent-1, Agent-2 и т.д.), а также их конкурент в лице китайской "DeepCent" (загадка прям).

Сценарий описывает стремительный прогресс ИИ, его влияние на различные сферы (особенно на сами ИИ-исследования, разработку ПО и рабочие места), риски безопасности, проблемы alignment и геополитические последствия, кульминацией которых становится появление сверхинтеллекта, с двумя концовками, переломным моментом для выбора между которыми становится 2027 год.

Середина 2025
● Появляются специализированные ИИ-агенты для написания кода и начинают влиять на профессию.
● ИИ для кодинга функционируют скорее как автономные сотрудники, чем просто ассистенты: они принимают инструкции через Slack/Teams и самостоятельно вносят существенные изменения в код, иногда экономя разработчикам часы или даже дни.
● Прогнозируется, что агенты, подобные Devin, достигнут 85% на бенчмарке SWEBench-Verified (на текущий момент №1 - 65.4% у свежего Augment Code, руки чешутся попробовать).

Начало 2026
● Автоматизация кодинга начинает приносить плоды, значительно ускоряя исследования и разработки в области ИИ в OpenBrain.
● Выходит Agent-1, модель, обладающая обширными знаниями: она знает практически все языки программирования и чрезвычайно быстро решает небольшие чётко поставленные задачи по кодингу. Она описывается как "рассеянный сотрудник, который раскрывается под внимательным управлением".
● Продвинутые разработчики находят способы автоматизировать рутинные части своей работы с помощью этих ИИ (это уже происходит, причем чем опытнее разработчик, тем больше профита).
● ИИ уровня Agent-1 сравниваются с лучшими человеческими командами/экспертами в выполнении специфических многочасовых задач по кодингу/хакингу/инженерии.

#ai #review #article

🔥10👍5❤1

918 viewsedited 21:13

Этихлид

AI 2027, хронология влияния ИИ на разработку ПО (2/3)

Конец 2026
● "ИИ начинает отнимать рабочие места": Рынок труда для джунов-разработчиков переживает потрясения (я бы сказал, что он уже сейчас его переживает).
● ИИ способны выполнять задачи, которым обычно обучают в рамках программы бакалавриата по Computer Science.
● Спрос смещается в сторону инженеров, умеющих управлять командами ИИ и контролировать их качество (эти скиллы нужно качать уже сейчас, я как-то писал про это).
● Знакомство с ИИ становится самым важным навыком для резюме в технологической сфере (технолуддитов я уже перестал рассматривать всерьёз).

Январь 2027
● Agent-2, следующий значительный шаг OpenBrain, качественно почти не уступает лучшим людям-экспертам в инженерии исследований (проектирование/реализация экспериментов).
● Роль людей-инженеров/исследователей на переднем крае все больше напоминает роль менеджера ИИ-"команды".

Март 2027
● Появляется Agent-3, достигающий статуса "сверхчеловеческого кодера" (superhuman coder): он быстрее, дешевле и превосходит лучших людей-кодеров.
● В передовых лабораториях, таких как OpenBrain, написание кода считается полностью автоматизированным.
● Люди-инженеры остаются в штате в основном для управления командами копий Agent-3, используя комплементарные навыки (такие как "исследовательский вкус" (research taste) - принятие решений о том, что изучать дальше, какие эксперименты проводить, распознавать новые парадигмы), которые сложнее автоматизировать.

Июнь 2027
● В передовых лабораториях большинство людей-инженеров/исследователей больше не приносят реальную пользу в непосредственном написании кода или исследованиях. Некоторые не осознают этого и микроменеджат свои ИИ-команды, принося больше вреда.
● Лучшие люди-исследователи ИИ больше не пишут код, оставаясь полезными в собственно исследованиях.

Июль 2027
● Выпускается Agent-3-mini - более дешевая, общедоступная версия Agent-3.
● Найм новых программистов практически прекратился.
● Самой ценной становится роль консультанта по интеграции ИИ в бизнес.

Октябрь 2027
● Растет общественное осознание потери рабочих мест. К этому моменту 25% рабочих мест, существовавших в 2024 году и предполагавших удаленную работу, выполняются ИИ. Обсуждаются/внедряются государственные программы, такие как профессиональная переподготовка и страхование по безработице.

С середины 2028 и далее (в обеих концовках сценария)
● Происходит масштабная экономическая трансформация. Люди продолжают терять рабочие места, в том числе в сферах, связанных с разработкой ПО, по мере драматического роста возможностей ИИ.
● Традиционная роль человека-разработчика ПО в значительной степени устаревает, будучи вытесненной либо непосредственно ИИ, либо людьми, управляющими/интегрирующими ИИ-системы.

(концовки касаются судьбы человечества в целом и представляют интерес для любителей научной фантастики :))

#ai #review #article

🔥7👍5❤3

951 viewsedited 21:18

Этихлид

AI 2027, хронология влияния ИИ на разработку ПО (3/3)

Релевантные графики

1. Длительность задач кодинга, которые ИИ-агенты могут выполнять автономно
Иллюстрирует экспоненциальный рост "временного горизонта" - сложности и длительности задач по разработке ПО, с которыми ИИ могут справляться самостоятельно с заданной надежностью.

Почему важен: Это прямое визуальное подтверждение растущих возможностей ИИ именно в сфере разработки ПО. График показывает, как быстро ИИ осваивают задачи, ранее требовавшие недели, месяцы или даже годы работы квалифицированных программистов, что является основой для прогнозов о вытеснении человеческого труда.

В пояснении указано, что переход от решения задач, которые требуют недели работы человека, к задачам, которые требуют года, будет в 2 раза проще, чем переход от 1-часовых до 1-недельных задач.

2. Появление superhuman coder, прогнозы
Показывает распределение вероятностей того, когда, по мнению разных прогнозистов (включая авторов AI 2027), появится "cверхчеловеческий кодер" (superhuman coder).

Почему важен: Этот график фокусируется на ключевом переломном моменте - появлении ИИ, превосходящего лучших людей-программистов. Достижение этой вехи напрямую связано с радикальными изменениями на рынке труда в разработке ПО.

3. Падение цен на инференс LLM
Показывает резкое снижение стоимости (9-900x в год) инференса LLM с течением времени для различных задач.

Почему важен: Снижение стоимости делает использование мощных ИИ, способных писать код, экономически выгодным в широких масштабах. Это ключевой фактор, способствующий автоматизации и, как следствие, влияющий на рабочие места разработчиков.

#ai #review #article

🔥13👍7❤4

997 views21:40

Этихлид

AI 2027, что делать? (1/2)

Прогноз AI 2027 наделал много шума, хотя обозначенным трендам уже несколько лет, а некоторые вещи даже явно озвучиваются как цели ИИ-компаний (как, к примеру, создание ИИ-исследователя).
Разве что вопрос в сроках, которые сокращаются в каждом следующем прогнозе, но это тоже норма - мы наблюдаем экспоненту в развитии технологий.

Тем не менее, у многих возникает вопрос - а что делать?

Disclaimer
● примем сценарий AI 2027 как возможный вариант будущего;
● мы решили остаться в IT (принимая, что роботизация произойдет вскоре после автоматизации кодинга, и фокус на адаптации и возможностях внутри IT сейчас кажется более прагматичным, чем смена области на "физическую");
● камон, я ж рандомный чел без неймдроппинга из телеги ;)

Итак, сценарий AI 2027 начинает разворачиваться на наших глазах.
Простые ИИ-агенты для кодинга существуют с полгода как часть Cursor/Windsurf/etc.
Уже начали появляться более автономные агентские системы (как Devin). Они пока ненадежны, но быстро улучшаются.

Нам нужно найти оптимальные точки приложения усилий, чтобы быть готовыми к грядущим изменениям.

Прямо сейчас: навыки работы с ИИ-инструментами

● Признать реальность сценария
Не отмахиваться от прогнозов как от "просто хайпа", допустить, что даже если они не сбудутся на 100%, направление развития однозначное.
Это первый шаг для обретения мотивации к адаптации.

● Включать ИИ-ассистенты в работу
Освоить существующие инструменты (Cursor / агентские системы / MCP / Perplexity / DeepResearch / etc), научиться эффективно делегировать им рутинные задачи, уметь с ними "договариваться" (промпты, правила, настройки), быстро проверять и интегрировать ИИ-код.
Цель: увеличить свою производительность кратно уже сейчас.

● Следить за фронтиром
Наблюдать за релизами ведущих ИИ-лабораторий, читать технические отчеты, понимать бенчмарки и реальные возможности новых моделей.
На рынке из-за ускорения прогресса сейчас одновременно присутствуют инструменты, которые могут как вообще не повлиять на вашу производительность, так и повысить ее в разы, и нужно учиться делать осознанный выбор.

● Начать переоценку своих сильных сторон
Какие задачи в вашей работе ИИ уже сейчас делает с приемлемым качеством? Какие пока нет? Где вы приносите уникальную ценность (глубокое понимание бизнес-логики, архитектурное видение, решение нечетко поставленных задач, коммуникация с заказчиком и коллегами)?
Перепроверяйте список потенциально автоматизируемых задач с выходом новых моделей.

● Качать правильный нетворкинг
Искать единомышленников, сообщества для обмена опытом, собираться в стихийные команды.
Меньше читать пустых и хайповых новостей от "ИИ-журналистов", которые сами не используют то, о чём пишут, и больше мнений и реальных кейсов от практиков.

#ai #futurism

👍18🔥8👎2❤1🕊1

1.09K viewsedited 16:48

Этихлид

AI 2027, что делать? (2/2)

Краткосрочная стратегия: cмещение фокуса с написания кода

● Переход к роли менеджера / ИИ-техлида
По мере появления более способных ИИ (уровень Agent-1), сознательно смещать фокус с написания каждой строки кода на:
* декомпозицию сложных задач на подзадачи для ИИ;
* формализацию спецификаций и требований;
* ревью кода, сгенерированного ИИ (поиск неявных ошибок, проблем с архитектурой, безопасностью);
* интеграцию и оркестрацию работы ИИ-агентов.
Тут, конечно же, будет проще тем, кто уже работал на позициях уровня senior+ и/или научится привлекать ИИ для таких задач.
+ Остаточная сложность

● Углубление в архитектуру и системный дизайн
Чем больше кода пишет ИИ, тем важнее становится роль человека в проектировании общей структуры системы; взаимодействии её с другими системами и командами; выстраивании границ, API и протоколов; выборе правильных подходов и технологий на высоком уровне.
+ Про повышение уровней абстракции

● Развитие продуктового мышления
Глубоко понимать бизнес-контекст, потребности пользователей, уметь транслировать их в технические решения высокого уровня, которые затем можно детализировать с помощью ИИ.

● Создание финансовой подушки
Сценарий подразумевает экономическую турбулентность. Начать формировать резервы на случай временной потери дохода или необходимости переобучения.
В идеале резервов должно быть столько, чтобы хватило на 3+ года.

● Заняться здоровьем/физкультурой
Во-первых, это сильно поможет адаптации к изменениям, а во-вторых, нужно постараться "донести" себя в адекватном физическом, умственном и психическом состоянии до возможных существенных прорывов в медицине.
+ Спорт - это не инвестиция
+ Житие тогда у нас тяжкое было
+ 300 недель

Среднесрочная стратегия: возможные специализации и новые роли

● Специализация на управлении ИИ-командами
К моменту появления Agent-2/3, управление ИИ-разработчиками станет полноценной профессией, в которую будут переходить как IT-менеджеры, так и разработчики. Это потребует навыков постановки задач, контроля качества, оценки производительности ИИ, возможно, даже "отладки" их поведения.
+ Чёрный ящик

● Переход в ИИ-интеграцию / консалтинг
По мере появления мощных публичных моделей (Agent-3-mini), возникнет огромный спрос на специалистов, помогающих бизнесу внедрять ИИ, адаптировать процессы, обучать сотрудников. Это потребует сочетания технических знаний, понимания бизнеса и коммуникативных навыков (да, снова софт-скиллы).

● Доменная экспертиза + управление ИИ
Стать экспертом не просто в кодинге, а в применении ИИ для решения задач в конкретной области (биотех, финансы, продажи и т.д.). Вы будете ставить задачи ИИ и интерпретировать результаты в своей области.

Долгосрочная перспектива: адаптивность, человеческие качества, диверсификация

● Адаптивность как главный навык
Быть готовым к тому, что даже новые "ИИ-менеджмент"-роли могут быть автоматизированы следующим поколением ИИ (Agent-4/5 и далее). Постоянное обучение и готовность радикально менять сферу деятельности станут нормой.

● Ставка на "человеческое"
Развивать навыки, которые ИИ сложнее всего имитировать: эмпатия, лидерство, построение сложных социальных связей, стратегическое видение человеческих ценностей и целей, креативность в плохо формализуемых областях, физическое взаимодействие с миром (если вы рассматриваете такой вариант).

● Диверсификация источников дохода
Не полагаться только на зарплату. Рассмотреть разного рода инвестиции, создание собственного (возможно, небольшого и нишевого, через пет-проекты) бизнеса, использующего ИИ как инструмент.
Затевать стартап, который "взлетит" через 5+ лет сейчас - не очень умно, т.к. горизонт планирования продолжит сокращаться.

● Готовность к новой экономической модели (ББД?)
Сценарий прямо указывает на массовые увольнения и переход к экономике, где основную работу выполняют ИИ. Морально и финансово готовиться к миру, где может появиться Безусловный Базовый Доход, а ценность человеческого труда и интеллекта будет пересмотрена. Искать смысл, самореализацию и свою нишу, хобби вне традиционной работы.

#ai #futurism

2🔥24👍7👏5👎1🕊1

3.43K viewsedited 16:52

Этихлид

С появлением Gemini 2.5 Pro проблема заполнения её 1м контекста стала особенно актуальной.

Я уже как-то советовал для таких целей использовать Repomix, и сам постоянно этим пользуюсь для больших задач, но, кажется, и сами разработчики Cursor тоже этим озаботились.

На скринах - превьюшки от дизайнера Cursor, где он спойлерит возможную будущую фичу для того, чтобы сразу выбрать нужный набор файлов и положить их в контекст и при этом видеть, сколько токенов будет потрачено.

Весьма нужная фича, т.к. в текущей реализации контекст заполняется недетерминированно/долго/дорого.
Ждём :)

#cursor

🔥12👍7🤗1

901 views15:26

Этихлид

Forwarded from AI-Driven Development. Родион Мостовой

Улучшения в AI прототипировании

В общем, сейчас набирает популярность такой класс AI-тулинга, как Prompt Coding - причем, в отличие от вайб кодинга, предполагается, что юзер в принципе не будет смотреть код (он тупо скрыт за какой-то дальней вкладкой). Аудиторию таких инструментов - это либо не программисты, которые хотят сделать какой-то программный продукт в кратчайшие сроки (в т. ч. сайт), либо программисты, которые быстро хотят что-то запрототипировать.
В общем, на этом поприще за последнюю неделю накопилось ряд значимых новостей, которыми я с вами и поделюсь.

1. ReplIt AI выпустили вторую версию своего билдера, которая по их завялениям стала ~~быстрее, выше, сильнее~~ лучше. Подробнее в посте Игоря на канале @ai_product.

2. lovable.dev - обновили свою платформу и дали возможность программистам не только промпт-кодить, но и просто кодить (Dev Mode), т. е. прямо по старинке ручками вносить правки в сгенерированный код. А также, дали возможность регистрировать домены прямо внутри lovable - я подозреваю, для не-IT пользователей регистрация и парковка домена стали основной проблемой) И они ее решили таким вот образом.

3. И, наконец, Google разразились кучей новинок, в т. ч. выпустили свою No Code платформу-убийцу всех остальных No Code платформ: Firebase Studio. Из приятного - код генерит очень быстро, заметно быстрее конкурентов. Но код этот у меня нормально пока не заработал, см. эксперимент ниже. Еще, Валерий Ковальский тоже попробовал новый инструмент и подробнее описал свой опыт тут.

А кто лучший?
Смотря как сравнивать. Я попросил все вышеперечисленные сервисы сгенерировать тулзу для подсчета кол-ва строк кода в репозитории. С первой попытки не справился ни один сервис.
Промпт специально сделал максимально простым и не очень точным, как если бы писал обычный пользователь:

Implement an app that takes a URL to GitHub repo, analyzes it and returns total code lines count and its size in bytes

Но только lovable как-то худо-бедно справился после 3-х ошибок и 3-х моих комментариев (на самом деле, все равно считает не очень точно) - по сути я просто пробовал сканировать репо и писал текст ошибки в чат - всю эту работу AI-агент мог бы делать сам. Вот ссылка на получившееся приложение: https://code-size-inspector.lovable.app/ Саму историю чата не нашел как там пошерить.
Кстати, самый стильный дизайн получился у bolt.new. Но вот только логика подсчета кол-ва строк так и не заработала правильно.
В итоге, опираясь только на результаты этого субъективного эксперимента для чего-то функционального можно рекомендовать lovable.dev, а если нужно просто, чтоб получилось красиво (лендинг, например), похоже, что с bolt.new эту цель достичь можно быстрее, чем с остальными. Первый скрин - lovable, второй - bolt. Есть еще v0.dev, storm.dev - они в моей задачи тоже оказались слабы.

Чего не хватает всем этим инструментам?
Агентности. При возникновении багов о ошибок, агент сам может их отлавливать в браузере и итеративно фиксить. Но что-то мне подсказывает, что через пол года-год мы и такую автономность тоже увидим.

В общем, конкуренция среди AI тулинга нарастает и гиганты тоже не дремлют. Очень интересно наблюдать за этой гонкой, какие из этих сервисов (кроме гигантов) выживут через год или, тем более, через два - загадка.

А используете ли вы что-то для No Code прототипирования? И как вообще относитесь к таким тулзам? Похоже, что все идет к тому, что несложные сайты и приложения будут генерироваться AI, вообще без участия программистов и любой желающий сможет создавать PoC / MVP своего продукта.

#nocode #lovable #bolt #replit

👍11

903 views15:06

Этихлид

ChatGPT 4.1

Не знаю, интересно ли читать про сомнительные релизы моделей, но, может, кому сэкономлю время.

tl;dr
Релиз зайдет тем, у кого основной рабочей моделью для разработки до сих пор была модель уровня ChatGPT 4o.

А если вы избалованы Sonnet'ом и окончательно развращены Gemini 2.5 Pro, этот релиз вас оставит в недоумении.

Релиз
Выпустили ChatGPT 4.1 с как модель для разработчиков, целую supermassive black hole (скорее всего именно она скрывалась некоторое время в бенчах и на OpenRouter под кодовым именем Quasar).

У неё 3 варианта - обычная, mini & nano.
Тут я буду рассматривать обычную, самую умную.

Доступна модель только по API (т.е. на сайте ChatGPT её не будет).
В Windsurf её сделали бесплатной на неделю, в Cursor - на день, в OpenRouter тоже завезли.

Давайте про плюсы

● 1м контекста, причём этот контекст модель держит хорошо для не-ризонера (по крайней мере до 120к согласно бенчу Fiction.LiveBench), но отстаёт по его удержанию от лидеров

● скорость - очень быстро переваривает промпт и очень быстро генерит ответ (отчасти из-за того, что она не ризонер)

● цена output-токенов примерно в 2 раза ниже, чем у Sonnet/Gemini

Все остальные её подвижки - они относительно 4o, довольно слабой модели для кодинга, и именно с ней сами OpenAI новую модель и сравнивают.

Но даже со всеми этими улучшениями она ощутимо хуже Sonnet/Gemini:
● получше в следовании инструкциям, чем 4o;
● охотнее использует инструменты в агентском режиме (тут она даже преодолевает крайне низкую планку o3-mini);
● умнее в ряде hard-skill бенчей, включая олимпиадные задачи, но, как ни странно, не во всех - иногда примерно те же результаты, что и у 4o.

Релевантные бенчмарки
● Aider Polyglot, 13 место - близкие к реальным задачи разработки;
● Fiction.LiveBench - удержание длинного контекста;
● Scale MultiChallenge, 10 место - новый интересный бенч, про стабильность работы в многоходовых диалогах с людьми;
● LiveBench Coding, 13 место (тут какая-то аномалия, mini-вариант модели - на 9м месте) - олимпиадные задачки по программированию.

Личный опыт
Провел несколько часов с моделью в Cursor/Windsurf в попытках понять, зачем она существует, и по ощущениям как на полгода-год назад вернулся, даже перечислять все косяки лень.

Для кого этот релиз?
● для тех, кто в силу каких-либо причин вынужден был использовать 4o, но вот теперь у них есть выбор :)
● для тех, у кого хорошо разбиваются рабочие задачи на мелкие и при этом не очень сложные куски;
● у кого есть потребность быстро писать много кода по четким инструкциям (~~а потом выбрасывать и снова писать~~);
● возможно, это рабочая лошадка для будущих фронтир моделей (o3/o4-mini), которые её как раз смогут эффективно использовать как исполнителя.

Короче, как по мне, так пропускаем этот релиз и ждём o3/o4-mini как следующие потенциально интересные модели.

А может, я что-то упускаю?
Дайте знать - может, есть какие-то сценарии использования, где она лучше всех других моделей по сочетанию характеристик?

—

Почитать про текущую SOTA по версии меня:
● Gemini 2.5 Pro Experimental, общая инфа
● Gemini 2.5 Pro Experimental, личные впечатления
● Gemini 2.5 Pro Exp + Cursor

#news #ai #model

👍11🔥7❤3🥱1

1.66K viewsedited 03:40

Этихлид

ChatGPT o3 / o4-mini, где взять

Ну, новости про релиз наверняка все уже прочитали, обзор с бенчами не только от самих OpenAI будет позже, а вот где модели попробовать - расскажу.

Cursor
Есть обе модели:
● o3 за 30 центов за запрос
● o4-mini - пока что бесплатно

Windsurf
Есть o4-mini-high, бесплатно до 21 апреля.
o3 почему-то нет.
Вообще норм распиарили Windsurf с этими новыми релизами (upd: а, так его OpenAI собираются покупать за $3млрд).

OpenRouter
Все модели добавили, можно использовать как по API, так и в чате самого OpenRouter.
(для o3 требуется свой API-ключ)

ChatGPT, сайт
Добавили все модели для Plus и Pro пользователей.
Для Pro лимитов практически нет.
Лимиты для Plus:
● o3 - 50 сообщений в неделю
● o4-mini - 150 сообщений в день
● o4-mini-high - 50 сообщений в день

OpenAI API
Доступна o4-mini во всех вариантах, для o3 требуется верификация

Что тестировать?
● для меня в первую очередь интересно то, как они будут справляться с вызовом тулов, потому что в прошлом o-модели были крайне плохи в этом, а тут обещали существенные улучшения

● удержание контекста - 200к, сравняли с Sonnet, и интересно, насколько он "честный"

● общие возможности по ризонингу на сложных задачах - по бенчам модели показали хороший рост метрик в "хардовых" категориях, так что интересно, как будут себя вести на реальных кодовых базах, особенно на нетривиальных задачах.

#news #ai #model

👍10🔥8❤1

853 views19:05

About

Blog

Apps

Platform