Этихлид – Telegram
Этихлид
4.77K subscribers
152 photos
23 videos
129 links
Канал техлида с мыслями об AI, IT и спорте.

https://news.1rj.ru/str/etechlead/6 - содержание

https://news.1rj.ru/str/etechlead/8 - о канале

https://news.1rj.ru/str/+NgQZbosvypEyYWQ6 - чат канала, там отвечаю(т) быстрее :)

(без рекламы)
Download Telegram
AI 2027, хронология влияния ИИ на разработку ПО (1/3)

Тут вышел интересный прогнозный сценарий развития ИИ с середины 2025 по 2030+ год.
Сайт: AI 2027; PDF; и на сайте есть ссылки на аудио.

Настоятельно советую прочитать его целиком, просто чтобы быть в курсе предсказаний от мыслящих людей, которые находятся на передовой ИИ, и при этом в прошлом давали уже сбывшиеся прогнозы.
Ну и обязательно читать, если вы цените футуризм как жанр, а тут это ещё и подкреплено большим количеством ссылок на объективную реальность.
(предупрежу, однако, что там довольно много политоты)

Я выделил из документа основные предсказания, которые относятся к разработке ПО - в нём немало посвящено именно этой теме, так как от этого зависит скорость прогресса в исследованиях, посвящённых улучшению самого ИИ.
Думаю, будет интересно отслеживать будущее по этому таймлайну, проверяя его предсказательную силу, да и просто чтобы быть в курсе того, что может произойти на следующем этапе развития технологий.
Это выжимка и вольный пересказ, (комментарии в скобках) - мои.



В центре повествования - вымышленная передовая ИИ-лаборатория "OpenBrain" (кто бы это мог быть) и её все более мощные модели ИИ (Agent-0, Agent-1, Agent-2 и т.д.), а также их конкурент в лице китайской "DeepCent" (загадка прям).

Сценарий описывает стремительный прогресс ИИ, его влияние на различные сферы (особенно на сами ИИ-исследования, разработку ПО и рабочие места), риски безопасности, проблемы alignment и геополитические последствия, кульминацией которых становится появление сверхинтеллекта, с двумя концовками, переломным моментом для выбора между которыми становится 2027 год.

Середина 2025
● Появляются специализированные ИИ-агенты для написания кода и начинают влиять на профессию.
● ИИ для кодинга функционируют скорее как автономные сотрудники, чем просто ассистенты: они принимают инструкции через Slack/Teams и самостоятельно вносят существенные изменения в код, иногда экономя разработчикам часы или даже дни.
● Прогнозируется, что агенты, подобные Devin, достигнут 85% на бенчмарке SWEBench-Verified (на текущий момент №1 - 65.4% у свежего Augment Code, руки чешутся попробовать).

Начало 2026
● Автоматизация кодинга начинает приносить плоды, значительно ускоряя исследования и разработки в области ИИ в OpenBrain.
● Выходит Agent-1, модель, обладающая обширными знаниями: она знает практически все языки программирования и чрезвычайно быстро решает небольшие чётко поставленные задачи по кодингу. Она описывается как "рассеянный сотрудник, который раскрывается под внимательным управлением".
● Продвинутые разработчики находят способы автоматизировать рутинные части своей работы с помощью этих ИИ (это уже происходит, причем чем опытнее разработчик, тем больше профита).
● ИИ уровня Agent-1 сравниваются с лучшими человеческими командами/экспертами в выполнении специфических многочасовых задач по кодингу/хакингу/инженерии.

#ai #review #article
🔥10👍51
AI 2027, хронология влияния ИИ на разработку ПО (2/3)

Конец 2026
● "ИИ начинает отнимать рабочие места": Рынок труда для джунов-разработчиков переживает потрясения (я бы сказал, что он уже сейчас его переживает).
● ИИ способны выполнять задачи, которым обычно обучают в рамках программы бакалавриата по Computer Science.
● Спрос смещается в сторону инженеров, умеющих управлять командами ИИ и контролировать их качество (эти скиллы нужно качать уже сейчас, я как-то писал про это).
● Знакомство с ИИ становится самым важным навыком для резюме в технологической сфере (технолуддитов я уже перестал рассматривать всерьёз).

Январь 2027
Agent-2, следующий значительный шаг OpenBrain, качественно почти не уступает лучшим людям-экспертам в инженерии исследований (проектирование/реализация экспериментов).
● Роль людей-инженеров/исследователей на переднем крае все больше напоминает роль менеджера ИИ-"команды".

Март 2027
● Появляется Agent-3, достигающий статуса "сверхчеловеческого кодера" (superhuman coder): он быстрее, дешевле и превосходит лучших людей-кодеров.
● В передовых лабораториях, таких как OpenBrain, написание кода считается полностью автоматизированным.
● Люди-инженеры остаются в штате в основном для управления командами копий Agent-3, используя комплементарные навыки (такие как "исследовательский вкус" (research taste) - принятие решений о том, что изучать дальше, какие эксперименты проводить, распознавать новые парадигмы), которые сложнее автоматизировать.

Июнь 2027
● В передовых лабораториях большинство людей-инженеров/исследователей больше не приносят реальную пользу в непосредственном написании кода или исследованиях. Некоторые не осознают этого и микроменеджат свои ИИ-команды, принося больше вреда.
● Лучшие люди-исследователи ИИ больше не пишут код, оставаясь полезными в собственно исследованиях.

Июль 2027
● Выпускается Agent-3-mini - более дешевая, общедоступная версия Agent-3.
● Найм новых программистов практически прекратился.
● Самой ценной становится роль консультанта по интеграции ИИ в бизнес.

Октябрь 2027
● Растет общественное осознание потери рабочих мест. К этому моменту 25% рабочих мест, существовавших в 2024 году и предполагавших удаленную работу, выполняются ИИ. Обсуждаются/внедряются государственные программы, такие как профессиональная переподготовка и страхование по безработице.

С середины 2028 и далее (в обеих концовках сценария)
● Происходит масштабная экономическая трансформация. Люди продолжают терять рабочие места, в том числе в сферах, связанных с разработкой ПО, по мере драматического роста возможностей ИИ.
● Традиционная роль человека-разработчика ПО в значительной степени устаревает, будучи вытесненной либо непосредственно ИИ, либо людьми, управляющими/интегрирующими ИИ-системы.

(концовки касаются судьбы человечества в целом и представляют интерес для любителей научной фантастики :))

#ai #review #article
🔥7👍53
AI 2027, хронология влияния ИИ на разработку ПО (3/3)

Релевантные графики

1. Длительность задач кодинга, которые ИИ-агенты могут выполнять автономно
Иллюстрирует экспоненциальный рост "временного горизонта" - сложности и длительности задач по разработке ПО, с которыми ИИ могут справляться самостоятельно с заданной надежностью.

Почему важен: Это прямое визуальное подтверждение растущих возможностей ИИ именно в сфере разработки ПО. График показывает, как быстро ИИ осваивают задачи, ранее требовавшие недели, месяцы или даже годы работы квалифицированных программистов, что является основой для прогнозов о вытеснении человеческого труда.

В пояснении указано, что переход от решения задач, которые требуют недели работы человека, к задачам, которые требуют года, будет в 2 раза проще, чем переход от 1-часовых до 1-недельных задач.

2. Появление superhuman coder, прогнозы
Показывает распределение вероятностей того, когда, по мнению разных прогнозистов (включая авторов AI 2027), появится "cверхчеловеческий кодер" (superhuman coder).

Почему важен: Этот график фокусируется на ключевом переломном моменте - появлении ИИ, превосходящего лучших людей-программистов. Достижение этой вехи напрямую связано с радикальными изменениями на рынке труда в разработке ПО.

3. Падение цен на инференс LLM
Показывает резкое снижение стоимости (9-900x в год) инференса LLM с течением времени для различных задач.

Почему важен: Снижение стоимости делает использование мощных ИИ, способных писать код, экономически выгодным в широких масштабах. Это ключевой фактор, способствующий автоматизации и, как следствие, влияющий на рабочие места разработчиков.

#ai #review #article
🔥13👍74
AI 2027, что делать? (1/2)

Прогноз AI 2027 наделал много шума, хотя обозначенным трендам уже несколько лет, а некоторые вещи даже явно озвучиваются как цели ИИ-компаний (как, к примеру, создание ИИ-исследователя).
Разве что вопрос в сроках, которые сокращаются в каждом следующем прогнозе, но это тоже норма - мы наблюдаем экспоненту в развитии технологий.

Тем не менее, у многих возникает вопрос - а что делать?

Disclaimer
● примем сценарий AI 2027 как возможный вариант будущего;
● мы решили остаться в IT (принимая, что роботизация произойдет вскоре после автоматизации кодинга, и фокус на адаптации и возможностях внутри IT сейчас кажется более прагматичным, чем смена области на "физическую");
● камон, я ж рандомный чел без неймдроппинга из телеги ;)

Итак, сценарий AI 2027 начинает разворачиваться на наших глазах.
Простые ИИ-агенты для кодинга существуют с полгода как часть Cursor/Windsurf/etc.
Уже начали появляться более автономные агентские системы (как Devin). Они пока ненадежны, но быстро улучшаются.

Нам нужно найти оптимальные точки приложения усилий, чтобы быть готовыми к грядущим изменениям.

Прямо сейчас: навыки работы с ИИ-инструментами

Признать реальность сценария
Не отмахиваться от прогнозов как от "просто хайпа", допустить, что даже если они не сбудутся на 100%, направление развития однозначное.
Это первый шаг для обретения мотивации к адаптации.

Включать ИИ-ассистенты в работу
Освоить существующие инструменты (Cursor / агентские системы / MCP / Perplexity / DeepResearch / etc), научиться эффективно делегировать им рутинные задачи, уметь с ними "договариваться" (промпты, правила, настройки), быстро проверять и интегрировать ИИ-код.
Цель: увеличить свою производительность кратно уже сейчас.

Следить за фронтиром
Наблюдать за релизами ведущих ИИ-лабораторий, читать технические отчеты, понимать бенчмарки и реальные возможности новых моделей.
На рынке из-за ускорения прогресса сейчас одновременно присутствуют инструменты, которые могут как вообще не повлиять на вашу производительность, так и повысить ее в разы, и нужно учиться делать осознанный выбор.

Начать переоценку своих сильных сторон
Какие задачи в вашей работе ИИ уже сейчас делает с приемлемым качеством? Какие пока нет? Где вы приносите уникальную ценность (глубокое понимание бизнес-логики, архитектурное видение, решение нечетко поставленных задач, коммуникация с заказчиком и коллегами)?
Перепроверяйте список потенциально автоматизируемых задач с выходом новых моделей.

Качать правильный нетворкинг
Искать единомышленников, сообщества для обмена опытом, собираться в стихийные команды.
Меньше читать пустых и хайповых новостей от "ИИ-журналистов", которые сами не используют то, о чём пишут, и больше мнений и реальных кейсов от практиков.

#ai #futurism
👍18🔥8👎21🕊1
AI 2027, что делать? (2/2)

Краткосрочная стратегия: cмещение фокуса с написания кода

Переход к роли менеджера / ИИ-техлида
По мере появления более способных ИИ (уровень Agent-1), сознательно смещать фокус с написания каждой строки кода на:
* декомпозицию сложных задач на подзадачи для ИИ;
* формализацию спецификаций и требований;
* ревью кода, сгенерированного ИИ (поиск неявных ошибок, проблем с архитектурой, безопасностью);
* интеграцию и оркестрацию работы ИИ-агентов.
Тут, конечно же, будет проще тем, кто уже работал на позициях уровня senior+ и/или научится привлекать ИИ для таких задач.
+ Остаточная сложность

Углубление в архитектуру и системный дизайн
Чем больше кода пишет ИИ, тем важнее становится роль человека в проектировании общей структуры системы; взаимодействии её с другими системами и командами; выстраивании границ, API и протоколов; выборе правильных подходов и технологий на высоком уровне.
+ Про повышение уровней абстракции

Развитие продуктового мышления
Глубоко понимать бизнес-контекст, потребности пользователей, уметь транслировать их в технические решения высокого уровня, которые затем можно детализировать с помощью ИИ.

Создание финансовой подушки
Сценарий подразумевает экономическую турбулентность. Начать формировать резервы на случай временной потери дохода или необходимости переобучения.
В идеале резервов должно быть столько, чтобы хватило на 3+ года.

Заняться здоровьем/физкультурой
Во-первых, это сильно поможет адаптации к изменениям, а во-вторых, нужно постараться "донести" себя в адекватном физическом, умственном и психическом состоянии до возможных существенных прорывов в медицине.
+ Спорт - это не инвестиция
+ Житие тогда у нас тяжкое было
+ 300 недель

Среднесрочная стратегия: возможные специализации и новые роли

Специализация на управлении ИИ-командами
К моменту появления Agent-2/3, управление ИИ-разработчиками станет полноценной профессией, в которую будут переходить как IT-менеджеры, так и разработчики. Это потребует навыков постановки задач, контроля качества, оценки производительности ИИ, возможно, даже "отладки" их поведения.
+ Чёрный ящик

Переход в ИИ-интеграцию / консалтинг
По мере появления мощных публичных моделей (Agent-3-mini), возникнет огромный спрос на специалистов, помогающих бизнесу внедрять ИИ, адаптировать процессы, обучать сотрудников. Это потребует сочетания технических знаний, понимания бизнеса и коммуникативных навыков (да, снова софт-скиллы).

Доменная экспертиза + управление ИИ
Стать экспертом не просто в кодинге, а в применении ИИ для решения задач в конкретной области (биотех, финансы, продажи и т.д.). Вы будете ставить задачи ИИ и интерпретировать результаты в своей области.

Долгосрочная перспектива: адаптивность, человеческие качества, диверсификация

Адаптивность как главный навык
Быть готовым к тому, что даже новые "ИИ-менеджмент"-роли могут быть автоматизированы следующим поколением ИИ (Agent-4/5 и далее). Постоянное обучение и готовность радикально менять сферу деятельности станут нормой.

Ставка на "человеческое"
Развивать навыки, которые ИИ сложнее всего имитировать: эмпатия, лидерство, построение сложных социальных связей, стратегическое видение человеческих ценностей и целей, креативность в плохо формализуемых областях, физическое взаимодействие с миром (если вы рассматриваете такой вариант).

Диверсификация источников дохода
Не полагаться только на зарплату. Рассмотреть разного рода инвестиции, создание собственного (возможно, небольшого и нишевого, через пет-проекты) бизнеса, использующего ИИ как инструмент.
Затевать стартап, который "взлетит" через 5+ лет сейчас - не очень умно, т.к. горизонт планирования продолжит сокращаться.

Готовность к новой экономической модели (ББД?)
Сценарий прямо указывает на массовые увольнения и переход к экономике, где основную работу выполняют ИИ. Морально и финансово готовиться к миру, где может появиться Безусловный Базовый Доход, а ценность человеческого труда и интеллекта будет пересмотрена. Искать смысл, самореализацию и свою нишу, хобби вне традиционной работы.

#ai #futurism
2🔥24👍7👏5👎1🕊1
С появлением Gemini 2.5 Pro проблема заполнения её 1м контекста стала особенно актуальной.

Я уже как-то советовал для таких целей использовать Repomix, и сам постоянно этим пользуюсь для больших задач, но, кажется, и сами разработчики Cursor тоже этим озаботились.

На скринах - превьюшки от дизайнера Cursor, где он спойлерит возможную будущую фичу для того, чтобы сразу выбрать нужный набор файлов и положить их в контекст и при этом видеть, сколько токенов будет потрачено.

Весьма нужная фича, т.к. в текущей реализации контекст заполняется недетерминированно/долго/дорого.
Ждём :)

#cursor
🔥12👍7🤗1
Улучшения в AI прототипировании

В общем, сейчас набирает популярность такой класс AI-тулинга, как Prompt Coding - причем, в отличие от вайб кодинга, предполагается, что юзер в принципе не будет смотреть код (он тупо скрыт за какой-то дальней вкладкой). Аудиторию таких инструментов - это либо не программисты, которые хотят сделать какой-то программный продукт в кратчайшие сроки (в т. ч. сайт), либо программисты, которые быстро хотят что-то запрототипировать.
В общем, на этом поприще за последнюю неделю накопилось ряд значимых новостей, которыми я с вами и поделюсь.

1. ReplIt AI выпустили вторую версию своего билдера, которая по их завялениям стала быстрее, выше, сильнее лучше. Подробнее в посте Игоря на канале @ai_product.

2. lovable.dev - обновили свою платформу и дали возможность программистам не только промпт-кодить, но и просто кодить (Dev Mode), т. е. прямо по старинке ручками вносить правки в сгенерированный код. А также, дали возможность регистрировать домены прямо внутри lovable - я подозреваю, для не-IT пользователей регистрация и парковка домена стали основной проблемой) И они ее решили таким вот образом.

3. И, наконец, Google разразились кучей новинок, в т. ч. выпустили свою No Code платформу-убийцу всех остальных No Code платформ: Firebase Studio. Из приятного - код генерит очень быстро, заметно быстрее конкурентов. Но код этот у меня нормально пока не заработал, см. эксперимент ниже. Еще, Валерий Ковальский тоже попробовал новый инструмент и подробнее описал свой опыт тут.

А кто лучший?
Смотря как сравнивать. Я попросил все вышеперечисленные сервисы сгенерировать тулзу для подсчета кол-ва строк кода в репозитории. С первой попытки не справился ни один сервис.
Промпт специально сделал максимально простым и не очень точным, как если бы писал обычный пользователь:
Implement an app that takes a URL to GitHub repo, analyzes it and returns total code lines count and its size in bytes

Но только lovable как-то худо-бедно справился после 3-х ошибок и 3-х моих комментариев (на самом деле, все равно считает не очень точно) - по сути я просто пробовал сканировать репо и писал текст ошибки в чат - всю эту работу AI-агент мог бы делать сам. Вот ссылка на получившееся приложение: https://code-size-inspector.lovable.app/ Саму историю чата не нашел как там пошерить.
Кстати, самый стильный дизайн получился у bolt.new. Но вот только логика подсчета кол-ва строк так и не заработала правильно.
В итоге, опираясь только на результаты этого субъективного эксперимента для чего-то функционального можно рекомендовать lovable.dev, а если нужно просто, чтоб получилось красиво (лендинг, например), похоже, что с bolt.new эту цель достичь можно быстрее, чем с остальными. Первый скрин - lovable, второй - bolt. Есть еще v0.dev, storm.dev - они в моей задачи тоже оказались слабы.

Чего не хватает всем этим инструментам?
Агентности. При возникновении багов о ошибок, агент сам может их отлавливать в браузере и итеративно фиксить. Но что-то мне подсказывает, что через пол года-год мы и такую автономность тоже увидим.

В общем, конкуренция среди AI тулинга нарастает и гиганты тоже не дремлют. Очень интересно наблюдать за этой гонкой, какие из этих сервисов (кроме гигантов) выживут через год или, тем более, через два - загадка.

А используете ли вы что-то для No Code прототипирования? И как вообще относитесь к таким тулзам? Похоже, что все идет к тому, что несложные сайты и приложения будут генерироваться AI, вообще без участия программистов и любой желающий сможет создавать PoC / MVP своего продукта.

#nocode #lovable #bolt #replit
👍11
ChatGPT 4.1

Не знаю, интересно ли читать про сомнительные релизы моделей, но, может, кому сэкономлю время.

tl;dr
Релиз зайдет тем, у кого основной рабочей моделью для разработки до сих пор была модель уровня ChatGPT 4o.

А если вы избалованы Sonnet'ом и окончательно развращены Gemini 2.5 Pro, этот релиз вас оставит в недоумении.

Релиз
Выпустили ChatGPT 4.1 с как модель для разработчиков, целую supermassive black hole (скорее всего именно она скрывалась некоторое время в бенчах и на OpenRouter под кодовым именем Quasar).

У неё 3 варианта - обычная, mini & nano.
Тут я буду рассматривать обычную, самую умную.

Доступна модель только по API (т.е. на сайте ChatGPT её не будет).
В Windsurf её сделали бесплатной на неделю, в Cursor - на день, в OpenRouter тоже завезли.

Давайте про плюсы

1м контекста, причём этот контекст модель держит хорошо для не-ризонера (по крайней мере до 120к согласно бенчу Fiction.LiveBench), но отстаёт по его удержанию от лидеров

скорость - очень быстро переваривает промпт и очень быстро генерит ответ (отчасти из-за того, что она не ризонер)

цена output-токенов примерно в 2 раза ниже, чем у Sonnet/Gemini

Все остальные её подвижки - они относительно 4o, довольно слабой модели для кодинга, и именно с ней сами OpenAI новую модель и сравнивают.

Но даже со всеми этими улучшениями она ощутимо хуже Sonnet/Gemini:
● получше в следовании инструкциям, чем 4o;
● охотнее использует инструменты в агентском режиме (тут она даже преодолевает крайне низкую планку o3-mini);
● умнее в ряде hard-skill бенчей, включая олимпиадные задачи, но, как ни странно, не во всех - иногда примерно те же результаты, что и у 4o.

Релевантные бенчмарки
Aider Polyglot, 13 место - близкие к реальным задачи разработки;
Fiction.LiveBench - удержание длинного контекста;
Scale MultiChallenge, 10 место - новый интересный бенч, про стабильность работы в многоходовых диалогах с людьми;
LiveBench Coding, 13 место (тут какая-то аномалия, mini-вариант модели - на 9м месте) - олимпиадные задачки по программированию.

Личный опыт
Провел несколько часов с моделью в Cursor/Windsurf в попытках понять, зачем она существует, и по ощущениям как на полгода-год назад вернулся, даже перечислять все косяки лень.

Для кого этот релиз?
● для тех, кто в силу каких-либо причин вынужден был использовать 4o, но вот теперь у них есть выбор :)
● для тех, у кого хорошо разбиваются рабочие задачи на мелкие и при этом не очень сложные куски;
● у кого есть потребность быстро писать много кода по четким инструкциям (а потом выбрасывать и снова писать);
● возможно, это рабочая лошадка для будущих фронтир моделей (o3/o4-mini), которые её как раз смогут эффективно использовать как исполнителя.

Короче, как по мне, так пропускаем этот релиз и ждём o3/o4-mini как следующие потенциально интересные модели.

А может, я что-то упускаю?
Дайте знать - может, есть какие-то сценарии использования, где она лучше всех других моделей по сочетанию характеристик?



Почитать про текущую SOTA по версии меня:
Gemini 2.5 Pro Experimental, общая инфа
Gemini 2.5 Pro Experimental, личные впечатления
Gemini 2.5 Pro Exp + Cursor

#news #ai #model
👍11🔥73🥱1
ChatGPT o3 / o4-mini, где взять

Ну, новости про релиз наверняка все уже прочитали, обзор с бенчами не только от самих OpenAI будет позже, а вот где модели попробовать - расскажу.

Cursor
Есть обе модели:
● o3 за 30 центов за запрос
● o4-mini - пока что бесплатно

Windsurf
Есть o4-mini-high, бесплатно до 21 апреля.
o3 почему-то нет.
Вообще норм распиарили Windsurf с этими новыми релизами (upd: а, так его OpenAI собираются покупать за $3млрд).

OpenRouter
Все модели добавили, можно использовать как по API, так и в чате самого OpenRouter.
(для o3 требуется свой API-ключ)

ChatGPT, сайт
Добавили все модели для Plus и Pro пользователей.
Для Pro лимитов практически нет.
Лимиты для Plus:
● o3 - 50 сообщений в неделю
● o4-mini - 150 сообщений в день
● o4-mini-high - 50 сообщений в день

OpenAI API
Доступна o4-mini во всех вариантах, для o3 требуется верификация

Что тестировать?
● для меня в первую очередь интересно то, как они будут справляться с вызовом тулов, потому что в прошлом o-модели были крайне плохи в этом, а тут обещали существенные улучшения

● удержание контекста - 200к, сравняли с Sonnet, и интересно, насколько он "честный"

● общие возможности по ризонингу на сложных задачах - по бенчам модели показали хороший рост метрик в "хардовых" категориях, так что интересно, как будут себя вести на реальных кодовых базах, особенно на нетривиальных задачах.

#news #ai #model
👍10🔥81
ChatGPT o3 и немного o4-mini (1/2)

Итак, несколько дней назад вышла долгожданная модель o3 и семейство o4-mini.
Новостники по сложившейся традиции объявили революцию в ИИ, конец профессии разработчика и наступление эры AGI.
Да, ожидания были высокими, особенно в свете последних релизов Anthropic и Google.
Попробуем разобраться, насколько они оправдались.

Кратко по выбору модели для разработки
Универсального лидера нет - выбор зависит от задачи, бюджета и требований к контексту/ризонингу.

Повседневные задачи
🥇 Gemini 2.5 Pro: универсальная модель, фактически единственная для работы с длинным контекстом, отличный ризонинг, но местами проседает в работе с тулингом
🥈 Claude 3.7 Sonnet: закрывает те задачи, которые требуют проактивности, хорошей агентскости, а также повседневную мелочь

Архитектура и планирование
🥇 Gemini 2.5 Pro: в силу общей эрудиции и большого контекста с ней такие вопросы решать удобнее всего
🥈 o3: для каких-то узких и нетривиальных случаев, где важен мощный ризонинг

Сложные задачи, чистый ризонинг
🥇 o3: самый мощный на текущий момент ризонер. Подойдет для брейншторминга, поддержки в принятии сложных решений, работы над алгоритмическими проблемами
🥈 Gemini 2.5 Pro: лучший практический выбор из-за большого контекста, отличного ризонинга и адекватной цены/длины вывода

Длинный контекст (>200k)
🥇 Gemini 2.5 Pro: единственный приемлемый вариант на таком контексте

А где же o4-mini?
Если у вас есть доступ ко всем вышеперечисленным моделям, то они успешно перекрывают все её возможные применения, по крайней мере в разработке, а на фоне её проблем, которые перекликаются с таковыми у o3, я не нашёл ей места в рабочих задачах.

OpenAI o3
Флагманский ризонер, заточенный под сложные задачи и научившийся работе с инструментами.

Плюсы
🟢 Мощный ризонинг - главное преимущество. Модель бьёт все бенчмарки по этому показателю, и в реальности это подтверждается - она способна строить длинные логические цепочки, раскапывать нетривиальные проблемы и плюс к этому использовать инструменты: веб-поиск, Python-интерпретатор и анализ изображений прямо в ходе "размышлений".
Что приводит нас ко второму плюсу:

🟢 Использование инструментов - прошлые модели о-серии использовали инструменты либо нехотя, либо вообще отказывались их задействовать.
Тут же ситуация значительно лучше, но с оговоркой - на сайте ChatGPT она пользуется ими гораздо охотнее, чем через API или в каком-то другом софте.
Веб-версию даже можно использовать как мини-вариант DeepResearch, когда модель может делать десятки вызовов к разным инструментам для анализа какой-то темы или решения задачи - и всё в рамках одного запуска.

+/-
🟡 (Само)уверенность и неуступчивость - o3 реже вам поддакивает и соглашается, если вы ей возражаете, и может аргументированно отстаивать свою позицию.
Это ценно для брейншторминга и поиска объективных решений там, где разные мнения имеют право на существование, но запросто может и создавать проблемы.

#ai #model #review
👍11🔥92