NEW BOT Телеграм, страница

Forwarded from CTOLOGY KZ

🧠 AI в программировании: какие инструменты взять и как правильно ими пользоваться

Сегодня хочу познакомить вас с рецептами в мир AI разработки от Алексея Картынника aka АйТиБорода. Он считает, и я с ним полностью согласен, что если ты ещё не используешь AI в коде – ты теряешь... Разработчики, которые разобрались в инструментах, уже бустят свою продуктивность, а те, кто игнорирует AI, скоро будут заменены теми, кто с ним работает. Вопрос не в том, пишет ли AI код лучше человека, а в том – кто быстрее и эффективнее.

Но тут есть нюанс: просто поставить Copilot и тыкать в него – бесполезно. Инструменты надо уметь использовать. И сейчас я расскажу, что ставить и как работать с AI, чтобы реально прокачать свою разработку.

На данный момент самые топовые среды, которые дают доступ к продвинутым AI-фичам:

- Cursor – AI-first IDE, основанная на Visual Studio Code, но с встроенными ассистентами, контекстной поддержкой и мощным AI-редактированием кода
- Windsurf – альтернатива Cursor с лучшей работой с большими кодовыми базами
- JetBrains AI Assistant – ИМХО не стоит, а стоит дождаться Junie о нем я писал здесь

Переключись на AI-IDE, лучший вариант – Cursor. Включи поддержку AI-помощников, настрой контекстную индексацию кода. Используй AI-редактирование кода, не просто копируй из чата, а редактируй прямо в файлах.
Если не хочешь менять основную IDE(a), держи Cursor как вторую для AI-генерации кода и рефакторинга.

Лучшие AI-кодогенераторы
- GitHub Copilot – мощное автодополнение и AI-чат прямо в IDE
- Cline – ассистент для написания и рефакторинга кода, идеален для генерации тестов и автодополнений
- Aider – AI-инструмент, который правит код в командной строке
- Tabnine – альтернатива Copilot, но хуже

Настрой контекст – многие ошибаются, не подключая AI к коду проекта. В Cursor это делается автоматически, в Copilot – через workspace-индексацию. Используй Agent-режим – вместо копипаста кода, пусть AI сразу вносит правки в файлы. В Cursor есть Cursor Composer, в Copilot – новый Agent Mode. Учись писать промпты – не просто "напиши функцию", а

напиши функцию для обработки данных в формате JSON, используя fastAPI и Pandas

Терминал – это та часть работы, где AI тоже может сильно помочь (DevOps / SA 👋)

- Warp – лучший AI-терминал, который помогает писать команды и объясняет ошибки
- Fig – добавляет AI-комплит для bash и zsh
- Shell GPT – AI для написания сложных bash-скриптов

Включи AI-ассистента в терминале, чтобы не гуглить команды. Используй AI для работы с логами – пусть он сам объясняет ошибки. Пробуй автогенерацию сложных команд и скриптов – Warp и Shell GPT тут рулят

AI – не магия, его надо правильно использовать. Вот четыре ключевых вещи, которые помогут тебе выжать из него максимум

0️⃣0️⃣ Контекст – всему голова. Большинство ошибок от того, что AI не понимает проект. Решение – в Cursor или Copilot включи индексацию проекта
0️⃣1️⃣ RAG retrieval-augmented generation – твой друг. AI не может помнить всё, но может загружать нужные данные. Решение – используй внешнюю базу данных с документацией проекта. Cursor поддерживает RAG
WebSearch для актуальной информации.
1️⃣0️⃣ AI не знает свежих библиотек, но может гуглить. Решение – включи WebSearch в AI-ассистентах
1️⃣1️⃣Не жалей API-ключи. Бесплатные версии инструментов ограничивают токены. Решение – купи API-ключи для OpenAI или Anthropic и подключи их в Cursor или Cline

Переходи на AI-IDE, держи Cursor как минимум для AI-запросов. Используй AI-кодогенераторы – Copilot, Cline, Aider. Настрой AI-терминал – Warp или Shell GPT. Следи за контекстом и настройками AI – это сильно влияет на качество ответов. Экспериментируй с методами RAG и WebSearch – это делает AI умнее

Это не игрушка, это инструменты, которые уже реально ускоряют разработку. Если ты не начнёшь разбираться сейчас, через год будешь отставать от тех, кто разобрался.

#AI #Разработка #ИскусственныйИнтеллект #Code #AIИнструменты

Please open Telegram to view this post

VIEW IN TELEGRAM

YouTube

AI-БАЗА по программированию в 2025 / Полный гайд разработки с ИИ: теория, инструменты, примеры

👉 Приходи в "Эволюцию Кода" и прокачивай свой навык программирования в паре с ИИ: https://web.tribute.tg/l/ge

Сегодняшний видос содержит все базовые знания, необходимые для эффективного программирования в паре с ИИ: термины, подходы, инструменты и личный…

👍16❤1

1.2K views05:51

AI-Driven Development. Родион Мостовой

Как айтишнику поздравить прекрасных дам с 8 марта?

Например, воспользоваться потрясающими возможностями текстогенерации GPT-4.5!

Дорогие девушки в IT!

Пусть в вашей жизни всегда будет IDEальный код, заказчики без багов и дедлайны, которые отступают при виде вашего уверенного взгляда! Желаем, чтобы Stack Overflow отвечал вам с первого раза, билды всегда проходили успешно, а кофе оставался горячим даже после трехчасового дебага.

Вы – та самая переменная, которая делает мир технологий ярче и интереснее. С 8 Марта! Пусть компилятор судьбы всегда выдаёт вам «SUCCESS»! 🌷✨

А еще, можно пойти дальше и генерировать через нее индивидуальные поздравления с учетом контекста и даже писать стихи и песни, посвященные конкретно вашей музе/мужу.

И, напоследок, стих для милых дам в IT от Sonnet 3.7 в стиле Шекспира:

Ода женщинам в IT

Прекрасные создания из мира кода,
Чей ум, как алгоритм, изящен, смел!
Вы — те, кто покорили цифр природу,
И в логике достигли высший предел.
Как солнце озаряет темны своды,
Так вашим гением сияет монитор.
Где мужи видят лишь преграды и невзгоды,
Там женский взгляд находит верный путь, как детектóр.
О дамы серверов и баз данных царицы!
В сей день весенний вам хвала и честь!
Пусть ваши мысли, словно быстрые частицы,
Не знают граней, что нельзя учесть.
Шекспир бы восхитился вашей силой,
Сонет сложил о каждой строчке кода.
Так пусть же праздник сей вам будет милым,
А багов не встретится в течение года!

С праздником, дорогие, девушки, спасибо, что вы у нас есть! Побежал скорее генерировать стихи-поздравления для мамы :))

👍4❤3

1.52K views11:18

AI-Driven Development. Родион Мостовой

LLM-фотошоп от Google

Сорри, гайз, не удержался, чтобы не поделиться. Давненько меня AI так не удивлял. В общем, новая моделька от Google (gemini-2.0-flash-exp) получилась настолько мультимодальная, что научилась не только принимать изображения, но и отдавать отредактированное в соответствии с запросом пользователя изображение обратно. Посмотрите скрины, сразу станет понятно.
Ссылка на наш полный диалог: https://aistudio.google.com/app/prompts?state=%7B%22ids%22:%5B%221leiAYVPmJFRFkU1KdrNu3xgr0TcjckQn%22%5D,%22action%22:%22open%22,%22userId%22:%22112838537316031640393%22,%22resourceKeys%22:%7B%7D%7D&usp=sharing

Самое крутое, что эта штука уже доступна по API, т. е. гипотетически можно делать AI-фотошоп в виде телеграм бота и при должной раскрутке, вероятно, неплохо зарабатывать на этом. Моделька эта экспериментальная и пока адекватный результат может выдавать не с первого раза. Но вот вам возможное решение: берем и дружим эту модель с какой-нибудь другой хорошей VL моделью - генерим изменение через gemini-2.0-flash-exp, отправляем результат на анализ другой ллмке, и затем, если вышло плохо, повторяем попытку - вот уже и результаты будут сильно стабильнее. В общем, дарю идею и подход) Ну, и наверняка, можно напридумывать массу частных кейсов, решающих какую-то конкретную узкую задачу для бизнеса.

Доступно это великолепие в Google AI Studio (модель gemini-2.0-flash-exp), либо через API.

👍6🔥5

1.56K views07:05

AI-Driven Development. Родион Мостовой

0:22

This media is not supported in your browser

VIEW IN TELEGRAM

Идея: Автоматизация проектирования в AutoCAD через MCP

Для тех, кто впервые видит аббревиатуру MCP (написала GPT 4.5):

Model Context Protocol (MCP) — это новый открытый стандарт, который позволяет искусственному интеллекту напрямую «общаться» с любыми приложениями и сервисами, от GitHub до Blender. Представьте себе универсальный переходник, с помощью которого нейросети легко подключаются к программам и начинают ими управлять — буквально «руками» и «глазами» ИИ становится софт, который мы используем ежедневно.

Кратко, MCP позволяет делать своего рода коннекторы для LLMок к разным сервисам/сайтам/программам. Вот сделали BlenderMCP, который позволяет ллмкам управлять моделированием в Blender.
По моим наблюдениям в сферу архитектуры все еще очень слабо проник AI и похоже, что, например, через связку AutoCAD .NET API + MCP можно наделить LLM способностью к проектированию прямо в AutoCAD - потенциально, из такого инструмента можно было бы сделать прибыльный бизнес или, как минимум, интересный пет проект.
Так совпало, что моя прекрасная супруга - опытный архитектор, поэтому если вдруг кто-то вдохновится делать такой продукт - пишите мне - можно сразу в наш чатик, попробую помочь чем смогу.

PS. Для тех, кому интересно подробнее ознакомиться с устройством MCP, могу порекомендовать тематическую серию постов на канале "Этихлид": https://news.1rj.ru/str/etechlead/136

👍12😁1

1.66K views08:03

AI-Driven Development. Родион Мостовой

LiveSWEBench: Реальный бенчмарк SWE-агентов для народа

Пока все пишут о новой лламе, AI-2027 и картинках в Гибли-стиле, расскажу вам про новый интересный бенчмарк, оценивающий качество AI агентов-программистов. Причем не всех в подряд, а тех, которые AI-разработчики чаще всего используют в реальности (Cursor, Windserf, aider, GitHub Copilot).

В чём проблема существующих бенчмарков?
Когда мы оцениваем AI-ассистентов для программирования, то выясняем, что большинство тестов либо проверяют их на изолированных задачах (HumanEval, LiveCodeBench), либо в полностью автономном режиме (SWE-Bench). Но это не совсем отражает реальность.
В повседневной работе мы взаимодействуем с AI по-разному: иногда просим его полностью решить задачу, иногда — внести конкретные правки в файл, или просто используем автодополнение для ускорения написания кода.
Как LiveSWEBench это исправляет?
LiveSWEBench оценивает AI-ассистентов в трёх ключевых сценариях:
1️⃣ Полностью агентные задачи
AI получает только описание проблемы из GitHub и должен самостоятельно решить её от начала до конца: найти нужные файлы в большой кодовой базе, разобраться в архитектуре, написать решение и протестировать его.
2️⃣ Задачи на "целевые правки"
Более реалистичный сценарий: разработчик уже знает, какой файл нужно изменить, и может объяснить на высоком уровне, что требуется сделать. AI должен внести правильные изменения в указанные файлы.
3️⃣ Задачи автодополнения (tab-autocompletion)
Самый "легкий" для AI случай (но внезапно не самый простой!): разработчик начал писать строку или функцию, а AI должен корректно её завершить в контексте всего проекта.

В чем же фишки LiveSWEBench?

1. Реальные задачи из реальных проектов: тесты основаны на парах "проблема-решение" из крупных open-source репозиториев c GitHub, включая freeCodeCamp, PyTorch, Wagtail (Django), JUnit5 и JSON for Modern C++. Обратите внимание на мултиязычность! (в отличие от SWE-bench)
2. Защита от "загрязнения": используются только относительно свежие PR (за последний год), которые с меньшей вероятностью попали в обучающие данные AI. Бенчмарк регулярно обновляется.
3. Попытка объективной оценки: решения проверяются запуском реальных тестов из проекта.

И что в итоге?
В полностью агентных задачах лидируют SWE-Agent, Github Copilot (VSCode), Windsurf - почти все на базе нашей любимой Claude 3.7 Sonnet.
В задачах целевых правок многие инструменты показывают заметный прирост производительности (особенно Aider).
Задачи автодополнения оказались неожиданно сложными: AI часто находят правильное решение, но затем добавляют лишний код, который ломает тесты. Тут вообще интересно, у них autocompletion Копайлота (44.83) показал лучшие результаты, чем Курсор (41.38) - вот так неждан.

Немного критики от меня
Несмотря на все усилия по борьбе с "загрязнением" данных (использование недавних PR (до года) и регулярное обновление), фундаментальная проблема остаётся: оценка проводится на популярных публичных репозиториях, которые с высокой вероятностью уже были включены в обучающие выборки современных LLM. Даже если конкретные PR не попали в тренировочные данные, модели могли "видеть" структуру проектов, стиль кода и общую архитектуру этих репозиториев. Это даёт им неявное преимущество.
Действительно показательным был бы бенчмарк на основе больших, но закрытых кодовых баз — внутренних проектов компаний, которые гарантированно не попали в обучающие данные. Такой подход позволил бы более объективно оценить способность AI-ассистентов разбираться в незнакомом коде и решать реальные, "свежие" для них задачи, с которыми сталкиваются разработчики в корпоративной среде. Но сделать такое сложно по понятным причинам.

Авторы обещают, что бенчмарк будет развиваться. Надеюсь, появится возможность фильтровать результаты для конкретного ЯП (создал issue). Ну и, ждем результатов по Cline и по Roo-Code.

Подробнее про бенчмарк тут: https://liveswebench.ai/details
Код бенчмарка тут: https://github.com/LiveBench/liveswebench

Что думаете про результаты и про сам бенчмарк? На сколько бьется с вашим опытом?

#бенчмарк #LiveSWEBench

👍16

1.35K viewsedited 19:29

AI-Driven Development. Родион Мостовой

Улучшения в AI прототипировании

В общем, сейчас набирает популярность такой класс AI-тулинга, как Prompt Coding - причем, в отличие от вайб кодинга, предполагается, что юзер в принципе не будет смотреть код (он тупо скрыт за какой-то дальней вкладкой). Аудиторию таких инструментов - это либо не программисты, которые хотят сделать какой-то программный продукт в кратчайшие сроки (в т. ч. сайт), либо программисты, которые быстро хотят что-то запрототипировать.
В общем, на этом поприще за последнюю неделю накопилось ряд значимых новостей, которыми я с вами и поделюсь.

1. ReplIt AI выпустили вторую версию своего билдера, которая по их завялениям стала ~~быстрее, выше, сильнее~~ лучше. Подробнее в посте Игоря на канале @ai_product.

2. lovable.dev - обновили свою платформу и дали возможность программистам не только промпт-кодить, но и просто кодить (Dev Mode), т. е. прямо по старинке ручками вносить правки в сгенерированный код. А также, дали возможность регистрировать домены прямо внутри lovable - я подозреваю, для не-IT пользователей регистрация и парковка домена стали основной проблемой) И они ее решили таким вот образом.

3. И, наконец, Google разразились кучей новинок, в т. ч. выпустили свою No Code платформу-убийцу всех остальных No Code платформ: Firebase Studio. Из приятного - код генерит очень быстро, заметно быстрее конкурентов. Но код этот у меня нормально пока не заработал, см. эксперимент ниже. Еще, Валерий Ковальский тоже попробовал новый инструмент и подробнее описал свой опыт тут.

А кто лучший?
Смотря как сравнивать. Я попросил все вышеперечисленные сервисы сгенерировать тулзу для подсчета кол-ва строк кода в репозитории. С первой попытки не справился ни один сервис.
Промпт специально сделал максимально простым и не очень точным, как если бы писал обычный пользователь:

Implement an app that takes a URL to GitHub repo, analyzes it and returns total code lines count and its size in bytes

Но только lovable как-то худо-бедно справился после 3-х ошибок и 3-х моих комментариев (на самом деле, все равно считает не очень точно) - по сути, я просто пробовал сканировать репо через получившееся приложение и писал текст ошибки в чат - всю эту работу AI-агент мог бы делать сам. Вот ссылка на получившееся приложение: https://code-size-inspector.lovable.app/ Саму историю чата не нашел как там пошерить.
Кстати, самый стильный дизайн получился у bolt.new. Но вот только логика подсчета кол-ва строк так и не заработала правильно.
В итоге, опираясь только на результаты этого субъективного эксперимента, для чего-то более-менее функционального можно рекомендовать lovable.dev, а если нужно просто, чтоб получилось красиво (лендинг, например), похоже, что с bolt.new эту цель достичь можно быстрее, чем с остальными. Первый скрин - lovable, второй - bolt. Есть еще v0.dev, storm.dev - они в моей задачи тоже оказались слабы.

Чего не хватает всем этим инструментам?
Агентности. При возникновении багов о ошибок, агент сам может их отлавливать в браузере и итеративно фиксить. Но что-то мне подсказывает, что через пол года-год мы и такую автономность тоже увидим.

В общем, конкуренция среди AI тулинга нарастает и гиганты тоже не дремлют. Очень интересно наблюдать за этой гонкой, какие из этих сервисов (кроме гигантов) выживут через год или, тем более, через два - загадка.

А используете ли вы что-то для No Code прототипирования? И как вообще относитесь к таким тулзам? Похоже, что все идет к тому, что несложные сайты и приложения будут генерироваться AI, вообще без участия программистов и любой желающий сможет создавать PoC / MVP своего продукта.

#nocode #lovable #bolt #replit

👍9❤1

2.4K views14:58

AI-Driven Development. Родион Мостовой

Forwarded from Этихлид

ChatGPT 4.1

Не знаю, интересно ли читать про сомнительные релизы моделей, но, может, кому сэкономлю время.

tl;dr
Релиз зайдет тем, у кого основной рабочей моделью для разработки до сих пор была модель уровня ChatGPT 4o.

А если вы избалованы Sonnet'ом и окончательно развращены Gemini 2.5 Pro, этот релиз вас оставит в недоумении.

Релиз
Выпустили ChatGPT 4.1 с как модель для разработчиков, целую supermassive black hole (скорее всего именно она скрывалась некоторое время в бенчах и на OpenRouter под кодовым именем Quasar).

У неё 3 варианта - обычная, mini & nano.
Тут я буду рассматривать обычную, самую умную.

Доступна модель только по API (т.е. на сайте ChatGPT её не будет).
В Windsurf её сделали бесплатной на неделю, в Cursor - на день, в OpenRouter тоже завезли.

Давайте про плюсы

● 1м контекста, причём этот контекст модель держит хорошо для не-ризонера (по крайней мере до 120к согласно бенчу Fiction.LiveBench), но отстаёт по его удержанию от лидеров

● скорость - очень быстро переваривает промпт и очень быстро генерит ответ (отчасти из-за того, что она не ризонер)

● цена output-токенов примерно в 2 раза ниже, чем у Sonnet/Gemini

Все остальные её подвижки - они относительно 4o, довольно слабой модели для кодинга, и именно с ней сами OpenAI новую модель и сравнивают.

Но даже со всеми этими улучшениями она ощутимо хуже Sonnet/Gemini:
● получше в следовании инструкциям, чем 4o;
● охотнее использует инструменты в агентском режиме (тут она даже преодолевает крайне низкую планку o3-mini);
● умнее в ряде hard-skill бенчей, включая олимпиадные задачи, но, как ни странно, не во всех - иногда примерно те же результаты, что и у 4o.

Релевантные бенчмарки
● Aider Polyglot, 13 место - близкие к реальным задачи разработки;
● Fiction.LiveBench - удержание длинного контекста;
● Scale MultiChallenge, 10 место - новый интересный бенч, про стабильность работы в многоходовых диалогах с людьми;
● LiveBench Coding, 13 место (тут какая-то аномалия, mini-вариант модели - на 9м месте) - олимпиадные задачки по программированию.

Личный опыт
Провел несколько часов с моделью в Cursor/Windsurf в попытках понять, зачем она существует, и по ощущениям как на полгода-год назад вернулся, даже перечислять все косяки лень.

Для кого этот релиз?
● для тех, кто в силу каких-либо причин вынужден был использовать 4o, но вот теперь у них есть выбор :)
● для тех, у кого хорошо разбиваются рабочие задачи на мелкие и при этом не очень сложные куски;
● у кого есть потребность быстро писать много кода по четким инструкциям (~~а потом выбрасывать и снова писать~~);
● возможно, это рабочая лошадка для будущих фронтир моделей (o3/o4-mini), которые её как раз смогут эффективно использовать как исполнителя.

Короче, как по мне, так пропускаем этот релиз и ждём o3/o4-mini как следующие потенциально интересные модели.

А может, я что-то упускаю?
Дайте знать - может, есть какие-то сценарии использования, где она лучше всех других моделей по сочетанию характеристик?

—

Почитать про текущую SOTA по версии меня:
● Gemini 2.5 Pro Experimental, общая инфа
● Gemini 2.5 Pro Experimental, личные впечатления
● Gemini 2.5 Pro Exp + Cursor

#news #ai #model

👍8

790 views05:39

AI-Driven Development. Родион Мостовой

Forwarded from ИИволюция 👾 (Сергей Пахандрин)

Не без ложки дёгтя для OpenAI в свежем тесте Aider polyglot coding benchmark:

– o3 дал 79,6% правильных ответов — выше, чем Gemini 2.5 Pro (72,9%), но стоит в 17 раз дороже — $111 против $6.32.

– o4-mini набрал 72%, то есть чуть хуже Gemini 2.5 Pro, и при этом оказался в 3 раза дороже — $19.64 против $6.32.

Выводы: по балансу цена/качество Gemini 2.5 Pro по-прежнему выглядит сильнее и интереснее для разработчиков, несмотря на крутость новых моделей OpenAI.

При этом Google вроде как готовит новую модель заточенную на разработку - Night Whisper и думаю, вполне могут прыгнуть выше по качеству сохранив при этом доступные цены.

ИИволюция

👍3

925 views06:13

AI-Driven Development. Родион Мостовой

А у вас какие результаты показали новые модели? Чувствуется прирост в качестве?

901 views06:13

AI-Driven Development. Родион Мостовой

Ещё, OpenAI выпустили свой аналог aider'a под названием Codex - это автономный агент для программирования, работающий из командой строки, фишка которого в мультимодальности (он умеет принимать изображения на вход), ну и оптимизированного под новые модельки OpenAI GPT-4.1, o3, o4-mini. Если они научат этого агента автономно запускать и проверять результат своей работы в браузере, то получится конкурент Devin'у.

Как известно, антропик накануне тоже выпустили похожий инструмент (мастерски сжигающий токены) Claude Code. Но у Codex, в отличие от Claude Code, исходники открыты: https://github.com/openai/codex

Демка от OpenAI: https://youtu.be/FUq9qRwrDrI?si=0wjY42NT_zwp1pBx

Ждём результатов сравнения с другими агентами в LiveSWEBench.

GitHub

GitHub - openai/codex: Lightweight coding agent that runs in your terminal

Lightweight coding agent that runs in your terminal - openai/codex

👍2

958 viewsedited 07:21

AI-Driven Development. Родион Мостовой

Суть вайб-кодинга в одном меме)) Не удержался :)

😁2

787 viewsedited 17:40

AI-Driven Development. Родион Мостовой

Forwarded from Откровения от Олега

0:22

This media is not supported in your browser

VIEW IN TELEGRAM

🤣23👍5

736 views17:40

AI-Driven Development. Родион Мостовой

Forwarded from Этихлид

ChatGPT o3 и немного o4-mini (1/2)

Итак, несколько дней назад вышла долгожданная модель o3 и семейство o4-mini.
Новостники по сложившейся традиции объявили революцию в ИИ, конец профессии разработчика и наступление эры AGI.
Да, ожидания были высокими, особенно в свете последних релизов Anthropic и Google.
Попробуем разобраться, насколько они оправдались.

Кратко по выбору модели для разработки
Универсального лидера нет - выбор зависит от задачи, бюджета и требований к контексту/ризонингу.

Повседневные задачи
🥇 Gemini 2.5 Pro: универсальная модель, фактически единственная для работы с длинным контекстом, отличный ризонинг, но местами проседает в работе с тулингом
🥈 Claude 3.7 Sonnet: закрывает те задачи, которые требуют проактивности, хорошей агентскости, а также повседневную мелочь

Архитектура и планирование
🥇 Gemini 2.5 Pro: в силу общей эрудиции и большого контекста с ней такие вопросы решать удобнее всего
🥈 o3: для каких-то узких и нетривиальных случаев, где важен мощный ризонинг

Сложные задачи, чистый ризонинг
🥇 o3: самый мощный на текущий момент ризонер. Подойдет для брейншторминга, поддержки в принятии сложных решений, работы над алгоритмическими проблемами
🥈 Gemini 2.5 Pro: лучший практический выбор из-за большого контекста, отличного ризонинга и адекватной цены/длины вывода

Длинный контекст (>200k)
🥇 Gemini 2.5 Pro: единственный приемлемый вариант на таком контексте

А где же o4-mini?
Если у вас есть доступ ко всем вышеперечисленным моделям, то они успешно перекрывают все её возможные применения, по крайней мере в разработке, а на фоне её проблем, которые перекликаются с таковыми у o3, я не нашёл ей места в рабочих задачах.

OpenAI o3
Флагманский ризонер, заточенный под сложные задачи и научившийся работе с инструментами.

Плюсы
🟢 Мощный ризонинг - главное преимущество. Модель бьёт все бенчмарки по этому показателю, и в реальности это подтверждается - она способна строить длинные логические цепочки, раскапывать нетривиальные проблемы и плюс к этому использовать инструменты: веб-поиск, Python-интерпретатор и анализ изображений прямо в ходе "размышлений".
Что приводит нас ко второму плюсу:

🟢 Использование инструментов - прошлые модели о-серии использовали инструменты либо нехотя, либо вообще отказывались их задействовать.
Тут же ситуация значительно лучше, но с оговоркой - на сайте ChatGPT она пользуется ими гораздо охотнее, чем через API или в каком-то другом софте.
Веб-версию даже можно использовать как мини-вариант DeepResearch, когда модель может делать десятки вызовов к разным инструментам для анализа какой-то темы или решения задачи - и всё в рамках одного запуска.

+/-
🟡 (Само)уверенность и неуступчивость - o3 реже вам поддакивает и соглашается, если вы ей возражаете, и может аргументированно отстаивать свою позицию.
Это ценно для брейншторминга и поиска объективных решений там, где разные мнения имеют право на существование, но запросто может и создавать проблемы.

#ai #model #review

👍4

688 views08:55

About

Blog

Apps

Platform