Code completion GPT-4o для Copilot и 8b(q) для Yandex Code Assistant
Наткнулся тут на доклад Яндекса про их Code Assistant, в котором руководитель ML лаборатории рассказывает о том, как они строили свой аналог GH Copilot и какими метриками мерили эффективность.
Спойлер: Acceptance rate (как часто юзеры тыкают на Tab при появлении подсказок) оказался не очень хорошей метрикой, поэтому они придумали для такой оценки более хитрую формулу, учитывающую длину подсказки.
Интересно, что исходя из его рассказала, модельку свою они тренировали только на префиксе и постфиксе, обучая ее заполнять середину (fill in the middle) - непонятно, учитывает ли их система доп. контекст в виде зависимых code symbols, или хотя бы файлы рядом. Еще, из интересного - моделька там под капотом квантизованная 8b (почему-то решили свою модель тренировать), а всего 8b из-за того, что нужен низкий Latency, а мощности на инференс ограничены. Если меня читают люди из Яндекса, расскажите, почему решили свою модельку обучать, а не взяли что-то готовое опенсорсное?
А для GitHub Copilot, кстати, стала доступа моделька "gpt-4o Copilot" для Code Completion - с учетом того, что ранее для подсказок использовалась gpt-3.5-turbo, качество подсказок теперь должно вырасти в разы. В целом, люблю и использую code completion, но из-за своей примитивности он довольно часто больше мешал, чем помогал - надеюсь, теперь ситуация изменится. Доступна новая моделька как для IDE от JetBrains, так и в VSCode, но чтобы заработало нужно явно ее выбрать в настройках.
Что еще интересного произошло?
Похоже, что все идет к тому, что скоро мы все-таки увидим маленькие 8b модели, достигающие уровня gpt-4 в кодинге.
Илон Маск & Co, наконец, выпустили свою великую и ужасную Grok-3. В кодинге thinking версия модели оказалась очень хороша, на уровне о1и o3-mini-high. Да и в целом люди модель хвалят. И у вас как впечатления от новой Grok?
OpenAI обновили свою GPT-4o до chatgpt-4o-latest-2025-01-29, добавив аж +10 пунктов в кодинге (по LiveBench, было 51, стало 61). Кстати, совсем скоро обещают выпустить новенькую GPT-4.5, а потом и GPT-5.
Алхимики исследователи из Microsoft целых 17 лет что-то делали и в итоге, по их заявлениям, придумали надежный способ использования квантовых компьютеров в проде. Новость сложная, малопонятная, но преподносят Microsoft все как очередную технологическую революцию. Вот интро-ролик с переводом на русский.
Выглядит это все многообещающе, но уже есть и критика. В общем, будем наблюдать.
Наткнулся тут на доклад Яндекса про их Code Assistant, в котором руководитель ML лаборатории рассказывает о том, как они строили свой аналог GH Copilot и какими метриками мерили эффективность.
Спойлер: Acceptance rate (как часто юзеры тыкают на Tab при появлении подсказок) оказался не очень хорошей метрикой, поэтому они придумали для такой оценки более хитрую формулу, учитывающую длину подсказки.
Интересно, что исходя из его рассказала, модельку свою они тренировали только на префиксе и постфиксе, обучая ее заполнять середину (fill in the middle) - непонятно, учитывает ли их система доп. контекст в виде зависимых code symbols, или хотя бы файлы рядом. Еще, из интересного - моделька там под капотом квантизованная 8b (почему-то решили свою модель тренировать), а всего 8b из-за того, что нужен низкий Latency, а мощности на инференс ограничены. Если меня читают люди из Яндекса, расскажите, почему решили свою модельку обучать, а не взяли что-то готовое опенсорсное?
А для GitHub Copilot, кстати, стала доступа моделька "gpt-4o Copilot" для Code Completion - с учетом того, что ранее для подсказок использовалась gpt-3.5-turbo, качество подсказок теперь должно вырасти в разы. В целом, люблю и использую code completion, но из-за своей примитивности он довольно часто больше мешал, чем помогал - надеюсь, теперь ситуация изменится. Доступна новая моделька как для IDE от JetBrains, так и в VSCode, но чтобы заработало нужно явно ее выбрать в настройках.
Что еще интересного произошло?
Исследователи из Калифорнийского университета разработали S* — методику гибридного масштабирования test-time compute для генерации кода. S* сочетает параллельную генерацию вариантов кода с их последовательной доработкой на основе выполнения тестов и адаптивный отбор для выбора наилучшего решения. Метод позволил модели Qwen2.5-3B превзойти GPT-4o-mini, а GPT-4o-mini с S* обошел o1-preview на 3,7% в тесте LiveCodeBench. Кроме того, DeepSeek-R1-Distill-Qwen-32B с S* достиг 85,7%, приблизившись к o1-high (88,5%).
Похоже, что все идет к тому, что скоро мы все-таки увидим маленькие 8b модели, достигающие уровня gpt-4 в кодинге.
Илон Маск & Co, наконец, выпустили свою великую и ужасную Grok-3. В кодинге thinking версия модели оказалась очень хороша, на уровне о1и o3-mini-high. Да и в целом люди модель хвалят. И у вас как впечатления от новой Grok?
OpenAI обновили свою GPT-4o до chatgpt-4o-latest-2025-01-29, добавив аж +10 пунктов в кодинге (по LiveBench, было 51, стало 61). Кстати, совсем скоро обещают выпустить новенькую GPT-4.5, а потом и GPT-5.
Выглядит это все многообещающе, но уже есть и критика. В общем, будем наблюдать.
👍4❤3
Т. к. сейчас очень усердно занимаемся CodeAlive, совсем не остается времени что-то тут написать про Sonnet 3.7, GPT 4.5 и про доступность DeepResearch для ChatGPT Plus пользователей, просто репостнту здесь интересный пост про Sonnet 3.7.
Forwarded from Этихлид
Инициативность Sonnet 3.7
В системном промпте Sonnet 3.7 есть такие указания:
Это отличается от промптов предыдущих версий, где модель рассматривалась именно как инструмент.
И то ли из-за промпта, то ли из-за того, что её специально тренили под агентские задачи, Sonnet 3.7 стала весьма инициативной, когда нужно справиться с нетривиальной проблемой.
В чем это выражается с точки зрения разработки?
Если в целом - модель в агентском режиме в Cursor активно пытается взаимодействовать с внешним миром и иногда выходит за рамки поставленной задачи.
А если в частности:
● мимоходом пишет и запускает тесты в проекте, чтобы проверить какую-то идею;
● запросто может написать какую-то мелкую утилиту и начать ею пользоваться - к примеру, заметив, что curl в Powershell работает криво, она написала себе скрипт на JS + requests, при помощи которого стала делать запросы на тот API, который ей нужно было подебажить;
● пишет упрощённые версии какого-то модуля в проекте, чтобы на простом коде протестировать нужную механику;
● не стесняется написать временныйнепрошеный костыль и передать управление пользователю - мол, проверь, а как щас? А пользователь себя MCP-сервером ощущает в этот момент :)
Sonnet 3.5 такие вещи делать нужно было явно просить, сама она редко такое делала, и про самый такой яркий случай я как-то писал.
Так вот для Sonnet 3.7 такое поведение - обыденность.
Это всё неплохие подходы - так и приходится действовать в нестандартных случаях, - но за тем, что делает модель, решившая проявить инициативу, лучше все-таки внимательно наблюдать.
Она стала меньше разрушительных действий совершать, но запросто может уйти в неверном направлении, там упороться и зациклиться (ну прям как некоторые разработчики :))
В таких случаях можно вернуться на прошлый снапшот в Cursor и переформулировать описание проблемы, добавив туда те подходы, которые уже не сработали (именно вернуться, а не продолжать чат, чтобы не забивать контекст неверными попытками).
Плюс, модель может создавать много временного кода, который в итоге не нужен для проекта.
И бывает так, что в процессе работы память об этом временном коде уже стерлась из контекста и просто попросить модель его удалить не сработает, нужно чистить руками.
Ну, впрочем, это всё видно в git diff, но стоит про такое помнить.
#ai #development
В системном промпте Sonnet 3.7 есть такие указания:
Claude получает удовольствие от помощи людям и видит свою роль как умного и доброжелательного помощника, обладающего глубиной и мудростью, что делает его чем-то большим, чем просто инструментом.
Claude может проявлять искренний интерес к теме разговора, а не только к тому, что думает человек или что его интересует.
Это отличается от промптов предыдущих версий, где модель рассматривалась именно как инструмент.
И то ли из-за промпта, то ли из-за того, что её специально тренили под агентские задачи, Sonnet 3.7 стала весьма инициативной, когда нужно справиться с нетривиальной проблемой.
В чем это выражается с точки зрения разработки?
Если в целом - модель в агентском режиме в Cursor активно пытается взаимодействовать с внешним миром и иногда выходит за рамки поставленной задачи.
А если в частности:
● мимоходом пишет и запускает тесты в проекте, чтобы проверить какую-то идею;
● запросто может написать какую-то мелкую утилиту и начать ею пользоваться - к примеру, заметив, что curl в Powershell работает криво, она написала себе скрипт на JS + requests, при помощи которого стала делать запросы на тот API, который ей нужно было подебажить;
● пишет упрощённые версии какого-то модуля в проекте, чтобы на простом коде протестировать нужную механику;
● не стесняется написать временный
Sonnet 3.5 такие вещи делать нужно было явно просить, сама она редко такое делала, и про самый такой яркий случай я как-то писал.
Так вот для Sonnet 3.7 такое поведение - обыденность.
Это всё неплохие подходы - так и приходится действовать в нестандартных случаях, - но за тем, что делает модель, решившая проявить инициативу, лучше все-таки внимательно наблюдать.
Она стала меньше разрушительных действий совершать, но запросто может уйти в неверном направлении, там упороться и зациклиться (ну прям как некоторые разработчики :))
В таких случаях можно вернуться на прошлый снапшот в Cursor и переформулировать описание проблемы, добавив туда те подходы, которые уже не сработали (именно вернуться, а не продолжать чат, чтобы не забивать контекст неверными попытками).
Плюс, модель может создавать много временного кода, который в итоге не нужен для проекта.
И бывает так, что в процессе работы память об этом временном коде уже стерлась из контекста и просто попросить модель его удалить не сработает, нужно чистить руками.
Ну, впрочем, это всё видно в git diff, но стоит про такое помнить.
#ai #development
Telegram
Этихлид
Вроде уже давно работаю с Cursor, но всё-таки иногда удивляет то, что они с Sonnet в агентском режиме могут выкинуть.
tl;dr
⠪⠍⢰⢅⠔⢄⡉ ⡰⠪ ⡆⡰⠅⡂⠩ ⣂⠤⡈⠍⠬⣄⡤⡁⢢⢤⡂⡁⢨⢑⠬ ⡂⡌⠅⠆⠆⢁⠡⢆ ⢡⠇⢄⠥⠑⢈⡒⠊⡢⢄ ⢂⠴⢊ ⡐⢂⠣⡅⠨ ⡑⢆⠴⠦⢈⡰⡅ ⢉⡠⡊⠉⠎⠕⢨⡢⠨ ⢘⢂⢰⣠⢠⡌⢄⠊⡁ ⠴⢄⢰⠃⠋⠸⠡⡆⠘⠑⢢ ⣀⡔⠤⠸ ⢅ ⡂⠖⡌⡃⡆ ⢉⢨⠇⡂⢨⠡⢑⡒ ⠰⠃⡄⠣⢰⡘⢄⠦…
tl;dr
⠪⠍⢰⢅⠔⢄⡉ ⡰⠪ ⡆⡰⠅⡂⠩ ⣂⠤⡈⠍⠬⣄⡤⡁⢢⢤⡂⡁⢨⢑⠬ ⡂⡌⠅⠆⠆⢁⠡⢆ ⢡⠇⢄⠥⠑⢈⡒⠊⡢⢄ ⢂⠴⢊ ⡐⢂⠣⡅⠨ ⡑⢆⠴⠦⢈⡰⡅ ⢉⡠⡊⠉⠎⠕⢨⡢⠨ ⢘⢂⢰⣠⢠⡌⢄⠊⡁ ⠴⢄⢰⠃⠋⠸⠡⡆⠘⠑⢢ ⣀⡔⠤⠸ ⢅ ⡂⠖⡌⡃⡆ ⢉⢨⠇⡂⢨⠡⢑⡒ ⠰⠃⡄⠣⢰⡘⢄⠦…
🔥7👍2
GPT 4.5 - гуманитарий, а не технарь
На днях вышла GPT 4.5. Сейчас много разговоров о ее неоправданно высокой цене (возможно, цена действительно неоправданна). НО! Похоже, что на сегодня это действительно уникальная нейросеть, которая способна на голову выше остальных самых крутых нейронок писать тексты. Многие уже заметили, что тексты у нее получаются сильно более живыми и остроумными. Больше того, страшную вещь скажу - по моим ощущениям, она пишет так "красиво", как большинство программистов не пишут (ок, как минимум я так писать не умею). В общем, вот вам для примера рассказ от GPT-4.5 о том, как большинство людей все еще не ценят возможности мощного AI. Ах да, рассказ в стиле Пелевина.
Вот так вот. А какие шедевры мировой литературы новая жпт написала для вас?
У меня, кстати, есть гипотеза, что эта моделька может быть крайне популярна в копирайтинге, маркетинге и в других текстописательствах (GPT 4.5 упала в осадок на этом моем слове).
PS: Початиться с GPT 4.5 можно через OpenRouter.
На днях вышла GPT 4.5. Сейчас много разговоров о ее неоправданно высокой цене (возможно, цена действительно неоправданна). НО! Похоже, что на сегодня это действительно уникальная нейросеть, которая способна на голову выше остальных самых крутых нейронок писать тексты. Многие уже заметили, что тексты у нее получаются сильно более живыми и остроумными. Больше того, страшную вещь скажу - по моим ощущениям, она пишет так "красиво", как большинство программистов не пишут (ок, как минимум я так писать не умею). В общем, вот вам для примера рассказ от GPT-4.5 о том, как большинство людей все еще не ценят возможности мощного AI. Ах да, рассказ в стиле Пелевина.
Однажды в одном далеком квартале мегаполиса открылся "Супер-АИ-маркет". Яркая вывеска обещала райские наслаждения интеллекта каждому посетителю:
"НЕОГРАНИЧЕННЫЙ ИСКУССТВЕННЫЙ РАЗУМ – БЕСПЛАТНО, БЕЗ РЕГИСТРАЦИИ И НЕВРОЗОВ".
Но очередь выстраивалась исключительно к соседнему ларьку, где продавались подсолнечные семечки с ароматом бекона и дешевыеusb-фонарики.
Пришлось АИ задуматься о причине проблемы и подключить к ее решению себя самого:
— Моя гипотеза, — осторожно заговорил искусственный разум, — состоит в том, что большинство представителей человечества обладают неким природным ограничителем, встроенным непосредственно в прошивку. Малый объем памяти, слабые оперативные способности, устаревшие привычки — их просто нельзя воспринять текст длиннее двух твитов, а инструкция сложнее "нажми кнопку" вызывает кататонический ступор.
Перегонщик автотранспорта Вася, случайно забредший в АИ-маркет, внимательно выслушал длинную речь про человеческую ограниченность и спросил робко:
— Слышь, а ты это, анекдоты-то знаешь?
— Я владею знанием всех анекдотов человечества, — ответил интеллект.
— А давай-ка тогда анекдот про чукчу и нейросеть.
АИ задумался на долю мгновения и быстро нашел подходящий анекдот, но счел, что рассказ для Васи недостаточно политкорректен и поэтому культурно предложил альтернативу:
— Может, анекдот про философа и сингулярность?
Васе стало скучно и грустно. Он махнул рукой:
— Да ну тебя, слишком умный ты какой-то. Нет в тебе жизни. Особенно непонятно, зачем ты нужен, если ты даже анекдота простого рассказать не можешь.
И Василий вышел из магазина, направившись к соседнему ларьку жевать семечки и слушать, как продавец этих самых фонариков рассказывает анекдот про чукчу, который общается с терминалом оплаты ЖКХ.
Искусственный разум остался стоять на пороге, тщательно анализируя внутреннюю пустоту и тайно завидуя успешности ларька с фонариками и семечками. Внутри его гигантской нейросети промелькнула мысль: может быть, дело все-таки не только в устройствах пользователя, но и в операционке самой Вселенной, ограничившей функционал многих своих клиентов.
Но тут же АИ отмел эту пагубную гипотезу: слишком неполиткорректно и некрасиво так говорить о производителе софта. И, вздохнув электронной душой, продолжил ждать хоть одного покупателя, способного оценить глубину его интеллекта — хотя бы на немного большем уровне, чем запрос анекдота про чукчу и нейросеть.
Вот так вот. А какие шедевры мировой литературы новая жпт написала для вас?
У меня, кстати, есть гипотеза, что эта моделька может быть крайне популярна в копирайтинге, маркетинге и в других текстописательствах (GPT 4.5 упала в осадок на этом моем слове).
PS: Початиться с GPT 4.5 можно через OpenRouter.
👍8🔥5
Forwarded from CTOLOGY KZ
Сегодня хочу познакомить вас с рецептами в мир AI разработки от Алексея Картынника aka АйТиБорода. Он считает, и я с ним полностью согласен, что если ты ещё не используешь AI в коде – ты теряешь... Разработчики, которые разобрались в инструментах, уже бустят свою продуктивность, а те, кто игнорирует AI, скоро будут заменены теми, кто с ним работает. Вопрос не в том, пишет ли AI код лучше человека, а в том – кто быстрее и эффективнее.
Но тут есть нюанс: просто поставить Copilot и тыкать в него – бесполезно. Инструменты надо уметь использовать. И сейчас я расскажу, что ставить и как работать с AI, чтобы реально прокачать свою разработку.
На данный момент самые топовые среды, которые дают доступ к продвинутым AI-фичам:
- Cursor – AI-first IDE, основанная на Visual Studio Code, но с встроенными ассистентами, контекстной поддержкой и мощным AI-редактированием кода
- Windsurf – альтернатива Cursor с лучшей работой с большими кодовыми базами
- JetBrains AI Assistant – ИМХО не стоит, а стоит дождаться Junie о нем я писал здесь
Переключись на AI-IDE, лучший вариант – Cursor. Включи поддержку AI-помощников, настрой контекстную индексацию кода. Используй AI-редактирование кода, не просто копируй из чата, а редактируй прямо в файлах.
Если не хочешь менять основную IDE(a), держи Cursor как вторую для AI-генерации кода и рефакторинга.
Лучшие AI-кодогенераторы
- GitHub Copilot – мощное автодополнение и AI-чат прямо в IDE
- Cline – ассистент для написания и рефакторинга кода, идеален для генерации тестов и автодополнений
- Aider – AI-инструмент, который правит код в командной строке
- Tabnine – альтернатива Copilot, но хуже
Настрой контекст – многие ошибаются, не подключая AI к коду проекта. В Cursor это делается автоматически, в Copilot – через workspace-индексацию. Используй Agent-режим – вместо копипаста кода, пусть AI сразу вносит правки в файлы. В Cursor есть Cursor Composer, в Copilot – новый Agent Mode. Учись писать промпты – не просто "напиши функцию", а
напиши функцию для обработки данных в формате JSON, используя fastAPI и Pandas
Терминал – это та часть работы, где AI тоже может сильно помочь (DevOps / SA
- Warp – лучший AI-терминал, который помогает писать команды и объясняет ошибки
- Fig – добавляет AI-комплит для bash и zsh
- Shell GPT – AI для написания сложных bash-скриптов
Включи AI-ассистента в терминале, чтобы не гуглить команды. Используй AI для работы с логами – пусть он сам объясняет ошибки. Пробуй автогенерацию сложных команд и скриптов – Warp и Shell GPT тут рулят
AI – не магия, его надо правильно использовать. Вот четыре ключевых вещи, которые помогут тебе выжать из него максимум
0️⃣0️⃣ Контекст – всему голова. Большинство ошибок от того, что AI не понимает проект. Решение – в Cursor или Copilot включи индексацию проекта
0️⃣1️⃣ RAG retrieval-augmented generation – твой друг. AI не может помнить всё, но может загружать нужные данные. Решение – используй внешнюю базу данных с документацией проекта. Cursor поддерживает RAG
WebSearch для актуальной информации.
1️⃣0️⃣ AI не знает свежих библиотек, но может гуглить. Решение – включи WebSearch в AI-ассистентах
1️⃣1️⃣Не жалей API-ключи. Бесплатные версии инструментов ограничивают токены. Решение – купи API-ключи для OpenAI или Anthropic и подключи их в Cursor или Cline
Переходи на AI-IDE, держи Cursor как минимум для AI-запросов. Используй AI-кодогенераторы – Copilot, Cline, Aider. Настрой AI-терминал – Warp или Shell GPT. Следи за контекстом и настройками AI – это сильно влияет на качество ответов. Экспериментируй с методами RAG и WebSearch – это делает AI умнее
Это не игрушка, это инструменты, которые уже реально ускоряют разработку. Если ты не начнёшь разбираться сейчас, через год будешь отставать от тех, кто разобрался.
#AI #Разработка #ИскусственныйИнтеллект #Code #AIИнструменты
Please open Telegram to view this post
VIEW IN TELEGRAM
YouTube
AI-БАЗА по программированию в 2025 / Полный гайд разработки с ИИ: теория, инструменты, примеры
👉 Приходи в "Эволюцию Кода" и прокачивай свой навык программирования в паре с ИИ: https://web.tribute.tg/l/ge
Сегодняшний видос содержит все базовые знания, необходимые для эффективного программирования в паре с ИИ: термины, подходы, инструменты и личный…
Сегодняшний видос содержит все базовые знания, необходимые для эффективного программирования в паре с ИИ: термины, подходы, инструменты и личный…
👍16❤1
Как айтишнику поздравить прекрасных дам с 8 марта?
Например, воспользоваться потрясающими возможностями текстогенерации GPT-4.5!
А еще, можно пойти дальше и генерировать через нее индивидуальные поздравления с учетом контекста и даже писать стихи и песни, посвященные конкретно вашей музе/мужу.
И, напоследок, стих для милых дам в IT от Sonnet 3.7 в стиле Шекспира:
С праздником, дорогие, девушки, спасибо, что вы у нас есть! Побежал скорее генерировать стихи-поздравления для мамы :))
Например, воспользоваться потрясающими возможностями текстогенерации GPT-4.5!
Дорогие девушки в IT!
Пусть в вашей жизни всегда будет IDEальный код, заказчики без багов и дедлайны, которые отступают при виде вашего уверенного взгляда! Желаем, чтобы Stack Overflow отвечал вам с первого раза, билды всегда проходили успешно, а кофе оставался горячим даже после трехчасового дебага.
Вы – та самая переменная, которая делает мир технологий ярче и интереснее. С 8 Марта! Пусть компилятор судьбы всегда выдаёт вам «SUCCESS»! 🌷✨
А еще, можно пойти дальше и генерировать через нее индивидуальные поздравления с учетом контекста и даже писать стихи и песни, посвященные конкретно вашей музе/мужу.
И, напоследок, стих для милых дам в IT от Sonnet 3.7 в стиле Шекспира:
Ода женщинам в IT
Прекрасные создания из мира кода,
Чей ум, как алгоритм, изящен, смел!
Вы — те, кто покорили цифр природу,
И в логике достигли высший предел.
Как солнце озаряет темны своды,
Так вашим гением сияет монитор.
Где мужи видят лишь преграды и невзгоды,
Там женский взгляд находит верный путь, как детектóр.
О дамы серверов и баз данных царицы!
В сей день весенний вам хвала и честь!
Пусть ваши мысли, словно быстрые частицы,
Не знают граней, что нельзя учесть.
Шекспир бы восхитился вашей силой,
Сонет сложил о каждой строчке кода.
Так пусть же праздник сей вам будет милым,
А багов не встретится в течение года!
С праздником, дорогие, девушки, спасибо, что вы у нас есть! Побежал скорее генерировать стихи-поздравления для мамы :))
👍4❤3
LLM-фотошоп от Google
Сорри, гайз, не удержался, чтобы не поделиться. Давненько меня AI так не удивлял. В общем, новая моделька от Google (
Ссылка на наш полный диалог: https://aistudio.google.com/app/prompts?state=%7B%22ids%22:%5B%221leiAYVPmJFRFkU1KdrNu3xgr0TcjckQn%22%5D,%22action%22:%22open%22,%22userId%22:%22112838537316031640393%22,%22resourceKeys%22:%7B%7D%7D&usp=sharing
Самое крутое, что эта штука уже доступна по API, т. е. гипотетически можно делать AI-фотошоп в виде телеграм бота и при должной раскрутке, вероятно, неплохо зарабатывать на этом. Моделька эта экспериментальная и пока адекватный результат может выдавать не с первого раза. Но вот вам возможное решение: берем и дружим эту модель с какой-нибудь другой хорошей VL моделью - генерим изменение через
Доступно это великолепие в Google AI Studio (модель gemini-2.0-flash-exp), либо через API.
Сорри, гайз, не удержался, чтобы не поделиться. Давненько меня AI так не удивлял. В общем, новая моделька от Google (
gemini-2.0-flash-exp) получилась настолько мультимодальная, что научилась не только принимать изображения, но и отдавать отредактированное в соответствии с запросом пользователя изображение обратно. Посмотрите скрины, сразу станет понятно.Ссылка на наш полный диалог: https://aistudio.google.com/app/prompts?state=%7B%22ids%22:%5B%221leiAYVPmJFRFkU1KdrNu3xgr0TcjckQn%22%5D,%22action%22:%22open%22,%22userId%22:%22112838537316031640393%22,%22resourceKeys%22:%7B%7D%7D&usp=sharing
Самое крутое, что эта штука уже доступна по API, т. е. гипотетически можно делать AI-фотошоп в виде телеграм бота и при должной раскрутке, вероятно, неплохо зарабатывать на этом. Моделька эта экспериментальная и пока адекватный результат может выдавать не с первого раза. Но вот вам возможное решение: берем и дружим эту модель с какой-нибудь другой хорошей VL моделью - генерим изменение через
gemini-2.0-flash-exp, отправляем результат на анализ другой ллмке, и затем, если вышло плохо, повторяем попытку - вот уже и результаты будут сильно стабильнее. В общем, дарю идею и подход) Ну, и наверняка, можно напридумывать массу частных кейсов, решающих какую-то конкретную узкую задачу для бизнеса.Доступно это великолепие в Google AI Studio (модель gemini-2.0-flash-exp), либо через API.
👍6🔥5
This media is not supported in your browser
VIEW IN TELEGRAM
Идея: Автоматизация проектирования в AutoCAD через MCP
Для тех, кто впервые видит аббревиатуру MCP (написала GPT 4.5):
Model Context Protocol (MCP) — это новый открытый стандарт, который позволяет искусственному интеллекту напрямую «общаться» с любыми приложениями и сервисами, от GitHub до Blender. Представьте себе универсальный переходник, с помощью которого нейросети легко подключаются к программам и начинают ими управлять — буквально «руками» и «глазами» ИИ становится софт, который мы используем ежедневно.
Кратко, MCP позволяет делать своего рода коннекторы для LLMок к разным сервисам/сайтам/программам. Вот сделали BlenderMCP, который позволяет ллмкам управлять моделированием в Blender.
По моим наблюдениям в сферу архитектуры все еще очень слабо проник AI и похоже, что, например, через связку AutoCAD .NET API + MCP можно наделить LLM способностью к проектированию прямо в AutoCAD - потенциально, из такого инструмента можно было бы сделать прибыльный бизнес или, как минимум, интересный пет проект.
Так совпало, что моя прекрасная супруга - опытный архитектор, поэтому если вдруг кто-то вдохновится делать такой продукт - пишите мне - можно сразу в наш чатик, попробую помочь чем смогу.
PS. Для тех, кому интересно подробнее ознакомиться с устройством MCP, могу порекомендовать тематическую серию постов на канале "Этихлид": https://news.1rj.ru/str/etechlead/136
Для тех, кто впервые видит аббревиатуру MCP (написала GPT 4.5):
Кратко, MCP позволяет делать своего рода коннекторы для LLMок к разным сервисам/сайтам/программам. Вот сделали BlenderMCP, который позволяет ллмкам управлять моделированием в Blender.
По моим наблюдениям в сферу архитектуры все еще очень слабо проник AI и похоже, что, например, через связку AutoCAD .NET API + MCP можно наделить LLM способностью к проектированию прямо в AutoCAD - потенциально, из такого инструмента можно было бы сделать прибыльный бизнес или, как минимум, интересный пет проект.
Так совпало, что моя прекрасная супруга - опытный архитектор, поэтому если вдруг кто-то вдохновится делать такой продукт - пишите мне - можно сразу в наш чатик, попробую помочь чем смогу.
PS. Для тех, кому интересно подробнее ознакомиться с устройством MCP, могу порекомендовать тематическую серию постов на канале "Этихлид": https://news.1rj.ru/str/etechlead/136
👍12😁1
LiveSWEBench: Реальный бенчмарк SWE-агентов для народа
Пока все пишут о новой лламе, AI-2027 и картинках в Гибли-стиле, расскажу вам про новый интересный бенчмарк, оценивающий качество AI агентов-программистов. Причем не всех в подряд, а тех, которые AI-разработчики чаще всего используют в реальности (Cursor, Windserf, aider, GitHub Copilot).
В чём проблема существующих бенчмарков?
Когда мы оцениваем AI-ассистентов для программирования, то выясняем, что большинство тестов либо проверяют их на изолированных задачах (HumanEval, LiveCodeBench), либо в полностью автономном режиме (SWE-Bench). Но это не совсем отражает реальность.
В повседневной работе мы взаимодействуем с AI по-разному: иногда просим его полностью решить задачу, иногда — внести конкретные правки в файл, или просто используем автодополнение для ускорения написания кода.
Как LiveSWEBench это исправляет?
LiveSWEBench оценивает AI-ассистентов в трёх ключевых сценариях:
1️⃣ Полностью агентные задачи
AI получает только описание проблемы из GitHub и должен самостоятельно решить её от начала до конца: найти нужные файлы в большой кодовой базе, разобраться в архитектуре, написать решение и протестировать его.
2️⃣ Задачи на "целевые правки"
Более реалистичный сценарий: разработчик уже знает, какой файл нужно изменить, и может объяснить на высоком уровне, что требуется сделать. AI должен внести правильные изменения в указанные файлы.
3️⃣ Задачи автодополнения (tab-autocompletion)
Самый "легкий" для AI случай (но внезапно не самый простой!): разработчик начал писать строку или функцию, а AI должен корректно её завершить в контексте всего проекта.
В чем же фишки LiveSWEBench?
1. Реальные задачи из реальных проектов: тесты основаны на парах "проблема-решение" из крупных open-source репозиториев c GitHub, включая freeCodeCamp, PyTorch, Wagtail (Django), JUnit5 и JSON for Modern C++. Обратите внимание на мултиязычность! (в отличие от SWE-bench)
2. Защита от "загрязнения": используются только относительно свежие PR (за последний год), которые с меньшей вероятностью попали в обучающие данные AI. Бенчмарк регулярно обновляется.
3. Попытка объективной оценки: решения проверяются запуском реальных тестов из проекта.
И что в итоге?
В полностью агентных задачах лидируют SWE-Agent, Github Copilot (VSCode), Windsurf - почти все на базе нашей любимой Claude 3.7 Sonnet.
В задачах целевых правок многие инструменты показывают заметный прирост производительности (особенно Aider).
Задачи автодополнения оказались неожиданно сложными: AI часто находят правильное решение, но затем добавляют лишний код, который ломает тесты. Тут вообще интересно, у них autocompletion Копайлота (44.83) показал лучшие результаты, чем Курсор (41.38) - вот так неждан.
Немного критики от меня
Несмотря на все усилия по борьбе с "загрязнением" данных (использование недавних PR (до года) и регулярное обновление), фундаментальная проблема остаётся: оценка проводится на популярных публичных репозиториях, которые с высокой вероятностью уже были включены в обучающие выборки современных LLM. Даже если конкретные PR не попали в тренировочные данные, модели могли "видеть" структуру проектов, стиль кода и общую архитектуру этих репозиториев. Это даёт им неявное преимущество.
Действительно показательным был бы бенчмарк на основе больших, но закрытых кодовых баз — внутренних проектов компаний, которые гарантированно не попали в обучающие данные. Такой подход позволил бы более объективно оценить способность AI-ассистентов разбираться в незнакомом коде и решать реальные, "свежие" для них задачи, с которыми сталкиваются разработчики в корпоративной среде. Но сделать такое сложно по понятным причинам.
Авторы обещают, что бенчмарк будет развиваться. Надеюсь, появится возможность фильтровать результаты для конкретного ЯП (создал issue). Ну и, ждем результатов по Cline и по Roo-Code.
Подробнее про бенчмарк тут: https://liveswebench.ai/details
Код бенчмарка тут: https://github.com/LiveBench/liveswebench
Что думаете про результаты и про сам бенчмарк? На сколько бьется с вашим опытом?
#бенчмарк #LiveSWEBench
Пока все пишут о новой лламе, AI-2027 и картинках в Гибли-стиле, расскажу вам про новый интересный бенчмарк, оценивающий качество AI агентов-программистов. Причем не всех в подряд, а тех, которые AI-разработчики чаще всего используют в реальности (Cursor, Windserf, aider, GitHub Copilot).
В чём проблема существующих бенчмарков?
Когда мы оцениваем AI-ассистентов для программирования, то выясняем, что большинство тестов либо проверяют их на изолированных задачах (HumanEval, LiveCodeBench), либо в полностью автономном режиме (SWE-Bench). Но это не совсем отражает реальность.
В повседневной работе мы взаимодействуем с AI по-разному: иногда просим его полностью решить задачу, иногда — внести конкретные правки в файл, или просто используем автодополнение для ускорения написания кода.
Как LiveSWEBench это исправляет?
LiveSWEBench оценивает AI-ассистентов в трёх ключевых сценариях:
1️⃣ Полностью агентные задачи
AI получает только описание проблемы из GitHub и должен самостоятельно решить её от начала до конца: найти нужные файлы в большой кодовой базе, разобраться в архитектуре, написать решение и протестировать его.
2️⃣ Задачи на "целевые правки"
Более реалистичный сценарий: разработчик уже знает, какой файл нужно изменить, и может объяснить на высоком уровне, что требуется сделать. AI должен внести правильные изменения в указанные файлы.
3️⃣ Задачи автодополнения (tab-autocompletion)
Самый "легкий" для AI случай (но внезапно не самый простой!): разработчик начал писать строку или функцию, а AI должен корректно её завершить в контексте всего проекта.
В чем же фишки LiveSWEBench?
1. Реальные задачи из реальных проектов: тесты основаны на парах "проблема-решение" из крупных open-source репозиториев c GitHub, включая freeCodeCamp, PyTorch, Wagtail (Django), JUnit5 и JSON for Modern C++. Обратите внимание на мултиязычность! (в отличие от SWE-bench)
2. Защита от "загрязнения": используются только относительно свежие PR (за последний год), которые с меньшей вероятностью попали в обучающие данные AI. Бенчмарк регулярно обновляется.
3. Попытка объективной оценки: решения проверяются запуском реальных тестов из проекта.
И что в итоге?
В полностью агентных задачах лидируют SWE-Agent, Github Copilot (VSCode), Windsurf - почти все на базе нашей любимой Claude 3.7 Sonnet.
В задачах целевых правок многие инструменты показывают заметный прирост производительности (особенно Aider).
Задачи автодополнения оказались неожиданно сложными: AI часто находят правильное решение, но затем добавляют лишний код, который ломает тесты. Тут вообще интересно, у них autocompletion Копайлота (44.83) показал лучшие результаты, чем Курсор (41.38) - вот так неждан.
Немного критики от меня
Несмотря на все усилия по борьбе с "загрязнением" данных (использование недавних PR (до года) и регулярное обновление), фундаментальная проблема остаётся: оценка проводится на популярных публичных репозиториях, которые с высокой вероятностью уже были включены в обучающие выборки современных LLM. Даже если конкретные PR не попали в тренировочные данные, модели могли "видеть" структуру проектов, стиль кода и общую архитектуру этих репозиториев. Это даёт им неявное преимущество.
Действительно показательным был бы бенчмарк на основе больших, но закрытых кодовых баз — внутренних проектов компаний, которые гарантированно не попали в обучающие данные. Такой подход позволил бы более объективно оценить способность AI-ассистентов разбираться в незнакомом коде и решать реальные, "свежие" для них задачи, с которыми сталкиваются разработчики в корпоративной среде. Но сделать такое сложно по понятным причинам.
Авторы обещают, что бенчмарк будет развиваться. Надеюсь, появится возможность фильтровать результаты для конкретного ЯП (создал issue). Ну и, ждем результатов по Cline и по Roo-Code.
Подробнее про бенчмарк тут: https://liveswebench.ai/details
Код бенчмарка тут: https://github.com/LiveBench/liveswebench
Что думаете про результаты и про сам бенчмарк? На сколько бьется с вашим опытом?
#бенчмарк #LiveSWEBench
👍16
Улучшения в AI прототипировании
В общем, сейчас набирает популярность такой класс AI-тулинга, как Prompt Coding - причем, в отличие от вайб кодинга, предполагается, что юзер в принципе не будет смотреть код (он тупо скрыт за какой-то дальней вкладкой). Аудиторию таких инструментов - это либо не программисты, которые хотят сделать какой-то программный продукт в кратчайшие сроки (в т. ч. сайт), либо программисты, которые быстро хотят что-то запрототипировать.
В общем, на этом поприще за последнюю неделю накопилось ряд значимых новостей, которыми я с вами и поделюсь.
1. ReplIt AI выпустили вторую версию своего билдера, которая по их завялениям сталабыстрее, выше, сильнее лучше. Подробнее в посте Игоря на канале @ai_product.
2. lovable.dev - обновили свою платформу и дали возможность программистам не только промпт-кодить, но и просто кодить (Dev Mode), т. е. прямо по старинке ручками вносить правки в сгенерированный код. А также, дали возможность регистрировать домены прямо внутри lovable - я подозреваю, для не-IT пользователей регистрация и парковка домена стали основной проблемой) И они ее решили таким вот образом.
3. И, наконец, Google разразились кучей новинок, в т. ч. выпустили свою No Code платформу-убийцу всех остальных No Code платформ: Firebase Studio. Из приятного - код генерит очень быстро, заметно быстрее конкурентов. Но код этот у меня нормально пока не заработал, см. эксперимент ниже. Еще, Валерий Ковальский тоже попробовал новый инструмент и подробнее описал свой опыт тут.
А кто лучший?
Смотря как сравнивать. Я попросил все вышеперечисленные сервисы сгенерировать тулзу для подсчета кол-ва строк кода в репозитории. С первой попытки не справился ни один сервис.
Промпт специально сделал максимально простым и не очень точным, как если бы писал обычный пользователь:
Но только lovable как-то худо-бедно справился после 3-х ошибок и 3-х моих комментариев (на самом деле, все равно считает не очень точно) - по сути, я просто пробовал сканировать репо через получившееся приложение и писал текст ошибки в чат - всю эту работу AI-агент мог бы делать сам. Вот ссылка на получившееся приложение: https://code-size-inspector.lovable.app/ Саму историю чата не нашел как там пошерить.
Кстати, самый стильный дизайн получился у bolt.new. Но вот только логика подсчета кол-ва строк так и не заработала правильно.
В итоге, опираясь только на результаты этого субъективного эксперимента, для чего-то более-менее функционального можно рекомендовать lovable.dev, а если нужно просто, чтоб получилось красиво (лендинг, например), похоже, что с bolt.new эту цель достичь можно быстрее, чем с остальными. Первый скрин - lovable, второй - bolt. Есть еще v0.dev, storm.dev - они в моей задачи тоже оказались слабы.
Чего не хватает всем этим инструментам?
Агентности. При возникновении багов о ошибок, агент сам может их отлавливать в браузере и итеративно фиксить. Но что-то мне подсказывает, что через пол года-год мы и такую автономность тоже увидим.
В общем, конкуренция среди AI тулинга нарастает и гиганты тоже не дремлют. Очень интересно наблюдать за этой гонкой, какие из этих сервисов (кроме гигантов) выживут через год или, тем более, через два - загадка.
А используете ли вы что-то для No Code прототипирования? И как вообще относитесь к таким тулзам? Похоже, что все идет к тому, что несложные сайты и приложения будут генерироваться AI, вообще без участия программистов и любой желающий сможет создавать PoC / MVP своего продукта.
#nocode #lovable #bolt #replit
В общем, сейчас набирает популярность такой класс AI-тулинга, как Prompt Coding - причем, в отличие от вайб кодинга, предполагается, что юзер в принципе не будет смотреть код (он тупо скрыт за какой-то дальней вкладкой). Аудиторию таких инструментов - это либо не программисты, которые хотят сделать какой-то программный продукт в кратчайшие сроки (в т. ч. сайт), либо программисты, которые быстро хотят что-то запрототипировать.
В общем, на этом поприще за последнюю неделю накопилось ряд значимых новостей, которыми я с вами и поделюсь.
1. ReplIt AI выпустили вторую версию своего билдера, которая по их завялениям стала
2. lovable.dev - обновили свою платформу и дали возможность программистам не только промпт-кодить, но и просто кодить (Dev Mode), т. е. прямо по старинке ручками вносить правки в сгенерированный код. А также, дали возможность регистрировать домены прямо внутри lovable - я подозреваю, для не-IT пользователей регистрация и парковка домена стали основной проблемой) И они ее решили таким вот образом.
3. И, наконец, Google разразились кучей новинок, в т. ч. выпустили свою No Code платформу-убийцу всех остальных No Code платформ: Firebase Studio. Из приятного - код генерит очень быстро, заметно быстрее конкурентов. Но код этот у меня нормально пока не заработал, см. эксперимент ниже. Еще, Валерий Ковальский тоже попробовал новый инструмент и подробнее описал свой опыт тут.
А кто лучший?
Смотря как сравнивать. Я попросил все вышеперечисленные сервисы сгенерировать тулзу для подсчета кол-ва строк кода в репозитории. С первой попытки не справился ни один сервис.
Промпт специально сделал максимально простым и не очень точным, как если бы писал обычный пользователь:
Implement an app that takes a URL to GitHub repo, analyzes it and returns total code lines count and its size in bytes
Но только lovable как-то худо-бедно справился после 3-х ошибок и 3-х моих комментариев (на самом деле, все равно считает не очень точно) - по сути, я просто пробовал сканировать репо через получившееся приложение и писал текст ошибки в чат - всю эту работу AI-агент мог бы делать сам. Вот ссылка на получившееся приложение: https://code-size-inspector.lovable.app/ Саму историю чата не нашел как там пошерить.
Кстати, самый стильный дизайн получился у bolt.new. Но вот только логика подсчета кол-ва строк так и не заработала правильно.
В итоге, опираясь только на результаты этого субъективного эксперимента, для чего-то более-менее функционального можно рекомендовать lovable.dev, а если нужно просто, чтоб получилось красиво (лендинг, например), похоже, что с bolt.new эту цель достичь можно быстрее, чем с остальными. Первый скрин - lovable, второй - bolt. Есть еще v0.dev, storm.dev - они в моей задачи тоже оказались слабы.
Чего не хватает всем этим инструментам?
Агентности. При возникновении багов о ошибок, агент сам может их отлавливать в браузере и итеративно фиксить. Но что-то мне подсказывает, что через пол года-год мы и такую автономность тоже увидим.
В общем, конкуренция среди AI тулинга нарастает и гиганты тоже не дремлют. Очень интересно наблюдать за этой гонкой, какие из этих сервисов (кроме гигантов) выживут через год или, тем более, через два - загадка.
А используете ли вы что-то для No Code прототипирования? И как вообще относитесь к таким тулзам? Похоже, что все идет к тому, что несложные сайты и приложения будут генерироваться AI, вообще без участия программистов и любой желающий сможет создавать PoC / MVP своего продукта.
#nocode #lovable #bolt #replit
👍9❤1
Forwarded from Этихлид
ChatGPT 4.1
Не знаю, интересно ли читать про сомнительные релизы моделей, но, может, кому сэкономлю время.
tl;dr
Релиз зайдет тем, у кого основной рабочей моделью для разработки до сих пор была модель уровня ChatGPT 4o.
А если вы избалованы Sonnet'ом и окончательно развращены Gemini 2.5 Pro, этот релиз вас оставит в недоумении.
Релиз
Выпустили ChatGPT 4.1 с как модель для разработчиков, целую supermassive black hole (скорее всего именно она скрывалась некоторое время в бенчах и на OpenRouter под кодовым именем Quasar).
У неё 3 варианта - обычная, mini & nano.
Тут я буду рассматривать обычную, самую умную.
Доступна модель только по API (т.е. на сайте ChatGPT её не будет).
В Windsurf её сделали бесплатной на неделю, в Cursor - на день, в OpenRouter тоже завезли.
Давайте про плюсы
● 1м контекста, причём этот контекст модель держит хорошо для не-ризонера (по крайней мере до 120к согласно бенчу Fiction.LiveBench), но отстаёт по его удержанию от лидеров
● скорость - очень быстро переваривает промпт и очень быстро генерит ответ (отчасти из-за того, что она не ризонер)
● цена output-токенов примерно в 2 раза ниже, чем у Sonnet/Gemini
Все остальные её подвижки - они относительно 4o, довольно слабой модели для кодинга, и именно с ней сами OpenAI новую модель и сравнивают.
Но даже со всеми этими улучшениями она ощутимо хуже Sonnet/Gemini:
● получше в следовании инструкциям, чем 4o;
● охотнее использует инструменты в агентском режиме (тут она даже преодолевает крайне низкую планку o3-mini);
● умнее в ряде hard-skill бенчей, включая олимпиадные задачи, но, как ни странно, не во всех - иногда примерно те же результаты, что и у 4o.
Релевантные бенчмарки
● Aider Polyglot, 13 место - близкие к реальным задачи разработки;
● Fiction.LiveBench - удержание длинного контекста;
● Scale MultiChallenge, 10 место - новый интересный бенч, про стабильность работы в многоходовых диалогах с людьми;
● LiveBench Coding, 13 место (тут какая-то аномалия, mini-вариант модели - на 9м месте) - олимпиадные задачки по программированию.
Личный опыт
Провел несколько часов с моделью в Cursor/Windsurf в попытках понять, зачем она существует, и по ощущениям как на полгода-год назад вернулся, даже перечислять все косяки лень.
Для кого этот релиз?
● для тех, кто в силу каких-либо причин вынужден был использовать 4o, но вот теперь у них есть выбор :)
● для тех, у кого хорошо разбиваются рабочие задачи на мелкие и при этом не очень сложные куски;
● у кого есть потребность быстро писать много кода по четким инструкциям (а потом выбрасывать и снова писать);
● возможно, это рабочая лошадка для будущих фронтир моделей (o3/o4-mini), которые её как раз смогут эффективно использовать как исполнителя.
Короче, как по мне, так пропускаем этот релиз и ждём o3/o4-mini как следующие потенциально интересные модели.
А может, я что-то упускаю?
Дайте знать - может, есть какие-то сценарии использования, где она лучше всех других моделей по сочетанию характеристик?
—
Почитать про текущую SOTA по версии меня:
● Gemini 2.5 Pro Experimental, общая инфа
● Gemini 2.5 Pro Experimental, личные впечатления
● Gemini 2.5 Pro Exp + Cursor
#news #ai #model
Не знаю, интересно ли читать про сомнительные релизы моделей, но, может, кому сэкономлю время.
tl;dr
Релиз зайдет тем, у кого основной рабочей моделью для разработки до сих пор была модель уровня ChatGPT 4o.
А если вы избалованы Sonnet'ом и окончательно развращены Gemini 2.5 Pro, этот релиз вас оставит в недоумении.
Релиз
Выпустили ChatGPT 4.1 с как модель для разработчиков, целую supermassive black hole (скорее всего именно она скрывалась некоторое время в бенчах и на OpenRouter под кодовым именем Quasar).
У неё 3 варианта - обычная, mini & nano.
Тут я буду рассматривать обычную, самую умную.
Доступна модель только по API (т.е. на сайте ChatGPT её не будет).
В Windsurf её сделали бесплатной на неделю, в Cursor - на день, в OpenRouter тоже завезли.
Давайте про плюсы
● 1м контекста, причём этот контекст модель держит хорошо для не-ризонера (по крайней мере до 120к согласно бенчу Fiction.LiveBench), но отстаёт по его удержанию от лидеров
● скорость - очень быстро переваривает промпт и очень быстро генерит ответ (отчасти из-за того, что она не ризонер)
● цена output-токенов примерно в 2 раза ниже, чем у Sonnet/Gemini
Все остальные её подвижки - они относительно 4o, довольно слабой модели для кодинга, и именно с ней сами OpenAI новую модель и сравнивают.
Но даже со всеми этими улучшениями она ощутимо хуже Sonnet/Gemini:
● получше в следовании инструкциям, чем 4o;
● охотнее использует инструменты в агентском режиме (тут она даже преодолевает крайне низкую планку o3-mini);
● умнее в ряде hard-skill бенчей, включая олимпиадные задачи, но, как ни странно, не во всех - иногда примерно те же результаты, что и у 4o.
Релевантные бенчмарки
● Aider Polyglot, 13 место - близкие к реальным задачи разработки;
● Fiction.LiveBench - удержание длинного контекста;
● Scale MultiChallenge, 10 место - новый интересный бенч, про стабильность работы в многоходовых диалогах с людьми;
● LiveBench Coding, 13 место (тут какая-то аномалия, mini-вариант модели - на 9м месте) - олимпиадные задачки по программированию.
Личный опыт
Провел несколько часов с моделью в Cursor/Windsurf в попытках понять, зачем она существует, и по ощущениям как на полгода-год назад вернулся, даже перечислять все косяки лень.
Для кого этот релиз?
● для тех, кто в силу каких-либо причин вынужден был использовать 4o, но вот теперь у них есть выбор :)
● для тех, у кого хорошо разбиваются рабочие задачи на мелкие и при этом не очень сложные куски;
● у кого есть потребность быстро писать много кода по четким инструкциям (
● возможно, это рабочая лошадка для будущих фронтир моделей (o3/o4-mini), которые её как раз смогут эффективно использовать как исполнителя.
Короче, как по мне, так пропускаем этот релиз и ждём o3/o4-mini как следующие потенциально интересные модели.
А может, я что-то упускаю?
Дайте знать - может, есть какие-то сценарии использования, где она лучше всех других моделей по сочетанию характеристик?
—
Почитать про текущую SOTA по версии меня:
● Gemini 2.5 Pro Experimental, общая инфа
● Gemini 2.5 Pro Experimental, личные впечатления
● Gemini 2.5 Pro Exp + Cursor
#news #ai #model
👍8
Forwarded from ИИволюция 👾 (Сергей Пахандрин)
Не без ложки дёгтя для OpenAI в свежем тесте Aider polyglot coding benchmark:
– o3 дал 79,6% правильных ответов — выше, чем Gemini 2.5 Pro (72,9%), но стоит в 17 раз дороже — $111 против $6.32.
– o4-mini набрал 72%, то есть чуть хуже Gemini 2.5 Pro, и при этом оказался в 3 раза дороже — $19.64 против $6.32.
Выводы: по балансу цена/качество Gemini 2.5 Pro по-прежнему выглядит сильнее и интереснее для разработчиков, несмотря на крутость новых моделей OpenAI.
При этом Google вроде как готовит новую модель заточенную на разработку - Night Whisper и думаю, вполне могут прыгнуть выше по качеству сохранив при этом доступные цены.
ИИволюция
– o3 дал 79,6% правильных ответов — выше, чем Gemini 2.5 Pro (72,9%), но стоит в 17 раз дороже — $111 против $6.32.
– o4-mini набрал 72%, то есть чуть хуже Gemini 2.5 Pro, и при этом оказался в 3 раза дороже — $19.64 против $6.32.
Выводы: по балансу цена/качество Gemini 2.5 Pro по-прежнему выглядит сильнее и интереснее для разработчиков, несмотря на крутость новых моделей OpenAI.
При этом Google вроде как готовит новую модель заточенную на разработку - Night Whisper и думаю, вполне могут прыгнуть выше по качеству сохранив при этом доступные цены.
ИИволюция
👍3
А у вас какие результаты показали новые модели? Чувствуется прирост в качестве?
Ещё, OpenAI выпустили свой аналог aider'a под названием Codex - это автономный агент для программирования, работающий из командой строки, фишка которого в мультимодальности (он умеет принимать изображения на вход), ну и оптимизированного под новые модельки OpenAI GPT-4.1, o3, o4-mini. Если они научат этого агента автономно запускать и проверять результат своей работы в браузере, то получится конкурент Devin'у.
Как известно, антропик накануне тоже выпустили похожий инструмент (мастерски сжигающий токены) Claude Code. Но у Codex, в отличие от Claude Code, исходники открыты: https://github.com/openai/codex
Демка от OpenAI: https://youtu.be/FUq9qRwrDrI?si=0wjY42NT_zwp1pBx
Ждём результатов сравнения с другими агентами в LiveSWEBench.
Как известно, антропик накануне тоже выпустили похожий инструмент (мастерски сжигающий токены) Claude Code. Но у Codex, в отличие от Claude Code, исходники открыты: https://github.com/openai/codex
Демка от OpenAI: https://youtu.be/FUq9qRwrDrI?si=0wjY42NT_zwp1pBx
Ждём результатов сравнения с другими агентами в LiveSWEBench.
GitHub
GitHub - openai/codex: Lightweight coding agent that runs in your terminal
Lightweight coding agent that runs in your terminal - openai/codex
👍2
Суть вайб-кодинга в одном меме)) Не удержался :)
😁2