Этихлид – Telegram
Этихлид
4.8K subscribers
152 photos
23 videos
129 links
Канал техлида с мыслями об AI, IT и спорте.

https://news.1rj.ru/str/etechlead/6 - содержание

https://news.1rj.ru/str/etechlead/8 - о канале

https://news.1rj.ru/str/+NgQZbosvypEyYWQ6 - чат канала, там отвечаю(т) быстрее :)

(без рекламы)
Download Telegram
Forwarded from Сиолошная
Примерно через 4 часа (8 AM PT, 16:00 по Лондону, 18:00 по Москве) OpenAI проведёт стрим с анонсом. Почти наверняка это всё-таки будет агент-программист, но вопрос — в каком форм факторе. Будет ли это аналог Devin (полностью автономный, но воспринимающий ваши команды и подсказки), или что-то более близкое к копайлоту, ассистенту?

Я думаю, что последнее не исключено — во первых, OpenAI почти год назад полглотили Multi.app — программу для коллаборативной работы программистов (см. видео). Только теперь она, возможно, будет заточена на работу вас И агента, принося новый опыт управления процессом разработки. Только основную работу делать будете не вы, а агент — вы лишь наблюдаете и вносите правки на лету, выделяя код, задавая вопросы, итд.

Кофаундер этой компании, работающий теперь в OpenAi, уже ретвитунл пост с анонсом стрима.

С другой стороны вот такие обновления засветились в коде сайта OpenAI, см. вторую картинку — выглядит как просто agent, а не coding buddy.

В общем, ждать недолго, всех ждем на стриме!
👍5👎2
⬆️ ️Это ещё на фоне появления у Cursor background agent, того что недавно Windsurf был куплен OpenAI и в целом тренда на усиление агентскости инструментов для разработки.

Но, с другой стороны, - на фоне непригодной в повседневной работе o3, невнятного Codex и в целом большего уклона топовых моделей от OpenAI по части разработки на решение узких олимпиадных/алгоритмических задач.

Так что посмотрим :)
Реализация background agent'а (а ещё лучше - сети агентов, решающих большую распиленную задачу в параллель), могла бы стать интересным релизом, особенно если будет частью общей подписки на ChatGPT.

#news
🔥6👍5
OpenAI Codex

Что в итоге представили на стриме

Codex
Предварительная исследовательская версия облачного агента для разработки.

Он интегрирован в UI ChatGPT, оттуда его можно вызывать и давать ему задачи.
Каждая задача выполняется в собственной "песочнице"-контейнере с предварительно загруженным в него GitHub-репозиторием.
Занимает от 1 до 30 минут, в зависимости от сложности, и можно отслеживать прогресс в режиме реального времени.
А вот вмешиваться в процесс выполнения пока что нельзя.

По завершению Codex коммитит свои изменения, а в процессе ведет лог того, что делал, и можно потом посмотреть, чем он занимался.
Дальше можно попросить поменять что-то еще, сделать PR в GitHub или перетащить код к себе.

Во время выполнения задачи доступ контейнера в Интернет отключен, и агент работает исключительно с кодом, предоставленным через GitHub и предварительно установленными зависимостями, настроенными через установочный скрипт.

По описанию реально очень похоже на Cursor Background Agent или на то, как работает Devin.
Вопрос только в полноте фич, стабильности и удобстве, это уже надо пробовать.

codex-1
Это новая модель, версия o3, оптимизированная для разработки, и с упором не только на работу с кодом, но и с агентскими сценариями: запуск тестов, линтера, работа с git, оформление PR и т.д.
По сравнению с o3, codex-1 производит более чистые патчи, уже готовые к проверке человеком и их интеграции в рабочие процессы.

И выпустили ещё модель попроще, codex-mini, на основе o4-mini.

Доступность
Codex как фича и codex-1 как модель пока что доступны для ChatGPT Pro/Enterprise/Team, позже обещают добавить для Plus.
codex-mini-latest доступна в API, так что в теории её и в Cursor добавят.

В своё время, кстати, Codex было названием первой модели, на которой работал GitHub Copilot в далёком 2023м, и базировался он на GPT-3.
OpenAI от сомнительного нейминга перешли к переиспользованию названий переменных продуктов :)

Сценарии использования Codex
От самих OpenAI и тех компаний, кому дали заранее попробовать:
● четко выделенные задачи: рефакторинг, написание тестов, правка ошибок, интеграция компонентов, составление документации;
● разбор инцидентов во время дежурств (немного неожиданно, конечно, но интересно);
● планирование задач в начале дня;
● передача фоновой работы, чтобы не отвлекаться от основных задач и избегать переключения контекста;
● внесение мелких правок в проекты нетехническими специалистами (с проверкой инженерами);
● исследование существующих кодовых баз.

Своё мнение
В текущем релизе, насколько я могу судить по анонсу, нет ничего прорывного.
В том или ином виде это уже существует в других продуктах, с большей интеграцией в рабочие процессы, и с возможностью расширения под свои задачи (MCP).
Посмотрим, как оно будет на практике, но, кажется, это пока что для довольно мелких/муторных задач, которые можно и в условном Cursor решить.
Качество базовой модели тоже сильно будет влиять, но по codex-1 нам дали буквально 2 бенча (один из которых внутренний), на которых он показал небольшой рост в сравнении с o3.

Что бы хотелось видеть от подобного рода систем:
● бесшовную интеграцию с IDE, чтобы прям из нее можно было поставить асинхронную задачу (возможно, прям из существующего чата) и продолжить работать. В теории таким обещает стать Cursor Background Agent;
● кооперативную работу агентов, которые вместе решают какую-то большую задачу по кускам, в параллель или последовательно;
● интерактивность в решении задач, чтобы агент останавливался и задавал уместные вопросы по тому, как двигаться дальше;
● сбор контекста по задаче не только из кода, но и из Jira/Slack/Google Docs/etc;
● улучшение базовых моделей - длины контекста, качества работы с ним, ризонинга, актуальности датасета. И именно в такой последовательности.

Но даже в виде исследовательской версии Codex попробовать, конечно, будет интересно.
Осталось договориться с жабой или дождаться, когда он станет доступен в Plus-подписке :)

#news
👍85🔥5
Посадили Запилили с командой стелс-стартап за пару дней 🚀

Ожидаем иксов уже через несколько месяцев! 🤞
👍6😁6🔥1🤣1
Media is too big
VIEW IN TELEGRAM
GitHub Copilot coding agent

Астрологи объявили месяц асинхронных облачных агентов для кодинга.

Вслед за анонсом Cursor Background Agent и OpenAI Codex, сегодня анонсировали ещё два.

Начнём с GitHub Copilot coding agent

Позволяет прям в самом GitHub назначить таску на агента, и он будет ею асинхронно заниматься у себя облачном окружении, которое работает на основе GitHub Actions.

Сам изучит репозиторий, сделает изменения, запустит тесты, линтер, запушит изменения и сделает PR. Можно продолжить с ним общаться комментами к PR, если нужны какие-то последующие изменения.
Лучше всего будет работать на простых-средних по сложности задачах на хорошо покрытых тестами проектах.

● в процессе работы тратит как минуты GitHub Actions, так и премиум-запросы GitHub Copilot;
поддерживает MCP!
● по умолчанию нет доступа в Интернет, но можно настроить как полный доступ, так и по whitelist;
● раскатывают его поддержку даже в мобильных приложениях GitHub. Будет чем заняться на 3-часовых z2-тренировках :)

Доступен на Copilot Pro+ и Copilot Enterprise подписках ($39/month).

Среди всех представленных асинхронных облачных агентов этот мне кажется самым проработанным по фичам и интеграции, по крайней мере на бумаге.

Источники:
GitHub Copilot coding agent in public preview
Официальная документация

#news
👍6🔥51
Google Jules

Сайт: https://jules.google/

Можно поставить задачу в его веб-интерфейсе или в интерфейсе GitHub, где задаче можно присвоить определенный label, на который Jules отреагирует.

Дальше всё как обычно, но со своими особенностями:
● первым делом он составляет план задачи и просит его аппрува (если не заапрувить, он все равно по таймеру начнет выполнять задачу);
● можно в любой момент вмешаться в работу агента, т.к. все время доступен чат с ним;
● Интернет есть;
● планируется фича CodeCast - аудио-саммари последних изменений в конкретном репозитории (не только тех, которые сделал Julie).
Я требую сторисов! Ну или хотя бы зачитывания кода в стихах и с выражением.

Пока что бесплатен, но высок шанс, что придется подождать - во-первых, не во всех странах доступен (предпочтение отдается США), а во-вторых, туда много народу ломанулось, так что записывайтесь в waitlist.

В день даётся сделать 5 задач, за деньги лимит повысить нельзя, но можно попросить его увеличения, если получится обосновать.

Есть список промптов для Jules от самих Google, что даёт понимание того, какие задачи можно решать с его помощью.

Источники:
Официальная документация

Предыдущие анонсы асинхронных облачных агентов:
Cursor Background Agent
OpenAI Codex
GitHub Copilot coding agent

#news
👍7🔥61
Claude 4

❗️Новые релизы от Anthropic - Claude 4 Opus & Sonnet.

🟢 декларируются улучшения по кодингу, использованию агентских инструментов, включая MCP, но ждём сторонних бенчей

🟢 обе модели гибридные, могут работать как в режиме thinking, так и без него, при этом могут использовать в процессе размышлений инструменты

🟢 обещают, что Opus способен справляться с многочасовыми задачами и не деградирует на задачах со многими шагами

🟢 обещают, что Sonnet стал более управляемым и лучше следует инструкциям

🔵 длина контекста осталась такой же, как и у прошлых моделей - 200k

Доступность

● модели уже в Cursor (Sonnet - 0.5 запроса, Sonnet Thinking - 0.75 запроса, Opus - только в MAX mode с нехилыми такими ценами).
Sonnet, получается, стал дешевле, чем был - возможно, на время, так что нужно переключаться.

● добавили в GitHub Copilot

● а Sonnet 4 стал базовой моделью для GitHub Copilot coding agent (как раз его тестирую второй день, расскажу :))

Расширения API

● Code execution tool - можно запускать код через API
● MCP connector - интеграция с протоколом для создания сложных AI workflow
● Files API - для прямой работы с файлами
● Prompt cache - стало можно кэшировать промпты до часа



В целом релиз во многом рассчитан на поддержку сценариев долгой, автономной разработки с помощью инструментов, улучшая применимость моделей в агентских сценариях.
Этому посвящена значительная часть презентации Anthropic сегодня.

И это хорошо ложится в канву новых инструментов для разработки - фоновых агентов, которые стали появляться за последний месяц.

Я пока что настроен слегка скептически на фоне реально хороших релизов от Google в последнее время, но это всё нужно тестировать, конечно.
Уже переключился на Sonnet 4 :)

#ai #news
👍13🔥93
Claude 4, обзор

Прошло несколько дней работы с Claude 4, так что можно сказать пару слов.

Если вкратце, то для меня теперь выбор моделей для разработки выглядит так:

Sonnet 4
● если нужно подёргать много тулов (полазить по проекту, вызвать MCP, просто задачи вида "запускай тесты и фикси баги до посинения, пока всё не исправишь")
● задачи, для которых отсутствует заранее подготовленный контекст или его просто лень собирать :)
● небольшие повседневные задачи, где не нужно много думать
● веб-разработка

Gemini 2.5 Pro
● все задачи, где нужен длинный контекст
● иии... почти все остальные задачи

o3
● случаи, когда нужен чистый ризонинг

Переход с других моделей на Claude 4
● с Sonnet 3.7 - однозначно переходить:
* изменения в коде стали точнее
* лучше следует инструкциям и держит контекст
* менее упорот - иногда всё-таки делает то, что не просят, но намного реже
* новый cutoff - конец января 2025

● с Gemini 2.5 Pro - как минимум, стоит попробовать на своих задачах:
* лучше использует тулы
* структурнее подходит к решению задач

По поводу Opus 4: хорошо кушает токены и, как следствие, деньги (у меня $1/мин уходило в нескольких тестах).

Если у вас есть Claude Max, где не нужно платить за токены, то Opus можно использовать для сложных задач вместо Sonnet 4, а также в сценариях, когда нужно что-то долго делать с активным использованием тулов в процессе.

Далее в основном буду говорить про Sonnet.

Бенчмарки
Если приглядеться к числам на "хардовых" бенчмарках, то выглядит так себе - от мажорного релиза ожидалось большего.
По многим из них новый Sonnet несильно отличается от прошлого 3.7, а местами даже хуже.

Но на паре результаты всё-таки неплохие:
MultiChallenge - стабильность работы в многоходовых диалогах с людьми
Recall on Codebase Questions - метрика от Cursor, про которую ничего, кроме названия, неизвестно - будем считать, что это "доля правильных ответов на вопросы по кодовой базе при её исследовании в режиме агента"

И это подводит нас к следующему пункту:

В чём же хорош Claude 4?
Anthropic в анонсе много говорили именно про использование новых моделей в агентских сценариях и их интеграции в соответствующий инструментарий (например, в Claude Code & Claude Desktop).

И да, это у них вполне получилось - модели действительно очень хорошо работают с разными тулами и тащат длинные задачи (Opus у самих Anthropic работал до 7 часов, а на Reddit был результат в 40+ минут от пользователя).

За счёт этого они в реальной работе оказываются лучше, чем можно было бы предположить, смотря лишь на "хардовые" бенчмарки.

Потенциал Claude 4 не раскрыть в окружении, где нет тулов - у неё просто не так много других способностей, по которым бы её не обходили модели конкурентов.

Особенности
● охотнее сама строит планы для задач и потом их придерживается

● чаще делает какие-то временные скрипты для тестирования, проверки своих гипотез и т.п. Если нет нужного инструмента - сделай его :)
Иногда она их удаляет по завершению задачи, но чаще оставляет в проекте, приходится вычищать.
Anthropic даже в своём Claude 4 prompt engineering best practices добавили секцию о том, как такое поведение ограничить

● помните, что модель стала делать меньше делать то, что не просят?
Так вот, можно наоборот попросить уйти в отрыв: Don't hold back. Give it your all. - это из того же гайда по промптингу Claude 4 :)

Проблемы
● доступность API - это уже стало особенностью Anthropic, что в моменты пиковой нагрузки отваливаются запросы, инференс тормозит и вообще работать невозможно

● всё ещё может ходить кругами при решении проблем, хоть и реже - почему-то именно линейка Sonnet этим выделяется

● смайлики проникли и в Sonnet - ощущение иногда, что с ChatGPT 4o общаешься :)

Заключение
Противоречивый релиз, конечно, вышел.

Anthropic явно сфокусировались на определенных нишах - агентские системы и кодинг, - уйдя от построения моделей общего назначения (возможно, в силу ограниченности ресурсов на фоне конкурентов).

Посмотрим, к чему это их приведёт в перспективе, ну а пока что для Sonnet 4 у меня явно найдётся работа :)

#ai #model #review
👍29🔥115