Этихлид – Telegram
Этихлид
4.77K subscribers
152 photos
23 videos
129 links
Канал техлида с мыслями об AI, IT и спорте.

https://news.1rj.ru/str/etechlead/6 - содержание

https://news.1rj.ru/str/etechlead/8 - о канале

https://news.1rj.ru/str/+NgQZbosvypEyYWQ6 - чат канала, там отвечаю(т) быстрее :)

(без рекламы)
Download Telegram
⬆️ ️Это ещё на фоне появления у Cursor background agent, того что недавно Windsurf был куплен OpenAI и в целом тренда на усиление агентскости инструментов для разработки.

Но, с другой стороны, - на фоне непригодной в повседневной работе o3, невнятного Codex и в целом большего уклона топовых моделей от OpenAI по части разработки на решение узких олимпиадных/алгоритмических задач.

Так что посмотрим :)
Реализация background agent'а (а ещё лучше - сети агентов, решающих большую распиленную задачу в параллель), могла бы стать интересным релизом, особенно если будет частью общей подписки на ChatGPT.

#news
🔥6👍5
OpenAI Codex

Что в итоге представили на стриме

Codex
Предварительная исследовательская версия облачного агента для разработки.

Он интегрирован в UI ChatGPT, оттуда его можно вызывать и давать ему задачи.
Каждая задача выполняется в собственной "песочнице"-контейнере с предварительно загруженным в него GitHub-репозиторием.
Занимает от 1 до 30 минут, в зависимости от сложности, и можно отслеживать прогресс в режиме реального времени.
А вот вмешиваться в процесс выполнения пока что нельзя.

По завершению Codex коммитит свои изменения, а в процессе ведет лог того, что делал, и можно потом посмотреть, чем он занимался.
Дальше можно попросить поменять что-то еще, сделать PR в GitHub или перетащить код к себе.

Во время выполнения задачи доступ контейнера в Интернет отключен, и агент работает исключительно с кодом, предоставленным через GitHub и предварительно установленными зависимостями, настроенными через установочный скрипт.

По описанию реально очень похоже на Cursor Background Agent или на то, как работает Devin.
Вопрос только в полноте фич, стабильности и удобстве, это уже надо пробовать.

codex-1
Это новая модель, версия o3, оптимизированная для разработки, и с упором не только на работу с кодом, но и с агентскими сценариями: запуск тестов, линтера, работа с git, оформление PR и т.д.
По сравнению с o3, codex-1 производит более чистые патчи, уже готовые к проверке человеком и их интеграции в рабочие процессы.

И выпустили ещё модель попроще, codex-mini, на основе o4-mini.

Доступность
Codex как фича и codex-1 как модель пока что доступны для ChatGPT Pro/Enterprise/Team, позже обещают добавить для Plus.
codex-mini-latest доступна в API, так что в теории её и в Cursor добавят.

В своё время, кстати, Codex было названием первой модели, на которой работал GitHub Copilot в далёком 2023м, и базировался он на GPT-3.
OpenAI от сомнительного нейминга перешли к переиспользованию названий переменных продуктов :)

Сценарии использования Codex
От самих OpenAI и тех компаний, кому дали заранее попробовать:
● четко выделенные задачи: рефакторинг, написание тестов, правка ошибок, интеграция компонентов, составление документации;
● разбор инцидентов во время дежурств (немного неожиданно, конечно, но интересно);
● планирование задач в начале дня;
● передача фоновой работы, чтобы не отвлекаться от основных задач и избегать переключения контекста;
● внесение мелких правок в проекты нетехническими специалистами (с проверкой инженерами);
● исследование существующих кодовых баз.

Своё мнение
В текущем релизе, насколько я могу судить по анонсу, нет ничего прорывного.
В том или ином виде это уже существует в других продуктах, с большей интеграцией в рабочие процессы, и с возможностью расширения под свои задачи (MCP).
Посмотрим, как оно будет на практике, но, кажется, это пока что для довольно мелких/муторных задач, которые можно и в условном Cursor решить.
Качество базовой модели тоже сильно будет влиять, но по codex-1 нам дали буквально 2 бенча (один из которых внутренний), на которых он показал небольшой рост в сравнении с o3.

Что бы хотелось видеть от подобного рода систем:
● бесшовную интеграцию с IDE, чтобы прям из нее можно было поставить асинхронную задачу (возможно, прям из существующего чата) и продолжить работать. В теории таким обещает стать Cursor Background Agent;
● кооперативную работу агентов, которые вместе решают какую-то большую задачу по кускам, в параллель или последовательно;
● интерактивность в решении задач, чтобы агент останавливался и задавал уместные вопросы по тому, как двигаться дальше;
● сбор контекста по задаче не только из кода, но и из Jira/Slack/Google Docs/etc;
● улучшение базовых моделей - длины контекста, качества работы с ним, ризонинга, актуальности датасета. И именно в такой последовательности.

Но даже в виде исследовательской версии Codex попробовать, конечно, будет интересно.
Осталось договориться с жабой или дождаться, когда он станет доступен в Plus-подписке :)

#news
👍85🔥5
Посадили Запилили с командой стелс-стартап за пару дней 🚀

Ожидаем иксов уже через несколько месяцев! 🤞
👍6😁6🔥1🤣1
Media is too big
VIEW IN TELEGRAM
GitHub Copilot coding agent

Астрологи объявили месяц асинхронных облачных агентов для кодинга.

Вслед за анонсом Cursor Background Agent и OpenAI Codex, сегодня анонсировали ещё два.

Начнём с GitHub Copilot coding agent

Позволяет прям в самом GitHub назначить таску на агента, и он будет ею асинхронно заниматься у себя облачном окружении, которое работает на основе GitHub Actions.

Сам изучит репозиторий, сделает изменения, запустит тесты, линтер, запушит изменения и сделает PR. Можно продолжить с ним общаться комментами к PR, если нужны какие-то последующие изменения.
Лучше всего будет работать на простых-средних по сложности задачах на хорошо покрытых тестами проектах.

● в процессе работы тратит как минуты GitHub Actions, так и премиум-запросы GitHub Copilot;
поддерживает MCP!
● по умолчанию нет доступа в Интернет, но можно настроить как полный доступ, так и по whitelist;
● раскатывают его поддержку даже в мобильных приложениях GitHub. Будет чем заняться на 3-часовых z2-тренировках :)

Доступен на Copilot Pro+ и Copilot Enterprise подписках ($39/month).

Среди всех представленных асинхронных облачных агентов этот мне кажется самым проработанным по фичам и интеграции, по крайней мере на бумаге.

Источники:
GitHub Copilot coding agent in public preview
Официальная документация

#news
👍6🔥51
Google Jules

Сайт: https://jules.google/

Можно поставить задачу в его веб-интерфейсе или в интерфейсе GitHub, где задаче можно присвоить определенный label, на который Jules отреагирует.

Дальше всё как обычно, но со своими особенностями:
● первым делом он составляет план задачи и просит его аппрува (если не заапрувить, он все равно по таймеру начнет выполнять задачу);
● можно в любой момент вмешаться в работу агента, т.к. все время доступен чат с ним;
● Интернет есть;
● планируется фича CodeCast - аудио-саммари последних изменений в конкретном репозитории (не только тех, которые сделал Julie).
Я требую сторисов! Ну или хотя бы зачитывания кода в стихах и с выражением.

Пока что бесплатен, но высок шанс, что придется подождать - во-первых, не во всех странах доступен (предпочтение отдается США), а во-вторых, туда много народу ломанулось, так что записывайтесь в waitlist.

В день даётся сделать 5 задач, за деньги лимит повысить нельзя, но можно попросить его увеличения, если получится обосновать.

Есть список промптов для Jules от самих Google, что даёт понимание того, какие задачи можно решать с его помощью.

Источники:
Официальная документация

Предыдущие анонсы асинхронных облачных агентов:
Cursor Background Agent
OpenAI Codex
GitHub Copilot coding agent

#news
👍7🔥61
Claude 4

❗️Новые релизы от Anthropic - Claude 4 Opus & Sonnet.

🟢 декларируются улучшения по кодингу, использованию агентских инструментов, включая MCP, но ждём сторонних бенчей

🟢 обе модели гибридные, могут работать как в режиме thinking, так и без него, при этом могут использовать в процессе размышлений инструменты

🟢 обещают, что Opus способен справляться с многочасовыми задачами и не деградирует на задачах со многими шагами

🟢 обещают, что Sonnet стал более управляемым и лучше следует инструкциям

🔵 длина контекста осталась такой же, как и у прошлых моделей - 200k

Доступность

● модели уже в Cursor (Sonnet - 0.5 запроса, Sonnet Thinking - 0.75 запроса, Opus - только в MAX mode с нехилыми такими ценами).
Sonnet, получается, стал дешевле, чем был - возможно, на время, так что нужно переключаться.

● добавили в GitHub Copilot

● а Sonnet 4 стал базовой моделью для GitHub Copilot coding agent (как раз его тестирую второй день, расскажу :))

Расширения API

● Code execution tool - можно запускать код через API
● MCP connector - интеграция с протоколом для создания сложных AI workflow
● Files API - для прямой работы с файлами
● Prompt cache - стало можно кэшировать промпты до часа



В целом релиз во многом рассчитан на поддержку сценариев долгой, автономной разработки с помощью инструментов, улучшая применимость моделей в агентских сценариях.
Этому посвящена значительная часть презентации Anthropic сегодня.

И это хорошо ложится в канву новых инструментов для разработки - фоновых агентов, которые стали появляться за последний месяц.

Я пока что настроен слегка скептически на фоне реально хороших релизов от Google в последнее время, но это всё нужно тестировать, конечно.
Уже переключился на Sonnet 4 :)

#ai #news
👍13🔥93
Claude 4, обзор

Прошло несколько дней работы с Claude 4, так что можно сказать пару слов.

Если вкратце, то для меня теперь выбор моделей для разработки выглядит так:

Sonnet 4
● если нужно подёргать много тулов (полазить по проекту, вызвать MCP, просто задачи вида "запускай тесты и фикси баги до посинения, пока всё не исправишь")
● задачи, для которых отсутствует заранее подготовленный контекст или его просто лень собирать :)
● небольшие повседневные задачи, где не нужно много думать
● веб-разработка

Gemini 2.5 Pro
● все задачи, где нужен длинный контекст
● иии... почти все остальные задачи

o3
● случаи, когда нужен чистый ризонинг

Переход с других моделей на Claude 4
● с Sonnet 3.7 - однозначно переходить:
* изменения в коде стали точнее
* лучше следует инструкциям и держит контекст
* менее упорот - иногда всё-таки делает то, что не просят, но намного реже
* новый cutoff - конец января 2025

● с Gemini 2.5 Pro - как минимум, стоит попробовать на своих задачах:
* лучше использует тулы
* структурнее подходит к решению задач

По поводу Opus 4: хорошо кушает токены и, как следствие, деньги (у меня $1/мин уходило в нескольких тестах).

Если у вас есть Claude Max, где не нужно платить за токены, то Opus можно использовать для сложных задач вместо Sonnet 4, а также в сценариях, когда нужно что-то долго делать с активным использованием тулов в процессе.

Далее в основном буду говорить про Sonnet.

Бенчмарки
Если приглядеться к числам на "хардовых" бенчмарках, то выглядит так себе - от мажорного релиза ожидалось большего.
По многим из них новый Sonnet несильно отличается от прошлого 3.7, а местами даже хуже.

Но на паре результаты всё-таки неплохие:
MultiChallenge - стабильность работы в многоходовых диалогах с людьми
Recall on Codebase Questions - метрика от Cursor, про которую ничего, кроме названия, неизвестно - будем считать, что это "доля правильных ответов на вопросы по кодовой базе при её исследовании в режиме агента"

И это подводит нас к следующему пункту:

В чём же хорош Claude 4?
Anthropic в анонсе много говорили именно про использование новых моделей в агентских сценариях и их интеграции в соответствующий инструментарий (например, в Claude Code & Claude Desktop).

И да, это у них вполне получилось - модели действительно очень хорошо работают с разными тулами и тащат длинные задачи (Opus у самих Anthropic работал до 7 часов, а на Reddit был результат в 40+ минут от пользователя).

За счёт этого они в реальной работе оказываются лучше, чем можно было бы предположить, смотря лишь на "хардовые" бенчмарки.

Потенциал Claude 4 не раскрыть в окружении, где нет тулов - у неё просто не так много других способностей, по которым бы её не обходили модели конкурентов.

Особенности
● охотнее сама строит планы для задач и потом их придерживается

● чаще делает какие-то временные скрипты для тестирования, проверки своих гипотез и т.п. Если нет нужного инструмента - сделай его :)
Иногда она их удаляет по завершению задачи, но чаще оставляет в проекте, приходится вычищать.
Anthropic даже в своём Claude 4 prompt engineering best practices добавили секцию о том, как такое поведение ограничить

● помните, что модель стала делать меньше делать то, что не просят?
Так вот, можно наоборот попросить уйти в отрыв: Don't hold back. Give it your all. - это из того же гайда по промптингу Claude 4 :)

Проблемы
● доступность API - это уже стало особенностью Anthropic, что в моменты пиковой нагрузки отваливаются запросы, инференс тормозит и вообще работать невозможно

● всё ещё может ходить кругами при решении проблем, хоть и реже - почему-то именно линейка Sonnet этим выделяется

● смайлики проникли и в Sonnet - ощущение иногда, что с ChatGPT 4o общаешься :)

Заключение
Противоречивый релиз, конечно, вышел.

Anthropic явно сфокусировались на определенных нишах - агентские системы и кодинг, - уйдя от построения моделей общего назначения (возможно, в силу ограниченности ресурсов на фоне конкурентов).

Посмотрим, к чему это их приведёт в перспективе, ну а пока что для Sonnet 4 у меня явно найдётся работа :)

#ai #model #review
👍29🔥115
Фоновые агенты (1/3)

Итак, у нас появился новый тип инструментов, которые пробудут с нами некоторое время, и их роль будет только возрастать, и это - асинхронные облачные ИИ-агенты (для краткости - фоновые агенты).

Как и любой другой инструмент, этот имеет свои особенности, сферы применения, и его нужно учиться использовать и включать в рабочие процессы.

Для начала расскажу, о чём это всё, а позже опишу подробно свои впечатления по некоторым из фоновых агентов и дам сравнение.

Для кого это?
Фоновые агенты нацелены больше на senior+ разработчиков и предназначены для повышения их продуктивности.
Идея в том, чтобы делегировать ИИ-агентам посильные задачи, над которыми они будут работать без вашего участия.
Это позволяет меньше отвлекаться на рутину и больше фокусироваться на сложных/творческих проблемах.

Больше всего это похоже на то, как будто бы у вас есть на подхвате несколько джунов, которые между собой не общаются, каждый раз видят проект как в первый раз, но могут быстро в параллель работать над небольшими задачами, и всегда при этом доступны.

Что им можно скормить?
Как правило, такие задачи, которые не особо интересно делать:

● фиксинг мелких багов;
● реализация небольших новых и чётко очерченных фич;
● закодить что-то по существующему в проекте шаблону (всякие CRUD'ы, к примеру);
● написание и отладка тестов;
● мелкий рефакторинг кода;
● создание или обновление документации;
● ... и прочие рутинные или трудоемкие задачи, отнимающие время.

Можно глянуть список промптов для Google Jules, чтобы получить более полное представление.

Как это работает?
Фоновые агенты выпустили несколько компаний, но общий принцип их работы довольно схож:

1. Постановка задачи: обычно через чат или через назначение агенту таски на GitHub (кстати, все они ожидают того, что ваш код хостится на GitHub)

2. Создание изолированного окружения: как правило, в облаке поднимается контейнер или VM, а потом туда клонируется репозиторий проекта

3. Автономная работа: в этой "песочнице" агент автономно работает над задачей. Типичные этапы его работы:
Исследование: поиск релевантных задаче документации и кода
Планирование: анализ задачи, опционально - разбивка на более мелкие подзадачи и построение плана
Редактирование: собственно, работа с кодом и/или документацией
Проверка: запуск линтера, билда, тестов, исправление найденных проблем в цикле

В работу некоторых агентов можно вмешиваться на ходу, но по большей части контроля над агентом, кроме полной его остановки, нет до тех пор, пока он не сочтёт задачу выполненной или не завершится по таймауту/ошибке

4. Параллелизация: большинство фоновых агентов поддерживают одновременное выполнение нескольких задач, каждой в своей изолированной среде. Это позволяет делегировать сразу несколько потоков работы - и это, на мой взгляд, самое важное их преимущество

Есть параллелизация и другого рода, когда одну и ту же задачу ставят сразу нескольким копиям агента, чтобы по итогу выбрать понравившееся решение.
С людьми такой финт ушами разве что Том Демарко в своём романе "Deadline" мог себе позволить :)

5. Developer-in-the-loop: финальный контроль остается за человеком. Агент не вносит изменения напрямую в основную ветку, вместо этого он:
Предлагает результат: чаще всего этого готовый pull request в GitHub, но иногда и просто диффы, которые можно применить в открытом проекте
Ждёт одобрения: разработчик просматривает PR, принимает изменения или отправляет на доработку через сообщение в чате или комментарий к PR на GitHub

6. Прозрачность: основа агента - LLM, работающая со своим набором инструментов, которые есть в песочнице (консольные команды, git, правка файлов, (возможно) headless браузер).

Для отчёта предоставляются логи её действий, вызовов инструментов и этапы рассуждений, что может помочь разобраться, если что-то пошло не так

#ai #agents
5👍15🔥76