NEW BOT Телеграм, страница

~~Посадили~~ Запилили с командой стелс-стартап за пару дней 🚀

Ожидаем иксов уже через несколько месяцев! 🤞

👍6😁6🔥1🤣1

685 views22:32

GitHub Copilot coding agent

Астрологи объявили месяц асинхронных облачных агентов для кодинга.

Вслед за анонсом Cursor Background Agent и OpenAI Codex, сегодня анонсировали ещё два.

Начнём с GitHub Copilot coding agent

Позволяет прям в самом GitHub назначить таску на агента, и он будет ею асинхронно заниматься у себя облачном окружении, которое работает на основе GitHub Actions.

Сам изучит репозиторий, сделает изменения, запустит тесты, линтер, запушит изменения и сделает PR. Можно продолжить с ним общаться комментами к PR, если нужны какие-то последующие изменения.
Лучше всего будет работать на простых-средних по сложности задачах на хорошо покрытых тестами проектах.

● в процессе работы тратит как минуты GitHub Actions, так и премиум-запросы GitHub Copilot;
● поддерживает MCP!
● по умолчанию нет доступа в Интернет, но можно настроить как полный доступ, так и по whitelist;
● раскатывают его поддержку даже в мобильных приложениях GitHub. Будет чем заняться на 3-часовых z2-тренировках :)

Доступен на Copilot Pro+ и Copilot Enterprise подписках ($39/month).

Среди всех представленных асинхронных облачных агентов этот мне кажется самым проработанным по фичам и интеграции, по крайней мере на бумаге.

Источники:
● GitHub Copilot coding agent in public preview
● Официальная документация

#news

👍6🔥5❤1

813 viewsedited 03:08

Этихлид

Google Jules

Сайт: https://jules.google/

Можно поставить задачу в его веб-интерфейсе или в интерфейсе GitHub, где задаче можно присвоить определенный label, на который Jules отреагирует.

Дальше всё как обычно, но со своими особенностями:
● первым делом он составляет план задачи и просит его аппрува (если не заапрувить, он все равно по таймеру начнет выполнять задачу);
● можно в любой момент вмешаться в работу агента, т.к. все время доступен чат с ним;
● Интернет есть;
● планируется фича CodeCast - аудио-саммари последних изменений в конкретном репозитории (не только тех, которые сделал Julie).
Я требую сторисов! Ну или хотя бы зачитывания кода в стихах и с выражением.

Пока что бесплатен, но высок шанс, что придется подождать - во-первых, не во всех странах доступен (предпочтение отдается США), а во-вторых, туда много народу ломанулось, так что записывайтесь в waitlist.

В день даётся сделать 5 задач, за деньги лимит повысить нельзя, но можно попросить его увеличения, если получится обосновать.

Есть список промптов для Jules от самих Google, что даёт понимание того, какие задачи можно решать с его помощью.

Источники:
● Официальная документация

Предыдущие анонсы асинхронных облачных агентов:
● Cursor Background Agent
● OpenAI Codex
● GitHub Copilot coding agent

#news

👍7🔥6❤1

1.2K views03:11

Этихлид

Google Jules Сайт: https://jules.google/ Можно поставить задачу в его веб-интерфейсе или в интерфейсе GitHub, где задаче можно присвоить определенный label, на который Jules отреагирует. Дальше всё как обычно, но со своими особенностями: ● первым делом…

На идущем сейчас Google I/O объявили, что доступ к бете Jules выдали всем.

У меня появился, будем тестить :)

#news

🔥12👍5❤2

1.01K views17:49

Этихлид

Claude 4

❗️Новые релизы от Anthropic - Claude 4 Opus & Sonnet.

🟢 декларируются улучшения по кодингу, использованию агентских инструментов, включая MCP, но ждём сторонних бенчей

🟢 обе модели гибридные, могут работать как в режиме thinking, так и без него, при этом могут использовать в процессе размышлений инструменты

🟢 обещают, что Opus способен справляться с многочасовыми задачами и не деградирует на задачах со многими шагами

🟢 обещают, что Sonnet стал более управляемым и лучше следует инструкциям

🔵 длина контекста осталась такой же, как и у прошлых моделей - 200k

Доступность

● модели уже в Cursor (Sonnet - 0.5 запроса, Sonnet Thinking - 0.75 запроса, Opus - только в MAX mode с нехилыми такими ценами).
Sonnet, получается, стал дешевле, чем был - возможно, на время, так что нужно переключаться.

● добавили в GitHub Copilot

● а Sonnet 4 стал базовой моделью для GitHub Copilot coding agent (как раз его тестирую второй день, расскажу :))

Расширения API

● Code execution tool - можно запускать код через API
● MCP connector - интеграция с протоколом для создания сложных AI workflow
● Files API - для прямой работы с файлами
● Prompt cache - стало можно кэшировать промпты до часа

—

В целом релиз во многом рассчитан на поддержку сценариев долгой, автономной разработки с помощью инструментов, улучшая применимость моделей в агентских сценариях.
Этому посвящена значительная часть презентации Anthropic сегодня.

И это хорошо ложится в канву новых инструментов для разработки - фоновых агентов, которые стали появляться за последний месяц.

Я пока что настроен слегка скептически на фоне реально хороших релизов от Google в последнее время, но это всё нужно тестировать, конечно.
Уже переключился на Sonnet 4 :)

#ai #news

👍13🔥9❤3

1.3K views17:29

Этихлид

Claude 4, обзор

Прошло несколько дней работы с Claude 4, так что можно сказать пару слов.

Если вкратце, то для меня теперь выбор моделей для разработки выглядит так:

Sonnet 4
● если нужно подёргать много тулов (полазить по проекту, вызвать MCP, просто задачи вида "запускай тесты и фикси баги ~~до посинения~~, пока всё не исправишь")
● задачи, для которых отсутствует заранее подготовленный контекст или его просто лень собирать :)
● небольшие повседневные задачи, где не нужно много думать
● веб-разработка

Gemini 2.5 Pro
● все задачи, где нужен длинный контекст
● иии... почти все остальные задачи

o3
● случаи, когда нужен чистый ризонинг

Переход с других моделей на Claude 4
● с Sonnet 3.7 - однозначно переходить:
* изменения в коде стали точнее
* лучше следует инструкциям и держит контекст
* менее упорот - иногда всё-таки делает то, что не просят, но намного реже
* новый cutoff - конец января 2025

● с Gemini 2.5 Pro - как минимум, стоит попробовать на своих задачах:
* лучше использует тулы
* структурнее подходит к решению задач

По поводу Opus 4: хорошо кушает токены и, как следствие, деньги (у меня $1/мин уходило в нескольких тестах).

Если у вас есть Claude Max, где не нужно платить за токены, то Opus можно использовать для сложных задач вместо Sonnet 4, а также в сценариях, когда нужно что-то долго делать с активным использованием тулов в процессе.

Далее в основном буду говорить про Sonnet.

Бенчмарки
Если приглядеться к числам на "хардовых" бенчмарках, то выглядит так себе - от мажорного релиза ожидалось большего.
По многим из них новый Sonnet несильно отличается от прошлого 3.7, а местами даже хуже.

Но на паре результаты всё-таки неплохие:
● MultiChallenge - стабильность работы в многоходовых диалогах с людьми
● Recall on Codebase Questions - метрика от Cursor, про которую ничего, кроме названия, неизвестно - будем считать, что это "доля правильных ответов на вопросы по кодовой базе при её исследовании в режиме агента"

И это подводит нас к следующему пункту:

В чём же хорош Claude 4?
Anthropic в анонсе много говорили именно про использование новых моделей в агентских сценариях и их интеграции в соответствующий инструментарий (например, в Claude Code & Claude Desktop).

И да, это у них вполне получилось - модели действительно очень хорошо работают с разными тулами и тащат длинные задачи (Opus у самих Anthropic работал до 7 часов, а на Reddit был результат в 40+ минут от пользователя).

За счёт этого они в реальной работе оказываются лучше, чем можно было бы предположить, смотря лишь на "хардовые" бенчмарки.

Потенциал Claude 4 не раскрыть в окружении, где нет тулов - у неё просто не так много других способностей, по которым бы её не обходили модели конкурентов.

Особенности
● охотнее сама строит планы для задач и потом их придерживается

● чаще делает какие-то временные скрипты для тестирования, проверки своих гипотез и т.п. Если нет нужного инструмента - сделай его :)
Иногда она их удаляет по завершению задачи, но чаще оставляет в проекте, приходится вычищать.
Anthropic даже в своём Claude 4 prompt engineering best practices добавили секцию о том, как такое поведение ограничить

● помните, что модель стала делать меньше делать то, что не просят?
Так вот, можно наоборот попросить уйти в отрыв: Don't hold back. Give it your all. - это из того же гайда по промптингу Claude 4 :)

Проблемы
● доступность API - это уже стало особенностью Anthropic, что в моменты пиковой нагрузки отваливаются запросы, инференс тормозит и вообще работать невозможно

● всё ещё может ходить кругами при решении проблем, хоть и реже - почему-то именно линейка Sonnet этим выделяется

● смайлики проникли и в Sonnet - ощущение иногда, что с ChatGPT 4o общаешься :)

Заключение
Противоречивый релиз, конечно, вышел.

Anthropic явно сфокусировались на определенных нишах - агентские системы и кодинг, - уйдя от построения моделей общего назначения (возможно, в силу ограниченности ресурсов на фоне конкурентов).

Посмотрим, к чему это их приведёт в перспективе, ну а пока что для Sonnet 4 у меня явно найдётся работа :)

#ai #model #review

👍29🔥11❤5

3.21K views04:22

Этихлид

Фоновые агенты (1/3)

Итак, у нас появился новый тип инструментов, которые пробудут с нами некоторое время, и их роль будет только возрастать, и это - асинхронные облачные ИИ-агенты (для краткости - фоновые агенты).

Как и любой другой инструмент, этот имеет свои особенности, сферы применения, и его нужно учиться использовать и включать в рабочие процессы.

Для начала расскажу, о чём это всё, а позже опишу подробно свои впечатления по некоторым из фоновых агентов и дам сравнение.

Для кого это?
Фоновые агенты нацелены больше на senior+ разработчиков и предназначены для повышения их продуктивности.
Идея в том, чтобы делегировать ИИ-агентам посильные задачи, над которыми они будут работать без вашего участия.
Это позволяет меньше отвлекаться на рутину и больше фокусироваться на сложных/творческих проблемах.

Больше всего это похоже на то, как будто бы у вас есть на подхвате несколько джунов, которые между собой не общаются, каждый раз видят проект как в первый раз, но могут быстро в параллель работать над небольшими задачами, и всегда при этом доступны.

Что им можно скормить?
Как правило, такие задачи, которые не особо интересно делать:

● фиксинг мелких багов;
● реализация небольших новых и чётко очерченных фич;
● закодить что-то по существующему в проекте шаблону (всякие CRUD'ы, к примеру);
● написание и отладка тестов;
● мелкий рефакторинг кода;
● создание или обновление документации;
● ... и прочие рутинные или трудоемкие задачи, отнимающие время.

Можно глянуть список промптов для Google Jules, чтобы получить более полное представление.

Как это работает?
Фоновые агенты выпустили несколько компаний, но общий принцип их работы довольно схож:

1. Постановка задачи: обычно через чат или через назначение агенту таски на GitHub (кстати, все они ожидают того, что ваш код хостится на GitHub)

2. Создание изолированного окружения: как правило, в облаке поднимается контейнер или VM, а потом туда клонируется репозиторий проекта

3. Автономная работа: в этой "песочнице" агент автономно работает над задачей. Типичные этапы его работы:
● Исследование: поиск релевантных задаче документации и кода
● Планирование: анализ задачи, опционально - разбивка на более мелкие подзадачи и построение плана
● Редактирование: собственно, работа с кодом и/или документацией
● Проверка: запуск линтера, билда, тестов, исправление найденных проблем в цикле

В работу некоторых агентов можно вмешиваться на ходу, но по большей части контроля над агентом, кроме полной его остановки, нет до тех пор, пока он не сочтёт задачу выполненной или не завершится по таймауту/ошибке

4. Параллелизация: большинство фоновых агентов поддерживают одновременное выполнение нескольких задач, каждой в своей изолированной среде. Это позволяет делегировать сразу несколько потоков работы - и это, на мой взгляд, самое важное их преимущество

Есть параллелизация и другого рода, когда одну и ту же задачу ставят сразу нескольким копиям агента, чтобы по итогу выбрать понравившееся решение.
С людьми такой финт ушами разве что Том Демарко в своём романе "Deadline" мог себе позволить :)

5. Developer-in-the-loop: финальный контроль остается за человеком. Агент не вносит изменения напрямую в основную ветку, вместо этого он:
● Предлагает результат: чаще всего этого готовый pull request в GitHub, но иногда и просто диффы, которые можно применить в открытом проекте
● Ждёт одобрения: разработчик просматривает PR, принимает изменения или отправляет на доработку через сообщение в чате или комментарий к PR на GitHub

6. Прозрачность: основа агента - LLM, работающая со своим набором инструментов, которые есть в песочнице (консольные команды, git, правка файлов, (возможно) headless браузер).

Для отчёта предоставляются логи её действий, вызовов инструментов и этапы рассуждений, что может помочь разобраться, если что-то пошло не так

#ai #agents

5👍15🔥7❤6

5.72K viewsedited 14:40

Этихлид

Фоновые агенты (2/3)

Плюсы (ожидаемые)

● Освобождение фокуса активного внимания: не нужно бебиситтить текущую задачу, как в AI IDE, а можно передать её агенту, чтобы он занимался ею в фоне.
(первое время, впрочем, всё равно как кот на стиралку будете смотреть за работой агента)

● Повышение продуктивности: разгружает от рутины, которая теперь делается почти сама собой, а ещё можно давать агентам задачи "на ночь", к примеру :)

● Параллельная работа: возможность выполнять несколько задач фоном убирает необходимость переключения контекста между ними

● Доступность: так как агент работает где-то в облаке, вы можете проверять статус его работы, давать ему фидбек и даже ставить новые задачи, не находясь на рабочем месте. Некоторыми агентами можно управлять через мобильное приложение, другими - через веб-интерфейс

Проблемы (куда без них)

● Облачность: работа с кодом ведется на сторонних серверах, что может быть неприемлемо для проектов с жёсткими требованиями к безопасности

● Стоимость: в некоторых случаях придется увеличить ваши бюджеты на ИИ-кодинг, для некоторых агентов - значительно. Впрочем, пока что есть и бесплатные варианты

● Скорость - чаще всего фоновый агент работает медленнее, чем если бы задачу решали в том же Cursor. Это потому, что ему нужно с нуля развернуть среду, поставить зависимости, скачать код, да и выделяемые виртуалки как правило не такие быстрые, особенно если вам нужно билдить/тестить тяжёлый проект

● Доступ в интернет: не у всех агентов он есть. Тут важен баланс - с одной стороны, если агенты могут сами лазить в сеть (скажем, для поиска актуальной информации), то это повышает риск утечек. А с другой - агенты без доступа не могут какую-то зависимость на ходу поставить или обратиться к внешнему ресурсу типа Remote MCP

● Общая нестабильность: все текущие фоновые агенты находятся в статусе preview / ранних бета-версий, так что эпизодически что-то ломается то в инфраструктуре, то в работе самого агента.
В таком случае проще всего пересоздать/переназначить задачу, и тем самым запустить агента заново

Хорошие практики

● Линтинг/билд/тесты - чтобы агент мог сам проверить результат своей работы, эти вещи крайне желательно иметь в проекте, иначе проверка ляжет на вас, что значительно удлинит итерации работы с агентом.
Да и в целом это всё нормальные части пайплайна разработки здорового человека

● Предоставление контекста: критичным становится дать агенту всю необходимую информацию на старте, корректно поставив задачу и сказав, где искать документацию (которую тоже нужно иметь в проекте в виде, к примеру, Memory Bank).
Вы его отпускаете в бесконтрольную неизвестность на несколько десятков минут всё-таки :)

В качестве лайфхака: ставьте задачи агенту при помощи LLM прям в чате того же Cursor, собрав нужный контекст

● Настройка окружения: по-хорошему, агенту нужна среда со всеми зависимостями (код, системные пакеты, БД и т.п.), что может быть нетривиальной задачей для сложных проектов.
Некоторые агенты добавляют проблем с тем, что у них ограничены возможности по кастомизации окружения

Так что если у вас есть DevOps-скиллы, тут-то они вам и пригодятся :)

Настроенное воспроизводимое окружение - мастхэв в нормальном проекте, это будет в плюс не только в работе с агентами

● Конфликты: как и в случае работы нескольких людей над одной кодовой базой, можно получить конфликты при мерже их изменений в основную ветку.
Так что в параллель надо ставить те задачи, которые не приведут к изменению одних и тех же файлов. Ну и/или понимать, как работать с ветками, конфликтами, мержами/ребейзами в Git

● Контроль качества: LLM совершают ошибки, галлюцинируют, принимают неоптимальные решения - это норма, так что человеческий контроль и ревью обязательны.
Привыкайте к тому, что разбор пулл-реквестов станет частью вашей работы

● Не давать сложных/многоступенчатых задач - тут наработанная конкретно вами практика постановки и оценки результатов работы агентов важнее, но в целом задачи должны быть небольшие/"плоские"/изолированные - с такими текущие агенты справляются успешнее

#ai #agents

5👍12🔥7❤2

5.03K views14:40

Этихлид

Фоновые агенты (3/3)

Что это меняет?

● Повышение уровня абстракции: для разработчиков становится проще переход к задачам более высокого уровня вместо написания кода.
Это ожидаемая и неизбежная трансформация профессии по мере улучшения ИИ-моделей.

Чтобы не повторяться: после выхода сценария AI 2027 я писал, куда развиваться, чтобы быть готовым к грядущим изменениям

● Адаптация рабочего процесса для эффективного включения в него агентов. Придётся потратить некоторое время как на технические изменения (что проще), так и на то, чтобы изменить свои привычки (что чутка сложнее).

Качественно этот переход можно сравнить с тем, как если бы от рядового разработчика нужно было бы перейти к техлидству (самое время менять название канала на AI-техлид, хехе :))

Хорошей ментальной моделью может стать то, что изображено на картинке к посту.

Появляются этапы, на которых можно работать с задачами в режиме конвейера - подряд несколько задач перекинуть на агентов, потом подряд несколько проверить, по нескольким сразу дать фидбек/вмержить.

Без фоновых агентов все эти этапы для каждой задачи проходят последовательно, и в случае использования AI IDE мы просто ждём, пока агент закончит работу (не всегда, но чаще всего), попутно отвлекаясь и теряя фокус.

А теперь есть возможность конвейерной и параллельной работы над задачами - и это то, к чему придёт профессия уже в недалёком будущем

● В перспективе агенты будут умнеть и смогут брать задачи больше и сложнее.
Адаптировать проекты, процессы и свои ментальные модели под них нужно начинать уже сейчас

Краткое сравнение

● Google Jules - проще всего с него начать: 60 (!) задач в день, бесплатно, пусть слабая кастомизация и интеграция, но для попробовать - очень хорошо

● OpenAI Codex - теперь входит в подписку Plus ($20), поудобнее, чем Jules и чуть более фичастый, а вчера ему провели Интернет.
Конкретные лимиты не озвучены, но говорят, что щедрые

● Cursor Background Agent - дорого (только для MAX-режима), нестабильно и требует включения возможности обучения на вашем коде

● GitHub Copilot code agent - лучший по кастомизации, интеграции в сам GitHub и фичам, я сам его использую сейчас как основной.
Доступен в планах от $39 (туда же входят 1500 запросов в месяц, которые шарятся между агентом и самим Copilot, и их можно использовать в Roo Code, полуофициально).

#ai #agents

5🔥16👍12❤3

6.67K viewsedited 14:41

Этихлид

ChatGPT o3-pro

Вчера OpenAI выпустила улучшенный вариант своего флагманского ризонера - o3-pro, который они сами описывают как "o3 с бóльшим компьютом для улучшенных ответов".

Бенчмарки
По тем бенчмаркам, которые предоставили OpenAI, модель, ожидаемо, выглядит лучше, чем o3.

С моделями других компаний прямого сравнения не было, так что сравним с теми, что нам известны по прошлым замерам на тех же бенчмарках:

GPQA Diamond (разнообразные вопросы по биологии, физике и химии уровня магистратуры)
● Gemini 2.5 Pro 06-05: 86.4%
● Gemini 2.5 Pro 03-25: 84%
🔴 o3-pro: 84%

AIME 2024 (школьная математическая олимпиада)
🟢 o3-Pro: 93%
● Gemini 2.5 Pro 03-25: 92%

(стоит отметить, что Gemini 2.5 Pro 03-25 - "старая" модель, 2 релиза назад)

Модель доступна:
● в плане ChatGPT Pro за $200/мес
● в OpenAI API: $20 input / $80 output за 1м токенов (требуется верификация)
● и даже в Cursor, но сколько она там стоит - на текущий момент неизвестно

Как использовать
Лучше всего там, где обычно и нужно использовать мощные ризонеры: архитектура, планирование, брейнштормы, глубокие и сложные проблемы.

Будет ли она страдать от тех же проблем, что и o3 - время покажет

#ai #model #news

👍7🔥7❤5

1.5K views04:24

Этихлид

Снижение цен на ChatGPT o3

Собственно o3-pro стоило выпустить хотя бы ради того, чтобы снизить цены на o3 :)

Стоит o3 теперь сравнимо с Gemini 2.5 Pro, дешевле GPT-4o и одинаково с GPT-4.1:
$2 input / $8 output за 1м токенов
(для использования по API требуется верификация)

И в Cursor вызов к ней теперь тарифицируется как 1 запрос ($0.04).

Что это меняет?
Для меня не так много: код с её помощью писать - то ещё развлечение (см. ниже), а для чистого ризонинга она сравнима с Gemini 2.5 Pro, работать с которой мне приятнее.

Но то, что у нас теперь есть ещё один дешёвый и при этом мощный ризонер - это прекрасно, т.к. задачи они решают по-разному, и, если один не справился, можно дать шанс другому :)

Особенности
Краткий обновленный пересказ из прошлого обзора:

🟢 Мощный ризонинг - главное преимущество, но теперь уже не такое явное на фоне Gemini

🟢 Использование инструментов - прошлые модели о-серии использовали инструменты либо нехотя, либо вообще отказывались их задействовать. По факту, лучший Tool Use сейчас всё равно у Claude 4

🟡 (Само)уверенность и неуступчивость - o3 реже вам поддакивает и соглашается, если вы ей возражаете, и может аргументированно отстаивать свою позицию.
Это ценно для брейншторминга и поиска объективных решений там, где разные мнения имеют право на существование, но запросто может и создавать проблемы.

🔴 Малая длина фактического вывода
● модель скупа на количество выдаваемого кода, пытается его ужать там, где это лишено смысла;
● не дает пояснений к тому, что делает и комментариев к нетривиальному коду.

🔴 Галлюцинации - есть много жалоб на галлюцинации, особенно на нишевых темах, и этому есть даже подтверждения в system card модели от самих OpenAI.

🔴 "Враньё" - а эта проблема посерьёзнее - сообщения пользователей (и отчёт TransluceAI) о том, что модель может фабриковать информацию о своих действиях (например, имитировать поиск или вызов других тулов) и настаивать на своем, даже будучи неправой.

Вердикт для разработчиков
● Модель хороша для решения узких сложных задач, фиксов нетривиальных багов, но её не так эффективно использовать где-то ещё из-за вышеперечисленных минусов.

● Передача контекста заранее является особенно важным - описывайте задачу подробнее и со всеми ограничениями, накладываемыми на потенциальное решение.

● Для ответственных задач, которые выходят за рамки вашей собственной интуиции/понимания, и которые нельзя легко проверить, использовать её нужно с осторожностью, и обязательно делать кросс-чек с той же Gemini 2.5 Pro / специалистами в теме.

#ai #model #review

👍8🔥6❤5

1.85K viewsedited 04:25

About

Blog

Apps

Platform