Этихлид – Telegram
Этихлид
4.77K subscribers
152 photos
23 videos
129 links
Канал техлида с мыслями об AI, IT и спорте.

https://news.1rj.ru/str/etechlead/6 - содержание

https://news.1rj.ru/str/etechlead/8 - о канале

https://news.1rj.ru/str/+NgQZbosvypEyYWQ6 - чат канала, там отвечаю(т) быстрее :)

(без рекламы)
Download Telegram
MCP (4/4), практики внедрения

В процессе оформления предыдущих постов про MCP в статью на Хабре неожиданно написал еще один раздел :)
Продублирую его и сюда.


В целом, практики построения систем на основе MCP не сильно отличаются от практик работы с любой другой агентской системой, но есть некоторые нюансы.

Управление контекстом
Одна из целей обращения к внешним системам - обогащение контекста LLM для решения поставленной задачи.

Однако тут важно понимать, что контекст (т.е. токены) стоит денег, он лимитирован по длине, с его ростом LLM начинает медленнее отвечать, и, даже если все ваши данные влезают в контекст, далеко не все LLM одинаково "умны" с коротким и длинным контекстом.

Соответственно, MCP-сервер должен быть точен и лаконичен в возвращаемых данных, а MCP-хост может применять разного рода техники по управлению контекстом, чтобы снизить стоимость работы с ним: суммаризация, кеширование, использование скользящего окна и т.д.

Также стоит подумать о кешировании контекста в тех LLM, которые это поддерживают - это сильно влияет как на время до первого output-токена, так и на цену input-токенов.

Скорость работы
MCP создавался для работы в агентских системах навроде Claude Desktop или Cursor, где не ожидается моментальных результатов, а скорее дается задача агенту, а дальше он сам собирает нужный контекст из разных мест и/или запускает какие-то тулзы по ходу дела.

И это довольно небыстрый процесс временами - тот же Cursor минутами может возиться, разбираясь в проекте и меняя код, однако он всё равно решает поставленные задачи в 10+ раз быстрее меня.

В том случае, если нужна скорость или система предполагает высокую нагрузку - стоит подумать о другой, более оптимальной для вашего случая архитектуре.
См. комменты к первому посту в серии на эту тему, там от подписчиков были интересные вопросы и идеи :)

Качество данных
LLM принимает решения на основе тех данных, которые оказались в контексте, и если в него попадает неполная, противоречивая, нерелевантная задаче информация, то ждите проблем: будет путаться, делать не то, что надо, обращать внимание на несущественные детали и т.п.

Соответственно, по возможности нужно следить за качеством данных, которые попадают в контекст из внешних систем через MCP-сервера.
Правило garbage in - garbage out тут всё ещё работает :)

Это касается и того, насколько хорошо и уникально названы и описаны сущности, которые экспортирует MCP-сервер, чтобы модель вызывала те функции, которые вы от неё ожидаете.

Безопасность
Подключением MCP вы даёте LLM доступ к приватным данным и возможность совершать потенциально деструктивные операции в том окружении, где запущен MCP-сервер.

Встроенного механизма авторизации в протоколе на текущий момент нет, он существует только в виде драфта для следующей версии.

Так что нужно учесть следующие моменты, особенно при работе со сторонними MCP-серверами:

● проверяйте их код на предмет наличия там небезопасных операций

● запускайте сам MCP-сервер под пользователем с минимально необходимым набором прав и, по возможности, в изолированной среде (в контейнерах, к примеру, что особенно делает интересным вариант запуска через supergateway + sse + docker, описанный ранее)

● если MCP-сервер требует авторизации во внешней системе - у пользователя, которого он для этого будет использовать, тоже должны быть только самые необходимые права

● настраивайте MCP-хост на то, чтобы он спрашивал разрешение у пользователя на получение доступа к ресурсам или на вызов инструментов. Да, это довольно быстро станет обузой в работе, но при работе с непроверенным MCP-сервером стоит об этом подумать

Ну и, конечно, нужно помнить о том, в случае коммерческих LLM данные передаются куда-то в облако, и этот вопрос требует отдельной проработки с учётом ваших политик безопасности.

#ai #mcp
🔥156👍6
Claude 3.7 Sonnet MAX

Тут пару дней назад обновился Cursor и в него добавили поддержку таинственного Claude 3.7 Sonnet MAX.

MAX режим
Как оказалось, это не какая-то новая модель, а другой режим работы существующей 3.7 с расширенными возможностями.

🔴 Цена
Давайте сначала про самое важное: один вызов модели в этом режиме стоит 5 центов и каждый запуск инструмента в рамках этого вызова стоит ещё 5 центов.
Для работы с ним нужно включить usage-based оплату в настройках Cursor, как на скрине №2, и, желательно, поставить какой-то разумный лимит расходов.
Потратить $10+ в час в таком режиме несложно - видео №1 довольно точно передает особенности работы с Sonnet 3.7 MAX.

🟢 Доступ к полному контексту в 200к токенов
Если что - в Cursor агент работает с контекстным окном в 60к токенов, но для Sonnet 3.7 ему дают 120к, а в MAX режиме - все 200к.
Предыдущие модели хуже работали с такими длинными контекстами, как говорит команда Cursor, и 3.7 стала первой достойной передачи ей такого количества токенов :)
Это прекрасно, потому что длина честного контекста - чуть ли не самое важное ограничение текущих моделей.

🟢 Увеличен лимит вызовов инструментов до 200 на один запрос
В не-MAX режиме это 25 инструментов на запрос.
Это неплохо, но скорее из серии nice to have.

🟢 Модель читает гораздо более крупные фрагменты файлов за раз
... что означает, что ей требуется меньше вызовов инструментов, чтобы собрать контекст.
А вот это хорошо, т.к. ускоряет время работы, особенно когда модель натыкается на большой файл - в не-MAX режиме она его читает строк по 100, а в MAX я видел и 750, так что в большинстве случаев файлы читаются сразу целиком.

🟢 Премиальный цвет модели в окне Cursor
Видите такой градиент в названии модели у кого-то, как на скрине №3 - знайте, перед вами MAX-боярин :)


Общие впечатления после 15 баксов, проведённых с моделью

Работает шустрее
Нет, не в том смысле, что ей какой-то приоритет отдаётся - скорее, из-за того, что она вычитывает файлы целиком и дольше хранит их в контексте.
Скорость генерации на глаз не изменилась.

Действует осторожнее
В MAX-режиме модель с меньшей ретивостью, чем обычный Sonnet 3.7, бросается изучать и что-то делать в проекте.
Тут есть и плюсы, и минусы: с одной стороны, она не тратит контекст и экономит запуски инструментов, а с другой - ограничивается локальными изменениями, не пытаясь понять общую картину.
Не исключено, что её запромптили на это намеренно, чтобы она за один запрос все 200 инструментов не запустила ($10 одним махом всё-таки).

А в целом
... это всё тот же Sonnet 3.7, с тем же интеллектом, с тем же качеством кода, просто с более длинным контекстом, чутка шустрее и НАМНОГО дороже.
По идее этот режим приближает Cursor по расходам к Claude Code или инструментам, которые напрямую работают с Anthropic API (но всё ещё обходится дешевле).


Где использовать?
● там, где нужен длинный контекст (однако не намного длиннее, чем он уже есть);
● там, где нужно много тулзов запускать - дебаггинг (как в ранее описанных в канале случаях), сквозной рефакторинг;
● (из комментов) в ask режиме генерировать план решения задачи, дав весь контекст. Дальше свитчить на агента и "обычный" thinking claude 3.7, который будет пилить код;
● когда не хочется думать об ограничениях :)

Ну, словом, режим не для всех, как признаёт и сама команда Cursor.

Думаю, тут у них было 2 цели:
● дать полные возможности тем, кто просил команду Cursor снять ограничения контекста, невзирая на цены (довольно часто, кстати, были такие просьбы у них на форуме);
● какие-то будущие мощные модели выпускать с таким же ценообразованием.

#ai #cursor #sarcastaball #model
🔥10👍6😁21
Gemini 2.5 Pro Experimental (1/2), общая инфа

Ух, прям горячие деньки выдались в плане новостей.

На мой взгляд, 2 релиза стали лучшими продуктами в своих нишах - OpenAI 4o Image Generation и Google Gemini 2.5 Pro Experimental.
(кажется, гиблизация станет словом года, ну или, по крайней мере, месяца :))

Ну, где я, а где картинки, так что поговорим про Gemini :)

tl;dr: очень хороший ризонер, лучший в работе с длинным контекстом (1м токенов), пока что бесплатный (с лимитами), но при этом не очень в работе с AI-тулингом.

Важные бенчмарки для разработки

Aider Polyglot - аж на 8% лучше Sonnet 3.7 Thinking в корректности кода, но, правда, при этом на те же 8% хуже в соблюдении формата для редактирования (что может сделать сложной ее интеграцию с AI-тулингом).

SWE-bench Verified - задействует способности модели работать в режиме агента, и да, тут модель хуже Sonnet 3.7

MRCR - тестирование длинного контекста с одной, но слегка нестандартной, иголкой.
Отличные результаты, но модели Gemini традиционно хороши в таких тестах. Хочется спросить, однако: Google, где Sonnet?

Fiction.liveBench - свежий бенчмарк на тестирование понимания моделью длинного контекста через скармливание ей рассказа и последующих вопросов на развитие сюжета, отношений персонажей, предсказаний на основе подсказок и т.п.
Этот тест куда правильнее тестирует "честный" контекст модели, и результаты Gemini тут просто уходят в отрыв.
Жаль, что не тестировали на более длинных текстах.

LIveCodeBench v5 - олимпиадные задачки по программированию, тут модель чутка хуже сильно натасканной на это o3-mini (и опять, в результатах нет Sonnet 3.7) - т.е. она способна решать довольно сложные алгоритмические задачи, что говорит об очень хорошем ризонинге.

AIME 2025 - олимпиады по математике, примерно те же результаты, что и у o3-mini, что тоже показывает отличный ризонинг у модели.

Knowledge Cutoff
Модель обладает знаниями от января 2025, и это отличная новость - она должна быть в курсе актуальных версий языков/библиотек (да, OpenAI, у нас давно не 2023й).

Длина контекста - 1м токенов
... при этом обещают увеличить до 2м.
Не устаю повторять, что длина "честного" контекста - одно из самых существенных ограничений текущих моделей.
С 1м эффективного контекста и таким ризонингом Gemini 2.5 способна работать с кодовыми базами в 5+ раз больше, чем Sonnet 3.7, с тем же или выше качеством.

Тулинг и прочие фичи
У модели заявлены:
● Structured Outputs & Function Calling
● граундинг через поиск в интернете
● выполнение кода

Ну т.е. очень фичастая модель, есть практически всё необходимое, однако при этом она не так хороша в тулинге, как тот же Sonnet 3.7.
Было бы здорово, если бы с этим что-то сделали к релизу.

Нет кеширования
Это потому, что модель экспериментальная, к релизной версии кеширование будет, а иначе в агентском режиме можно будет разориться.

Цена
Пока что модель бесплатная в силу экспериментальности, но что-то страшно себе представить, сколько она будет стоить, с таким-то контекстом и возможностями :)

Лимиты
Пока модель бесплатная, на неё установлены такие лимиты:
● 2 запроса в минуту
● 2м токенов в минуту
● 50 запросов в день (стоит иметь в виду, если захочется её как агента использовать - довольно быстро можно упереться в дневной лимит)

Как попробовать?
● модель доступна в Google AI Studio в режиме обычного онлайн-чата
● есть в OpenRouter - можно подключать в Cline, к примеру (каждый вызванный тул - один использованный запрос из 50 доступных в день)
● её добавили в Cursor, но работает так себе (контекст, кажется, режется самим Cursor, модель не работает в режиме агента и ломается форматирование при выводе)

#ai #development #model
👍74🔥3❤‍🔥1
Gemini 2.5 Pro Experimental (2/2), личные впечатления

Что тут сказать - Google наконец-то смог, эта модель вполне на уровне текущих флагманов для разработки.

Что меняет появление этой модели?
● Открывается возможность работы с намного большими по объему проектами.
● Стало можно делать cross-cutting изменения во многих местах проекта, глобальные рефакторинги.
● Не так важно становится держать документацию для проектов, которые целиком лезут в контекст (собственно, практика хранения документации рядом с кодом для нейронок - это, по сути, сжатие контекста).
● Качественный ризонинг по такому длинному контексту - вообще уникальное явление.

Для чего я сам успел её попробовать
Я задался целью проверить длинный контекст и ризонинг - главные преимущества модели, исходя из этого и выбрал задачи.

В одном из проектов недавно прошли архитектурные изменения и сопутствующий рефакторинг: нужно было распилить Next.js приложение на Next.js + NestJS + background workers и сделать монорепу.
Эти изменения в основном делались руками, т.к. нейронки с таким не очень справляются.
Но из-за этого документация отстала от актуального состояния проекта и нужно было ее обновить - не самое интересное занятие, в отличие от того же рефакторинга, где бывают креативные моменты.

Проект небольшой, примерно на 350к токенов, но это уже за пределами возможностей Sonnet 3.7.

Так как единственным местом, где модель нормально работала, была AI Studio, решил тряхнуть стариной и взял для этого Repomix - эта штука собирает указанные файлы в проекте в один мега-файл, который можно скинуть в чат модели (спустился до 2-го уровня согласно этой классификации :)).

1. Документация
В рамках чата в AI Studio попросил сделать markdown для обновления файлов документации (порядка 10 штук по разным частям и слоям системы), и потом руками их перенес в проект.
А так как у модели лимит на output 65k токенов, то генерил по нескольку документов за раз.

Результат на 4.5 - актуальное состояние проекта передано очень точно, но были некоторые стилистические правки.

2. Рефакторинг
Ещё одна задача, хорошо подходящая для такой модели - планирование "широких" рефакторингов.

Тут я решил выделить React-компоненты, инкапсулирующие в себе повторяющиеся элементы, которые встречались много где в коде фронтенда и при этом таскали за собой портянку tailwind-классов (нагенерились в процессе вайб-кодинга ;))

● задача была поставлена в виде "проанализируй весь код фронтенда и предложи, какие элементы можно выделить в компоненты";

● получил список компонентов, штук 10, которые можно выделить, с обоснованием того, почему их стоит выделять и примеры, откуда;

● попросил сгенерить код для каждого из них, перенес в проект;

● по каждому из компонентов попросил предоставить список мест в проекте, где его можно использовать - скажем, для Button вышел список из примерно 30 файлов и 50 кнопок, которые можно заменить базовым компонентом;

● ну а с готовым списком уже пошел в Cursor Agent + Sonnet 3.7 для изменения существующего кода на использование компонентов (показательно, что у него иногда контекст кончался в процессе работы и приходилось переключаться на MAX).

Общий результат тоже на 4.5 - были вопросы к списку выделенных компонентов в плане уровня генерализации, их размеров и количества, но это вкусовщина и мы быстро "договорились".
Ни одной ошибки в сгенерённом коде модель не сделала.


Как видите, обе задачи довольно широкие и заставляют модель смотреть в много разных мест проекта и уметь их между собой связывать.
Всё это было в рамках одного чата, контекст в котором в процессе общения распух до 400к, и модель всё ещё хорошо с ним справлялась.
И, кстати, при этом довольно шустро как думала, так и генерила ответы.

Если оно до 1м и потом до 2м токенов так же будет работать - для многих проектов я бы предпочел Gemini 2.5 всем остальным существующим моделям.

Остаются лишь вопросы тулинга и цены :)



Прошлые посты по связанным темам:
Уровни внедрения ИИ в разработку
Инициативность Sonnet 3.7
Инициативность Sonnet 3.7 и MCP
Claude 3.7 Sonnet MAX
OpenAI o3-mini

#ai #development #model
👍195🔥5💯2❤‍🔥1
Загрузка проекта разом в контекст Gemini 2.5 Pro MAX в Cursor

❗️Использовать на свой страх и риск❗️

Есть такой класс утилит, которые могут собрать все указанные файлы в вашем проекте в один мегафайл, чтобы его можно было разом закинуть в нейронку (если позволяет её контекстное окно).

Как это сделать?
● ставим Repomix;
● делаем для него конфиг, можно взять за основу его собственный;
● запускаем (важно делать в той же папке проекта, где работает Cursor, чтобы пути к включаемым файлам от неё строились):

>repomix -c repomix.config.json

📦 Repomix v0.3.0

✔️ Packing completed successfully!

📈 Top 5 Files by Character Count and Token Count:
──────────────────────────
<censored>

📊 Pack Summary:
────────────────
Total Files: 294 files
Total Chars: 998,573 chars
Total Tokens: 223,299 tokens
Output: repomix-output.xml

🎉 All Done!
Your repository has been successfully packed.


● получаем на выходе один файл с конкатенацией всех файлов проекта;
● открываем файл в самом Cursor и копируем его содержимое (именно через Ctrl+C);
● вставляем содержимое файла в чат Cursor (Ctrl+V);
● пишем промпт и работаем дальше, все файлы проекта уже в контексте.

Зачем оно?
Экономия: модели в MAX-режиме в Cursor тарифицируются помимо оплаты за промпт ещё и платой за каждый тул.
Если у вас в проекте 100 файлов, то 100+ раз будет вызван тул чтения файлов - 5 центов за вызов.

И ещё больше экономии, если агент не нужен - остаёмся в режиме Manual (Edit) и просим нейронку что-то поправить. В этом режиме тулы не вызываются и она просто выдаёт диффы, которые вы сами применяете.
На одной из таких задач вместо 38 вызовов, которые бы сделал агент, у меня вышло 2.

Скорость: поиск нужных файлов и последующее их чтение один за одним требует времени, нейронка не всегда читает всё что нужно за один промпт и т.д.

Особенности
● если остаетесь в режиме Manual (Edit), то, несмотря на то, что Gemini 2.5 хорошо держит длинный контекст, спустя некоторое время всё равно может происходить деградация из-за того, что она в этом режиме лишена возможности вычитывать файлы заново с диска, и может начать писать файлы не туда, придумывать их содержимое и т.п., но тут уже можно руками нужные подкинуть в чат;

● почему просто не перетащить файл в окно чата? Потому, что Cursor то ли вообще такой большой файл на сервер не отправляет, то ли оттуда уже не передаёт нейронке.
Причем, что интересно, это работало у меня в Cursor 0.47 вчера, а сегодня в 0.48 - уже нет (но это неточно);

в теории такой подход сработает и для Sonnet 3.7 MAX, и для других нейронок, но смотрите на ограничения контекстного окна в Cursor (если что - у не-MAX версии Gemini 2.5 контекст 120к) (upd: не сработал, только с Gemini MAX работает).

Для каких задач лучше всего подойдет
● обсуждение глобальных архитектурных изменений;
● сквозные задачи - логгирование, интеграционные тесты, рефакторинг и т.п.;
● составление документации по проекту.
Ну, словом, там, где нужен длинный контекст Gemini 2.5 и ризонинг по большой кодовой базе, с включением в контекст максимально возможного количества файлов.

Почему "на свой страх и риск"?
Ну явно ж незапланированная возможность.
Плюс, есть тенденция в Cursor:
● убрали возможность закидывать много файлов по маске в контекст (была такая штука @Codebase, сейчас сломана);
● упомянутые через "@" файлы всё чаще не закидываются в контекст, а агенту просто даются на них ссылки, которые он потом тулами читает;
● убрали возможности закидывать большие файлы, как я уже упомянул;
... так что логично дальше убрать и большие сообщения, которые используются в описанном в этом посте способе.

Собственно, нет уверенности в том, что к моменту, как вы это попробуете, оно всё ещё будет работать :)

Но пока что работает, и в связке с Gemini 2.5 Pro сильно экономит время и деньги.

А в целом по модели ещё распишу накопившиеся впечатления после уже потраченных на неё $30 :)
Вкратце - прям нравится, но и не копейки стоит.

#ai #development #cursor
👍11😱4🤔3
Cursor - ссылки на все версии

Несколько раз за последние дни видел жалобы о том, что Cursor ленится обновляться до последней версии.

Если не терпится, то есть неофициальный каталог официальных ссылок на новые и старые версии Cursor:
https://github.com/oslook/cursor-ai-downloads

Как правило, скачать версию поновее и поставить поверх старой - безопасно.

Однако, несколько вещей для того, чтобы снизить вероятность фиаско:
● лучше не скакать через несколько версий
● проверяйте, что ссылки действительно ведут на https://downloads.cursor.com
● откат версии нередко что-то ломает, судя по отзывам - от потери старых чатов до потери ваших настроек Cursor и необходимости полной переустановки
бекапы - всегда хорошо

#ai #cursortips
👍9🔥4
Gemini 2.5 Pro Exp + Cursor

(... после нескольких дней и $50 на тестирование)

Вкратце
● для повседневных небольших задач и задач, где требуется слабоумие и отвага инициативная модель, у меня так и остаётся Sonnet 3.7 в режиме агента;
● сложные задачи - Gemini 2.5;
● исследование кодовых баз, ревью, архитектура, планирование, глобальные рефакторинги для небольших проектов - паритет между Sonnet 3.7 и Gemini 2.5;
● всё, что требует больше ~50k контекста - Gemini 2.5;
● для MCP, пока хватает контекста - Sonnet 3.7, а дальше - Gemini 2.5 (да, она работает с MCP в Cursor).

Теперь подробности.

Ничего неожиданного - самые интересные особенности модели были видны уже на важных для разработки бенчмарках, про которые я писал и рассказывал, почему они важны.
Предварительные впечатления тоже остаются в силе.

Контекст
Это самая важная фича модели.

В Cursor для не-MAX режима Gemini 2.5 даётся 120к контекста (как и Sonnet 3.7), а вот в MAX режиме - все 1м.

Но даже задолго до 120к, на мой взгляд, Gemini удерживает контекст лучше, чем Sonnet.

Она лучше помнит далеко ушедшие по истории куски чата, что помогает как для широких изменений в проекте, так и в плане удержания правил / задач.

Как-то модель в точности вспомнила, что мы с ней делали ~150к токенов назад.
Ради интереса после ~350к токенов я её просил составить отчёт по проделанной работе и она ничего не потеряла.

Работа с контекстом не идеальна - модель может что-то случайно "забыть" и "вспомнить" при повторном/следующем запросе.
И она так же постепенно деградирует по мере удлинения контекста, может путаться, ходить кругами и т.п.
Но всё равно в этом плане показывает результаты лучше, чем конкуренты.

Работа в режиме агента
На фоне не-Anthropic моделей агентский режим хотя бы работает :)
Но ощутимо хуже, чем Sonnet 3.7, поэтому он и остаётся рабочей лошадкой.

Другое дело, что Sonnet 3.7 - это такая немного упоротая лошадка, а вот Gemini 2.5 делает то, что скажут, не проявляя инициативы.
Модель чаще приходится направлять в нужные места проекта, добрасывать ей файлы руками, просить запустить программу, MCP-тул и т.п.

Иногда даже чувствуется вайб старых моделей - "я тут написала часть кода, теперь твоя очередь".
Но для кого-то это будет плюсом.

А ещё Gemini работает ощутимо шустрее Sonnet'a.

MCP
Работает, но хуже, чем в Sonnet, модель "ленится" :)
(если нужно общее понимание MCP, можно почитать мой цикл постов или статью на Хабре)

Ризонинг
Там, где не нужно много думать, модель работает примерно на уровне Sonnet 3.6-3.7.

А вот там, где нужно копнуть поглубже - алгоритмы, сложные задачи, я раньше использовал o3-mini, но теперь это потеряло смысл, т.к. Gemini эти задачи решает примерно так же, но при этом работает в режиме агента и не ограничена знаниями 2023г.

Проблемы
● на 1 из 50 запросов сбивается форматирование и весь последующий чат ломается (помогает возврат к последнему чекпойнту). Но я ожидал, что будет хуже, судя по бенчам :)

● свои правила форматирования кода - нередко, несмотря на то, что в контексте есть примеры оформления кода в проекте, модель всё равно пишет его так, как ей нравится. Я не сторонник километровых правил в Cursor, но тут начал понемногу пополнять список :)

● непрошенное переписывание кода - чаще, чем у Sonnet. Мимоходом может поменять порядок методов, алгоритм, какой-то неоптимальный код и т.п.
Но, как ни странно, эти изменения бывают по делу - я так несколько раз оставлял переписанный код

● нестабильная работа в целом - модель экспериментальная и может остановиться посреди ответа, вернуть ошибку, быть недоступной некоторое время и т.п.

ЦЕНА - MAX-режим с 1м контекста - это 5с за промпт + 5с за каждый вызов тула.
(где-то можно попробовать сэкономить при помощи Repomix)

Что дальше
Модель экспериментальная, так что какие-то вещи улучшатся к релизу.

Ещё обещались контекст до 2м увеличить.

Кстати, без дневных лимитов модель сейчас только в Cursor можно использовать (Google подсуетился), что говорит о значимости Cursor и о высокой вероятности того, что сценарии, связанные с разработкой, важны для команды Gemini.

#ai #model #review
🔥14👍71
Лента сегодня :)
😁7👍2
AI 2027, хронология влияния ИИ на разработку ПО (1/3)

Тут вышел интересный прогнозный сценарий развития ИИ с середины 2025 по 2030+ год.
Сайт: AI 2027; PDF; и на сайте есть ссылки на аудио.

Настоятельно советую прочитать его целиком, просто чтобы быть в курсе предсказаний от мыслящих людей, которые находятся на передовой ИИ, и при этом в прошлом давали уже сбывшиеся прогнозы.
Ну и обязательно читать, если вы цените футуризм как жанр, а тут это ещё и подкреплено большим количеством ссылок на объективную реальность.
(предупрежу, однако, что там довольно много политоты)

Я выделил из документа основные предсказания, которые относятся к разработке ПО - в нём немало посвящено именно этой теме, так как от этого зависит скорость прогресса в исследованиях, посвящённых улучшению самого ИИ.
Думаю, будет интересно отслеживать будущее по этому таймлайну, проверяя его предсказательную силу, да и просто чтобы быть в курсе того, что может произойти на следующем этапе развития технологий.
Это выжимка и вольный пересказ, (комментарии в скобках) - мои.



В центре повествования - вымышленная передовая ИИ-лаборатория "OpenBrain" (кто бы это мог быть) и её все более мощные модели ИИ (Agent-0, Agent-1, Agent-2 и т.д.), а также их конкурент в лице китайской "DeepCent" (загадка прям).

Сценарий описывает стремительный прогресс ИИ, его влияние на различные сферы (особенно на сами ИИ-исследования, разработку ПО и рабочие места), риски безопасности, проблемы alignment и геополитические последствия, кульминацией которых становится появление сверхинтеллекта, с двумя концовками, переломным моментом для выбора между которыми становится 2027 год.

Середина 2025
● Появляются специализированные ИИ-агенты для написания кода и начинают влиять на профессию.
● ИИ для кодинга функционируют скорее как автономные сотрудники, чем просто ассистенты: они принимают инструкции через Slack/Teams и самостоятельно вносят существенные изменения в код, иногда экономя разработчикам часы или даже дни.
● Прогнозируется, что агенты, подобные Devin, достигнут 85% на бенчмарке SWEBench-Verified (на текущий момент №1 - 65.4% у свежего Augment Code, руки чешутся попробовать).

Начало 2026
● Автоматизация кодинга начинает приносить плоды, значительно ускоряя исследования и разработки в области ИИ в OpenBrain.
● Выходит Agent-1, модель, обладающая обширными знаниями: она знает практически все языки программирования и чрезвычайно быстро решает небольшие чётко поставленные задачи по кодингу. Она описывается как "рассеянный сотрудник, который раскрывается под внимательным управлением".
● Продвинутые разработчики находят способы автоматизировать рутинные части своей работы с помощью этих ИИ (это уже происходит, причем чем опытнее разработчик, тем больше профита).
● ИИ уровня Agent-1 сравниваются с лучшими человеческими командами/экспертами в выполнении специфических многочасовых задач по кодингу/хакингу/инженерии.

#ai #review #article
🔥10👍51
AI 2027, хронология влияния ИИ на разработку ПО (2/3)

Конец 2026
● "ИИ начинает отнимать рабочие места": Рынок труда для джунов-разработчиков переживает потрясения (я бы сказал, что он уже сейчас его переживает).
● ИИ способны выполнять задачи, которым обычно обучают в рамках программы бакалавриата по Computer Science.
● Спрос смещается в сторону инженеров, умеющих управлять командами ИИ и контролировать их качество (эти скиллы нужно качать уже сейчас, я как-то писал про это).
● Знакомство с ИИ становится самым важным навыком для резюме в технологической сфере (технолуддитов я уже перестал рассматривать всерьёз).

Январь 2027
Agent-2, следующий значительный шаг OpenBrain, качественно почти не уступает лучшим людям-экспертам в инженерии исследований (проектирование/реализация экспериментов).
● Роль людей-инженеров/исследователей на переднем крае все больше напоминает роль менеджера ИИ-"команды".

Март 2027
● Появляется Agent-3, достигающий статуса "сверхчеловеческого кодера" (superhuman coder): он быстрее, дешевле и превосходит лучших людей-кодеров.
● В передовых лабораториях, таких как OpenBrain, написание кода считается полностью автоматизированным.
● Люди-инженеры остаются в штате в основном для управления командами копий Agent-3, используя комплементарные навыки (такие как "исследовательский вкус" (research taste) - принятие решений о том, что изучать дальше, какие эксперименты проводить, распознавать новые парадигмы), которые сложнее автоматизировать.

Июнь 2027
● В передовых лабораториях большинство людей-инженеров/исследователей больше не приносят реальную пользу в непосредственном написании кода или исследованиях. Некоторые не осознают этого и микроменеджат свои ИИ-команды, принося больше вреда.
● Лучшие люди-исследователи ИИ больше не пишут код, оставаясь полезными в собственно исследованиях.

Июль 2027
● Выпускается Agent-3-mini - более дешевая, общедоступная версия Agent-3.
● Найм новых программистов практически прекратился.
● Самой ценной становится роль консультанта по интеграции ИИ в бизнес.

Октябрь 2027
● Растет общественное осознание потери рабочих мест. К этому моменту 25% рабочих мест, существовавших в 2024 году и предполагавших удаленную работу, выполняются ИИ. Обсуждаются/внедряются государственные программы, такие как профессиональная переподготовка и страхование по безработице.

С середины 2028 и далее (в обеих концовках сценария)
● Происходит масштабная экономическая трансформация. Люди продолжают терять рабочие места, в том числе в сферах, связанных с разработкой ПО, по мере драматического роста возможностей ИИ.
● Традиционная роль человека-разработчика ПО в значительной степени устаревает, будучи вытесненной либо непосредственно ИИ, либо людьми, управляющими/интегрирующими ИИ-системы.

(концовки касаются судьбы человечества в целом и представляют интерес для любителей научной фантастики :))

#ai #review #article
🔥7👍53
AI 2027, хронология влияния ИИ на разработку ПО (3/3)

Релевантные графики

1. Длительность задач кодинга, которые ИИ-агенты могут выполнять автономно
Иллюстрирует экспоненциальный рост "временного горизонта" - сложности и длительности задач по разработке ПО, с которыми ИИ могут справляться самостоятельно с заданной надежностью.

Почему важен: Это прямое визуальное подтверждение растущих возможностей ИИ именно в сфере разработки ПО. График показывает, как быстро ИИ осваивают задачи, ранее требовавшие недели, месяцы или даже годы работы квалифицированных программистов, что является основой для прогнозов о вытеснении человеческого труда.

В пояснении указано, что переход от решения задач, которые требуют недели работы человека, к задачам, которые требуют года, будет в 2 раза проще, чем переход от 1-часовых до 1-недельных задач.

2. Появление superhuman coder, прогнозы
Показывает распределение вероятностей того, когда, по мнению разных прогнозистов (включая авторов AI 2027), появится "cверхчеловеческий кодер" (superhuman coder).

Почему важен: Этот график фокусируется на ключевом переломном моменте - появлении ИИ, превосходящего лучших людей-программистов. Достижение этой вехи напрямую связано с радикальными изменениями на рынке труда в разработке ПО.

3. Падение цен на инференс LLM
Показывает резкое снижение стоимости (9-900x в год) инференса LLM с течением времени для различных задач.

Почему важен: Снижение стоимости делает использование мощных ИИ, способных писать код, экономически выгодным в широких масштабах. Это ключевой фактор, способствующий автоматизации и, как следствие, влияющий на рабочие места разработчиков.

#ai #review #article
🔥13👍74
AI 2027, что делать? (1/2)

Прогноз AI 2027 наделал много шума, хотя обозначенным трендам уже несколько лет, а некоторые вещи даже явно озвучиваются как цели ИИ-компаний (как, к примеру, создание ИИ-исследователя).
Разве что вопрос в сроках, которые сокращаются в каждом следующем прогнозе, но это тоже норма - мы наблюдаем экспоненту в развитии технологий.

Тем не менее, у многих возникает вопрос - а что делать?

Disclaimer
● примем сценарий AI 2027 как возможный вариант будущего;
● мы решили остаться в IT (принимая, что роботизация произойдет вскоре после автоматизации кодинга, и фокус на адаптации и возможностях внутри IT сейчас кажется более прагматичным, чем смена области на "физическую");
● камон, я ж рандомный чел без неймдроппинга из телеги ;)

Итак, сценарий AI 2027 начинает разворачиваться на наших глазах.
Простые ИИ-агенты для кодинга существуют с полгода как часть Cursor/Windsurf/etc.
Уже начали появляться более автономные агентские системы (как Devin). Они пока ненадежны, но быстро улучшаются.

Нам нужно найти оптимальные точки приложения усилий, чтобы быть готовыми к грядущим изменениям.

Прямо сейчас: навыки работы с ИИ-инструментами

Признать реальность сценария
Не отмахиваться от прогнозов как от "просто хайпа", допустить, что даже если они не сбудутся на 100%, направление развития однозначное.
Это первый шаг для обретения мотивации к адаптации.

Включать ИИ-ассистенты в работу
Освоить существующие инструменты (Cursor / агентские системы / MCP / Perplexity / DeepResearch / etc), научиться эффективно делегировать им рутинные задачи, уметь с ними "договариваться" (промпты, правила, настройки), быстро проверять и интегрировать ИИ-код.
Цель: увеличить свою производительность кратно уже сейчас.

Следить за фронтиром
Наблюдать за релизами ведущих ИИ-лабораторий, читать технические отчеты, понимать бенчмарки и реальные возможности новых моделей.
На рынке из-за ускорения прогресса сейчас одновременно присутствуют инструменты, которые могут как вообще не повлиять на вашу производительность, так и повысить ее в разы, и нужно учиться делать осознанный выбор.

Начать переоценку своих сильных сторон
Какие задачи в вашей работе ИИ уже сейчас делает с приемлемым качеством? Какие пока нет? Где вы приносите уникальную ценность (глубокое понимание бизнес-логики, архитектурное видение, решение нечетко поставленных задач, коммуникация с заказчиком и коллегами)?
Перепроверяйте список потенциально автоматизируемых задач с выходом новых моделей.

Качать правильный нетворкинг
Искать единомышленников, сообщества для обмена опытом, собираться в стихийные команды.
Меньше читать пустых и хайповых новостей от "ИИ-журналистов", которые сами не используют то, о чём пишут, и больше мнений и реальных кейсов от практиков.

#ai #futurism
👍18🔥8👎21🕊1
AI 2027, что делать? (2/2)

Краткосрочная стратегия: cмещение фокуса с написания кода

Переход к роли менеджера / ИИ-техлида
По мере появления более способных ИИ (уровень Agent-1), сознательно смещать фокус с написания каждой строки кода на:
* декомпозицию сложных задач на подзадачи для ИИ;
* формализацию спецификаций и требований;
* ревью кода, сгенерированного ИИ (поиск неявных ошибок, проблем с архитектурой, безопасностью);
* интеграцию и оркестрацию работы ИИ-агентов.
Тут, конечно же, будет проще тем, кто уже работал на позициях уровня senior+ и/или научится привлекать ИИ для таких задач.
+ Остаточная сложность

Углубление в архитектуру и системный дизайн
Чем больше кода пишет ИИ, тем важнее становится роль человека в проектировании общей структуры системы; взаимодействии её с другими системами и командами; выстраивании границ, API и протоколов; выборе правильных подходов и технологий на высоком уровне.
+ Про повышение уровней абстракции

Развитие продуктового мышления
Глубоко понимать бизнес-контекст, потребности пользователей, уметь транслировать их в технические решения высокого уровня, которые затем можно детализировать с помощью ИИ.

Создание финансовой подушки
Сценарий подразумевает экономическую турбулентность. Начать формировать резервы на случай временной потери дохода или необходимости переобучения.
В идеале резервов должно быть столько, чтобы хватило на 3+ года.

Заняться здоровьем/физкультурой
Во-первых, это сильно поможет адаптации к изменениям, а во-вторых, нужно постараться "донести" себя в адекватном физическом, умственном и психическом состоянии до возможных существенных прорывов в медицине.
+ Спорт - это не инвестиция
+ Житие тогда у нас тяжкое было
+ 300 недель

Среднесрочная стратегия: возможные специализации и новые роли

Специализация на управлении ИИ-командами
К моменту появления Agent-2/3, управление ИИ-разработчиками станет полноценной профессией, в которую будут переходить как IT-менеджеры, так и разработчики. Это потребует навыков постановки задач, контроля качества, оценки производительности ИИ, возможно, даже "отладки" их поведения.
+ Чёрный ящик

Переход в ИИ-интеграцию / консалтинг
По мере появления мощных публичных моделей (Agent-3-mini), возникнет огромный спрос на специалистов, помогающих бизнесу внедрять ИИ, адаптировать процессы, обучать сотрудников. Это потребует сочетания технических знаний, понимания бизнеса и коммуникативных навыков (да, снова софт-скиллы).

Доменная экспертиза + управление ИИ
Стать экспертом не просто в кодинге, а в применении ИИ для решения задач в конкретной области (биотех, финансы, продажи и т.д.). Вы будете ставить задачи ИИ и интерпретировать результаты в своей области.

Долгосрочная перспектива: адаптивность, человеческие качества, диверсификация

Адаптивность как главный навык
Быть готовым к тому, что даже новые "ИИ-менеджмент"-роли могут быть автоматизированы следующим поколением ИИ (Agent-4/5 и далее). Постоянное обучение и готовность радикально менять сферу деятельности станут нормой.

Ставка на "человеческое"
Развивать навыки, которые ИИ сложнее всего имитировать: эмпатия, лидерство, построение сложных социальных связей, стратегическое видение человеческих ценностей и целей, креативность в плохо формализуемых областях, физическое взаимодействие с миром (если вы рассматриваете такой вариант).

Диверсификация источников дохода
Не полагаться только на зарплату. Рассмотреть разного рода инвестиции, создание собственного (возможно, небольшого и нишевого, через пет-проекты) бизнеса, использующего ИИ как инструмент.
Затевать стартап, который "взлетит" через 5+ лет сейчас - не очень умно, т.к. горизонт планирования продолжит сокращаться.

Готовность к новой экономической модели (ББД?)
Сценарий прямо указывает на массовые увольнения и переход к экономике, где основную работу выполняют ИИ. Морально и финансово готовиться к миру, где может появиться Безусловный Базовый Доход, а ценность человеческого труда и интеллекта будет пересмотрена. Искать смысл, самореализацию и свою нишу, хобби вне традиционной работы.

#ai #futurism
2🔥24👍7👏5👎1🕊1
С появлением Gemini 2.5 Pro проблема заполнения её 1м контекста стала особенно актуальной.

Я уже как-то советовал для таких целей использовать Repomix, и сам постоянно этим пользуюсь для больших задач, но, кажется, и сами разработчики Cursor тоже этим озаботились.

На скринах - превьюшки от дизайнера Cursor, где он спойлерит возможную будущую фичу для того, чтобы сразу выбрать нужный набор файлов и положить их в контекст и при этом видеть, сколько токенов будет потрачено.

Весьма нужная фича, т.к. в текущей реализации контекст заполняется недетерминированно/долго/дорого.
Ждём :)

#cursor
🔥12👍7🤗1