Media is too big
VIEW IN TELEGRAM
tl;dr по новому интервью Ильи Суцкевера у Дваркеша Пателя. Собрали самые яркие цитаты и мысли:
➖ Эпоха масштабирования моделей закончилась: мы возвращаемся в эпоху рисерча. Просто "вбухать еще больше компьюта" уже не работает: чтобы добиться существенного прорыва, нужны новые открытия.
➖ Узкое место текущих моделей – все еще генерализация. Это самое существенное, в чем ИИ отстает от человека, и, как следствие, основное препятствие на пути к AGI. Оценки на бенчах действительно выглядят хорошо и продолжают улучшаться, но это в какой-то степени мираж. Реальное качество отстает, потому что модели (в частности, во время RL) переобучаются под эвалы, а исследователи только способствуют этому, продолжая плодить однотипные бенчмарки и трейнинг лупы.
➖ Илья говорит, что у него есть идеи по поводу того, чего не хватает текущим моделям, но не делится ими, к сожалению. Хотя в интервью были намеки на то, что в SSI разрабатывают методы на основе Continual Learning и динамических reward функций.
➖ AGI может наступить и через 5, и через 20 лет. И когда AGI появится, самый надежный для людей способ не остаться бесполезными и сохранить контроль – слияние с ИИ (Neuralink???).
Все еще сильно советуем посмотреть полностью здесь
Все еще сильно советуем посмотреть полностью здесь
Please open Telegram to view this post
VIEW IN TELEGRAM
👍113 44❤25🔥7🗿7😁4 3👏2💯2🤯1🫡1
📌 Как прошёл год в ML: Яндекс представит итоги семи ключевых международных конференций
Если вы следите за трендами в машинном обучении, не пропустите ML Global Recap 11 декабря. На конференции ребята из Яндекса поделятся хайлайтами ключевых конференций в сфере ML за 2025 год.
Гостей ждут обзоры шести научных конференций, а также живые доклады о трендах в рекомендательных системах, компьютерном зрении, NLP и распознавании речи.
В программе:
— Краткий разбор NeurIPS — Алексей Гусаков, CTO группы Поисковые сервисы и ИИ;
— Тренды обработки звука с Interspeech — Борис Шелудько, руководитель команды качества звука;
— Тренды компьютерного зрения, обзор ICLR — Роман Исаченко, руководитель команды анализа изображений
— Тренды в NLP, обзор ICLR и ACL — Александр Юшкевич, руководитель команды развития моделей базового качества
— Новинки рекомендательных технологий, обзоры CIKM и RecSys — Николай Савушкин, руководитель команды рекомендательных технологий.
В этом году ребятам удалось представить на RecSys устный доклад – турбо уровень для мероприятий такого масштаба. Поделятся тем, как выглядел процесс изнутри – от подачи до выступления.
После докладов — фуршет и нетворкинг с участниками и спикерами. Отличная возможность обменяться идеями и обсудить, каким будет ML в 2026-м.
📍 11 декабря, 18:00, Omega Rooftop в Москве или онлайн.
Регистрация и подробности — по ссылке
Если вы следите за трендами в машинном обучении, не пропустите ML Global Recap 11 декабря. На конференции ребята из Яндекса поделятся хайлайтами ключевых конференций в сфере ML за 2025 год.
Гостей ждут обзоры шести научных конференций, а также живые доклады о трендах в рекомендательных системах, компьютерном зрении, NLP и распознавании речи.
В программе:
— Краткий разбор NeurIPS — Алексей Гусаков, CTO группы Поисковые сервисы и ИИ;
— Тренды обработки звука с Interspeech — Борис Шелудько, руководитель команды качества звука;
— Тренды компьютерного зрения, обзор ICLR — Роман Исаченко, руководитель команды анализа изображений
— Тренды в NLP, обзор ICLR и ACL — Александр Юшкевич, руководитель команды развития моделей базового качества
— Новинки рекомендательных технологий, обзоры CIKM и RecSys — Николай Савушкин, руководитель команды рекомендательных технологий.
В этом году ребятам удалось представить на RecSys устный доклад – турбо уровень для мероприятий такого масштаба. Поделятся тем, как выглядел процесс изнутри – от подачи до выступления.
После докладов — фуршет и нетворкинг с участниками и спикерами. Отличная возможность обменяться идеями и обсудить, каким будет ML в 2026-м.
📍 11 декабря, 18:00, Omega Rooftop в Москве или онлайн.
Регистрация и подробности — по ссылке
❤19🗿15👍6🔥2😁1
Nvidia сегодня снова в центре внимания: они внезапно выложили самодовольный твит, в котором поздравили Google с успехом, но (скажем так) не от всей души
Напоминаем, что вчера стало известно, что Meta впервые в истории закупит у Google TPU для установки в свои датацентры (мы об этом вот тут писали). Так вот, на фоне новости акции Nvidia упали аж на 6 пунктов, и компания, видимо, решила "ненавязчиво" напомнить, кто тут главный.
Дословный перевод этого бархатно-токсичного чуда:
В определение "ASIC", если что, гугловские TPU попадают напрямую🤠
Ощущется пост буквально вот так:
Напоминаем, что вчера стало известно, что Meta впервые в истории закупит у Google TPU для установки в свои датацентры (мы об этом вот тут писали). Так вот, на фоне новости акции Nvidia упали аж на 6 пунктов, и компания, видимо, решила "ненавязчиво" напомнить, кто тут главный.
Дословный перевод этого бархатно-токсичного чуда:
Мы рады успехам Google – они действительно заметно продвинулись в ИИ, и при этом мы продолжаем оставаться их поставщиком.
NVIDIA опережает всю отрасль как минимум на одно поколение – это единственная платформа, способная запускать любые модели ИИ и использоваться повсюду, где идут вычисления.
NVIDIA предлагает более высокую производительность, гибкость и взаимозаменяемость по сравнению с ASIC-чипами, которые заточены под конкретные фреймворки или отдельные задачи.
В определение "ASIC", если что, гугловские TPU попадают напрямую
Ощущется пост буквально вот так:
Please open Telegram to view this post
VIEW IN TELEGRAM
3😁262❤31🍓12👌5👍3🦄1
Российские ученые первыми нашли способ защитить модели компьютерного зрения от пиратства без дополнительного обучения
Метод представили на ICCV 2025(A*), где его положительно оценили эксперты из таких гигантов как Amazon, Google и других ведущих университетов. Команда из научной лаборатории ИИ Центрального университета предложила механизм, который защищает готовые нейросети по принципу лицензионного ключа.
В модель добавляется специальный нейрон, который не реагирует на обычные изображения, но активируется при появлении секретного ключа – это и позволяет подтвердить авторство. А “нейроны-нарушители” делают модель работоспособной только при наличии ключа. Без него она начинает вносить помехи.
Главное: решение подходит для любых моделей CV, не требует вычислений и практически полностью исключает ложные срабатывания. Это открывает путь к массовой коммерциализации и реальной защите моделей компьютерного зрения от копирования.
Метод представили на ICCV 2025(A*), где его положительно оценили эксперты из таких гигантов как Amazon, Google и других ведущих университетов. Команда из научной лаборатории ИИ Центрального университета предложила механизм, который защищает готовые нейросети по принципу лицензионного ключа.
В модель добавляется специальный нейрон, который не реагирует на обычные изображения, но активируется при появлении секретного ключа – это и позволяет подтвердить авторство. А “нейроны-нарушители” делают модель работоспособной только при наличии ключа. Без него она начинает вносить помехи.
Главное: решение подходит для любых моделей CV, не требует вычислений и практически полностью исключает ложные срабатывания. Это открывает путь к массовой коммерциализации и реальной защите моделей компьютерного зрения от копирования.
1❤116😁47🔥28🗿19👍17🤔9 6🤯5
Новое исследование от Anthropic: ребята решили посчитать реальный экономический эффект от Claude
Чем работа выделяется, так это тем, что эффект считают уже здесь и сейчас. В большинстве подобных отчетов вы встретите только что-то расплывчатое типа "вот если мы автоматизируем 30% задач, это будет +N% к ВВП". Тут считают эмпирику сегодня + на реальных данных юзеров.
Что, по факту, сделали:
1. Взяли 100 000 реальных диалогов юзеров Claude и тщательно (верим) все анонимизировали.
2. Для каждого диалога посчитали, сколько выполняемые задачи бы заняли у человека без ИИ. Получилось в среднем 90 минут, а с помощью Claude – на 80% меньше (опять же, в среднем).
2. Дальше задачи сопоставляли с профессиями (по классификации O*NET + данным из OEWS), чтобы оценить, сколько стоит выполнение такой задачи человеком. Итоговый экономический эффект = (сэкономленные часы) × (средняя $/час профессии).
Получилось, что если ИИ применяется повсеместно, то дает +1.8% росту производительности труда в год.
Учитывая, что доля труда в экономике обычно берется равной 60%, это означает примерно +1.1% годового прироста общей факторной производительности (TFP).
Для понимания: исторический рост TFP в развитых странах ≈ 0.5–1%.
Конечно, есть куча НО. Например, невозможно оценить, сколько люди тратят вне диалога с ИИ на доработку и проверку ответов. Во-вторых, выборка задач нерепрезентативна всей экономике (частично аналика это учитывает, но все же). Ну и наконец, если ИИ ускоряет работу, это не значит, что люди становятся более продуктивными: они могут просто меньше работать💀
Сами антропики пишут, что рассчитали скорее оценку снизу. "Есть основания полагать, что реальный экономический эффект выше".
www.anthropic.com/research/estimating-productivity-gains
Чем работа выделяется, так это тем, что эффект считают уже здесь и сейчас. В большинстве подобных отчетов вы встретите только что-то расплывчатое типа "вот если мы автоматизируем 30% задач, это будет +N% к ВВП". Тут считают эмпирику сегодня + на реальных данных юзеров.
Что, по факту, сделали:
1. Взяли 100 000 реальных диалогов юзеров Claude и тщательно (верим) все анонимизировали.
2. Для каждого диалога посчитали, сколько выполняемые задачи бы заняли у человека без ИИ. Получилось в среднем 90 минут, а с помощью Claude – на 80% меньше (опять же, в среднем).
2. Дальше задачи сопоставляли с профессиями (по классификации O*NET + данным из OEWS), чтобы оценить, сколько стоит выполнение такой задачи человеком. Итоговый экономический эффект = (сэкономленные часы) × (средняя $/час профессии).
Получилось, что если ИИ применяется повсеместно, то дает +1.8% росту производительности труда в год.
Учитывая, что доля труда в экономике обычно берется равной 60%, это означает примерно +1.1% годового прироста общей факторной производительности (TFP).
Для понимания: исторический рост TFP в развитых странах ≈ 0.5–1%.
Конечно, есть куча НО. Например, невозможно оценить, сколько люди тратят вне диалога с ИИ на доработку и проверку ответов. Во-вторых, выборка задач нерепрезентативна всей экономике (частично аналика это учитывает, но все же). Ну и наконец, если ИИ ускоряет работу, это не значит, что люди становятся более продуктивными: они могут просто меньше работать
Сами антропики пишут, что рассчитали скорее оценку снизу. "Есть основания полагать, что реальный экономический эффект выше".
www.anthropic.com/research/estimating-productivity-gains
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
1😁55🔥43❤26🤔11👍4🤯1
Тем временем на ARC-AGI-2 ИИ-системе впервые удалось превзойти уровень человека
В лаборатории Poetiq придумали, как можно соединять разные LLM так, чтобы в разы бустить их производительность (кому интересно, внизу оставим ссылку на код). И вот 20 ноября они заявили, что их подход – микс Gemini 3 и GPT-5.1 – впервые дал на бенчмарке результат, превосходящий человека.
Правда, это только на публичном evaluation-сете. При переносе на semi-private результат, скорее всего, ухудшится. Но учитывая, что по отдельности модели даже близко не дотягивают до 60% (у Gemini 3 45%, у GPT-5 около 20%), все равно новость занятная.
Еще пол года назад ARC-AGI-2 казался для ИИ вообще нерешаемым, а самые топовые модели выбивали на нем 1-2%.
Блогпост | Код
В лаборатории Poetiq придумали, как можно соединять разные LLM так, чтобы в разы бустить их производительность (кому интересно, внизу оставим ссылку на код). И вот 20 ноября они заявили, что их подход – микс Gemini 3 и GPT-5.1 – впервые дал на бенчмарке результат, превосходящий человека.
Правда, это только на публичном evaluation-сете. При переносе на semi-private результат, скорее всего, ухудшится. Но учитывая, что по отдельности модели даже близко не дотягивают до 60% (у Gemini 3 45%, у GPT-5 около 20%), все равно новость занятная.
Еще пол года назад ARC-AGI-2 казался для ИИ вообще нерешаемым, а самые топовые модели выбивали на нем 1-2%.
Блогпост | Код
❤🔥82🔥35❤20 13👍11😁8🤯8🎉1
This media is not supported in your browser
VIEW IN TELEGRAM
В честь пятилетия AlphaFold Google впервые выложили в бесплатный доступ фильм про DeepMind
Картина называется The Thinking Game, наверняка кто-то из вас ее уже смотрел. Фильм вышел летом 2024, но до этого дня был доступен только на платных площадках.
Сегодня, в честь 5-летия AlphaFold, Google впервые бесплатно выложили его на YouTube.
Документалка снималась с 2019 и рассказывает о Демисе Хассабисе, основателе и CEO DeepMind, его команде и ключевых моментах разработки легендарных систем вроде AlphaGo, AlphaZero и AlphaFold.
100% советуем к просмотру: https://youtu.be/d95J8yzvjbQ
Картина называется The Thinking Game, наверняка кто-то из вас ее уже смотрел. Фильм вышел летом 2024, но до этого дня был доступен только на платных площадках.
Сегодня, в честь 5-летия AlphaFold, Google впервые бесплатно выложили его на YouTube.
Документалка снималась с 2019 и рассказывает о Демисе Хассабисе, основателе и CEO DeepMind, его команде и ключевых моментах разработки легендарных систем вроде AlphaGo, AlphaZero и AlphaFold.
100% советуем к просмотру: https://youtu.be/d95J8yzvjbQ
👍90🔥32 12❤11😁2
Статья от команды Qwen взяла награду Best Paper Award на NeurIPS 2025
Работа называется "Gated Attention for Large Language Models: Non-linearity, Sparsity, and Attention-Sink-Free". В ней исследователи предложили новый вид механизма внимания – gated attention.
Суть в том, что на выход каждой attention-головы мы добавляем сигмоидную шторку, которая масштабирует аутпуты.
Фактически, из Attention → Output мы делаем Attention → Sigmoid-gate × Output.
Причем гейт – это обучаемый блок. Интуитивно, гейт учится понимать, насколько голова полезна в конкретном случае, и насколько, следовательно, нужно усилить или заглушить ее сигнал.
В целом хак небольшой, но оказывается, что прокачивает и стабильность обучения, и итоговое качество. А еще помогает избегать залипания внимания на первых токенах и деградации способностей при увеличении контекста.
Короче, работа правда достойная (почитать можно здесь). Так что поздравляем Qwen с очередным успехом.
Работа называется "Gated Attention for Large Language Models: Non-linearity, Sparsity, and Attention-Sink-Free". В ней исследователи предложили новый вид механизма внимания – gated attention.
Суть в том, что на выход каждой attention-головы мы добавляем сигмоидную шторку, которая масштабирует аутпуты.
Фактически, из Attention → Output мы делаем Attention → Sigmoid-gate × Output.
Причем гейт – это обучаемый блок. Интуитивно, гейт учится понимать, насколько голова полезна в конкретном случае, и насколько, следовательно, нужно усилить или заглушить ее сигнал.
В целом хак небольшой, но оказывается, что прокачивает и стабильность обучения, и итоговое качество. А еще помогает избегать залипания внимания на первых токенах и деградации способностей при увеличении контекста.
Короче, работа правда достойная (почитать можно здесь). Так что поздравляем Qwen с очередным успехом.
❤126🔥43👍30😁2☃1
С релиза первой версии прошло почти два года. Новую уже никто и не ждал, но релиз, как это часто бывает в случае с DeepSeek, наступил внезапно.
Сразу кратко о результатах:
– Уровень золотой медали на IMO 2025 и CMO 2024 (Chinese Mathematical Olympiad).
– Почти идеальный результат 118/120 на Putnam 2024. Это сверхсложная математическая олимпиада для студентов университетов США и Канады.
– Бенчмарков мало, нет ни MATH, ни GSM8K, ни AIME, вообще почти ничего. Это странновато, но можно пока посмотреть на сравнения с другими моделями на IMO-ProofBench. Видно, что модель довольно уверенно бьет GPT-5 и на сложных задачах выходит на уровень с Gemini 2.5 Pro. Опять же, интересно, что там с Gemini 3, Grok 4 и GPT-5.1.
Теперь заглянем под капот.
Система основана на DeepSeek-V3.2-Exp-Base. Пайплайн состоит из генератора и верификатора.
Доказательство или решение формируется не за раз, а в результате нескольких проходов и улучшений: большая модель генерирует решение -> оно отправляется в модель-верификатор, где тщательно проверяется каждый шаг и ищутся ошибки -> обратная связь от верификатора возвращается генератору -> так доказательство переписывается и улучшается до 16 раз.
При этом в каждой итерации используются и проверяются сразу несколько (до 64) гипотез и вариантов решения. Получается сотни прогонов для одной задачи. Такое вот умное структурированное масштабирование test-time компьюта.
Сколько стоило решение олимпиады – не раскрывают, но видимо немало. Судя по всему, поэтому результатов по бенчмаркам и нет: денег не хватило
Веса | Статья | Репозиторий
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥90😁36❤21👍15👌3🤔1
Please open Telegram to view this post
VIEW IN TELEGRAM
4😁483😎36👍24❤6🔥5 2
Data Secrets
Сегодня все соцсети гудят о том, что видеокарты сильно подорожают в ближайшее время И да, это, к сожалению, правда. Дело в том, что сейчас наблюдается просто беспрецедентный спрос на память из-за рынка ИИ. По данным TrendForce, цены на память в последнее…
Прошел интересный слух, что в 2026 Nvidia больше не будет продавать партнерам память
То есть вместо того, чтобы поставлять кристалл в комплекте с микросхемами GDDR‑памяти, компания теперь будет отправлять партнерам только сам чип.
Производители будут вынуждены самостоятельно закупать VRAM у Samsung, Micron, SK Hynix и др.
Причина все та же: острая нехватка памяти. Все что есть перенаправляют на строительство датацентров для ИИ, а для игровых видеокарт делиться памятью Nvidia уже невыгодно.
Чем это грозит конечному потребителю, довольно очевидно: рост цен и дефицит отдельных моделей видеокарт😞
То есть вместо того, чтобы поставлять кристалл в комплекте с микросхемами GDDR‑памяти, компания теперь будет отправлять партнерам только сам чип.
Производители будут вынуждены самостоятельно закупать VRAM у Samsung, Micron, SK Hynix и др.
Причина все та же: острая нехватка памяти. Все что есть перенаправляют на строительство датацентров для ИИ, а для игровых видеокарт делиться памятью Nvidia уже невыгодно.
Чем это грозит конечному потребителю, довольно очевидно: рост цен и дефицит отдельных моделей видеокарт
Please open Telegram to view this post
VIEW IN TELEGRAM
Google поздравили всех с Днем Благодарения и выпустили app.new
Это вайбкодинг тулза для создания полноценных веб-приложений по запросу. Просто вводите промпт – агент тут же прототипирует и разворачивает то, что вы хотите.
Короче, просто еще одна забавная обертка для Gemini.
Самое прикольное здесь – пасхалка в названии. У Google есть docs.new, sheets.new и slides.new, meet.new. Но это не ИИ-сервисы, а просто короткие ссылки для быстрого создания новой презентации/таблицы/документа. В этом смысле app.new как бы продолжает линейку и быстро «открывает» для вас приложения💡
app.new
Это вайбкодинг тулза для создания полноценных веб-приложений по запросу. Просто вводите промпт – агент тут же прототипирует и разворачивает то, что вы хотите.
Короче, просто еще одна забавная обертка для Gemini.
Самое прикольное здесь – пасхалка в названии. У Google есть docs.new, sheets.new и slides.new, meet.new. Но это не ИИ-сервисы, а просто короткие ссылки для быстрого создания новой презентации/таблицы/документа. В этом смысле app.new как бы продолжает линейку и быстро «открывает» для вас приложения
app.new
Please open Telegram to view this post
VIEW IN TELEGRAM
👍82❤28🤯21😁6🔥2🤝1
Data Secrets
Intellect-2 или как обучить ризонинг модель на 32В без кластера GPU Помните, примерно пол года назад мы рассказывали вам, как в стартапе Prime Intellect впервые децентрализованно обучили крупную LM? Так вот теперь исследователи пошли дальше и обучили уже…
Помните стартап Prime Intellect? Ребята занимаются децентрализованным обучением и на днях впервые выпустили конкурентоспособную модель Intellect-3
Прошлая версия модели вышла в мае и была занятной (в частности потому что обучалась децентрализованно), но не на уровне frontier.
Теперь же по бенчмаркам Intellect-3 опережает GLM-4.5 и DeepSeek-R1-0528, а по математике вообще достигает SOTA в своем размере (она 106B MoE).
Что интересно: для RL-обучения использовался асинхронный RL-фреймворк prime-rl. С инженерной точки зрения это очень сложный процесс и PRIME единственные, кто сейчас таким занимаются. Но успех модели в целом доказал, что подход работает. В стартапе уверены, что именно такие инструменты – это путь к сильным децентрализованным моделям.
Prime-rl уже выложили в опенсорс, так что кому интересно, покапаться в нем можно здесь.
Репорт | HF | Блог
Прошлая версия модели вышла в мае и была занятной (в частности потому что обучалась децентрализованно), но не на уровне frontier.
Теперь же по бенчмаркам Intellect-3 опережает GLM-4.5 и DeepSeek-R1-0528, а по математике вообще достигает SOTA в своем размере (она 106B MoE).
Что интересно: для RL-обучения использовался асинхронный RL-фреймворк prime-rl. С инженерной точки зрения это очень сложный процесс и PRIME единственные, кто сейчас таким занимаются. Но успех модели в целом доказал, что подход работает. В стартапе уверены, что именно такие инструменты – это путь к сильным децентрализованным моделям.
Prime-rl уже выложили в опенсорс, так что кому интересно, покапаться в нем можно здесь.
Репорт | HF | Блог
🔥81👍25❤17😁2☃1
В сети открыли полный доступ в opensource к линейке ИИ-моделей GigaChat
Сбер опубликовал весь стек моделей с лицензией MIT и разрешением на коммерческое использование.
Флагман — GigaChat 3 Ultra-Preview — 702B-MoE модель, полностью обученную с нуля на корпусе в 14 триллионов токенов. Это не адаптация и не дообучение зарубежных весов: у модели собственный датасет, собственный пайплайн синтетики и переработанная архитектура. На русскоязычных и STEM-бенчмарках Ultra-Preview уверенно превосходит российские opensource-аналоги, а также лучше DeepSeek V3.1.
Контекст запоминания — до 128k токенов.
Также в opensource доступна версия Lightning — компактная 10B-MoE модель, которая по скорости инференса конкурирует с Qwen3-1.7B и приближается по качеству к dense-моделям около 8B. Открыта и GigaAM-v3 — набор из пяти моделей для работы с аудио на русском. Отлично распознает речь — показывает −50% WER к Whisper-large-v3.
Открытая линейка GigaChat фактически формирует новую открытую экосистему для разработки, генерации и автоматизации — и делает это именно как самостоятельная архитектура, а не продолжение чьих-то решений.
https://habr.com/ru/companies/sberdevices/articles/968904/
Сбер опубликовал весь стек моделей с лицензией MIT и разрешением на коммерческое использование.
Флагман — GigaChat 3 Ultra-Preview — 702B-MoE модель, полностью обученную с нуля на корпусе в 14 триллионов токенов. Это не адаптация и не дообучение зарубежных весов: у модели собственный датасет, собственный пайплайн синтетики и переработанная архитектура. На русскоязычных и STEM-бенчмарках Ultra-Preview уверенно превосходит российские opensource-аналоги, а также лучше DeepSeek V3.1.
Контекст запоминания — до 128k токенов.
Также в opensource доступна версия Lightning — компактная 10B-MoE модель, которая по скорости инференса конкурирует с Qwen3-1.7B и приближается по качеству к dense-моделям около 8B. Открыта и GigaAM-v3 — набор из пяти моделей для работы с аудио на русском. Отлично распознает речь — показывает −50% WER к Whisper-large-v3.
Открытая линейка GigaChat фактически формирует новую открытую экосистему для разработки, генерации и автоматизации — и делает это именно как самостоятельная архитектура, а не продолжение чьих-то решений.
https://habr.com/ru/companies/sberdevices/articles/968904/
🔥128🤨27👍25❤23😁11🗿8👾1
Anthropic переработали свой подход к работе с долгим контекстом для агентов
Контекстное окно все еще остается основным ограничением агентов. Если вы ставите агента на какую-то действительно большую долгую задачу, он будет делать ее в несколько сессий. Каждая сессия вмещает только довольно узкое контекстное окно, и когда оно иссякает, у нового запуска будет уже "пустая память".
С этим можно бороться с помощью простейшего сжатия контекста, как сейчас реализовано в Claude Code или Codex, но качество такого подхода, прямо скажем, далеко от идеала.
Сейчас Anthropic пытаются тестировать менее наивный метод. Они пишут, что вдохновились человеческими инженерными практиками, когда каждый разработчик оставляет после себя какие-то артефакты для других. Суть:
Таким образом, после каждой сессии у нас остается не недоделанная задача и грязный контекст, сжав который, мы получим непонятно что, а чистенькая задокументированная законченная работа, которую можно передать следующему.
В Claude Code пока не довезли, но потестить уже можно в Claude Agent SDK, вот тут инструкция.
Контекстное окно все еще остается основным ограничением агентов. Если вы ставите агента на какую-то действительно большую долгую задачу, он будет делать ее в несколько сессий. Каждая сессия вмещает только довольно узкое контекстное окно, и когда оно иссякает, у нового запуска будет уже "пустая память".
С этим можно бороться с помощью простейшего сжатия контекста, как сейчас реализовано в Claude Code или Codex, но качество такого подхода, прямо скажем, далеко от идеала.
Сейчас Anthropic пытаются тестировать менее наивный метод. Они пишут, что вдохновились человеческими инженерными практиками, когда каждый разработчик оставляет после себя какие-то артефакты для других. Суть:
1. Перед тем, как задача отойдет кодинг-агенту, над ней работает Initializer agent. Он делает какой-то базовый scaffolding (то есть делит задачу на мелкие), формирует claude-progress.txt и feature-list.
2. Далее идет несколько сессий уже с кодинг-агентами. У каждого все еще отдельное контекстное окно, но отличие от сжатия контекста тут в том, что вся их работа, тем не менее, центразирована и управляется одним набором инструкций.
3. Собственно, инструкции: каждый агент сначала изучает логи, claude-progress.txt и feature-list, затем выбирает одну фичу и реализовывает ее end-to-end, включая тестирование. Также каждый агент обязательно коммитит изменения с информативным сообщением и обновляет прогресс-файлы.
Таким образом, после каждой сессии у нас остается не недоделанная задача и грязный контекст, сжав который, мы получим непонятно что, а чистенькая задокументированная законченная работа, которую можно передать следующему.
В Claude Code пока не довезли, но потестить уже можно в Claude Agent SDK, вот тут инструкция.
❤96🔥30👍16🤔12😁1🤝1