Forwarded from AI и грабли
Делать прогнозы – дело неблагодарное. Но полезное. Заставляет оглянуться назад и отделить хайп от долгосрочных трендов. Пока катался по горам на байке, наформулировал три прогноза, которые меняют мои планы в 2026ом
1️⃣ Claude Code как агентное ядро для любой нишевой херни.
Что произошло ближе к концу 2025 года – агентность моделей прокачалась достаточно, чтобы уйти от фиксированных воркфлоу к гибким агентным системам. Теперь системы принимают решения о следующем шаге на основе инфы с предыдущего. И это наконец-то работает не только в презентациях
Вот только делать свою агентную систему – запарно. А хорошую агентную систему – еще запарнее. И особенно бомбит от осознания, что повторяешь все шишки, которые уже набили разработчики топового general-purpose агента – Claude Code
Вы скажете, что это специализированный агент для кодинга, но это не так. Любой кастомный агент так же обрастает вызовом тулов, сэндбоксом для запуска скриптов и динамическими промптами aka skills
Все больше команд вместо костыляния своих агентнов, будут брать Claude Agent SDK, докидывать ему нужные скиллы, MCP, рулсы и оборачивать в понятный простому пользователю UI вместо терминала. В конце поста – ссылка на крутой кейс от Рефата
2️⃣ Skills станут более популярными, чем MCP
Для меня и MCP выглядел странно как стандарт. Типа, просто зафиксировали формат вызова внешнего API в виде function calling. А где рокет саенс?
Но это дало простой унифицированный способ подключать внешние инструменты к LLMкам. А во многих компаниях "мы делаем свой MCP" вообще стало самым простым способом для топов отчитаться о наличии "AI стратегии" 📈
Skills – еще более простая штука. По сути – просто папочка с промптами + набор скриптов. У большинства опытных пользователей это и так было – помогает не засирать контекст сотней тулов какого-нибудь github mcp, а просто описать как пользоваться такой волшебной командой как git. А в большинстве случаев даже детали не нужны – ведь агент может просто вызвать
А тот факт, что они подгружаются динамически (в зависимости от текущей задачи) – убирает главное ограничение MCP
3️⃣ Стандартный работающий подход к архитектуре постоянной памяти агентов
Это прям новый тейк, родившийся во время разбора лидерборда ERC-3 (соревнование по построению агентских систем)
Я если честно думал, что мы еще далеко от самообучающихся систем. Да, что-то понемногу начинает работать, и даже Claude Code может сам корректировать свой CLAUDE.md, но это детский сад, если честно.
А тут кейс, где цифры говорят сами за себя. В ERC-3 с отрывом аж в 10 процентных пунктов (71.8% vs 62.1%) побеждает решение, где агент сам обучается и "запоминает" результаты предыдущих неудачных попыток.
Да, там это скорее хак – агент делает выводы по прогону сразу на всей паре сотен задач, а не на каждой индивидуально, но это не важно. Важно – что система вообще сходится к оптимуму, сама переписывая свой промпт. В 2024ом у меня такое не работало – ее болтало из стороны в сторону.
Значит, сейчас боттлнек агентских систем смещается – в область того, а что запомнить из предыдущих попыток, какие выводы сделать и как поменять поведение, чтобы не совершать одних и тех же прыжков по граблям при каждом запуске.
4️⃣ (бонус)
Нормальные Tools уже есть – модели уже берут инфу из внешнего мира (и помещают в него обратно). Если будет нормальная внешняя память, то собственные знания модели обо всем на свете – не нужны.
Даже маленькая модель, которая почти ничего не знает, но умеет обращаться с тулами, выявлять паттерны и запоминать точечную информацию – будет эффективнее, чем жирная модель без всего этого. Жду появления быстрых и дешевых LLMок на 1-2b параметров, в которых большая часть весов – не знания, а навыки. Такие execution engine
Ставим ставки?
Если есть другие любопытные прогнозы – делитесь в комментах, интересно, что думаете
Почитать:
- Пост Рефата про Claude Code в качестве agentic core
- Лидерборд соревнования ERC3 с описанием архитектур
1️⃣ Claude Code как агентное ядро для любой нишевой херни.
Что произошло ближе к концу 2025 года – агентность моделей прокачалась достаточно, чтобы уйти от фиксированных воркфлоу к гибким агентным системам. Теперь системы принимают решения о следующем шаге на основе инфы с предыдущего. И это наконец-то работает не только в презентациях
Вот только делать свою агентную систему – запарно. А хорошую агентную систему – еще запарнее. И особенно бомбит от осознания, что повторяешь все шишки, которые уже набили разработчики топового general-purpose агента – Claude Code
Вы скажете, что это специализированный агент для кодинга, но это не так. Любой кастомный агент так же обрастает вызовом тулов, сэндбоксом для запуска скриптов и динамическими промптами aka skills
Все больше команд вместо костыляния своих агентнов, будут брать Claude Agent SDK, докидывать ему нужные скиллы, MCP, рулсы и оборачивать в понятный простому пользователю UI вместо терминала. В конце поста – ссылка на крутой кейс от Рефата
2️⃣ Skills станут более популярными, чем MCP
Для меня и MCP выглядел странно как стандарт. Типа, просто зафиксировали формат вызова внешнего API в виде function calling. А где рокет саенс?
Но это дало простой унифицированный способ подключать внешние инструменты к LLMкам. А во многих компаниях "мы делаем свой MCP" вообще стало самым простым способом для топов отчитаться о наличии "AI стратегии" 📈
Skills – еще более простая штука. По сути – просто папочка с промптами + набор скриптов. У большинства опытных пользователей это и так было – помогает не засирать контекст сотней тулов какого-нибудь github mcp, а просто описать как пользоваться такой волшебной командой как git. А в большинстве случаев даже детали не нужны – ведь агент может просто вызвать
<command> --helpА тот факт, что они подгружаются динамически (в зависимости от текущей задачи) – убирает главное ограничение MCP
3️⃣ Стандартный работающий подход к архитектуре постоянной памяти агентов
Это прям новый тейк, родившийся во время разбора лидерборда ERC-3 (соревнование по построению агентских систем)
Я если честно думал, что мы еще далеко от самообучающихся систем. Да, что-то понемногу начинает работать, и даже Claude Code может сам корректировать свой CLAUDE.md, но это детский сад, если честно.
А тут кейс, где цифры говорят сами за себя. В ERC-3 с отрывом аж в 10 процентных пунктов (71.8% vs 62.1%) побеждает решение, где агент сам обучается и "запоминает" результаты предыдущих неудачных попыток.
Да, там это скорее хак – агент делает выводы по прогону сразу на всей паре сотен задач, а не на каждой индивидуально, но это не важно. Важно – что система вообще сходится к оптимуму, сама переписывая свой промпт. В 2024ом у меня такое не работало – ее болтало из стороны в сторону.
Значит, сейчас боттлнек агентских систем смещается – в область того, а что запомнить из предыдущих попыток, какие выводы сделать и как поменять поведение, чтобы не совершать одних и тех же прыжков по граблям при каждом запуске.
4️⃣ (бонус)
Нормальные Tools уже есть – модели уже берут инфу из внешнего мира (и помещают в него обратно). Если будет нормальная внешняя память, то собственные знания модели обо всем на свете – не нужны.
Даже маленькая модель, которая почти ничего не знает, но умеет обращаться с тулами, выявлять паттерны и запоминать точечную информацию – будет эффективнее, чем жирная модель без всего этого. Жду появления быстрых и дешевых LLMок на 1-2b параметров, в которых большая часть весов – не знания, а навыки. Такие execution engine
Ставим ставки?
Если есть другие любопытные прогнозы – делитесь в комментах, интересно, что думаете
Почитать:
- Пост Рефата про Claude Code в качестве agentic core
- Лидерборд соревнования ERC3 с описанием архитектур
Forwarded from Ebout Data Science | Дима Савелко
Гайд по выходу из жопы: Стратегия жизни на 10 лет Возьмём двух челиксов: оба не глупые, оба пашут, у обоих по 24 часа в сутках. Но проходит 3 года: Первый уже живет у океана, у него системный бизнес и капитал, он пришел к цели быстро и словно по прямой. Второй всё так же в какашках: тушит пожары, вечно занят, устал, а по деньгам - тот же уровень, что и был
В чем может быть магия? В богатых родителях? Нет, вся разница - в дисциплине и механике постановки цели. Я был таким вторым, мне надоело быть челом, который плывёт по течению, хочется ставить долгосрочные цели и бить прям точно в них, понимая весь свой путь. Сегодня речь пойдёт про постановку личных целей на жизнь. Вам может показаться, что оно нахой вам и не надо, вы всё знаете. В таком случае я могу вам пожелать только удачи в жизни, а для остальных - текст ниже
Как не надо ставить цели? Второй (который буксует) мыслит из «сегодня» в «завтра»: «надо заработать кеш, что бы поделать? Запущу эту темку, потом эту». Это движение в тумане и движение в никуда.
И тут главный вопрос: Если ты идешь к новой жизни, используя свои старые паттерны мышления - как ты собираешься туда дойти? Твои старые паттерны привели тебя ровно туда, где ты сейчас сидишь. Они не могут привести тебя в новое место. Нельзя старыми ключами открыть новые двери.
Чтобы сделать прорыв, нужны совершенно новые паттерны. А где их взять? Только из будущего, надо ставить цель не «от забора до обеда», а из точки С (твоего идеала) - декомпозируя путь назад к сегодняшнему дню. Вот как это работает по шагам (сохраняй, это твоя инструкция на этот год)
ШАГ 1. Точка А (Где я сейчас?)
Самый больной, но самый важный этап, лично мне было тяжело его делать. Навигатор не построит маршрут в Дубай, если он думает, что ты в Париже, а ты в Суздали. В Точке А без иллюзий признаем, в каком мы состоянии прямо сейчас (по деньгам, энергии и отношениям).
Что тут важно: сначала мы пишем про духовность, здоровье, внешность, отношения и тд, а только в самом конце про деньги/доход. Так как деньги/доход - это всего лишь инструмент к достижению вещей выше
ШАГ 2. Точка С (Видение на 10+ лет)
Зачем она нужна? Точка С - твой маяк, в котором ты должен прям почувствовать, что это твоё. У меня была картинка, что я в своём доме, где моя семья, хуячу какой-то пиздатый бизнес с видом на горы/лес/море. Меня окружают дети/жена/семья, моя тусовка - предприниматели, а друзья всегда на подхвате, чтобы сходить в баньку или поиграть в плойку. Хочу, чтобы вы тоже представили каждую мелочь из своей точки С на 10 лет вперёд
ШАГ 3. Точка Б (Твердая цель на 2-3 года)
Это уже не мечты, а промежуточный проект к достижению Точки С. Мы берем энергию из точки С и приземляем её в цифры.
Критерии Точки Б:
Шаблон к табличке, чтобы вы заполнили, там кста будет автор данной методологии.
ШАГ 4. Обратная Декомпозиция
Вот здесь ломаются старые паттерны, и мои сломались тоже.
Мы не думаем: "Что мне поделать завтра?". Мы встаем в Точку Б (2028 год), где у нас уже всё есть, и смотрим НАЗАД.
Пример, как это выглядит:
Видите разницу? Каждое действие сегодня - это неизбежный шаг, продиктованный будущим, а не хаотичная попытка "что-то сделать"
Поэтому я вам искренне желаю сделать свою личную стратегию на 10 лет вперёд и увидеть чёткий план на 2026 год. Я составлял её 2 дня, было больно, руки опускались, но результат себя не составил долго ждать
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Тимлид Очевидность | Евгений Антонов
Бигтех бигтеху рознь
Три года назад, когда я менял работу, мне хотелось понять, насколько мне будет подходить работа в бигтехе, поэтому я целенаправленно ходил на собеседования именно в такие организации.
Теперь-то я понимаю, что на самом деле, хоть и общие принципы работы в крупных компаниях едины: все эти пайплайны собеседований, планирования, перф-ревью, любовь к циферкам-метричкам-дашикам, внутренние коммуникации и прочие штуки, — НО бигтехи в частностях ОЧЕНЬ разные.
Я пишу этот пост по двум причинам:
1. Вдруг кто-то, как и я 3 года назад, думал, что есть какой-то абстрактный бигтех и оно всё везде похоже.
2. Я слушал одну книгу (потом отдельным постом её обязательно принесу, ибо она замечательная) и там описывалась идея «транзакционного налога» в крупных компаниях, которого нет в мелких. И вот у меня как раз был противоположный опыт, поэтому я решил с вами этим поделиться.
Сегодня я попробую просто порефлексировать о некоторых своих местах работы и посмотреть, где было дольше и тягомотнее.
Сисадмин в небольшой региональной компании (5-10 человек)
Мало людей, много объектов обслуживания, 1 тимлид. Так он там не назывался, но по факту делал всё, что делает тимлид, и даже больше. До сих пор является для меня одним из лучших примеров руководителей. Поймал себя сейчас на мысли, что ведь тогда он был моложе, чем я сейчас. Удивительный человек, конечно.
Всё делалось и решалось максимально быстро, согласований минимум.
Разработчик и тимлид в веб-студии (около 50 человек)
Тоже всё решалось быстро. Или через проектного менеджера, или напрямую с клиентом. До сих пор использую как шутку историю, когда меня добавил ПМ в чатик с клиентом. Посидел в этом чате недельку-две и со словами «ну вроде у вас и так всё нормально получается» вышел оттуда :)
Разработчик и тимлид в среднего размера продуктовой компании (700-1000 человек)
После десяти лет опыта очень динамичной работы я попадаю в компанию, где всё оооочень долго. Многоступенчатые согласования длятся месяцами. Это не прикол.
Однажды я был в цепочке писем с 10+ людьми в копии, где я как тимлид был самым младшим по иерархии. Там и руководители отделов и департаментов, и даже один топ был. Решали, какие написать буквы в названии продукта на разных платформах. Решали очень долго, хотя многократно были предупреждены, что покуда это не решится, не будет работать одна важная интеграция, которая оооочень много мильенов денег приносила.
Тимлид и технический менеджер проектов в крупной компании (10-20к+ людей)
Не уверен, сколько сейчас разработчиков в Яндексе, но мне кажется, где-то между 10 и 20 тысяч. Казалось бы, вот тут-то и должна быть еще бОльшая тягомотина. И внезапно всё оказалось довольно быстро. Много простора для инициативы, создания, изменения, а согласовывать каждый чих не нужно. Какие-то особо важные и крупные чихи нужно, конечно, но в целом довольно много можно запилить на уровне команды или даже одного человека.
(Чужой опыт) менеджер проектов в крупной компании (20к+ людей)
Общался месяц-два назад со своим товарищем, который в еще одном бигтехе работает. Обсуждали примерно одинаковые вещи, и вот у него опыт совершенно другой. Говорит, некоторые даже небольшие вещи надо месяцами согласовывать с ЛПР, комитетами, подкомитетами, уполномоченными ответственными, службой безопасности и прочее прочее.
(Чужой опыт) менеджер проектов в крупной компании (10к людей)
Другой мой товарищ в середине между «быстро» и «медленно». Темп бодрый, согласования, комитеты, обоснования и прочее подобное ярко выражено, но процессы так отлажены, что оно по конвейеру бежит довольно быстро.
Итог
Поработав в одном бигтехе, вы точно будете иметь представление об общих процессах. Но в темпе и деталях они очень сильно различаются. А внутри бигтеха отдельные подразделения тоже сильно отличаются, но уже в рамках культуры этой компании.
Три года назад, когда я менял работу, мне хотелось понять, насколько мне будет подходить работа в бигтехе, поэтому я целенаправленно ходил на собеседования именно в такие организации.
Теперь-то я понимаю, что на самом деле, хоть и общие принципы работы в крупных компаниях едины: все эти пайплайны собеседований, планирования, перф-ревью, любовь к циферкам-метричкам-дашикам, внутренние коммуникации и прочие штуки, — НО бигтехи в частностях ОЧЕНЬ разные.
Я пишу этот пост по двум причинам:
1. Вдруг кто-то, как и я 3 года назад, думал, что есть какой-то абстрактный бигтех и оно всё везде похоже.
2. Я слушал одну книгу (потом отдельным постом её обязательно принесу, ибо она замечательная) и там описывалась идея «транзакционного налога» в крупных компаниях, которого нет в мелких. И вот у меня как раз был противоположный опыт, поэтому я решил с вами этим поделиться.
Сегодня я попробую просто порефлексировать о некоторых своих местах работы и посмотреть, где было дольше и тягомотнее.
Сисадмин в небольшой региональной компании (5-10 человек)
Мало людей, много объектов обслуживания, 1 тимлид. Так он там не назывался, но по факту делал всё, что делает тимлид, и даже больше. До сих пор является для меня одним из лучших примеров руководителей. Поймал себя сейчас на мысли, что ведь тогда он был моложе, чем я сейчас. Удивительный человек, конечно.
Всё делалось и решалось максимально быстро, согласований минимум.
Разработчик и тимлид в веб-студии (около 50 человек)
Тоже всё решалось быстро. Или через проектного менеджера, или напрямую с клиентом. До сих пор использую как шутку историю, когда меня добавил ПМ в чатик с клиентом. Посидел в этом чате недельку-две и со словами «ну вроде у вас и так всё нормально получается» вышел оттуда :)
Разработчик и тимлид в среднего размера продуктовой компании (700-1000 человек)
После десяти лет опыта очень динамичной работы я попадаю в компанию, где всё оооочень долго. Многоступенчатые согласования длятся месяцами. Это не прикол.
Однажды я был в цепочке писем с 10+ людьми в копии, где я как тимлид был самым младшим по иерархии. Там и руководители отделов и департаментов, и даже один топ был. Решали, какие написать буквы в названии продукта на разных платформах. Решали очень долго, хотя многократно были предупреждены, что покуда это не решится, не будет работать одна важная интеграция, которая оооочень много мильенов денег приносила.
Тимлид и технический менеджер проектов в крупной компании (10-20к+ людей)
Не уверен, сколько сейчас разработчиков в Яндексе, но мне кажется, где-то между 10 и 20 тысяч. Казалось бы, вот тут-то и должна быть еще бОльшая тягомотина. И внезапно всё оказалось довольно быстро. Много простора для инициативы, создания, изменения, а согласовывать каждый чих не нужно. Какие-то особо важные и крупные чихи нужно, конечно, но в целом довольно много можно запилить на уровне команды или даже одного человека.
(Чужой опыт) менеджер проектов в крупной компании (20к+ людей)
Общался месяц-два назад со своим товарищем, который в еще одном бигтехе работает. Обсуждали примерно одинаковые вещи, и вот у него опыт совершенно другой. Говорит, некоторые даже небольшие вещи надо месяцами согласовывать с ЛПР, комитетами, подкомитетами, уполномоченными ответственными, службой безопасности и прочее прочее.
(Чужой опыт) менеджер проектов в крупной компании (10к людей)
Другой мой товарищ в середине между «быстро» и «медленно». Темп бодрый, согласования, комитеты, обоснования и прочее подобное ярко выражено, но процессы так отлажены, что оно по конвейеру бежит довольно быстро.
Итог
Поработав в одном бигтехе, вы точно будете иметь представление об общих процессах. Но в темпе и деталях они очень сильно различаются. А внутри бигтеха отдельные подразделения тоже сильно отличаются, но уже в рамках культуры этой компании.
Forwarded from Small Data Science for Russian Adventurers
#визуализация
Ещё одна электронная книга (небольшая) с визуализацией концепций ML. Сделано аккуратно: приводятся формулы, код и доводится до красивой картинки (или видео). Правда, всего 4 главы: оптимизация, кластеризация, линейные модели и нейросети. Материал "начального уровня" (но удобно, что он тут собран).
https://ml-visualized.com/
Ещё одна электронная книга (небольшая) с визуализацией концепций ML. Сделано аккуратно: приводятся формулы, код и доводится до красивой картинки (или видео). Правда, всего 4 главы: оптимизация, кластеризация, линейные модели и нейросети. Материал "начального уровня" (но удобно, что он тут собран).
https://ml-visualized.com/
Forwarded from LLM под капотом
Новый кейс - автоматический перевод YouTube с озвучкой и AI Researcher
Мой давний друг и коллега Айгиз Кунафин как раз закончил проект по автоматическому переводу YouTube видео с русского на башкирский язык. Под капотом - ASR и диаризация, перевод, подбор голосов и синтез речи, которая синхронизирована с оригинальной дорожкой.
Самое классное в этом проекте - использование AI coding агентов в режиме автоматической постановки экспериментов с Feedback Loop (про это - ниже).
LLM под капотом проекта:
- ASR (Speech Recognition) - Сберовская gigaam-v3-ctc
- Диаризация (разбор голосов) - DiariZen
- Перевод на башкирский - Gemini-3 flash со своим контекстом
- TTS (сама озвучка) - две модели: своя с клонированием RVC для детских голосов, Silero - для взрослых.
При переводе видео у системы есть библиотека из ~80 голосов (в 6 группах), которые автоматически получают фиксированные роли в видео.
Это Chrome/Firefox Extension, который заменяет аудио при проигрывании в YouTube. Дорожки генерируются пайплайном заранее на серверах (по запросу), а потом подбираются расширением. Всего три сервера, которые связаны напрямую через P2P HTTPS:
- Hetzner (для доступа к Gemini + YouTube), там же на CPU крутится и ASR.
- Свой GPU - для запуска моделей - диаризации, синтеза речи.
- 1GB - для хранения готовых аудио-дорожек.
Самое сложное в проекте - экспериментальный подбор правильных моделей в пайплайн с точки зрения ресурсоемкости, качества и стоимости. Целевой язык - башкирский, поэтому некоторые вещи приходилось реализовывать самостоятельно. Но у Айгиза уже есть многолетный опыт работы с голосовыми проектами (например, умная колонка Homai), что сэкономило много времени.
Система разрабатывалась при помощи агентов - Claude Code для UI и OpenAI Codex CLI с Feedback Loop.
Feedback Loop - когда у агента есть исходный код, Ground Truth цель/метрика/тесты для контроля качества и благословение на автономную работу. Причем, в AGENTS.MD прописан протокол написания экспериментов:
(1) Запускаем make eval, чтобы выяснить текущий score, который записываем в
(2) Анализируем код, проглядываем журнал экспериментов и в файл
(3) реализуем код и запускаем
(4) если score стал хуже, то откатываем код, но сохраняем описание эксперимента, чтобы в будущем агент не повторял старых ошибок.
Все это запускается с полными правами и задачей “копай отсюда и до обеда” в цикле. Например:
Такой AI Researcher, может стабильно работать часами в автономе (пример git log - в комментариях). Этот же подход использовался в ERC3 для автоматической оптимизации кода базового NextStep SGR агента до 9 места в Prize Leaderboard.
Айгиз открыт для коммерческих предложений. Если вам нужна консультация или участие в проекте, можно написать ему лично в Телеграм @AigizK или по контактам RU / EN.
Ваш, @llm_under_hood 🤗
PS: Список всех кейсов канала
Мой давний друг и коллега Айгиз Кунафин как раз закончил проект по автоматическому переводу YouTube видео с русского на башкирский язык. Под капотом - ASR и диаризация, перевод, подбор голосов и синтез речи, которая синхронизирована с оригинальной дорожкой.
Самое классное в этом проекте - использование AI coding агентов в режиме автоматической постановки экспериментов с Feedback Loop (про это - ниже).
LLM под капотом проекта:
- ASR (Speech Recognition) - Сберовская gigaam-v3-ctc
- Диаризация (разбор голосов) - DiariZen
- Перевод на башкирский - Gemini-3 flash со своим контекстом
- TTS (сама озвучка) - две модели: своя с клонированием RVC для детских голосов, Silero - для взрослых.
При переводе видео у системы есть библиотека из ~80 голосов (в 6 группах), которые автоматически получают фиксированные роли в видео.
Это Chrome/Firefox Extension, который заменяет аудио при проигрывании в YouTube. Дорожки генерируются пайплайном заранее на серверах (по запросу), а потом подбираются расширением. Всего три сервера, которые связаны напрямую через P2P HTTPS:
- Hetzner (для доступа к Gemini + YouTube), там же на CPU крутится и ASR.
- Свой GPU - для запуска моделей - диаризации, синтеза речи.
- 1GB - для хранения готовых аудио-дорожек.
Самое сложное в проекте - экспериментальный подбор правильных моделей в пайплайн с точки зрения ресурсоемкости, качества и стоимости. Целевой язык - башкирский, поэтому некоторые вещи приходилось реализовывать самостоятельно. Но у Айгиза уже есть многолетный опыт работы с голосовыми проектами (например, умная колонка Homai), что сэкономило много времени.
Система разрабатывалась при помощи агентов - Claude Code для UI и OpenAI Codex CLI с Feedback Loop.
Feedback Loop - когда у агента есть исходный код, Ground Truth цель/метрика/тесты для контроля качества и благословение на автономную работу. Причем, в AGENTS.MD прописан протокол написания экспериментов:
(1) Запускаем make eval, чтобы выяснить текущий score, который записываем в
experiments/007-experiment.md(2) Анализируем код, проглядываем журнал экспериментов и в файл
experiments/007-experiment.md дописываем план для улучшения текущего score(3) реализуем код и запускаем
make eval. Если score стал лучше, то отправляем все в коммит с описанием(4) если score стал хуже, то откатываем код, но сохраняем описание эксперимента, чтобы в будущем агент не повторял старых ошибок.
Все это запускается с полными правами и задачей “копай отсюда и до обеда” в цикле. Например:
PROMPT_TEMPLATE="запусти следующий эксперимент, который оптимизирует код генрации wav файла"
for ((start_index=0; start_index<=50; start_index+=1)); do
codex exec --sandbox danger-full-access "$PROMPT_TEMPLATE"
done
Такой AI Researcher, может стабильно работать часами в автономе (пример git log - в комментариях). Этот же подход использовался в ERC3 для автоматической оптимизации кода базового NextStep SGR агента до 9 места в Prize Leaderboard.
Айгиз открыт для коммерческих предложений. Если вам нужна консультация или участие в проекте, можно написать ему лично в Телеграм @AigizK или по контактам RU / EN.
Ваш, @llm_under_hood 🤗
PS: Список всех кейсов канала
Forwarded from Artem Ryblov’s Data Science Weekly
A/B Testing & Experimentation Roadmap
This roadmap is for analysts, data scientists, and product folks who want to go from “I know what an A/B test is” to running trustworthy, advanced online experiments (CUPED, sequential testing, quasi-experiments, Bayesian, etc.).
It’s organized by topics. You don’t have to go strictly top-to-bottom, but earlier sections are foundations for later ones.
Link: GitHub
Navigational hashtags: #armknowledgesharing #armtutorials
General hashtags: #statistics #abtesting #ab
@data_science_weekly
This roadmap is for analysts, data scientists, and product folks who want to go from “I know what an A/B test is” to running trustworthy, advanced online experiments (CUPED, sequential testing, quasi-experiments, Bayesian, etc.).
It’s organized by topics. You don’t have to go strictly top-to-bottom, but earlier sections are foundations for later ones.
Link: GitHub
Navigational hashtags: #armknowledgesharing #armtutorials
General hashtags: #statistics #abtesting #ab
@data_science_weekly
Forwarded from Борис опять
#дайджест
Дайджест ML/AI за неделю 5 - 11 Января 2026
Lightricks: LTX-2
Open-weight видео foundation-модель с синхронной генерацией 4K/50fps видео. Модель заточена под длинные клипы до 20 сек, нативный звук. На artificialanalysis в общем зачете занимает почетное 21-е место и первое среди моделей с открытыми весами.
Блогпост, HF, Статья, Код
OpenAI: ChatGPT Health
OpenAI запустили ChatGPT Health - отдельный режим для работы с медицинскими данными. Можно загружать анализы, снимки, отчёты врачей, данные из фитнес-трекеров и MyFitnessPal. Доступно даже бесплатным пользователям через вэйтлист (записаться здесь) и пока, как обычно, без EU/UK.
Блогпост
Tencent: Hunyuan HY-MT1.5-1.8B
Tencent выпустили компактную модель для машинного перевода HY-MT1.5-1.8B. Обещают лучший перформанс в своем весе. Поддерживает 33 языка, оптимизирована под on-device и дешёвый inference.
HF, Код , Карточка, Статья
ByteDance: DreamID-V
ByteDance выпустили DreamID-V - модель для замены лиц на видео по фото-референсу через трансформер-диффузию. Обещают устойчивость к разному освещению, прическам и тд. Черри-пики выглядят хорошо.
Примеры и проект, GitHub, Статья
NVIDIA: Vera Rubin
NVIDIA представили платформу Vera Rubin для датацентров - next-gen архитектуру для AI-вычислений, которая придёт на смену Blackwell. Простым людям пообещали игровые видеокарты RTX 60xx на базе Vera Rubin во второй половине 2027 года. Как обычно все в несколько раз быстрее, выше, сильнее. Готовый сервер NVL144 будет иметь в три раза больше exaFLOPS, чем NVL72 GB300.
Из прекрасного: параллельно с трансляцией Nvidia кто-то запустил трансляцию на Youtube, где Дип-фейк Хуанг продавал крипу. Она собрала в 10 раз больше зрителей.
Пресс-релиз NVIDIA, Про фейк-крипто-хуанга, разбор Сиолошной
Дайджест ML/AI за неделю 5 - 11 Января 2026
Lightricks: LTX-2
Open-weight видео foundation-модель с синхронной генерацией 4K/50fps видео. Модель заточена под длинные клипы до 20 сек, нативный звук. На artificialanalysis в общем зачете занимает почетное 21-е место и первое среди моделей с открытыми весами.
Блогпост, HF, Статья, Код
OpenAI: ChatGPT Health
OpenAI запустили ChatGPT Health - отдельный режим для работы с медицинскими данными. Можно загружать анализы, снимки, отчёты врачей, данные из фитнес-трекеров и MyFitnessPal. Доступно даже бесплатным пользователям через вэйтлист (записаться здесь) и пока, как обычно, без EU/UK.
Блогпост
Tencent: Hunyuan HY-MT1.5-1.8B
Tencent выпустили компактную модель для машинного перевода HY-MT1.5-1.8B. Обещают лучший перформанс в своем весе. Поддерживает 33 языка, оптимизирована под on-device и дешёвый inference.
HF, Код , Карточка, Статья
ByteDance: DreamID-V
ByteDance выпустили DreamID-V - модель для замены лиц на видео по фото-референсу через трансформер-диффузию. Обещают устойчивость к разному освещению, прическам и тд. Черри-пики выглядят хорошо.
Примеры и проект, GitHub, Статья
NVIDIA: Vera Rubin
NVIDIA представили платформу Vera Rubin для датацентров - next-gen архитектуру для AI-вычислений, которая придёт на смену Blackwell. Простым людям пообещали игровые видеокарты RTX 60xx на базе Vera Rubin во второй половине 2027 года. Как обычно все в несколько раз быстрее, выше, сильнее. Готовый сервер NVL144 будет иметь в три раза больше exaFLOPS, чем NVL72 GB300.
Из прекрасного: параллельно с трансляцией Nvidia кто-то запустил трансляцию на Youtube, где Дип-фейк Хуанг продавал крипу. Она собрала в 10 раз больше зрителей.
Пресс-релиз NVIDIA, Про фейк-крипто-хуанга, разбор Сиолошной
ltx.io
LTX-2: Production-Grade AI Video Generation Model | LTX Model
LTX-2 is a pro AI video model for production. It offers precise control, native 4K, high frame rates and proven performance for long-form creative tasks.
Forwarded from Борис опять
Очень хороший практический гайд по всем трюкам, велосипедам и костылям для построения RAG систем:
https://habr.com/ru/articles/893356/
В продакшне часть из описанного можно упростить (с точки зрения реализации) подключив любимый агентский фреймворк, но суть особо не меняется
https://habr.com/ru/articles/893356/
В продакшне часть из описанного можно упростить (с точки зрения реализации) подключив любимый агентский фреймворк, но суть особо не меняется
Хабр
Как я победил в RAG Challenge: от нуля до SoTA за один конкурс
Автор - DarkBones Предисловие В этом посте я расскажу про подход, благодаря которому я занял первое место в обеих призовых номинациях и в общем SotA рейтинге. В чём суть RAG Challenge? Нужно создать...