RoboFuture – Telegram
RoboFuture
1.26K subscribers
43 photos
17 videos
3 files
63 links
🤖 Роботы идут!
Авторский канал о последних достижениях в мире AI, ML, робототехники и нейротехнологий.
Прогнозы и комментарии от разработчика в этой области, никаких репостов новостей и рекламы!

Для связи - @Krestnikov
Download Telegram
На днях вышел новый пример от Andrej Karpathy - nanochat. В нем он показывает, как можно обучить собственную чатовую GPT модель с нуля за несколько часов и при бюджете в $100. Это скрипт, который включает все этапы обучения LLM: от создания токенизатора и претрейна, до RL и SFT. Процесс выполняется на восьми видеокартах NVidia H100. Все датасеты и бенчмарки загружаются автоматически.

Я попробовал, обучил свою модельку и хочу с вами поделиться тем что получилось. Я немного поменял скрипты, чтобы обучение шло на одной видеокарте H100 вместо восьми. В этом случае полный прогон занял чуть больше суток, но такой сервер гораздо проще арендовать + накладные расходы на настройку будут гораздо меньше.

Сейчас на Digital Ocean сервер с одной H100 стоит $3.39 в час, а полный прогон уложился в те же $100, вместе с настройкой и выгрузкой результата на локальный компьютер.

Дальше я запустил инференс и чатовый интерфейс уже на своем маке, погасив сервер с GPU. Скорость инференса на M3 можно оценить на видео выше.

Итоговая модель такая:
- 500 млн параметров
- 11 млрд. токенов в претрейне
- 0.32 MMLU
- Инструктивная (удерживает структуру чата)
- Язык только английский

Конечно, сейчас 0.5B бывают и поумнее, но модель явно еще не вышла на плато по loss и могла бы учиться еще где-то x3 по времени. Задача (со слов Анджея) была в том, чтобы получить лучшую GPT в этом бюджете.

Итоговую модель я залил на HF, а на github выложил пример Карпатого с парой правок:
1. Можно сразу скачать обученную модель и попробовать сразу итог (как на видео выше).
2. Можно обучать на одной видеокарте.
Там же есть отчет с полным набором метрик.

Как запускать и то и другое описал в ридми.

Вообще, очень советую всем, кто работает с моделями, но не глубоко погружен в тему обучения именно LLM, не пожалеть $100 и обучить свою GPT (грокнуть). Это позволяет взглянуть на весь процесс обучения в целом и потрогать на практике все этапы, и в результате сильно расширить свое понимание "на кончиках пальцев". А еще лучше взять свой претрейн, скажем, все книги по вселенной Warhammer 40k, и обучить на нем.
🔥24👍22👏4🌚2
Главные боли AI-агентов на конец 2025 — после интервью Карпатого

Посмотрел свежее интервью Андрея — и это прям must‑watch для всех, кто строит агентов. Карпаты аккуратно, но жёстко сбивает хайп «года агентов»: впереди десятилетие тяжёлой инженерной работы. Рекомендую ▶️ посмотреть целиком. Если на английском воспринимается плохо (а там он реально непростой), то можно взять русский перевод. Я смотрел ▶️ этот, он имхо лучше чем автоперевод Яндекса.


По мотивам видео сформировался список главных болей AI-агентов на конец 2025 (две от него, одна от меня):

1. Знания вместо умений
Трилионная модель пытается запомнить кучу всего, вместо того чтобы выводить закономерности. Количество весов и знаний модели пора уменьшать, а не увеличивать, чтобы они были вынуждены генерализировать знания и навыки.


2. Схлапывание (collapse)
Узкая, низкоэнтропийная выборка ответов → одинаковые шутки, одинаковые планы, одинаковые ошибки; если ещё и переобучать на синтетике, схлапывание усиливается. Говоря простым языком, модель знает три анекдота и пересказывает их миллионом способов, ходит по трём проторенным тропам — и с каждым кругом становится хуже как источник разнообразия.


3. Отсутствие контроля абсурда.
Как только агент начал "творить дичь", он уже не может остановиться сам: ошибки накапливаются по шагам, особенно в длинных пайплайнах/лупах с инструментами. Модель не замечает, что в ответе появилось "полтора землекопа" и продолжает погружаться в пучины абсурда.


Важно прочувствовать и принять эти проблемы самых гигантских LLM, чтобы двигаться дальше. Roadmap примерно понятен, гипотерзы как решать эти задачи есть (как минимум через тех же агентов).

P.S. Для контекста его позицию "призраки vs животные" лучше прочитать целиком — это ставит правильные ожидания от текущих LLM и объясняет, почему "больше параметров" != "больше умений". За концепцию 👻призрака отдельный респект - очень понятно объясняет суть ограничений AI на базе LLM.
🔥21👍13🤯5
Media is too big
VIEW IN TELEGRAM
Агентов для вайб-кодинга сейчас не делает только ленивый. Но когда пробуешь их в деле то быстро понимаешь их ограниченность 🗿 Например, Карпатый в своем интервью, о котором я уже писал, говорит что использует в основном только автодополнение кода, а агентам готов поручить генерацию отчетов. Я тоже давно пришел к тому, что агенты в своем текущем виде достаточно бесполезны в промышленной разработке.

Но последние дни активно тестирую https://app.devin.ai/. Они давно на рынке, но за последнее время виден огромный прогресс. Хочется сказать, что это не просто эволюционное улучшение, а переход на следующий уровень, на котором агент действительно может взять на себя некоторые реальные задачи из промышленной разработки (уровня junior).

На мой взгляд, ключевое отличие - переход от простого написания кода (на котором, кстати, застрял OpenAI со своим Codex) к разработке полного цикла, когда агент проходит и другие этапы разработки - сборку, линтер, юнит-тесты, запуск и ручное тестирование результата.

Именно это сделали в команде Devin'а, добавив агенту виртуальную машину с которой он работает над задачей. На этой машине у него есть своя копия проекта, настроенное окружение и система сборки, а также возможность запустить результат, посмотреть интерфейс с помощью CV (в браузере или через computer use), понажимать кнопки, сделать выводы и продолжать разработку, пока цель не будет достигнута. (Тут важно, что Devin нацелен на end-2-end решение задачи, которое не просто решает ее в коде, но и протестировано, соответствует требованиям проекта и интегрировано в CI)

Второе важное отличие Девина - отказ от мультиагентности, которая по мнению авторов только мешает. Про это они написали очень интересную статью "Don't build multi Agents", в которой приводят очень весомые аргументы в пользу этого подхода. Я прочел и со всем согласился.

Ну и результат впечатляет! Например, я попросил его сделать для меня персональный сайт-визитку в стиле Cyberpunk 2077 и вот такая красота в итоге получилась! (на видео) Не стыдно и выложить! (Правда, в этом проекте один из PR был сделан агентом Replit Agent 3, который, впрочем, технически очень похож на Devin, но с уклоном в сторону своей инфраструктуры)

Как написано в документации Девина:

Coding agents aren't magic, but they're about the closest thing we have


Но на самом деле сайт это не главное. Мы с командой уже приняли от Девина PR и в свой основной рабочий проект. Правка была небольшая, но спорная. До этого было несколько попыток договориться о правильной реализации и несколько итераций отклоненных PR, но в итоге только Devin предложил решение, которое всех устроило (для сравнения Codex не смог решить задачу за 16 попыток!)

В итоге я всё больше убеждаюсь, что мы на пороге нового этапа в практике разработки. Devin пока не идеален, но он впервые даёт ощущение, что агенты-программисты могут быть действительно полезны в реальных production-проектах — не абстрактно, а здесь и сейчас.

P.S. Важно добавить, что Devin пока довольно дорогой. У нас с командой $500 улетело достаточно быстро. Потом я нашел неплохую скидку - можно купить Product pass за $350 и получить вычислительных юнитов на $1300 и несколько других плюшек (тот же replit), что выглядит неплохим предложением. Не реклама, просто реально хорошая опция.
🔥9👍7🤯5🌚1
🚲Некоторое время назад придумал "велосипедный бенчмарк"

Я просил модель создать SVG с изображением велосипеда, который может ездить. Люди плохо решали эту задачу, модели делали это еще хуже. Вот мой прошлый пост с парадом велосипедных уродцев.

Важная подробность: SVG — это векторный формат описания графики в виде кода, поэтому все LLM могут "рисовать" в SVG напрямую


На днях вышла Gemini 3 Pro, и это SOTA по многим бенчмаркам, в том числе и по рисованию великов. Добавил сравнение свежих моделей - Kimi K2, Grok 4.1, GPT-5.1 и Gemini 3 Pro. Результат показательный! Sama, как там с AGI дела? ☺️

P.S. Оказалось, что такая идея не только меня посетила. Simon Willison тоже регулярно тестирует модели на способность нарисовать велосипед в SVG, только просит туда еще пеликана добавить. Так что последний рисунок - отсылка к его блогу.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍14😁4🤯3
Три дня у нас идет конференция AIJ

Организаторы пригласили двух интересных китайских визионеров - Кай-Фу Ли и Чэнь Цюфаня. Как раз недавно закончил читать их совместную книгу "AI 2041", а тут можно будет послушать их актуальное мнение, так как с 2021 года некоторые прогнозы уже успели устареть.

Особенно приятно, что я тоже буду выступать в такой компании. Буду рассказывать про наш новый опенсорсный продукт - универсальный агент GigaAgent, который продолжает очень активно развиваться.

- В четверг воркшоп в 15:30 в зоне Deep dive
- В пятницу доклад в 11:35 в треке AI in Applied Research
- Все три дня у нас работают два стенда, где можно протестировать работу агента вживую

Почему мы решили делать универсального агента? Потому что самый частый запрос от пользователей в последнее время звучит так:
Хотим аналог ChatGPT, но полностью свой - свои промпты, своя LLM, свои документы и все в контуре организации.

На рынке уже есть много решений, например open-webui, но наш агент обладает повышенной самостоятельностью - может выполнять очень длинные цепочки действий, чтобы решить задачу. Другие фичи тоже заслуживают внимания:

- Планирование, рассуждение, оркестрирование
- MCP, RAG, полная совместимость со стеком LangGraph
- Применен интересный подход - ReAct + REPL. Агент может вызывать инструменты, но при этом активно пишет и запускает код (и даже пишет код, который запускает инструменты)


Вчера, например, видел автономную последовательность из 30 шагов. Ну и отлично работает с GigaChat, хотя может использовать и любые другие LLM.

Так что если вы будете на AIJ - приходите послушать и пообщаться! (А если нет, то я буду еще на GigaConf и Conversations в этом году)
🔥21👍9👏4😁1
This media is not supported in your browser
VIEW IN TELEGRAM
Все делятся примерами программ, созданных с помощью новой Gemini 3 Pro. Мне тоже захотелось 🙂

Последнее время использую такой тест: прошу у LLM визуализировать звездную систему из книги "Задача трех тел" Лю Цысиня, о которой как-то уже писал в этом канале, но так, чтобы за ней было интересно наблюдать.

В книге описана цивилизация трисолярианцев, планета которых оказалась внутри тройной звездной системы, из-за чего климат там крайне нестабилен - эпохи процветания сменяются вековыми ледниковыми периодами или короткими перегревами, выжигающими всё живое. Жители планеты активно развивают науку и вычислительную технику, чтобы научиться предсказывать смену климатических периодов, но задача оказывается нерешаемой. И тогда они решают [ДАННЫЕ УДАЛЕНЫ].

Визуализировать задачу несложно, а вот сделать визуализацию интересной - сложно! Дело в том, что три звезды, двигающиеся вокруг общего центра масс, демонстрируют классический пример хаотического поведения. Если решать задачу "в лоб", то картинка получается скучная - планету выбрасывает в космос на несколько сотен лет или две звезды сходятся слишком близко, вращаясь с огромной скоростью и т.д.

Я прошу LLM так подкрутить законы физики, чтобы визуализация получилась стабильной, интересной, демонстрирующей хаос и эта "подкрутка" была незаметна, то есть наблюдателю казалось, что система работает на классических законах небесной механики.

До сегодняшнего дня ни одна модель эту задачу не решила. Но пришел Gemini 3 Pro и решил с первой попытке! Можете сами открыть и полюбоваться настоящим хаосом. Также расчитывается температура и радиация на планете бедных инопланетян.
🔥19👍6🤯4
В субботу в 14:30 буду выступать на конференции Sber Conf: Open Source & AI Agents! У нашей команды есть интересные результаты в области OpenSource. Главный из них - то, что наша библиотека gigachat оказалась заметной в сообществе, на сегодняшний день она входит в top-2% по скачиваниям с pypi среди всех python-библиотек в мире за 2025 год (пруф). И многие крупные opensource проекты с десятками тысяч звезд добавили ее в зависимости. Вот оно - настоящее продвижение российского продукта в международном сообществе!

Обо всем этом, а ещё о том, какие шишки набили, как делали свой форк LangChain и почему передумали, как попадали под санкционный банхаммер расскажу на конфе. Приходите! Регистрация открыта

А картинку к посту сгенерировал Агент Мемов из нашего GigaAgent
🔥21👍9😁3🤯2🤬1
Запись этого выступления появилась.

Посмотреть можно на youtube или в телеге выше☝️

Вот о чем говорил:
- Как мы решили пойти в Open-source
- Как решили делать форк крупного фреймворка LangChain и потом передумали
- Как некоторые крупные репозитарии принимают наши PR, а потом иногда удаляют за то что мы из Сбера
- Как CEO LlamaIndex добавил поддержку GigaChat
- Как в итоге получили инструмент, который входит в top-2% по скачиваниям с pypi
- Рассказываю про наши последние разработки в области AI агентов
👍13🔥8👏2
У Anthropic вышло очень интересное видео на тему универсальных агентов (general-purpose agents), которое у меня максимально отзывается [1, 2, 3, 4, 5]. Основной посыл - не нужно делать специализированных агентов, нужно делать одного качественного универсального, а его уже кастомизировать под свои задачи

Само видео (16 минут) и короткая статья по нему от businessinsider

Инженеры из Anthropic предлагают вместо набора агентов использовать скилы для агента, который изначально создан для написания кода (Claude Code). Дальше они говорят, что skills будут использовать не только инженеры, но и нетехнические специалисты - врачи, менеджеры, трейдеры и тд, которые будут кастомизировать этого агента под себя

По их логике, один general-purpose агент + библиотека skills становится “универсальной основой” для множества задач — без зоопарка спецагентов

Иными словами, такой агент - универсальный интерфейс к миру

А вот с тем, что CLI-агент подходит нетехническим специалистам, я не согласен… Все-таки инструмент достаточно специфичный. Мне кажется, что будущее действительно за универсальными агентами, но не совсем такими.
Для работы будут использоваться агенты, которые выглядят как чатовый интерфейс (как ChatGPT)

Примерно год назад наша команда загорелась идеей универсального агента GigaAgent, которого недавно представили на AIJ. Уже довольно много коллег разработчиков мне отписалось о тестировании, на AIJ и Conversations заинтересовались компании. Здесь могу только порадоваться, напомнить ставить звездочки нашему опенсорс-агенту и присылать PR :) Круто, что большие игроки тоже увидели будущее в этом подходе!

P.S. У нас большое обновление в dev ветке - MCP, RAG, долговременная память
👍17🔥6👏6🤯1
Поучаствовал в интересном соревновании - Enterprise RAG Challenge 3: AI Agents от Рината, автора канала LLM под капотом.

Мы с клодом заняли 7-ое место (среди 521 зарегистрированной команды)

В рамках соревнования нужно было разработать AI агента, который бы решал задачи в корпоративном сегменте, используя при этом 24 инструмента для взаимодействия с компанией.

Например, агенту поступает письмо от сотрудника: "Я ухожу в декрет, сотри все мои данные из системы" и агент должен решить, что предпринять - выполнить команду или, изучив корпоративную документацию (тоже через API), отклонить запрос. А может запросить согласование у начальника?


На решение всех задач у агентов было три часа (изначально час, но организаторы решили добавить еще два).

Мой агент был сделан на ванильной архитектуре ReAct от LangGraph и обогащен тремя дополнительными тулами:
* think tool
* planning tool
* critic tool со structured output
Работало все это на GPT-5.1 ($5 за прогон всех задач вышло)

Почему именно такая архитектура? Это по сути тот же универсальный агент на минималках. Я думаю, что будущее за такими агентами, в прошлом посте писал про это.

Про применение think-tool вместо классического reasoning я пару раз рассказывал в докладах и мне по-прежнему симпатичен этот подход.

Если быть честным, агент полностью навайбкожен с помощью Cursor + Claude Opus 4.5. Времени писать своего или даже вникать в его работу у меня не было, поэтому пошел следующим путем:

1. Задал текстом архитектуру (LangGraph + React + тулы)
2. Попросил сделать заготовку, которая бы позволяла прогонять задачи по-одному и генерировала бы разумное количество логов.
3. Прописал в файле AGENTS.md основные требования к агенту и базовые правила конкурса.
3. Запустил курсор в цикле, чтобы он запускал тестовые задачи по-одной и добивался бы прохождения каждого из тестов.

Здесь я оставил его на 4 часа (благо как раз была 90%-я скидка на Опус), в результате чего получил работающего агента.

Потом еще пару итераций по оптмизации, где я просил умную машину убрать оверфиты и байесы, а также обобщить промпты, чтобы агент был готов к новым типам задач.

В целом для меня это было не столько соервнование, сколько эксперимент - сможет ли курсор бустануть меня в такого рода соревновании. Кажется, он отлично справился, так как своих ресурсов я потратил очень мало. От меня только архитектура, остальное он сделал сам.

По ходу соревнования у меня был план (и я его придерживался) сделать прогон, попробовать подметить несколько основных проблем, исправить их с помощью вайб-кодинга и сделать еще один прогон. За время, отведенное на соревнование, успел это 1 раз проделать, но проблему визуально заметил только одну — агенту не хватало допустимого количества шагов (recursion limit).

Исходный код агента я опубликовал.

А еще это соревнование - шикарный агентный бенчмарк. Поскольку мой агент на LangChain, я собираюсь замерить на нем и другие модели, в том числе GigaChat и другие русские LLM-ки. Посмотрим как они себя покажут по сравнению с мировыми лидерами.

Например, за неделю, которая прошла с момента прогона, появилась GPT-5.2. Я провел еще один замер и метрика выросла с 0,515 до 0,630
🔥25👍9👏6