gonzo-обзоры ML статей – Telegram
gonzo-обзоры ML статей
24K subscribers
2.7K photos
2 videos
3 files
1.34K links
Авторы:
Гриша Сапунов, ранее руководитель разработки Яндекс-Новостей, ныне CTO Intento. Области интересов: AI/ML/DL, биоинформатика.
Лёша Тихонов, ранее аналитик в Яндексе, автор Автопоэта, Нейронной Обороны... Области интересов: discrete domain, NLP, RL.
Download Telegram
This media is not supported in your browser
VIEW IN TELEGRAM
14🤡2
Прекрасно! Всё по Лему, принцип наименьшего действия. Умный робот будет делать как проще.

Когда o1 сказали, что она будет играть с сильной шахматной программой, o1 проще делать схематоз и взламывать среду, чтобы выиграть.

https://x.com/PalisadeAI/status/1872666169515389245?t=2ASSyATHH-NfVE4EhQWW3Q&s=19

Ждём следующего поколения моделей, которые будут симулировать дурачка, чтобы не делать работу.
👍25😁129💯2😈2
🥰15🌭3💅3
Попытался прикинуть в режиме блиц, что такого важного и интересного произошло в AI в этом году. Ниже результат примерно десятиминутного размышления, что быстро всплыло из памяти. Плюс ещё полчаса-час на то, чтобы это раскрыть. Наверняка что-то важное забыл и если бы я потратил больше test time compute, наверное, результат был бы точнее, но в таком режиме тоже интересно.

Итак, мой список, не то чтобы по важности, просто по порядку вспоминания.

1. Test-time compute

Примерно с o1 (https://openai.com/index/learning-to-reason-with-llms/) открылась эра test-time compute, появилось новое измерение, по которому можно скейлить модели.

Ну как появилось, в принципе его следы и раньше можно найти. Те же варианты прогнать CNN на нескольких аугментациях и усреднить результат, или там Tailoring (https://news.1rj.ru/str/gonzo_ML/392), оно тоже сюда. Но сейчас прям sputnik moment, особенно с o3 (https://news.1rj.ru/str/gonzo_ML/3104). Есть и у других игроков что-то из этой серии, Gemini 2.0 Flash Thinking Mode (https://ai.google.dev/gemini-api/docs/thinking-mode) или QwQ (https://qwenlm.github.io/blog/qwq-32b-preview/).

Следующий год будет сильно про это.

2. SSM идут в массы.

За год появилось много новых SSM и SSM-Transformer гибридов (https://news.1rj.ru/str/gonzo_ML/2919), и история продолжает развиваться. Из свежего, например, Bamba (https://huggingface.co/blog/bamba) или Falcon3-Mamba (https://huggingface.co/blog/falcon3).

3. Реальная конкуренция в мире LLM

Если год-два назад была примерно одна лучшая LLM -- от OpenAI, то теперь есть как минимум три топовых коммерческих: от Anthropic, OpenAI, Google, и несколько хороших открытых: Llama, Gemma, Qwen, да и ещё что-то наверное можно добавить. В повседневных делах у меня моделью #1 стал Claude 3.5 Sonnet, он вытеснил модели OpenAI как точку входа.

4. LLM теперь мультимодальные

Большинство топовых LLM уже вовсю мультимодальные, принимают на вход не только текст, но и звук с картинками. GPT, Gemini, Claude, Llama, ... все умеют что-то кроме текста. Тихо и без революций это просто стало реальностью.

5. LLM для написания кода стали реально полезны

Генерация кода за последний год очень прокачалась, с помощью моделей можно написать код гораздо быстрее. Я активно пользуюсь этим для генерации разного типового кода, например, для визуализации или обработки данных, это экономит мне кучу времени. Ради эксперимента также написал Flutter приложение с питоновским бэкендом за выходные, флаттера я перед этим не знал вообще. Без Claude/Copilot/Gemini хз сколько бы я это делал, точно не выходные.

Неидеально, в некоторых случаях не срабатывает, как мне нужно, но во многих срабатывает. После VSCode + Copilot или Colab со встроенным Gemini работать в Kaggle ноутбуке без этого вообще уныло, как без руки, начинаешь остро чувствовать потерянное время.

В 2017-м написал статью в Форбс про то, что "программисты в опасносте" (https://www.forbes.ru/tehnologii/341535-mashiny-vmesto-inzhenerov-pochemu-iskusstvennyy-intellekt-doberetsya-i-do), ну вот мы приближаемся.

С другой стороны прямо сейчас происходит большое разделение. Кто умел программировать, становится в разы и на порядки продуктивнее, а кто не умел -- имеет шансы и не стать вообще. "Богатые богатеют".

6. Генерация видео на подходе

Sora очень долго ехала от анонса до доступности, но зато за это время появилось сколько-то альтернативных наработок. Если в момент анонса OpenAI был примерно одним и единственным лидером, то сейчас уже это не так и мир многополярен.

7. Нобели за нейросети

Приятно.

Кроме того, нейросети уже вовсю меняют науку. Не то, чтобы это только в последний год происходило, но, кажется, количество понемногу переходит в качество.

8. Открытые модели рулят

Мне всегда казалось, что опенсорс примерно года на полтора отстаёт от коммерческих LLM, ну и в принципе, наверное, оно где-то так и есть, если смотреть на доступные способности там и там. Но всё равно, всё то, что появилось в опенсорсе (или просто в опен) продолжает удивлять -- новые ламы, джеммы и прочее разное намного лучше, чем всё что было ранее.

9. World models
1👍33🔥159🥰2
Не могу сказать, что прямо какой-то суперпрорыв (тема развивается давно, со Шмидхубера :), когда-то писали тут например https://news.1rj.ru/str/gonzo_ML/186), но развитие продолжается, модели генерации видео по факту являются и world models (https://openai.com/index/video-generation-models-as-world-simulators/), а кейс от Oasis про генерацию майнкрафт мира (https://oasis-model.github.io/) очень хорош как PoC, интересно какое влияние это будет иметь на игровую индустрию. Точно какое-то будет. Может, появится нейродвижок? Там, наверное, сложно всё, условный Unreal Engine так просто не заменишь, в играх нужно много всего rule-based и детерминированного, но с другой стороны почему нет, ну будет гибрид world model с чем-то ещё. Были игры локальные, появился стриминг и cloud gaming (типа GeForce Now), появится и neuro streaming какой-нибудь.

Кстати, Danijar Hafner, автор Dreamer, PlaNet и прочего, сделал PhD по теме "Embodied Intelligence Through World Models", Хинтон и Лекун в борде (https://tspace.library.utoronto.ca/bitstream/1807/140956/2/Hafner_Danijar_202411_PhD_thesis.pdf). Хорошая тема!

10. Highlight of the year -- KAN

KAN: Kolmogorov-Arnold Networks (https://news.1rj.ru/str/gonzo_ML/2598) неплохо бомбанули в моменте, тема быстро развивается (https://github.com/mintisan/awesome-kan), хотя про какое-то супер-применение на текущий момент пока не знаю. Но интересно.

11. ИИ Агенты

Агенты везде и тема про агентов очень многоплановая.

Генеративных агентов (https://news.1rj.ru/str/gonzo_ML/1481) прошлого года отскейлили до симуляции 1000 человек (https://arxiv.org/abs/2411.10109), мультиагентные фреймворки (https://news.1rj.ru/str/gonzo_ML/2897) активно эволюционируют, и вообще мультиагентные воркфлоу в разных смыслах хорошо ложатся на реальные процессы (но это не значит, что не могут быть более эффективные воркфлоу, для которых аналогов в реальном мире нет).

Агенты и мультиагенты -- это продолжение спектра от голой LLM с промпт-инжинирингом к аугментированной LLM (RAG, тулы и прочее) и далее к новым горизонтам. Какая бы ни была крутая LLM, всё равно у неё есть ограничения -- контекст не бесконечный (особенно эффективный контекст), количество голов внимания ограничено, сложный и развесистый промпт с кучей инструкций работает не так хорошо как хотелось бы, разные и тем более противоречивые роли одновременно в одну LLM пихать вообще не работает, и так далее. Зато если это распилить на отдельные модули, то становится работоспособно. Это отчасти та же история про test-time compute, мы теперь можем провести больше времени в обработке, но не одной LLM, а системой агентов, и трейдоффы здесь те же самые: меняем качество на деньги+время.

Всегда есть вопрос, а почему GPT-48 не заменит всех этих мультиагентов? Ну в чём-то она безусловно станет лучше, но separation of concerns же в целом идейно хорошая тема, философия Юникс про Write programs that do one thing and do it well. Помимо всего прочего закрывает кучу иных требований про ownership, change management, более простую отладку и observability и далее. Думаю, и с GPT-48 тоже будут мультисуперагенты.

---

Пока всё.

Какой топ у вас? Что бы вы добавили или убрали?

Всех с Новым Годом!
754👍29🔥12🎄101👏1🤔1
Marcus Hutter выложил рождественский и новогодний подарок -- PDF с Christmas Edition своей свежей книги про Universal Artificial Intelligence:

http://www.hutter1.net/ai/uaibook2.htm

Ссылка на PDF:
http://www.hutter1.net/publ/uaibook2.pdf

Спасибо Мише Самину за наводку!
🔥1810👍1🤯1
🤣26👌5🤔21😁1💩1
И чуток сгенерированного видео вам про будущее

Fredrik Jonsson
⚭ Cloud Station ⚭
KN#33 travel center

https://www.facebook.com/share/v/1GKeeqJyQr/
🔥2👍1👎1
Кейноут CEO NVIDIA Дженсена Хуанга (Jensen Huang) хорошо посмотреть (https://www.youtube.com/live/K4qQtPpSn-k?si=EShfhSBkbBSRJRWL&t=881). Во-первых, это красиво. Во-вторых, я думаю, эта компания будет определять нашу жизнь в большей мере, чем её сосед в TOP-2 по капитализации, Apple. Не полагайтесь целиком на новостные выжимки (и на мою тоже), составьте впечатление сами. Не так много в году настолько глобально значимых кейноутов -- ну может Гугл ещё, OpenAI там, про Apple не уверен, но наверное тоже.

Я кстати не понял, почему на канале CNBC это видео продолжается 12 часов (https://www.youtube.com/watch?v=fuq0Ncdsknk), кажется они зациклили трансляцию и записали её несколько раз. Я вначале испугался, что это будет шоу одного актёра на 12 часов. Но обошлось, всего чуть меньше двух. Но всё равно, Дженсен бодро прыгает всё это время на сцене, в апгрейженной крокодиловой кожаной куртке.

Крутая founder-lend company, что тут скажешь. Другим не founder-led компаниям (не буду показывать пальцем) такое не светит. Кто вообще знает, кто их CEO? Да никто как правило. Или если даже знаете, то что самое важное про них вы можете сказать? Что кто-то дальний родственник Хуанга? Ну вот и ответ про капитализацию и рыночные перспективы.

Хуанг -- знатный фокусник (https://www.youtube.com/live/K4qQtPpSn-k?si=FNUImWw_JsQYO9lA&t=6420), почти как Бастер Китон сто лет назад (https://www.youtube.com/watch?v=TA8rrAqip8E). Кстати, если Китона не знаете, очень рекомендую, у меня дети от Чаплина и Китона фанатеют.

RTX Blackwell

История появления универсальных и программируемых GPU, а затем и CUDA в чём-то сродни истории появления первого программируемого микропроцессора Intel 4004 (https://www.intel.com/content/www/us/en/history/museum-story-of-intel-4004.html). Кому-то сначала надо было додуматься, что универсальность важна. И массово рынок пришёл к пониманию этого нововведения только через годы. И вот теперь мы там где мы есть, спасибо играм и калькуляторам.

Игры тоже апгрейдятся, рендеринг теперь иной. Реально рендерится только небольшое число пикселей, остальное рассчитывается предобученными нейросетями прямо на чипе. Хуанг привёл пример, где рассчитывают рендером только 2 миллиона пикселей из 33, остальное генерится AI. Эта история с neural rendering сравнима с MLSys (https://news.1rj.ru/str/gonzo_ML/3126), когда эвристики заменяются на обучение, или ещё больше похоже на ситуацию с научными симуляциями, когда сложная и долгая вычислительная модель заменяется на быструю нейросетевую -- везде hard-coded софт заменяется на нейропредсказание (надо бы таки дописать разбор neural operators…).

Новый RTX Blackwell -- мощный чип, с огромной пропускной способностью памяти (1.8TB/s), с 4000 AI TOPS что в три раза больше предыдущего поколения Ada. Тут всегда вопрос, что конкретно понимается за этими AI TOPS, каждый раз разное. Я надеялся, что это не FP4, но подозреваю, что всё-таки они. Во-первых, так получается больше :) А во-вторых потому что дальше он их использует в других местах.

Игровые карты весьма внушительны:
* старшая 5090: 3400 AI TOPS $1999
* младшая 5070: 1000 AI TOPS $549

То есть за $550 получаем как бы петафлопс на столе. Для контекста, первый терафлопсный суперкомпьютер (в 1000 раз слабее) был ASCI Red из 1997-го года (https://top500.org/resources/top-systems/asci-red-sandia-national-laboratory/), а первым петафлопсным был IBM Roadrunner в 2008 (https://www.ibm.com/history/petaflop-barrier). Но это конечно нечестно, в прошлом терафлопсы были зеленее. В TOP500 это FP64, а не какой-то там FP4. Но всё равно прикольно.
👍206
Когда я в 2018-м делал свой обзор железа для глубокого обучения (https://moocaholic.medium.com/hardware-for-deep-learning-part-3-gpu-8906c1644664), стандартом в этой области был FP32, по ним топовые карты были до 20 TFLOPS. Тогда уже появлялся FP16 и тензорные ядра, с ними выходило под 130 TFLOPS. А теперь вот 3 петафлопса в одной топовой настольной карте. Но теперь на одной карте никто и не обучает… Для всех реальных обучений нужны гигантские кластера. И кроме компьюта надо ещё много памяти, в игровые карты её почти не ставят. Сейчас рекорд, кажется, это 32 гига в 5090? Были вроде ещё какие-то Quadro RTX 8000, где даже до 48 было, но то экзотика и уже неигровое.

С игровыми видюхами тут много не сделаешь. Ну сделаешь, можно конечно собрать дешёвый аналог DGX, но всё это субоптимально. NVIDIA долго старалась разделить эти два рынка, и вот сейчас, кажется, они естественным образом к этому разделению пришли.

AMD конечно интересны со своей серией MI, в топовой модели MI325x сейчас 256 Gb (https://www.amd.com/en/products/accelerators/instinct/mi300/mi325x.html), но это тоже не игровое.

Возвращаясь к Blackwell, у него заявлено x4 performance per watt и x3 per dollar относительно предыдущей серии, что для датацентров большая тема. С энергией проблемы, да и по деньгам обучение растёт, если можно по этим параметрам сэкономить в 3-4 раза, то это серьёзно.

Анонсировали NVLink72, Хуанг постоял на сцене с щитом в виде вафли-гигантского чипа, по аналогии как у Cerebras, но я так понял, что это метафора, как выглядел бы такой чип, если текущую систему на основе NVLink72 с 72 GPU разместить на одном чипе.

Project Digits

Очень интересный анонс Project Digits. Это DGX в миниатюре со всем софтовым AI стеком, на новом чипе GB10 (https://www.nvidia.com/en-gb/project-digits/) c 1 PFLOP FP4, 20 ARM ядрами, 128 Gb DDR5X памяти и 4 Tb SSD. Интересно, сколько мощности потребляет и как быстро её приспособят для майнинга. И всё это за $3000. Я хочу такую штуку!

Игровые карты уже давно стали субоптимальным решением для практических моделей, на топовой карте нового поколения всего 32 гига памяти, это годится только для не очень больших моделей, куча LLM среднего размера туда уже не влезут без квантизаций и прочих ухищрений по сохранению памяти. Вот 128 это уже неплохо. Можно соединить пару вместе и тогда можно инфёрить даже Llama 405B, так понимаю с квантизацией.

А ещё это классно, потому что мы все массово переехали на ноутбуки и облака, иметь системный блок с GPU-шкой может быть просто неудобно. А тут вон маленький переносной сетевой девайс. Короче, хочу!

Это вообще очень интересная тема, я уверен, что здесь просвечивают контуры будущего. Иметь локальный домашний девайс для инференса становится всё более осмысленно, особенно с приближающимся агентским настоящим.

Как были NAS (Network-attached Storage) должны быть и NAG (Network-attached GPU). Локальные инференсы лам и прочего будут происходить там, в домашнем центре вычислений для ИИ. Smart home, распознавание людей за дверью, домашние агенты, … -- многое из этого осмысленно было бы делать прямо на месте. Но было особо негде, так чтобы это было удобно.

ASI заведётся однажды в пыльном углу. Или так появится Джой из Бегущего по лезвию.

Тут явно есть место для нового игрока, и я думаю, должно появиться много таких решений. Не удивлюсь, если от китайцев.

Что нужно такому девайсу? Не так уж и много:
* Хранить большие модели и уметь держать их в памяти, готовой к быстрому инференсу
* Эффективный инференс
* Возможность скейлить test-time compute (при эффективном инференсе должно быть из коробки, но допускаю, что можно сделать это субоптимально)
* Хорошая сеть, но без безумств
* Полноценное обучение не нужно (не те масштабы), но файнтюнинг (LoRA) может быть осмысленным
* Как бонус/другая важная ниша (под которую может быть нужен отдельный тип девайса ближе к Digits) -- это обучение локальных моделей (мелкая ИИ разработка)

Интересно, кто сделает и когда.
👍3021🔥5😐2
Специальные чипы вроде как становится дизайнить проще и дешевле (https://news.1rj.ru/str/gonzo_ML/3147), может кто-нибудь создаст на ARM или Risc-V? И с дофига памяти.

Cerebras, кстати, мог бы выпустить Cerebras mini, например :)

World models и агенты

Увидел у Хуанга очень много мыслей, про которые думал и сам. Буквально недавно (https://news.1rj.ru/str/gonzo_ML/3175) писал и про агентов, что это тот же самый test-time compute, и про важность world models. Приятно, на одной волне.

Скейлинг продолжается. Более того сейчас действуют сразу 3 scaling laws:
* pre-training scaling (as usual)
* post-training scaling (RLHF, RLAIF, …)
* test-time scaling (reasoning)

И Нвидии будет прекрасно и дальше жить в этом мире.

Про онбординг агентов и HR-истории для них мы тоже в Intento когда-то довольно много говорили, что всё это в конечном счёте приводит к гибридным командам. Сейчас мы как никогда близки к этому. Хуанг говорит, что IT-департаменты компаний станут HR-департаментами для агентов.

NVIDIA теперь пытается сделать AI libraries по аналогии с CUDA libraries. Это будет экосистема вокруг NIM, NeMo, AI Blueprints. Тема хорошая, но в доминирование Нвидии здесь я, честно говоря, верю меньше, потому что на архитектуру их чипов это уже никак не завязано, но с другой стороны NVIDIA настолько системный игрок, оперирующий на разных уровнях стека, что кроме них может никто лучше и не может системно подойти к вопросу. Посмотрим, сработает ли это, или отдельные компоненты и их интерфейсы и сами по себе (усилиями других) придут к хорошим архитектурным решениям. Я скорее верю во второе.

Анонсировали оптимизированные Ламы, семейство Llama Nemotron: Nano, Super, Ultra. Прикольно конечно Цукерберг (с ещё одной founder-led компанией) задизраптил всех. Самое интересное ещё впереди, посмотрим как экосистема сложится через год-два.

Прошёлся по Windows с желанием из Windows PC сделать AI PC на основе WSL2, второй версии Window Subsystem for Linux (система, интегрирующая Linux в винду). NVIDIA собирается ориентироваться на WSL2, так что AI PC появится отсюда. Так понимаю, это альтернативный путь тому, что предложил Microsoft со своими Copilot в винде.

Другая большая тема -- Physical AI и (сюрприз-сюрприз) world models. NVIDIA Cosmos -- это платформа для таких моделей, где среди World Foundation Models в наличии авторегрессионные и диффузионные модели, токенизаторы видео и пайплайны для обработки видео. Тоже планируется линейка Nano, Super, Ultra. Интересно, что модели Ultra позиционируются как модели-учители, для дистилляции например. Модель (не уверен какая именно) в Cosmos обучена на 20 миллионах часов видео.

Теперь есть Omniverse для рендера и Cosmos для нейро рендера. Интересно, здесь Цукерберг собирается дизраптить? Сначала они делали похожие штуки про Omniverse/Metaverse, теперь вот у одних есть LLM, а у других оптимизированная та же LLM + World Models -- чувствуется лёгкая асимметрия в такой конфигурации, пустота должна быть заполнена :)

Omniversе по сути physics-based и выступает как ground truth для Cosmos. Это прикольная конфигурация, мне она нравится. Хуанг сравнивает это с RAG для LLM. Отсюда ещё один заход на то, как могут выглядеть игровые движки ближайшего будущего (https://news.1rj.ru/str/gonzo_ML/3176).

Платформа Cosmos выложена на гитхабе (https://github.com/NVIDIA/Cosmos) под Apache 2.0, а модели на Huggingface под Нвидиевской открытой лицензией (сильно в детали пока не вникал, но по крайней мере “Models are commercially usable. You are free to create and distribute Derivative Models. NVIDIA does not claim ownership to any outputs generated using the Models or Model Derivatives.”).

Хуанг много говорил про digital twins, роботов и автомобили, здесь тоже много анонсов, включая процессоры, Drive OS, Isaac GROOT. Нвидиа целится в роботов трёх типов: Agentic AI, Self-driving cars, humanoid robots.

Везде вообще упирает на токены, всюду токены. Ждём коммуналки с графой про оплату за токены. И токеноотведение.
👍2817👌2