NEW BOT Телеграм, страница

gonzo-обзоры ML статей

4.75K views21:32

gonzo-обзоры ML статей

5.08K views21:32

gonzo-обзоры ML статей

👍1

5.69K views21:32

gonzo-обзоры ML статей

🤔2❤1

5.59K views21:32

gonzo-обзоры ML статей

👍2

5.65K views21:33

gonzo-обзоры ML статей

5.56K views21:34

gonzo-обзоры ML статей

Больше про агентов и агентные пайплайны! И про важность хорошего критика :)

К слову, рекомендую Сиолошную, там тоже много хороших разборов статей, которые не успеваю делать я.

Сиолошная

Канал SeeAll'а с новостями (и мыслями о них) из мира NLP, VR и космоса.

Более подробно смотри в первом сообщении в канале (оно закреплено). А еще у нас есть чат! Заходи: https://news.1rj.ru/str/+i_XzLucdtRJlYWUy

🔥12👍6❤‍🔥3🙏1

5.21K views17:05

gonzo-обзоры ML статей

Forwarded from Сиолошная

Agent-as-a-Judge: Evaluate Agents with Agents

Статья со Schmidhuber в соавторах 😀 Для того, чтобы понять текст ниже, нужно ознакомиться с концептом агета — пояснительный пост я делал тут.

Современные методы оценки не очень хорошо подходят для агентных систем. Они либо сосредоточены исключительно на конечных результатах, игнорируя пошаговую природу процесса получения ответа (промежуточные шаги), либо требуют чрезмерного количества ручного труда, что дорого и плохо масштабируется. Кроме этого, для улучшения агентных систем разработчикам приходится лезть в кишки и смотреть, что происходило и почему что-то не сработало — тоже долго и дорого.

Вот на примере SWE-Bench, обновлённую версию которого недавно выпустили OpenAI: системе даётся задача внесения изменений в код, а затем после получения решения прогоняется набор тестов. Прошли все тесты — задача «решена» (но тесты не покрывают всё и не проверяют каждую возможную несостыковку), не прошёл хотя бы один — не решена. А почему не решена? да миллион причин может быть.

У исследователей из META возникла идея: давайте для каждой задачи выпишем критерии решения, и запустим агентную систему для проверки всех промежуточных шагов (и сбора необходимой и достаточной для этого информации). Так родился бенчмарк DevAI: собрали 55 задач на автоматизацию ИИ разработки (обучи модель, запусти то-то, сделай то-то). Для них выписали суммарно 365 требований, в среднем по 6.6 на задачу. Самое описание — это текст длиной от 70 до 150 слов: не полноценное описание огромной задачи, но уже и не однострочник.

Дальше взяли 3 агентные системы (все используют gpt4o), запустили, а результаты работы отсматривались тремя специалистами. У них проверка 55 задач и 365 пунктов заняла суммарно 86.5 часов, и это бы стоило $1300 по минимальной часовой ставке в $15 (реальная стоимость сильно выше — тут же нужны эксперты с навыками ML/AI, а не любой человек с улицы). Кажется, на такой бюджет можно столько проверок через LLM нагородить, что не горюй.

Люди между собой сначала не общались, поэтому естественно возникли разногласия — уровень несогласованности между парами оценщиков колеблется от 10% до 30%. Как тогда определить, кто прав? Для этого людей собрали вместе и дали возможность обсудить каждую задачу, и финализировать ответ — получилось консенсусное решение, которое считается истинным. Вот от него голосование «большинством» от трёх исходных специалистов снижает несогласованность до 5-6% (поэтому часто в разметке ответы и агрегируют, получая «мудрость толпы»).

А после этого исследователи взяли и написали AI-агента (критика), который смотрел на решения, на критерии, и производил проверку — и вердикт сравнивался с консенсусным решением людей (удовлетворены ли требования).
TLDR: агент без доступа к логам размышлений согласуется с правильным ответом в 83-90.5% случаев (в зависимости от фреймворка, которым решались оригинальные задачи), с доступом — 86-92%. Люди с доступом к логам выдавали 89%-92%, а агрегация их ответов дала 94-95% (это как раз та несогласованность в 5-6% выше).

То есть автоматическая оценка примерно совпадает по точности с одиночной оценки людей, но чуть хуже агрегации нескольких ответов. Зато она быстрее на 97.7% (118 минут) и дешевле на 97.6% ($30.5).

Please open Telegram to view this post

VIEW IN TELEGRAM

👍11❤1

4.91K views17:05

gonzo-обзоры ML статей

Forwarded from Сиолошная

Сиолошная

Схематично выглядит так.

В самом низу агент-проверяльщик имеет доступ ко всем файлам, которые требовались агенту-решателю для выполнения задачи. Проверяльщик может их отсмотреть и делать выводы о том, что и как было решено, и совпадает ли это с исходными критериями.

И очень понравилось, как заканчивается статья: логичные дальнейшие шаги. Авторы замечают, что наличие столь качественного критика (как человек, который и участвует в разметке данных и даёт обратную связь) позволяет запустить автоматический процесс дообучения и улучшения моделей. Нечто схожее сделали OpenAI с o1 для математики и программирования, и вот подход для агентов.

И финальное слово про сам бенчмарк: очень ждём замеров результатов моделей грядущего поколения. Сейчас лишь одна задача из 55 решается по всем критериям, однако из 355 подкритериев порознь выполняются 46.44%. Так что видно, что агент может что-то сделать, но упускает из виду несоответствие остальным критериям (забыл отдельный шаг, не туда сохранил/не так назвал файл, или просто ошибся в коде) — как раз тут и пригодился бы критик.

Почитать все 55 задач можно тут.

❤3👍2

4.52K views17:05

gonzo-обзоры ML статей

NotebookLM

Не все ещё знают про такую прекрасную штуку, как NotebookLM, в прошлом Project Tailwind:

https://notebooklm.google.com/

NotebookLM -- это AI ноутбук для работы со статьями и документами (https://blog.google/technology/ai/notebooklm-google-ai/). В него можно загрузить статьи (например, в pdf или txt), аудио (mp3), документы или слайды с Google Drive, ссылки на страницы, видео на Youtube, просто скопипастить текст. А дальше работать с ним с помощью гугловой LLM Gemini -- задавать вопросы, делать суммаризацию, генерить идеи, в целом на что фантазии хватит.

Я активно использую NotebookLM для разбора статей -- для генерации постов, как я хочу, его пока не хватает (но думаю через годик будет иначе), но чтобы уточнить детали статьи, а особенно если нужно сразу сделать что-то по нескольким статьям, очень хорошо.

Недавно добавились аудио обзоры (https://blog.google/technology/ai/notebooklm-audio-overviews/), когда два диктора обсуждают заданную тему, например, статью, гуглодок или что угодно, хоть ваши логи :) Пока только на английском. С октября эти обзоры ещё и можно кастомизировать (https://blog.google/technology/ai/notebooklm-update-october-2024/), давая инструкции, чего именно вы хотите. Это, правда, ничего не гарантирует, агенты всё равно могут уйти обсуждать другие вещи и пока не прослушаешь результат -- не узнаешь, но всё равно прикольно. Годится как развлекательный жанр.

Я попробовал сделать обзор статьи Gödel Agent, которую только что разобрал (https://news.1rj.ru/str/gonzo_ML/2964). Генерил четыре раза, пытаясь добиться полноценного разбора конкретной статьи с небольшой отсылкой к оригинальной Шмидхуберовской про Машину Гёделя. Каждый раз косячило по-разному, иногда вообще сторонние темы уходило обсуждать (например, так получился обзорчик по RNN, который сам по себе может и ничего, и будет достоин отдельного поста), или обсуждало статью, но фантазировало (так, гёделевским агентам оно приписало вероятностный логический вывод и прочее, чего там не было). Выбрал итоговый вариант, где баланс того и другого :)

Заодно завёл канал для постинга гонзо-мл-подкастов: https://news.1rj.ru/str/gonzo_ML_podcasts 🙂 Буду экспериментировать и ждать, когда оно наконец сможет заменить меня.

В продукт я очень верю. Мне кажется, мы на пути к персональному агенту-помощнику для различного рода исследований. Может оно когда-нибудь и с генерацией кода сольётся, и вызов функций появится, так что можно будет интегрировать с чем-то ещё. У новых моделей (свежий новый Claude 3.5 Sonnet) появляются ручки и ножки, в смысле они могут взаимодействовать с компьютером (https://www.anthropic.com/news/3-5-models-and-computer-use), так что и рисёч-агент со временем может стать очень способным. Ждём.

А пока вот вам 8 советов как начать ~~жить~~ пользоваться NotebookLM: https://blog.google/technology/ai/notebooklm-beginner-tips/.

Google

Introducing NotebookLM

We’re rolling out NotebookLM, an experimental offering from Google Labs to summarize information, complex ideas and brainstorm new connections.

👍44❤19🫡6🔥2

8.33K views17:38

gonzo-обзоры ML статей

https://www.aitrainingstatement.org/

🥴47🤡18👍11💩6❤4🥱1🖕1

5.43K views08:07

gonzo-обзоры ML статей

Продолжаю автоматический разбор статей в свежесозданном параллельном канале gonzo_ML_podcasts.

Сегодня свежая работа Тегмарка и ко про разреженные автоэнкодеры:

Decomposing The Dark Matter of Sparse Autoencoders
Joshua Engels, Logan Riggs, Max Tegmark
https://arxiv.org/abs/2410.14670

https://news.1rj.ru/str/gonzo_ML_podcasts/5

Ссылка на подкаст в телеграме и на ютубе там же. Зачётно гонят! :)

arXiv.org

Decomposing The Dark Matter of Sparse Autoencoders

Sparse autoencoders (SAEs) are a promising technique for decomposing language model activations into interpretable linear features. However, current SAEs fall short of completely explaining model...

❤8👍6🔥3

6.21K views08:43

gonzo-обзоры ML статей

Долгим и бесплодным обсуждениям сознания в чате посвящается!

Свежий Анохин

https://youtu.be/9hzvAY2tlWY?si=zt-UcrzLoB0ricf9

YouTube

Константин Анохин Грань сознания: в природе и машинах

21.09.24 Лекция К.В. Анохина на конференции молодых ученых - грантополучателей Научного центра "Идея".

Анохин Константин Владимирович - директор Института перспективных исследований мозга МГУ, академик РАН

❤10😁7👍2💩2💊2🔥1🌚1

6K views13:11

gonzo-обзоры ML статей

Раз мы по видео пошли, свежего Лекуна вам в ленту

Lecture Series in AI: “How Could Machines Reach Human-Level Intelligence?”
https://www.youtube.com/watch?v=xL6Y0dpXEwc

Animals and humans understand the physical world, have common sense, possess a persistent memory, can reason, and can plan complex sequences of subgoals and actions. These essential characteristics of intelligent behavior are still beyond the capabilities of today's most powerful AI architectures, such as Auto-Regressive LLMs.

I will present a cognitive architecture that may constitute a path towards human-level AI. The centerpiece of the architecture is a predictive world model that allows the system to predict the consequences of its actions. and to plan sequences of actions that that fulfill a set of objectives. The objectives may include guardrails that guarantee the system's controllability and safety. The world model employs a Joint Embedding Predictive Architecture (JEPA) trained with self-supervised learning, largely by observation.

The JEPA simultaneously learns an encoder, that extracts maximally-informative representations of the percepts, and a predictor that predicts the representation of the next percept from the representation of the current percept and an optional action variable.

We show that JEPAs trained on images and videos produce good representations for image and video understanding. We show that they can detect unphysical events in videos. Finally, we show that planning can be performed by searching for action sequences that produce predicted end state that match a given target state.

Слайды:
https://drive.google.com/file/d/1F0Q8Fq0h2pHq9j6QIbzqhBCfTXJ7Vmf4/view

Надо будет JEPA и её вариации таки разобрать. Давно в очереди уже.

YouTube

Lecture Series in AI: “How Could Machines Reach Human-Level Intelligence?” by Yann LeCun

ABOUT THE LECTURE
Animals and humans understand the physical world, have common sense, possess a persistent memory, can reason, and can plan complex sequences of subgoals and actions. These essential characteristics of intelligent behavior are still beyond…

👍20😁16❤8🔥4

7.24K views06:48

gonzo-обзоры ML статей

Продолжаем авторазбор темы про SAE (Sparse Autoencoders)

Scaling and evaluating sparse autoencoders
(OpenAI) Leo Gao, Tom Dupré la Tour, Henk Tillman, Gabriel Goh, Rajan Troll, Alec Radford, Ilya Sutskever, Jan Leike, Jeffrey Wu
https://arxiv.org/abs/2406.04093

https://news.1rj.ru/str/gonzo_ML_podcasts/7

Аудио-часть, кажется, получилась совсем вводная и болтологическая, ну да ладно, продолжаем экспериментировать :)

В любом случае лучше так, чем никак, а то есть огромная очередь потенциально интересных статей, которые я всё равно не успеваю разобрать. Буду автоматом разбирать эту очередь + периодически разбирать вручную что-то особо достойное.

arXiv.org

Scaling and evaluating sparse autoencoders

Sparse autoencoders provide a promising unsupervised approach for extracting interpretable features from a language model by reconstructing activations from a sparse bottleneck layer. Since...

👍11🔥1

5.94K views13:59

gonzo-обзоры ML статей

Продолжаем авторазбор того, что не успевается вручную. Помните KAN'ы?

KAN or MLP: A Fairer Comparison
Runpeng Yu, Weihao Yu, Xinchao Wang
Paper: https://arxiv.org/abs/2407.16674

https://news.1rj.ru/str/gonzo_ML_podcasts/10

Вроде как получается, что MLP почти везде лучше, а там где хуже, при замене функции активации на learnable B-spline, то и везде лучше.

gonzo-обзоры ML статей

KAN: Kolmogorov-Arnold Networks
Ziming Liu, Yixuan Wang, Sachin Vaidya, Fabian Ruehle, James Halverson, Marin Soljačić, Thomas Y. Hou, Max Tegmark
Статья: https://arxiv.org/abs/2404.19756
Код: https://github.com/KindXiaoming/pykan
Docs: https://kindxia…

👍28🌚2

6.82K views15:47

gonzo-обзоры ML статей

Forwarded from gonzo_ML_podcasts

👍10👎1

5.73K views15:47

gonzo-обзоры ML статей

В свете пошедших слухов про GPT-5/Orion и бразиллион её параметров, вот вам новая картинка и почти такая же старая. Не ведитесь, короче, на эту хрень.

😁39🌚7👀7👍3🥰1

5.52K views17:39

gonzo-обзоры ML статей

Для тех, кто не в теме, напомню, как оно было на самом деле.

👍16😁15❤1🤔1😇1

5.22K views17:42

gonzo-обзоры ML статей

Лучше вот такое смотрите :)

https://youtu.be/Hxn9OBH4hWY?si=LgFlpFHjMlLC0UfI

YouTube

The scales of the stars

Just how big is the Sun in comparison to other stars? This video shows the scales of known stars in our Milky Way galaxy and shows you just how big, or small, the Sun really is. This short video was taken from the planetarium show, The Sun — Our Living Star.…

👍35🔥19🥰3👎2

6.09K views17:47

About

Blog

Apps

Platform