NEW BOT Телеграм, страница

gonzo-обзоры ML статей

Это прекрасно!

"“I was particularly fortunate to have many very clever students – much cleverer than me – who actually made things work,” said Hinton. “They’ve gone on to do great things. I’m particularly proud of the fact that one of my students fired Sam Altman.”

https://techcrunch.com/2024/10/09/after-winning-nobel-for-foundational-ai-work-geoffrey-hinton-says-hes-proud-ilya-sutskever-fired-sam-altman/

TechCrunch

After winning Nobel for foundational AI work, Geoffrey Hinton says he's proud Ilya Sutskever 'fired Sam Altman' | TechCrunch

Geoffrey Hinton accepted a Nobel Prize this week, recognizing the foundational work on artificial neural networks that earned him the nickname "godfather

😁85🔥51❤13💩3😱2🤡2👍1🤨1🗿1

10.6K views12:24

gonzo-обзоры ML статей

Лонгрид от Дарио

Machines of Loving Grace
How AI Could Transform the World for the Better

https://darioamodei.com/machines-of-loving-grace

Darioamodei

Dario Amodei — Machines of Loving Grace

How AI Could Transform the World for the Better

❤26🥱7💩6🤔5🔥3🥴2

10.4K views09:07

gonzo-обзоры ML статей

Пока некоторые грозили ядерной бомбардировкой датацентров, ядерные технологии пришли туда изнутри.

На днях Гугл подписал контракт с Kairos Power на покупку энергии от их ядерных реакторов (SMR), до этого Microsoft договорился с Constellation Energy о покупке энергии в течение 20 лет с восстанавливаемого реактора на Three Mile Island, Amazon тоже не отстаёт.

Акции Constellation Energy, Vistra и прочих неплохо выросли за последний год.

gonzo-обзоры ML статей

Нельзя сегодня не запостить Юдковского

https://time.com/6266923/ai-eliezer-yudkowsky-open-letter-not-enough/

⚡22❤‍🔥5👍5👎1

8.86K viewsedited 09:31

gonzo-обзоры ML статей

Не про AI (хотя...), но фото прекрасное.

Flight 5 composite
Credit: Andrew McCarthy

🔥89👍21❤16

8.07K views07:16

gonzo-обзоры ML статей

Julian Togelius (https://scholar.google.com/citations?user=lr4I9BwAAAAJ&hl=en) выпустил обзорную книгу про AGI в серии MIT Press Essential Knowledge

Artificial General Intelligence
https://mitpress.mit.edu/9780262549349/artificial-general-intelligence/

Откровений нет, рецепта построения AGI тоже, да и готового определения даже нет. Но зато есть хороший обзор области для тех, кто далёк от темы AI вообще. Начинается всё с исторического обзора superhuman AI, определения и измерения естественного и искусственного интеллекта, видов AGI и истории практических наработок. Услышите и про AIXI, и про open-ended learning. Но немного. Есть небольшие главы про AGI и consciousness, superintelligence и intelligence explosion, AGI and society. Несомненным достоинством книги является её незацикленность на LLM, про них тут в целом не очень много, процентов 20 от силы.

#books

Google

Julian Togelius

Associate Professor of Computer Science and Engineering, New York University; co-founder, modl.ai - Cited by 27,343 - Artificial Intelligence - Games - Evolutionary Computation - Game AI - Procedural Content Generation

👍31🥱5❤2

7.99K viewsedited 16:03

gonzo-обзоры ML статей

👍33🤷‍♂3💊3☃2🌭1

6.56K views16:03

gonzo-обзоры ML статей

Gödel Agent: A Self-Referential Agent Framework for Recursive Self-Improvement
Xunjian Yin, Xinyi Wang, Liangming Pan, Xiaojun Wan, William Yang Wang
Статья: https://arxiv.org/abs/2410.04444
Репа: https://github.com/Arvid-pku/Godel_Agent

Why did the Gödel Agent take so long to plan its road trip in its Gödel Machine?

Because its navigation system kept recursively self-improving, proving it could find a better route, but never actually getting to the destination!

Любопытная работа про эволюционирующих агентов, вдохновлённых Шмидхуберовской Машиной Гёделя (https://arxiv.org/abs/cs/0309048) 2003 года. Машина пыталась сначала формально доказать, что изменение ведёт к улучшению (что могло требовать примерно вечность), агент вместо формальных доказательств использует эмпирический фидбек из среды и просит LLM улучшить код на базе этого фидбека. По ощущению похоже на что-то типа AutoGPT, который ещё и код свой переписывает.

Идея в том, что агенты бывают разной породы. Первые, Hand-Designed Agents с самой низкой степенью свободы, следуют одной и той же полиси всё время, вне зависимости от фидбека из среды. Другие, известные как Meta-Learning Optimized Agents, имеют фиксированный алгоритм meta-learning, обновляющий их полиси по фидбеку из среды. И есть self-referential Gödel Agent, который может улучшать себя без ограничений. Технически это значит, что он обновляет и полиси, и алгоритм мета-обучения.

Для такого агента нужно задать начальные полиси и алгоритм мета-обучения. В качестве начальной полиси взята LLM с Chain-of-Thought промптом. А в качестве второго взят алгоритм, который рекурсивно запрашивает LLM для переписывания всей своей кодовой базы с учётом фидбека из среды (успешность решения задачи). При этом он может переписать и код, отвечающий за переписывание кода, поэтому он self-referential.

Агент -- это экземпляр конкретного питоновского класса (Agent), он имеет доступ к содержимому памяти питоновской среды (локальные и глобальные переменные, функции и модули) и может динамически там всё менять, включая свой код (monkey patching). Так он и эволюционирует, насколько я понял.

Для улучшения сходимости оптимизационного процесса агенту даны дополнительные тулы: 1) thinking before acting (кажется, похоже на ReAct), 2) error handling (добавлен механизм восстановления после ошибок, ибо LLM может всякого в код навставлять), 3) code running (Python и bash), 4) LLM calling (через API). Первые два дальше покажут наибольшую пользу.

Где-то в обзорах в сети проскакивало, что агент сначала проверяет, что новые изменения ведут к улучшению, и включает новый код только если они ведут, или что он делает backtrack назад к предыдущему хорошему решению в случае, когда результат оказался хуже. Но по статье этого не видно, более того, там явно есть примеры, когда результат сначала ухудшался, а потом агент таки навёрстывал. Код я посмотрел только поверхностно, и мне кажется, что ничего упомянутого тут нет и агент ориентируется только по истории. Но могу и ошибаться, так что если кто погрузится глубже и найдёт что-то интересное, расскажите. Вообще есть чувство, что всё больше обзоров начинают генериться NotebookLM или просто GPT, и оно не всегда соответствует реальности.

Потестили на бенчмарках DROP, MGSM, MMLU, GPQA. Бейзлайны из группы Hand-Designed Agents (CoT, CoT-SC, Self-Refine, LLM Debate, Step-back-Abs, Quality-Diversity, Role Assignment) и Meta-Learning Optimized Agents (Meta Agent Search).

Дефолтный гёделевский агент ограничен, ему запрещено менять модель (gpt-3.5-turbo) и у него нет доступа к интернету. Как я понял, для самоулучшения используется gpt-4o, а gpt-3.5-turbo -- для оценки уже оптимизированной полиси. Есть неограниченный вариант, которому можно фсё.

Ограниченный гёделевский агент побил всех. Где-то сильно (DROP, MGSM), а где-то лишь слегка (GPQA). В приложении есть код для найденных полиси, можно изучить, насколько далеко он ушёл от начального CoT. Неограниченный агент побил всех ещё больше, но во многих случаях за счёт перехода на более мощную модель 🙂

❤28🔥16👍11😁2🙏1

8.06K viewsedited 21:31

gonzo-обзоры ML статей

На полный эволюционный процесс по четырём бенчмаркам с 30 рекурсивными самоулучшениями ушло $15 (и в основном всё из-за растущей памяти с историей). Конкурирующий Meta Agent Search требовал $300.

Отдельно исследуется кейс с Game of 24. Там гёделевский агент после шести неуспешных попыток оптимизации переключился с метода на основе LLM на метод на основе поиска, переписав эту часть кода, и достиг 100% точности. В других запусках он продолжал использовать LLM, но сделал по ходу множество улучшений типа добавления верификации и прогона задачи на дополнительных данных. А ещё добавил библиотеку для лучшей трассировки ошибок, улучшил логи, убрал лишний код.

Также попробовали разные начальные полиси, не только CoT. Из интересного, более сильная полиси ведёт к лучшей сходимости, а также то, что агент c CoT после всех улучшений не превзошёл ToT. То есть типа инновации он не так хорошо придумывает.

У авторов большие планы на улучшение по различным фронтам (см. Раздел 6.1), включая множественных агентов.

Любопытная тема, наэволюционировать и рекурсивно наулучшать можно всякого…

arXiv.org

Gödel Agent: A Self-Referential Agent Framework for Recursive...

The rapid advancement of large language models (LLMs) has significantly enhanced the capabilities of AI-driven agents across various tasks. However, existing agentic systems, whether based on...

❤34👍20😱4🔥3

5.68K views21:31

gonzo-обзоры ML статей

❤9👍3

4.78K views21:31

gonzo-обзоры ML статей

4.75K views21:32

gonzo-обзоры ML статей

5.08K views21:32

gonzo-обзоры ML статей

👍1

5.69K views21:32

gonzo-обзоры ML статей

🤔2❤1

5.59K views21:32

gonzo-обзоры ML статей

👍2

5.65K views21:33

gonzo-обзоры ML статей

5.56K views21:34

gonzo-обзоры ML статей

Больше про агентов и агентные пайплайны! И про важность хорошего критика :)

К слову, рекомендую Сиолошную, там тоже много хороших разборов статей, которые не успеваю делать я.

Сиолошная

Канал SeeAll'а с новостями (и мыслями о них) из мира NLP, VR и космоса.

Более подробно смотри в первом сообщении в канале (оно закреплено). А еще у нас есть чат! Заходи: https://news.1rj.ru/str/+i_XzLucdtRJlYWUy

🔥12👍6❤‍🔥3🙏1

5.21K views17:05

gonzo-обзоры ML статей

Forwarded from Сиолошная

Agent-as-a-Judge: Evaluate Agents with Agents

Статья со Schmidhuber в соавторах 😀 Для того, чтобы понять текст ниже, нужно ознакомиться с концептом агета — пояснительный пост я делал тут.

Современные методы оценки не очень хорошо подходят для агентных систем. Они либо сосредоточены исключительно на конечных результатах, игнорируя пошаговую природу процесса получения ответа (промежуточные шаги), либо требуют чрезмерного количества ручного труда, что дорого и плохо масштабируется. Кроме этого, для улучшения агентных систем разработчикам приходится лезть в кишки и смотреть, что происходило и почему что-то не сработало — тоже долго и дорого.

Вот на примере SWE-Bench, обновлённую версию которого недавно выпустили OpenAI: системе даётся задача внесения изменений в код, а затем после получения решения прогоняется набор тестов. Прошли все тесты — задача «решена» (но тесты не покрывают всё и не проверяют каждую возможную несостыковку), не прошёл хотя бы один — не решена. А почему не решена? да миллион причин может быть.

У исследователей из META возникла идея: давайте для каждой задачи выпишем критерии решения, и запустим агентную систему для проверки всех промежуточных шагов (и сбора необходимой и достаточной для этого информации). Так родился бенчмарк DevAI: собрали 55 задач на автоматизацию ИИ разработки (обучи модель, запусти то-то, сделай то-то). Для них выписали суммарно 365 требований, в среднем по 6.6 на задачу. Самое описание — это текст длиной от 70 до 150 слов: не полноценное описание огромной задачи, но уже и не однострочник.

Дальше взяли 3 агентные системы (все используют gpt4o), запустили, а результаты работы отсматривались тремя специалистами. У них проверка 55 задач и 365 пунктов заняла суммарно 86.5 часов, и это бы стоило $1300 по минимальной часовой ставке в $15 (реальная стоимость сильно выше — тут же нужны эксперты с навыками ML/AI, а не любой человек с улицы). Кажется, на такой бюджет можно столько проверок через LLM нагородить, что не горюй.

Люди между собой сначала не общались, поэтому естественно возникли разногласия — уровень несогласованности между парами оценщиков колеблется от 10% до 30%. Как тогда определить, кто прав? Для этого людей собрали вместе и дали возможность обсудить каждую задачу, и финализировать ответ — получилось консенсусное решение, которое считается истинным. Вот от него голосование «большинством» от трёх исходных специалистов снижает несогласованность до 5-6% (поэтому часто в разметке ответы и агрегируют, получая «мудрость толпы»).

А после этого исследователи взяли и написали AI-агента (критика), который смотрел на решения, на критерии, и производил проверку — и вердикт сравнивался с консенсусным решением людей (удовлетворены ли требования).
TLDR: агент без доступа к логам размышлений согласуется с правильным ответом в 83-90.5% случаев (в зависимости от фреймворка, которым решались оригинальные задачи), с доступом — 86-92%. Люди с доступом к логам выдавали 89%-92%, а агрегация их ответов дала 94-95% (это как раз та несогласованность в 5-6% выше).

То есть автоматическая оценка примерно совпадает по точности с одиночной оценки людей, но чуть хуже агрегации нескольких ответов. Зато она быстрее на 97.7% (118 минут) и дешевле на 97.6% ($30.5).

Please open Telegram to view this post

VIEW IN TELEGRAM

👍11❤1

4.91K views17:05

gonzo-обзоры ML статей

Forwarded from Сиолошная

Сиолошная

Схематично выглядит так.

В самом низу агент-проверяльщик имеет доступ ко всем файлам, которые требовались агенту-решателю для выполнения задачи. Проверяльщик может их отсмотреть и делать выводы о том, что и как было решено, и совпадает ли это с исходными критериями.

И очень понравилось, как заканчивается статья: логичные дальнейшие шаги. Авторы замечают, что наличие столь качественного критика (как человек, который и участвует в разметке данных и даёт обратную связь) позволяет запустить автоматический процесс дообучения и улучшения моделей. Нечто схожее сделали OpenAI с o1 для математики и программирования, и вот подход для агентов.

И финальное слово про сам бенчмарк: очень ждём замеров результатов моделей грядущего поколения. Сейчас лишь одна задача из 55 решается по всем критериям, однако из 355 подкритериев порознь выполняются 46.44%. Так что видно, что агент может что-то сделать, но упускает из виду несоответствие остальным критериям (забыл отдельный шаг, не туда сохранил/не так назвал файл, или просто ошибся в коде) — как раз тут и пригодился бы критик.

Почитать все 55 задач можно тут.

❤3👍2

4.52K views17:05

gonzo-обзоры ML статей

NotebookLM

Не все ещё знают про такую прекрасную штуку, как NotebookLM, в прошлом Project Tailwind:

https://notebooklm.google.com/

NotebookLM -- это AI ноутбук для работы со статьями и документами (https://blog.google/technology/ai/notebooklm-google-ai/). В него можно загрузить статьи (например, в pdf или txt), аудио (mp3), документы или слайды с Google Drive, ссылки на страницы, видео на Youtube, просто скопипастить текст. А дальше работать с ним с помощью гугловой LLM Gemini -- задавать вопросы, делать суммаризацию, генерить идеи, в целом на что фантазии хватит.

Я активно использую NotebookLM для разбора статей -- для генерации постов, как я хочу, его пока не хватает (но думаю через годик будет иначе), но чтобы уточнить детали статьи, а особенно если нужно сразу сделать что-то по нескольким статьям, очень хорошо.

Недавно добавились аудио обзоры (https://blog.google/technology/ai/notebooklm-audio-overviews/), когда два диктора обсуждают заданную тему, например, статью, гуглодок или что угодно, хоть ваши логи :) Пока только на английском. С октября эти обзоры ещё и можно кастомизировать (https://blog.google/technology/ai/notebooklm-update-october-2024/), давая инструкции, чего именно вы хотите. Это, правда, ничего не гарантирует, агенты всё равно могут уйти обсуждать другие вещи и пока не прослушаешь результат -- не узнаешь, но всё равно прикольно. Годится как развлекательный жанр.

Я попробовал сделать обзор статьи Gödel Agent, которую только что разобрал (https://news.1rj.ru/str/gonzo_ML/2964). Генерил четыре раза, пытаясь добиться полноценного разбора конкретной статьи с небольшой отсылкой к оригинальной Шмидхуберовской про Машину Гёделя. Каждый раз косячило по-разному, иногда вообще сторонние темы уходило обсуждать (например, так получился обзорчик по RNN, который сам по себе может и ничего, и будет достоин отдельного поста), или обсуждало статью, но фантазировало (так, гёделевским агентам оно приписало вероятностный логический вывод и прочее, чего там не было). Выбрал итоговый вариант, где баланс того и другого :)

Заодно завёл канал для постинга гонзо-мл-подкастов: https://news.1rj.ru/str/gonzo_ML_podcasts 🙂 Буду экспериментировать и ждать, когда оно наконец сможет заменить меня.

В продукт я очень верю. Мне кажется, мы на пути к персональному агенту-помощнику для различного рода исследований. Может оно когда-нибудь и с генерацией кода сольётся, и вызов функций появится, так что можно будет интегрировать с чем-то ещё. У новых моделей (свежий новый Claude 3.5 Sonnet) появляются ручки и ножки, в смысле они могут взаимодействовать с компьютером (https://www.anthropic.com/news/3-5-models-and-computer-use), так что и рисёч-агент со временем может стать очень способным. Ждём.

А пока вот вам 8 советов как начать ~~жить~~ пользоваться NotebookLM: https://blog.google/technology/ai/notebooklm-beginner-tips/.

Google

Introducing NotebookLM

We’re rolling out NotebookLM, an experimental offering from Google Labs to summarize information, complex ideas and brainstorm new connections.

👍44❤19🫡6🔥2

8.33K views17:38

gonzo-обзоры ML статей

https://www.aitrainingstatement.org/

🥴47🤡18👍11💩6❤4🥱1🖕1

5.43K views08:07

gonzo-обзоры ML статей

Продолжаю автоматический разбор статей в свежесозданном параллельном канале gonzo_ML_podcasts.

Сегодня свежая работа Тегмарка и ко про разреженные автоэнкодеры:

Decomposing The Dark Matter of Sparse Autoencoders
Joshua Engels, Logan Riggs, Max Tegmark
https://arxiv.org/abs/2410.14670

https://news.1rj.ru/str/gonzo_ML_podcasts/5

Ссылка на подкаст в телеграме и на ютубе там же. Зачётно гонят! :)

arXiv.org

Decomposing The Dark Matter of Sparse Autoencoders

Sparse autoencoders (SAEs) are a promising technique for decomposing language model activations into interpretable linear features. However, current SAEs fall short of completely explaining model...

❤8👍6🔥3

6.21K views08:43

About

Blog

Apps

Platform