Embodied AI Reading Club – Telegram
Embodied AI Reading Club
495 subscribers
23 photos
44 links
Канал книжного клуба команды Embodied agents Лаборатории Cognitive AI Systems AIRI
Download Telegram
Всем привет!🔥

📆Сегодня (21 марта) в 16:00
Татьяна Земскова
и Алексей Староверов расскажут про

Дообучение VLA с помощью обучения с подкреплением

В основе VLA (Vision-Language-Action) модели обычно лежит LLM/LVLM, которая дообучается на заранее собранных наборах данных с помощью обучения с учителем. Дальнейшее дообучение VLA в среде с помощью обучения с подкреплением представляет интерес, т.к. позволило бы повысить устойчивость модели к новым средам. На встрече обсудим, какие особенности имеют VLA при дообучении в среде с помощью RL и рассмотрим методы iRe-VLA и PA-RL, позволяющие повысить устойчивость обучения с подкреплением в среде для VLA

Статьи:
1. Improving Vision-Language-Action Model with Online Reinforcement Learning
2. Policy Agnostic RL: Offline RL and Online RL Fine-Tuning of Any Class and Backbone

🍿Ссылка на подключение

Подписаться⤵️
Embodied AI Reading Club
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥12👍2🐳2
Всем привет!

Сегодня встречи не будет
😢14🐳1
Всем привет!🔥

📆Сегодня (11 апреля) в 16:00
Никита Качаев
расскажет про

Трансформерные модели для роботизированной 3D манипуляции

На текущий момент ключевыми направлениями исследований в данной области являются многозадачность, обобщение на ранее не встречающиеся сценарии и точная манипуляция. Помимо этого, в последнее время набирает популярность тема памяти в задачах робототехники. В ряде недавно вышедших работ были представлены гибридные трансформерные модели PerAct, RVT-2, ARP+ и SAM2Act, которые благодаря использованию продвинутых perception модулей и трансформерных архитектур способны эффективно решать многие сложные задачи. В докладе основной фокус будет сделан на работе [1]

Статьи:
1. SAM2Act: Integrating Visual Foundation Model with A Memory Architecture for Robotic Manipulation
2. RVT-2: Learning Precise Manipulation from Few Demonstrations
3. SAM-E: Leveraging Visual Foundation Model with Sequence Imitation for Embodied Manipulation
4. Autoregressive Action Sequence Learning for Robotic Manipulation
5. SAM 2: Segment Anything in Images and Videos

🍿Ссылка на подключение

Подписаться⤵️
Embodied AI Reading Club
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥10👏2🫡2🤡1🐳1
Всем привет!🔥

📆Сегодня (18 апреля) в 16:00
Данил Григорьев
расскажет про

VLA: коррекция ошибок и усиление через обучение с подкреплением

В последнее время активно развиваются Vision-Language-Action модели (VLA) для роботизированной манипуляции. Основные задачи: обработка ошибок, адаптация к новым сценариям и оптимизация производительности. Работы [1-4] предлагают новые подходы к решению этих проблем. SC-VLA [1] использует двухсистемную архитектуру с механизмом самокоррекции. RoboDexVLM [2] расширяет возможности VLA для ловкой манипуляции с долгосрочным планированием. LIV [3] объединяет обучение представлениям и функций вознаграждения из видео без действий. RPD [4] применяет дистилляцию стратегий с RL для преобразования обобщенных VLA в высокопроизводительные экспертные модели. Эти методы показывают, как сочетание коррекции ошибок и обучения с подкреплением улучшает возможности VLA моделей

Статьи:
1. A Self-Correcting Vision-Language-Action Model for Fast and Slow System Manipulation
2. RoboDexVLM: Visual Language Model-Enabled Task Planning and Motion Control for Dexterous Robot Manipulation
3. LIV: Language-Image Representations and Rewards for Robotic Control
4. Refined Policy Distillation: From VLA Generalists to RL Experts

🍿Ссылка на подключение

Подписаться⤵️
Embodied AI Reading Club
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥7😁2😨1
Всем привет!🔥

📆Сегодня (23 мая) в 16:00
Егор Черепанов
расскажет про

DBGFQN: компактный трансформер с двунаправленной памятью для POMDP

В частично наблюдаемых средах агенту доступна лишь ограниченная информация о состоянии мира, поэтому для принятия решений он должен опираться на память о прошлом. Классические RNN — лёгкие, но плохо запоминают долгосрочные зависимости; трансформеры справляются с этим лучше, однако становятся громоздкими: до 80 % параметров приходится на feed-forward блоки. Недавняя работа DBGFQN [1] показывает, что эти блоки можно вовсе убрать и заменить всего одним слоем двунаправленного GRU после self-attention. Это снижает число параметров на 25 %, ускоряет обучение и существенно повышает качество — вплоть до +80 п.п. успеха в сложных задачах с частичной наблюдаемостью

На встрече обсудим:
⚫️Почему FFN-блок не обязателен и где он даже вредит
⚫️Как двунаправленная GRU дополняет контекст на текущем шаге;
⚫️Практические выводы для роботов и edge-RL: меньше вес — дольше батарея

Статьи:
1. Bi-directional Recurrence Improves Transformer in Partially Observable Markov Decision Processes

🍿Ссылка на подключение

Подписаться⤵️
Embodied AI Reading Club
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥10🥴1
Всем привет!🔥

📆В эту пятницу (6 июня) в 17:00 Дарья Гиталова расскажет про

Подходы к измерению и контролю неопределённости в planning- и reasoning-сценариях с LLM

Большие языковые модели всё чаще используются для планирования и генерации формальных знаний — от логических доказательств до инструкций для роботов. Однако их вывод сопровождается различными формами неопределённости, которые важно уметь выявлять и контролировать

В докладе рассматриваются современные методы выявления и калибровки неопределённости LLM — от вероятностных контекстно-свободных грамматик (PCFG) до attention-based маргинализации цепочек рассуждений. Обсудим, как грамматические структуры помогают предсказывать провалы в логических задачах, почему роботы «теряются» при расплывчатых референциях в пользовательских инструкциях и как количество примеров влияет на эпистемическую неопределённость в сложных задачах

Статьи:
1. REI-Bench: Can Embodied Agents Understand Vague Human Instructions in Task Planning?
2. Grammars of Formal Uncertainty: When to Trust LLMs in Automated Reasoning Tasks
3. Uncertainty Unveiled: Can Exposure to More In-context Examples Mitigate Uncertainty for Large Language Models?
4. Language Model Uncertainty Quantification with Attention Chain

🍿Ссылка на подключение

Подписаться⤵️
Embodied AI Reading Club
Please open Telegram to view this post
VIEW IN TELEGRAM
👍8🔥6
Всем привет!🔥

📆В эту пятницу (4 июля) в 17:00 Алиса Петрова расскажет про

Как научить LLM задавать уточняющие вопросы и работать с неоднозначными инструкциями?

Современные LLM всё чаще используются в диалоговых агентах и инструментах автоматизации, но их работа часто страдает из-за неясных или двусмысленных запросов. Как научить модели распознавать неопределённость и просить уточнения? Какие типы неоднозначностей мешают им чаще всего? И как самоисправление помогает в использовании инструментов?

В докладе разберём ключевые подходы к генерации уточняющих вопросов — от предсказания будущих реплик в диалоге до классификации типов неоднозначностей. Обсудим, почему LLM часто молчат вместо того, чтобы переспросить, как моделировать контекст для лучшего уточнения и какие методы self-correction улучшают работу с инструментами

Статьи:
1. Learning to Ask: When LLM Agents Meet Unclear Instruction
2. Modeling Future Conversation Turns to Teach LLMs to Ask Clarifying Questions
3. Clarifying Ambiguities: on the Role of Ambiguity Types in Prompting Methods for Clarification Generation
4. AskToAct: Enhancing LLMs Tool Use via Self-Correcting Clarification

🍿Ссылка на подключение

Подписаться⤵️
Embodied AI Reading Club
Please open Telegram to view this post
VIEW IN TELEGRAM
👍6🔥4
Всем привет!🔥

📆Сегодня (8 августа) в 17:00 Даниил Казачков расскажет про то

Как ускорить мультимодальные модели без потери качества (эффективное сокращение визуальных токенов)

Современные мультимодальные модели способны хорошо обрабатывать тексты, изображения и видео. Но за эту универсальность приходится платить: за счет большего числа токенов от фото-видео данных, растет необходимость в больших вычислительных ресурсах, падает скорость инференса. Можно ли уменьшить количество визуальных токенов, не жертвуя точностью?

В докладе разберём ключевые подходы к сжатию визуальной информации в LLM-пайплайне: от удаления малозначимых токенов до их кластеризации и отбора максимально разнообразного подмножества. Обсудим, как решается задача отбора токенов без обучения и почему классические метрики важности не работают в эгоцентричных видео. Покажем, как архитектуры вроде PACT, EgoPrune, DivPrune и HiPrune делают визуально-языковые модели быстрее и легче, сохраняя при этом высокую точность на десятках датасетов

Статьи:
1. DivPrune: Diversity-based Visual Token Pruning for Large Multimodal Models
2. PACT: Pruning and Clustering-Based Token Reduction for Faster Visual Language Models
3. EgoPrune: Efficient Token Pruning for Egomotion Video Reasoning in Embodied Agent
4. HiPrune: Training-Free Visual Token Pruning via Hierarchical Attention in Vision-Language Models

🍿Ссылка на подключение

Подписаться⤵️
Embodied AI Reading Club
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥101
Всем привет!🔥

📆 В эту пятницу (29.08) в 17:00 Егор Черепанов расскажет про то

Как на самом деле тестировать память у RL-агентов

Сегодня в исследованиях RL почти каждая новая модель включает какой-то механизм памяти,  но насколько хорошо мы умеем проверять, действительно ли агент её использует?

Для обсуждения мы возьмём три свежих работы:
⚫️POBAX предлагает систематический набор задач, где частичная наблюдаемость делает память ключевым фактором. Эти задачи подобраны так, чтобы простое «увеличение модели» не помогало, и действительно требовалось хранить историю
⚫️Synthetic POMDPs идут ещё дальше: авторы формализуют понятие Memory Demand Structure и показывают, как синтетически конструировать среды с заранее известной «нагрузкой на память». Это позволяет строить тесты для конкретных гипотез
⚫️POPGym Arcade фокусируется на практической стороне: пиксельные среды с MDP/POMDP-близнецами, GPU-ускорение и уникальные инструменты для визуализации, какие именно наблюдения агент запомнил и как они влияют на будущее поведение

Обсудим, как такие инструменты можно использовать для выбора архитектуры, настройки агентов и выявления слабых мест памяти

Статьи:
1. Benchmarking Partial Observability in Reinforcement Learning with a Suite of Memory-Improvable Domains
2. Synthetic POMDPs to Challenge Memory-Augmented RL: Memory Demand Structure Modeling
3. POPGym Arcade: Parallel Pixelated POMDPs

🍿Ссылка на подключение

Подписаться⤵️
Embodied AI Reading Club
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥93👎1🤮1💩1🥴1
Всем привет!🔥

📆 В эту пятницу (05.09) в 17:00 Алиса Петрова выступит с темой

Доверять, понимать, направлять: как механистические инструменты делают LLM надёжнее

Сегодня всё чаще возникает вопрос: можем ли мы не только измерять неопределённость ответов LLM, но и понимать, какие именно внутренние признаки отвечают за рассуждения — и как эти признаки можно использовать для более безопасного и точного управления моделью?

Для обсуждения возьмём три работы:
⚫️Shapley Uncertainty in Natural Language Generation — авторы предлагают использовать значения Шепли для оценки неопределённости текста: насколько конкретное слово или фраза вносит вклад в уверенность модели и когда лучше задать уточняющий вопрос.
⚫️CorrSteer: Steering Improves Task Performance and Safety in LLMs through Correlation-based Sparse Autoencoder Feature Selection — показывают, что можно выбирать полезные латентные признаки через sparse autoencoders и использовать их для управления выводом модели, повышая качество и безопасность.
⚫️I Have Covered All the Bases Here: Interpreting Reasoning Features in Large Language Models via Sparse Autoencoders — работа о том, как выявлять «признаки рассуждений» внутри LLM, визуализировать их и проверять, насколько они соответствуют человеческой логике.

Обсудим, как такие методы могут помочь строить более надёжные системы, где LLM не только генерирует ответ, но и объясняет, на чём именно он основан.

Статьи:
1. Shapley Uncertainty in Natural Language Generation
2. CorrSteer: Steering Improves Task Performance and Safety in LLMs through Correlation-based Sparse Autoencoder Feature Selection
3. I Have Covered All the Bases Here: Interpreting Reasoning Features in Large Language Models via Sparse Autoencoders

🍿Ссылка на подключение

Подписаться⤵️
Embodied AI Reading Club
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥74
Всем привет!🔥

📆 В эту пятницу (03.10) в 17:00 Дарья Гиталова выступит с докладом

Между словами и слоями: как LLM принимают решения и обрабатывают информацию

Большие языковые модели сталкиваются с неопределённостью и «галлюцинациями». Мы разберём два подхода к пониманию того, как LLM принимают решения и когда им можно доверять.

Авторы первого подхода демонстрируют, что уверенные, но неверные ответы модели можно предсказывать по динамике полезной информации на всех слоях модели. Вместо анализа только финального слоя предлагается оценивать Layer-wise Usable Information (LI), что позволяет предсказывать ошибки и оценивать надёжность модели без дополнительного обучения.

Второй подход изучает поведение моделей при принятии решений под эпистемической неопределённостью. На основе экспериментов с экономическими лотереями, мы посмотрим, как лексические маркеры вроде «возможно» или «почти точно» влияют на интерпретацию, и почему классическая Prospect Theory работает для LLM далеко не всегда.

Статьи:
1. Detecting LLM Hallucination Through Layer-wise Information Deficiency: Analysis of Unanswerable Questions and Ambiguous Prompts
2. Prospect Theory Fails for LLMs: Revealing Instability of Decision-Making under Epistemic Uncertainty

🍿Ссылка на подключение

Подписаться⤵️
Embodied AI Reading Club
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥102👍1
Всем привет!🔥

📆 Завтра (14.10) в 17:00 Анатолий Онищенко выступит с докладом

Память для LLM агентов или агенты для LLM памяти?

Стандартные подходы к памяти LLM агента не справляются с непрерывным потоком информации. Задача фильтрации и структурирования этих данных сложна и может решаться как заранее заданными правилами, так и силами отдельного LLM-агента.
Мы рассмотрим как различные подходы реализуют память для LLM агентов:

⚫️Karma предлагает модульную систему памяти для воплощённого агента. Долгосрочная память хранит 3D-карту окружения, а краткосрочная — динамически отслеживает изменения в состоянии объектов.
⚫️MemGPT решает проблему ограниченного контекста с помощью иерархической памяти, вдохновлённой ОС. LLM сама управляет своим контекстом, выгружая и подгружая данные из внешнего хранилища.
⚫️A-Mem предлагает подход, где за организацию памяти отвечает отдельный LLM-агент. Он превращает пассивное хранилище в динамическую сеть знаний, самостоятельно создавая связи между новой и существующей информацией.
⚫️G-Memory фокусируется на памяти для систем из нескольких агентов. Авторы вводят иерархическую графовую структуру, которая отслеживает как общие выводы, так и конкретные взаимодействия между агентами, позволяя всей команде учиться на совместном опыте.

Статьи:
1. KARMA: Augmenting Embodied AI Agents with Long-and-short Term Memory Systems
2. MemGPT: Towards LLMs as Operating Systems
3. A-Mem: Agentic Memory for LLM Agents
4. G-Memory: Tracing Hierarchical Memory for Multi-Agent Systems

🍿Ссылка на подключение

Подписаться⤵️
Embodied AI Reading Club
Please open Telegram to view this post
VIEW IN TELEGRAM
7🔥4
Всем привет!🔥

📆 Завтра (05.12) в 17:00 Даниил Зелезецкий расскажет про

Подходы к повышению визуальной обобщаемости в задаче обучения с подкреплением

Обучаясь на тренировочных средах, вместе с выработкой релевантных навыков агент может запоминать нерелевантную информацию о среде, неожиданное изменение которой спровоцирует падение перфоманса агента. На встрече мы обсудим задачу визуальной обобщаемости, когда нерелевантной информацией может являться фон сцены, освещение, цвета и формы предметов, внешний вид агента и внезапное появление сторонних объектов

Статьи:
1. Reinforcement Learning with Augmented Data
2. Decoupling Value and Policy for Generalization in Reinforcement Learning
3. Learning Invariant Representations for Reinforcement Learning Without Reconstruction

🍿Ссылка на подключение

Подписаться⤵️
Embodied AI Reading Club
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥65