Заводите моторы — мы отправляемся в увлекательную поездку без водителя! Добро пожаловать в 404 Driver Not Found — канал об ML в автономном транспорте, который ведут инженеры из Яндекса. Здесь вы найдёте разборы актуальных научных статей, обзоры профильных конференций, авторские подборки полезных материалов для ML’щика в сфере АТ и многое другое.
Подписывайтесь, чтобы строить свой маршрут в мире автономного транспорта вместе с нами и оставаться в курсе главных тенденций индустрии🚗
Подписывайтесь, чтобы строить свой маршрут в мире автономного транспорта вместе с нами и оставаться в курсе главных тенденций индустрии
Please open Telegram to view this post
VIEW IN TELEGRAM
❤15👾7🎉5🔥3
RefAV: Towards Planning-Centric Scenario Mining
Пока беспилотник накатывает часы по дорогам города, он собирает огромный массив информации об окружающем мире и событиях в нём. Каждая система (а в автомобиле их сотни) пишет свои данные. А ещё — умеет поставлять дополнительную информацию о событии, которое описывает. Например, датчик безопасности отправляет водителю предупреждение, а в логи записывает, что причина алерта — неисправность в двигателе или превышение скорости. В итоге, когда машина возвращается на базу, мы получаем огромный, частично размеченный массив данных. Хранить его удобнее в виде структуры, которую грубо можно назвать табличкой.
Но как найти в этой табличке данные, действительно интересные для теста, обучения или аналитики? По-настоящему интересных событий среди записей не так уж много. К тому же, иногда требуется отыскать что-то совсем экстравагантное: например, как дети перебрасывают портфель над машинами, или уточка ведёт утят через дорогу и решила отдохнуть на полпути.
В сегодняшней статье авторы пытаются найти «золотые» примеры событий в огромном массиве данных, оперируя полуразмеченым потоком, который записал автомобиль.
Идея в своей основе очень проста — давайте навайбкодим функцию, которая будет проверять, подходит ли нам записанное событие. Для начала авторы попробовали следующий бейзлайн: просили LLM посмотреть в записанные данные и сказать, подходят ли они к запросу с описанием. Подходят — добавляем в датасет, нет — пропускаем.
Эта механика задумывалась как слабая точка для начала, но удивила экспериментаторов тем, что показала отличный результат по восстановлению интересных сцен. Для теста метода использовали вручную размеченные данные.
Окончательный алгоритм посложнее:
1. Руками создать описания функций, которые помогут отфильтровать только подходящие данные из всех записей (например is_speed_limit(all_data)-> bool).
2. Отдать LLM список этих функций и попросить построить из них более сложные — будущие фильтры для строчек из таблицы.
3. Полученной композитной функцией отфильтровать данные. Спойлер: останутся только интересные случаи!
Так авторы собрали RefAV — набор данных из 10 000 различных запросов на естественном языке, которые описывают сложные мультиагентные взаимодействия. Данные о планировании движения получены из 1000 журналов данных, записанных датчиками Argoverse 2.
RefAV можно использовать в качестве тестового датасета для ваших пайплайнов сбора данных: ищите его и код фильтров на Github авторов.
Разбор подготовил❣️ Дмитрий Хорошилов
404 driver not found
Пока беспилотник накатывает часы по дорогам города, он собирает огромный массив информации об окружающем мире и событиях в нём. Каждая система (а в автомобиле их сотни) пишет свои данные. А ещё — умеет поставлять дополнительную информацию о событии, которое описывает. Например, датчик безопасности отправляет водителю предупреждение, а в логи записывает, что причина алерта — неисправность в двигателе или превышение скорости. В итоге, когда машина возвращается на базу, мы получаем огромный, частично размеченный массив данных. Хранить его удобнее в виде структуры, которую грубо можно назвать табличкой.
Но как найти в этой табличке данные, действительно интересные для теста, обучения или аналитики? По-настоящему интересных событий среди записей не так уж много. К тому же, иногда требуется отыскать что-то совсем экстравагантное: например, как дети перебрасывают портфель над машинами, или уточка ведёт утят через дорогу и решила отдохнуть на полпути.
В сегодняшней статье авторы пытаются найти «золотые» примеры событий в огромном массиве данных, оперируя полуразмеченым потоком, который записал автомобиль.
Идея в своей основе очень проста — давайте навайбкодим функцию, которая будет проверять, подходит ли нам записанное событие. Для начала авторы попробовали следующий бейзлайн: просили LLM посмотреть в записанные данные и сказать, подходят ли они к запросу с описанием. Подходят — добавляем в датасет, нет — пропускаем.
Эта механика задумывалась как слабая точка для начала, но удивила экспериментаторов тем, что показала отличный результат по восстановлению интересных сцен. Для теста метода использовали вручную размеченные данные.
Окончательный алгоритм посложнее:
1. Руками создать описания функций, которые помогут отфильтровать только подходящие данные из всех записей (например is_speed_limit(all_data)-> bool).
2. Отдать LLM список этих функций и попросить построить из них более сложные — будущие фильтры для строчек из таблицы.
3. Полученной композитной функцией отфильтровать данные. Спойлер: останутся только интересные случаи!
Так авторы собрали RefAV — набор данных из 10 000 различных запросов на естественном языке, которые описывают сложные мультиагентные взаимодействия. Данные о планировании движения получены из 1000 журналов данных, записанных датчиками Argoverse 2.
RefAV можно использовать в качестве тестового датасета для ваших пайплайнов сбора данных: ищите его и код фильтров на Github авторов.
Разбор подготовил
404 driver not found
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥9❤7👍4
Direct Post-Training Preference Alignment for Multi-Agent Motion Generation Models Using Implicit Feedback from Pre-training Demonstrations
Авторы статьи предложили новый подход к дообучению traffic prediction-моделей без участия человека. Вместо ручной разметки или явной reward-функции они получают скрытые предпочтения (implicit preferences) из экспертных данных (GT).
С помощью distance-функции исследователи измеряют, насколько поведение модели отклоняется от поведения эксперта, и на основе этого ранжируют сгенерированные траектории. В итоге формируются пары более предпочтительных и менее предпочтительных траекторий, по которым обучается модель, увеличивая относительную вероятность «лучших» траекторий по сравнению с базовой (pretrained) моделью.
В качестве distance-функции авторы используют optimal transport на признаковом представлении траекторий — смотрят на разницу между распределениями фич агентов на каждом тике траектории, причём вектора суммируются таким образом, чтобы добиться инвариантности времени — получается распределение фич, которое работает и в будущем, и в прошлом. Фичи агентов извлекаются из траектории путём occupancy measure matching.
Для дообучения модели используется contrastive learning, вдохновлённое DPO, но адаптированное под задачи планирования движения. В отличие от DPO, предпочтения не аннотированы вручную, а определяются по близости траектории к GT (ground truth).
В качестве референсной модели взята Motion LM на 1М, и после дообучения итоговая модель показывает лучшие результаты, чем референсная. При этом на Waymo Open Sim Agents Challenge результаты эксперимента не лучше, чем SOTA больших моделей с размером 10-100М наподобие SMART или BehaviorGPT.
Отдельно авторы показывают, что дообучать модель на парах GT vs generated — это не очень хорошо, потому что, имея дело с траекториями из разных распределений, дискриминатор слишком хорошо выучивает косвенные признаки, например, волнообразность сгенерированной траектории, то есть не то, что нужно для решения задачи.
Разбор подготовил❣️ Алексей Найденов
404 driver not found
Авторы статьи предложили новый подход к дообучению traffic prediction-моделей без участия человека. Вместо ручной разметки или явной reward-функции они получают скрытые предпочтения (implicit preferences) из экспертных данных (GT).
С помощью distance-функции исследователи измеряют, насколько поведение модели отклоняется от поведения эксперта, и на основе этого ранжируют сгенерированные траектории. В итоге формируются пары более предпочтительных и менее предпочтительных траекторий, по которым обучается модель, увеличивая относительную вероятность «лучших» траекторий по сравнению с базовой (pretrained) моделью.
В качестве distance-функции авторы используют optimal transport на признаковом представлении траекторий — смотрят на разницу между распределениями фич агентов на каждом тике траектории, причём вектора суммируются таким образом, чтобы добиться инвариантности времени — получается распределение фич, которое работает и в будущем, и в прошлом. Фичи агентов извлекаются из траектории путём occupancy measure matching.
Для дообучения модели используется contrastive learning, вдохновлённое DPO, но адаптированное под задачи планирования движения. В отличие от DPO, предпочтения не аннотированы вручную, а определяются по близости траектории к GT (ground truth).
В качестве референсной модели взята Motion LM на 1М, и после дообучения итоговая модель показывает лучшие результаты, чем референсная. При этом на Waymo Open Sim Agents Challenge результаты эксперимента не лучше, чем SOTA больших моделей с размером 10-100М наподобие SMART или BehaviorGPT.
Отдельно авторы показывают, что дообучать модель на парах GT vs generated — это не очень хорошо, потому что, имея дело с траекториями из разных распределений, дискриминатор слишком хорошо выучивает косвенные признаки, например, волнообразность сгенерированной траектории, то есть не то, что нужно для решения задачи.
Разбор подготовил
404 driver not found
Please open Telegram to view this post
VIEW IN TELEGRAM
❤🔥7❤4🔥3
Scaling Laws of Motion Forecasting and Planning
Waymo, подразделение беспилотных автомобилей Google, выпустили техрепорт о том, как масштабируются модели. Похожая статья об LLM сильно повлияла на свою сферу несколько лет назад. А теперь аналогичное исследование провели для планировщиков движения автомобилей.
Сегодня разберёмся, есть ли оптимальное соотношение между размером нейросети и количеством обучающих примеров: такое, чтобы получить лучший результат в рамках заданного бюджета вычислений.
Архитектура модели — обычный для планировщиков энкодер-декодер трансформер. Энкодеру c early fusion подают на вход информацию о сцене: дорожный граф, историю агентов (людей, машин, светофоров и других участников дорожного движения) за последние 5 секунд. Декодер из полученных эмбеддингов предсказывает дискретные ускорения для 8 агентов, а конечные траектории эго-автомобиля и других агентов восстанавливаются по Verlet.
В отличие от Wayformer и MotionLM, где фичи агента кодируются в локальной системе координат каждого агента, в этой статье кодирование происходит в одной системе — в системе координат эго (global frame).
Авторы обучали модель в режиме teacher forcing, используя cross-entropy loss. Датасет состоял из 6 млн уникальных и разнообразных (по утверждениям авторов) проездов, из которых простой фильтрацией и дедупликацией сэмплировали тридцатисекундные сегменты. Для получения большего числа сцен из этих сегментов используют скользящее окно 1,5 секунды.
Всего авторы обучили 84 модели (от 900K параметров до 118M). Они систематически меняли размеры модели, датасета и бюджета вычислений. Число параметров варьировали за счёт количества слоев энкодера и декодера (соотношение ширины к глубине — 8 или 16). В одинаковый бюджет модели с меньшим и большим числом параметров укладывались изменением числа шагов в обучении.
🔴 Аналогично LLM, производительность модели повышается в зависимости от общего бюджета вычислений.
🔴 Лосс обучения модели сильно коррелирует с метриками её оценки.
🔴 Сlosed-loop-метрики улучшаются при масштабировании — это важно в рассуждениях о пригодности показателей open-loop для разработки моделей.
🔴 Training loss параметризуют как L(N, D), где N — число параметров в модели, D — размер датасета. Оптимальные значения N, D ищут при фиксированном бюджете C (FLOPs). В ходе экспериментов N_opt ~ C^(0,63), D_opt ~ C^(0,44), iso-FLOPs кривые моделировали параболами, которые отличаются для разных категорий агентов.
🔴 При исследовании масштабируемости по мере увеличения бюджета на инференсе сэмплировали разное число мод, после кластеризации их оставалось 6. Сначала качество по distance-метрикам растёт, потом наступает момент, когда дальнейшее увеличение бюджета нецелесообразно. От себя добавлю, что здесь было бы интереснее посмотреть, как меняется closed-loop performance.
🔴 Авторы сравнили сетапы с эго-агентом в лоссе и без, оценивая качество по эго val loss. В первом случае значение функции потерь ожидаемо оказывается лучше. Но для сетапа с zero-shot предсказанием эго-качество тоже улучшается по мере увеличения бюджета. Для достижения таких же результатов, как в сетапе с эго-агентом, zero-shot требуется больше данных (примерное соотношение — 2-3 к 10).
Разбор подготовил❣️ Павел Лукьянов
404 driver not found
Waymo, подразделение беспилотных автомобилей Google, выпустили техрепорт о том, как масштабируются модели. Похожая статья об LLM сильно повлияла на свою сферу несколько лет назад. А теперь аналогичное исследование провели для планировщиков движения автомобилей.
Сегодня разберёмся, есть ли оптимальное соотношение между размером нейросети и количеством обучающих примеров: такое, чтобы получить лучший результат в рамках заданного бюджета вычислений.
Архитектура модели — обычный для планировщиков энкодер-декодер трансформер. Энкодеру c early fusion подают на вход информацию о сцене: дорожный граф, историю агентов (людей, машин, светофоров и других участников дорожного движения) за последние 5 секунд. Декодер из полученных эмбеддингов предсказывает дискретные ускорения для 8 агентов, а конечные траектории эго-автомобиля и других агентов восстанавливаются по Verlet.
В отличие от Wayformer и MotionLM, где фичи агента кодируются в локальной системе координат каждого агента, в этой статье кодирование происходит в одной системе — в системе координат эго (global frame).
Авторы обучали модель в режиме teacher forcing, используя cross-entropy loss. Датасет состоял из 6 млн уникальных и разнообразных (по утверждениям авторов) проездов, из которых простой фильтрацией и дедупликацией сэмплировали тридцатисекундные сегменты. Для получения большего числа сцен из этих сегментов используют скользящее окно 1,5 секунды.
Всего авторы обучили 84 модели (от 900K параметров до 118M). Они систематически меняли размеры модели, датасета и бюджета вычислений. Число параметров варьировали за счёт количества слоев энкодера и декодера (соотношение ширины к глубине — 8 или 16). В одинаковый бюджет модели с меньшим и большим числом параметров укладывались изменением числа шагов в обучении.
Разбор подготовил
404 driver not found
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥14❤7👍5🤩4
SimpleBEV: Improved LiDAR-Camera Fusion Architecture for 3D Object Detection
О perception много статей с графиками и кодом, но лишь единицы попадают в топ лидерборда nuScenes — главного датасета для автономного вождения. Именно там нашлась китайская статья, которую разберём сегодня.
Встречайте новый фреймворк SimpleBEV для слияния данных лидара и камер. Его фишка — максимальная простота при топовой точности.
SimpleBEV — по сути, улучшенный BEVFusion. Верхнеуровнево они мало чем отличаются, но если присмотреться повнимательнее, можно заметить два основных обновления.
Во-первых, способ, которым авторы получают глубину изображения и переводят то, что сняли камеры, в 3D-сцены: умное поднятие камеры.
1. Просят каскадную нейросеть предсказать глубину по картиночным фичам.
2. Ground truth проецируют лидарные точки на картинки с камер. Облако точек разрежено, поэтому получить глубину ground truth получится не для всех из них.
3. Конкатенируют данные из пункта 1 и 2, чтобы получить композитное распределение глубины — заполняют пробелы лидарных данных предсказаниями нейросети.
Во-вторых, архитектура лидарного энкодера. Все 3D-карты разных масштабов, получившиеся после вокселизации и Sparse-свёрток, авторы конкатенируют и переводят в BEV. По их словам, это помогает терять меньше информации с мелкими масштабами.
Кроме этого, авторы использовали ансамблирование и TTA. А ещё — увеличили количество hidden-размерностей в лидарном энкодере. Кода нет, поэтому цифрами подтвердить это предположение не получится.
Всё это позволило получить на тестовом датасете NDS = 77,6 — что соответствует топ-3–топ-4 на nuScenes. NDS разных модификаций BEVFusion при этом — 71,8 и 72,9. То есть улучшения подрастили метрику на 5+ единиц.
Для валидации ансамблирование и TTA не использовали, а разрешение картинок было поменьше. Значения метрик при такой постановке задачи уменьшились, но SimpleBEV всё ещё впереди других версий BEVFusion: 73,5 против 71,0 и 71,4.
Наибольший рост метрик помогает получить комбинация transformer-based head, аугментации вставками, multi-scaled feature fusion и увеличения каналов лидарного энкодера в 2 раза.
SimpleBEV доказывает: иногда простые решения работают лучше, не стоит гнаться за сложными фьюжн-архитектурами. Качественное выравнивание данных в BEV, простое сложение признаков и мощный тренировочный пайплайн дали авторам почти SoTA-результат с меньшими вычислениями, что делает SimpleBEV очень практичным кандидатом для реальных систем.
Разбор подготовил❣️ Иван Лунев
404 driver not found
О perception много статей с графиками и кодом, но лишь единицы попадают в топ лидерборда nuScenes — главного датасета для автономного вождения. Именно там нашлась китайская статья, которую разберём сегодня.
Встречайте новый фреймворк SimpleBEV для слияния данных лидара и камер. Его фишка — максимальная простота при топовой точности.
SimpleBEV — по сути, улучшенный BEVFusion. Верхнеуровнево они мало чем отличаются, но если присмотреться повнимательнее, можно заметить два основных обновления.
Во-первых, способ, которым авторы получают глубину изображения и переводят то, что сняли камеры, в 3D-сцены: умное поднятие камеры.
1. Просят каскадную нейросеть предсказать глубину по картиночным фичам.
2. Ground truth проецируют лидарные точки на картинки с камер. Облако точек разрежено, поэтому получить глубину ground truth получится не для всех из них.
3. Конкатенируют данные из пункта 1 и 2, чтобы получить композитное распределение глубины — заполняют пробелы лидарных данных предсказаниями нейросети.
Во-вторых, архитектура лидарного энкодера. Все 3D-карты разных масштабов, получившиеся после вокселизации и Sparse-свёрток, авторы конкатенируют и переводят в BEV. По их словам, это помогает терять меньше информации с мелкими масштабами.
Кроме этого, авторы использовали ансамблирование и TTA. А ещё — увеличили количество hidden-размерностей в лидарном энкодере. Кода нет, поэтому цифрами подтвердить это предположение не получится.
Всё это позволило получить на тестовом датасете NDS = 77,6 — что соответствует топ-3–топ-4 на nuScenes. NDS разных модификаций BEVFusion при этом — 71,8 и 72,9. То есть улучшения подрастили метрику на 5+ единиц.
Для валидации ансамблирование и TTA не использовали, а разрешение картинок было поменьше. Значения метрик при такой постановке задачи уменьшились, но SimpleBEV всё ещё впереди других версий BEVFusion: 73,5 против 71,0 и 71,4.
Наибольший рост метрик помогает получить комбинация transformer-based head, аугментации вставками, multi-scaled feature fusion и увеличения каналов лидарного энкодера в 2 раза.
SimpleBEV доказывает: иногда простые решения работают лучше, не стоит гнаться за сложными фьюжн-архитектурами. Качественное выравнивание данных в BEV, простое сложение признаков и мощный тренировочный пайплайн дали авторам почти SoTA-результат с меньшими вычислениями, что делает SimpleBEV очень практичным кандидатом для реальных систем.
Разбор подготовил
404 driver not found
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥20👍9❤7
UnO + GASP
Сегодня обсудим две похожие и крайне интересные статьи на довольно редкую в сфере автономного транспорта тему претрейна — UnO: Unsupervised Occupancy Fields for Perception and Forecasting и GASP: Unifying Geometric and Semantic Self-Supervised Pre-training for Autonomous Driving.
Первая статья вышла в июне 2024 года. Её авторы, коллеги из Waabi, вдохновились идеями из мира LLM и придумали, как запускать SSL-претрейн BEV-like-энкодеров. Для этого они:
1. Прогоняют сцену через энкодер, получая BEV.
2. Затем генерируют query:
2.1 Луч лидара летит от ego до объекта. Если на пути луча нет препятствий, значит для любой точки на этом отрезке occupancy равняется нулю (можно ехать).
2.2 Когда луч лидара попадает в объект, в этой точке (плюс eps за эту точку) occupancy равняется единице.
3. Через Deformable Attention подтягивают фичи с BEV для каждой точки из пункта 2 и решают задачу классификации occupancy.
4. Query можно генерировать из «будущих кадров», то есть предсказывать occupancy для точек x, y, z, t.
В результате энкодер выучивает какие-то разумные фичи сцены и понимает, куда движутся объекты в сцене. Авторы также делают SFT для семантической сегментации BEV и показывают, что их претрейн даёт хорошие результаты, особенно при нехватке размеченных данных.
В марте 2025-го другая группа исследователей выпускает статью о развитии метода — GASP. Здесь авторы добавляют ещё несколько UnO-like-голов. В этом подходе для каждой точки query можно предсказывать не только occupancy, но и DINO-фичи, которые проецируются с картинки на лидарную точку. Таким образом семантика «проливается» в претрейн.
Кроме того, зная GT-траекторию, можно сэмплировать из неё точки (а также некоторый радиус) и задавать этим точкам класс 1, а остальным — 0, затем решая классификацию вида «хотим ли мы туда ехать».
Далее авторы делают SFT на тех же задачах, что и в UnO, получая ещё более качественные результаты. GASP — по сути тот же UnO, но быстрее, выше, сильнее.
Разбор подготовил❣️ Денис Глазов
404 driver not found
Сегодня обсудим две похожие и крайне интересные статьи на довольно редкую в сфере автономного транспорта тему претрейна — UnO: Unsupervised Occupancy Fields for Perception and Forecasting и GASP: Unifying Geometric and Semantic Self-Supervised Pre-training for Autonomous Driving.
Первая статья вышла в июне 2024 года. Её авторы, коллеги из Waabi, вдохновились идеями из мира LLM и придумали, как запускать SSL-претрейн BEV-like-энкодеров. Для этого они:
1. Прогоняют сцену через энкодер, получая BEV.
2. Затем генерируют query:
2.1 Луч лидара летит от ego до объекта. Если на пути луча нет препятствий, значит для любой точки на этом отрезке occupancy равняется нулю (можно ехать).
2.2 Когда луч лидара попадает в объект, в этой точке (плюс eps за эту точку) occupancy равняется единице.
3. Через Deformable Attention подтягивают фичи с BEV для каждой точки из пункта 2 и решают задачу классификации occupancy.
4. Query можно генерировать из «будущих кадров», то есть предсказывать occupancy для точек x, y, z, t.
В результате энкодер выучивает какие-то разумные фичи сцены и понимает, куда движутся объекты в сцене. Авторы также делают SFT для семантической сегментации BEV и показывают, что их претрейн даёт хорошие результаты, особенно при нехватке размеченных данных.
В марте 2025-го другая группа исследователей выпускает статью о развитии метода — GASP. Здесь авторы добавляют ещё несколько UnO-like-голов. В этом подходе для каждой точки query можно предсказывать не только occupancy, но и DINO-фичи, которые проецируются с картинки на лидарную точку. Таким образом семантика «проливается» в претрейн.
Кроме того, зная GT-траекторию, можно сэмплировать из неё точки (а также некоторый радиус) и задавать этим точкам класс 1, а остальным — 0, затем решая классификацию вида «хотим ли мы туда ехать».
Далее авторы делают SFT на тех же задачах, что и в UnO, получая ещё более качественные результаты. GASP — по сути тот же UnO, но быстрее, выше, сильнее.
Разбор подготовил
404 driver not found
Please open Telegram to view this post
VIEW IN TELEGRAM
❤14🔥11🥰6🤩2😎2
Closed-Loop Supervised Fine-Tuning of Tokenized Traffic Models
Сегодня разберём статью о том, как ребята из NVIDIA заняли первое место в лидерборде WOSAC от Waymo. Речь пойдёт о цикле SFT, а не о способах токенизации, старых слоях архитектуры или внутреннем cross attention.
CAT-K — стратегия файнтюнинга, основанная на top-k-подходе. Её авторы поднимают проблему миссматча распределений во время обучения и на инференсе.
Для обучения в open-loop используются траектории водителей как условия (обуславливание на историю) в режиме behavior cloning. Но при симуляциях на инференсе агенты двигаются уже не по таким же хорошим траекториям в closed-loop, а по своим собственным: с ошибками, которые накапливаются при последовательной генерации движения. Так могут возникать состояния, неучтённые в обучении.
В качестве бейзлайна авторы используют авторегрессионный подход SMART с дельта-токенами:
1. Фиксируют сетку по времени с шагом 0,5–2 секунды прошлого и 8 секунд будущего.
2. На каждом шаге по времени предсказывают для каждого агента токен с собственным сдвигом в координатах.
Обычно авторегрессионные модели для Traffic Motion тренируют с помощью teacher-forcing как LLM модели: формулируют Traffic Motion как Next-Token-Prediction. Но для того, чтобы уменьшить миссматч авторы адаптируют Cross-Entropy Method (или модный SFT из LLM).
Как устроен CEM:
1. Генерирация набора траекторий (в closed-loop)
2. Отбор лучших кандидатов по метрике элиты.
3. Дообучение в режиме teacher-forcing на элитах.
Элиты — моды в распределении, индуцируемом обученной моделью. Они близки к GT-тракеториям. То есть, если дообучаться на хороших траекториях из симуляций в closed-loop, миссматч между обучением и инференсом уменьшится.
Остаётся только адаптировать дельта-токены для CEM:
1. Выбрать K самых вероятных токенов на текущем шаге генерации.
2. Из K самых вероятных токенов выбрать тот, что лучше всего аппроксимирует GT.
3. Использовать выбранный токен для пересчёта следующего состояния.
Контроль количества элит при генерации помогает избежать лишних симуляций и их фильтрации: дискретизация дельта-токенов — дискретизация первого порядка.
Внедрение CAT-K помогло небольшой политике моделирования токенизированного трафика с 7 миллионами параметров превзойти модель с 102 миллионами параметров из того же семейства моделей и занять первое место в таблице лидеров Waymo Sim Agent Challenge на момент подачи заявки.
Разбор подготовил❣️ Тингир Бадмаев
404 driver not found
Сегодня разберём статью о том, как ребята из NVIDIA заняли первое место в лидерборде WOSAC от Waymo. Речь пойдёт о цикле SFT, а не о способах токенизации, старых слоях архитектуры или внутреннем cross attention.
CAT-K — стратегия файнтюнинга, основанная на top-k-подходе. Её авторы поднимают проблему миссматча распределений во время обучения и на инференсе.
Для обучения в open-loop используются траектории водителей как условия (обуславливание на историю) в режиме behavior cloning. Но при симуляциях на инференсе агенты двигаются уже не по таким же хорошим траекториям в closed-loop, а по своим собственным: с ошибками, которые накапливаются при последовательной генерации движения. Так могут возникать состояния, неучтённые в обучении.
В качестве бейзлайна авторы используют авторегрессионный подход SMART с дельта-токенами:
1. Фиксируют сетку по времени с шагом 0,5–2 секунды прошлого и 8 секунд будущего.
2. На каждом шаге по времени предсказывают для каждого агента токен с собственным сдвигом в координатах.
Обычно авторегрессионные модели для Traffic Motion тренируют с помощью teacher-forcing как LLM модели: формулируют Traffic Motion как Next-Token-Prediction. Но для того, чтобы уменьшить миссматч авторы адаптируют Cross-Entropy Method (или модный SFT из LLM).
Как устроен CEM:
1. Генерирация набора траекторий (в closed-loop)
2. Отбор лучших кандидатов по метрике элиты.
3. Дообучение в режиме teacher-forcing на элитах.
Элиты — моды в распределении, индуцируемом обученной моделью. Они близки к GT-тракеториям. То есть, если дообучаться на хороших траекториях из симуляций в closed-loop, миссматч между обучением и инференсом уменьшится.
Остаётся только адаптировать дельта-токены для CEM:
1. Выбрать K самых вероятных токенов на текущем шаге генерации.
2. Из K самых вероятных токенов выбрать тот, что лучше всего аппроксимирует GT.
3. Использовать выбранный токен для пересчёта следующего состояния.
Контроль количества элит при генерации помогает избежать лишних симуляций и их фильтрации: дискретизация дельта-токенов — дискретизация первого порядка.
Внедрение CAT-K помогло небольшой политике моделирования токенизированного трафика с 7 миллионами параметров превзойти модель с 102 миллионами параметров из того же семейства моделей и занять первое место в таблице лидеров Waymo Sim Agent Challenge на момент подачи заявки.
Разбор подготовил
404 driver not found
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥17❤6👍6🤓1
Sparse4D v3: Advancing End-to-End 3D Detection and Tracking
Сегодня разберём одну из немногих статей об End-to-End 3D Detection and Tracking. Речь пойдёт о детекторе Sparse4Dv3 с хорошими метриками на nuScenes — главном опенсорс-датасете для автономного транспорта.
Sparse4D — camera-only multi-view 3D-детектор, который авторы постоянно развивают. Сегодня у него уже три версии, и в самой последней появился multi-object tracking. Но обо всём по порядку.
Sparse4D v1. Первый подход — энкодер-декодер архитектура camera-only multi-view детектор с временным контекстом.
Из кадров видео, которое подаётся на вход, выделяются image-features с нескольких камер с разными масштабами и таймстемпами. Декодер делает последовательный фьюз этих фичей, используя 3D-anchor-box. После декодера инстансы рефайнят (доуточняют) с учётом confidence. Результат работы модели — предсказание положения 3D-box (задаются координатами, размерами и скоростью).
Sparse4D v2 — улучшение первой версии за счёт применения рекуррентной схемы с фьюзом временного контекста. Дополнительно улучшить сходимость обучения модели на ранних шагах помогли данные о глубине лидара.
Sparse4D v3. Авторы ускорили обучение и улучшили сходимость модели:
🔴 Temporal Instance Denoising — зашумили GT и добавили в обучение.
🔴 Decoupled Attention: заменили сложение на конкатенацию в механизме attention.
🔴 Quality Estimation: оценили centerness (уверенности в координатах) и yawness (уверенности в поворотах) в общий confidence каждого предсказания, а потом прокинули это в loss.
А ещё в этой версии появилась возможность трекинга. Чтобы реализовать её, авторы добавили в информацию каждого предикта идентификатор (id): для предиктов из предыдущих кадров они сохранялись, для новых — генерировались заново. Так процесс трекинга не требует дообучения или файнтьюнинга детектора. Это просто дополнительная функциональность — назначение и сохранение id во времени.
Познакомиться с решением поближе можно на Github авторов.
Разбор подготовила❣️ Ольга Ротова
404 driver not found
Сегодня разберём одну из немногих статей об End-to-End 3D Detection and Tracking. Речь пойдёт о детекторе Sparse4Dv3 с хорошими метриками на nuScenes — главном опенсорс-датасете для автономного транспорта.
Sparse4D — camera-only multi-view 3D-детектор, который авторы постоянно развивают. Сегодня у него уже три версии, и в самой последней появился multi-object tracking. Но обо всём по порядку.
Sparse4D v1. Первый подход — энкодер-декодер архитектура camera-only multi-view детектор с временным контекстом.
Из кадров видео, которое подаётся на вход, выделяются image-features с нескольких камер с разными масштабами и таймстемпами. Декодер делает последовательный фьюз этих фичей, используя 3D-anchor-box. После декодера инстансы рефайнят (доуточняют) с учётом confidence. Результат работы модели — предсказание положения 3D-box (задаются координатами, размерами и скоростью).
Sparse4D v2 — улучшение первой версии за счёт применения рекуррентной схемы с фьюзом временного контекста. Дополнительно улучшить сходимость обучения модели на ранних шагах помогли данные о глубине лидара.
Sparse4D v3. Авторы ускорили обучение и улучшили сходимость модели:
А ещё в этой версии появилась возможность трекинга. Чтобы реализовать её, авторы добавили в информацию каждого предикта идентификатор (id): для предиктов из предыдущих кадров они сохранялись, для новых — генерировались заново. Так процесс трекинга не требует дообучения или файнтьюнинга детектора. Это просто дополнительная функциональность — назначение и сохранение id во времени.
Познакомиться с решением поближе можно на Github авторов.
Разбор подготовила
404 driver not found
Please open Telegram to view this post
VIEW IN TELEGRAM
❤13👍9🔥9🤩3
DetZero: Rethinking Offboard 3D Object Detection with Long-term Sequential Point Clouds
Авторы этой статьи утверждают, что их алгоритм работает лучше, чем ручная разметка, если оценивать по методике 3DAL от Waymo. Знакомьтесь, DetZero — фреймворк для офлайн-детекции и трекинга на основе длинных последовательностей лидарных точек (до 200 кадров), который занимает первое место на лидербордах WOD 3D Detection и WOD 3D Tracking.
В основе фреймворка — двухпроходный алгоритм. Общий пайплайн работы с данными выглядит так:
🔴 Мультикадровый детектор получает на вход N кадров с облаками точек.
🔴 Первый проход: офлайн-трекер генерирует точные и полные треки объектов с помощью модификации CenterPoint. В DetZero учитывают плотность точек и используют не один, а пять соседних кадров. А ещё — добавили TTA и ансамбль однотипных моделей.
🔴 Второй проход: пообъектное рассмотрение треков. Для треков каждого объекта готовят собственные последовательности лидарных точек — используют только те точки, которые заметаются боксами трека. Боксы немного расширяют, чтобы замести окрестность побольше.
🔴 Треки улучшают с помощью трёх одновременных действий: уточнение геометрических размеров объекта, сглаживание траектории движения и перерасчёт уверенности.
🔴 Все треки собирают в единую картинку и превращают в лейблы. Точки, связанные с объектом, переводят в систему координат bounding box. После этого происходит geometry (GRM), position (PRM) и confidence (CRM) уточнение при помощи обучаемых моделей на основе PointNet.
В 2023 году DetZero занял первое место в рейтинге обнаружения 3D-объектов от Waymo с производительностью обнаружения 85,15 mAPH.
Рассмотреть алгоритм в деталях можно на схеме, попробовать — на Github авторов.
Разбор подготовил❣️ Александр Пономарчук
404 driver not found
Авторы этой статьи утверждают, что их алгоритм работает лучше, чем ручная разметка, если оценивать по методике 3DAL от Waymo. Знакомьтесь, DetZero — фреймворк для офлайн-детекции и трекинга на основе длинных последовательностей лидарных точек (до 200 кадров), который занимает первое место на лидербордах WOD 3D Detection и WOD 3D Tracking.
В основе фреймворка — двухпроходный алгоритм. Общий пайплайн работы с данными выглядит так:
В 2023 году DetZero занял первое место в рейтинге обнаружения 3D-объектов от Waymo с производительностью обнаружения 85,15 mAPH.
Рассмотреть алгоритм в деталях можно на схеме, попробовать — на Github авторов.
Разбор подготовил
404 driver not found
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥10👍7❤5🤩3
NeurIPS 2025: начало
Началась главная ML-конференция — NeurIPS. В этом году она проходит сразу на двух площадках: в американском Сан-Диего и в мексиканском Мехико.
Мы будем рассказывать о том, что происходит в Мексике. Впечатления руководителя группы AI-планирования робота доставки Дмитрия Быкова читайте в ML Underhood. А здесь самым запоминающимся поделился наш коллега Владислав Фахретдинов из команды восприятия робота доставки.
#YaNeurIPS25
Выбрал самое интересное из событий первого дня❣️ Владислав Фахретдинов
404 driver not found
Началась главная ML-конференция — NeurIPS. В этом году она проходит сразу на двух площадках: в американском Сан-Диего и в мексиканском Мехико.
Мы будем рассказывать о том, что происходит в Мексике. Впечатления руководителя группы AI-планирования робота доставки Дмитрия Быкова читайте в ML Underhood. А здесь самым запоминающимся поделился наш коллега Владислав Фахретдинов из команды восприятия робота доставки.
Главный мотив первого дня — безопасность и масштабируемость автономного транспорта. В отличие от ограниченной тестовой среды, в реальном мире, бесконечное количество ситуаций, когда система должна вести себя безопасно по отношению к другим и самой себе. Обсуждали, как эффективно тестировать автономные системы с учётом этого.
Сначала были доклады про построение сценариев и их реализацию. TL;DR: тестировать что-либо на реальных задачах слишком долго и дорого, лучше использовать симуляторы, а потом приближать их данные к реальности с помощью генеративных моделей
Далее был простой, но интересный рассказ Sergey Levine из UC Berkley про историю развития VLA от LLM и VLM до будущего в построении foundation-моделей.
Самую интересную работу, на мой взгляд, привезла команда Wayve, которая делает автономный транспорт.
Во-первых, они показали свою автономную систему. Она обучается end-to-end, на вход принимает сенсоры, на выходе возвращает всё для управления, также есть контур безопасности. Обучив систему на данных и
з UK, ребята проверили её на 500 других городах и показали, что модель стала лучше адаптироваться к дорожным и географическим условиям.
Во-вторых, ребята привезли сразу две своих foundation-модели:
GAIA-2 — модель генерации реального мира, которая на основе начальных данных с камер и условий (положения и поведение агентов и самого транспортного средства, состояние окружения) умеет фотореалистично предсказывать изображения с камер.
Модель состоит из двух частей: токенизатора для перевода видео в латентное пространство и модели мира для генерации будущего латентного состояния мира.
Вторая модель — LINGO-2 — VLA. Она добавила в систему общие человеческие знания и размышления, а также
возможность описывать действия.
Комбинация этих моделей:🔴 E2E — помогает системе быть более устойчивой и лучше обобщаться, но требует много данных.🔴 Модель симуляции мира — позволяет проводить сколь угодно разнообразные тесты и проверять безопасность системы.🔴 VLA — делает систему еще более устойчивой и обобщаемой.
У себя на сайте ребята пишут про L4-уровень автономности, также там много интересных видео. И хотя они ещё не вышли на уровень массовой масштабируемости, в их машине вполне ездит Huang — думаю, можно считать их разработки будущим отрасли.
#YaNeurIPS25
Выбрал самое интересное из событий первого дня
404 driver not found
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥15👍8❤5👏1💯1
Суперинтеллект и обучение в задачах робототехники: что обсуждают на NeurIPS 2025
Продолжаем репортаж с обеих площадок главной ML-конференции года. Новости из американского Сан-Диего читайте в канале ML Underhood. А двумя примечательными докладами из Мехико поделится Дмитрий Быков, руководитель группы AI-планирования робота доставки.
Спойлер:речь пойдëт об обучении с подкреплением.
#YaNeurIPS25
Заметил на конференции❣️ Дмитрий Быков
404 driver not found
Продолжаем репортаж с обеих площадок главной ML-конференции года. Новости из американского Сан-Диего читайте в канале ML Underhood. А двумя примечательными докладами из Мехико поделится Дмитрий Быков, руководитель группы AI-планирования робота доставки.
Спойлер:
The OaK Architecture: A Vision of SuperIntellegence from Experience
Выступление Rich Sutton о том, каким он видит суперинтеллект.
Первое, на что он обращает внимание, — авторы большинства работ вносят во множество доменов знания, которые помогают решить конкретные задачи. Но одновременно с этим их вклад начинает влиять на результаты работы моделей и делает их неоптимальными.
У суперинтеллекта, по его мнению, должно быть понятное представление о награде. Такое, чтобы у него появились все верхнеуровневые признаки, необходимые для формулирования подзадач, решение которых будет приближать награду.
При появлении новых признаков должна разрастаться и transition model (пространство действий которые возможно совершить).
PRINT: Preference-based Reinforcement Learning with Multimodal Feedback and Trajectory Syntesis from Foundation Models
Ребята сделали схему для обучения моделей, которые управляют роботом. В итоге смогли обогнать методы на моделях с одной из модальностей.
Сконструировать нормальный реворд сложно, а ручная разметка — очень дорогая. Чтобы обойти это, авторы попробовали обучаться на предпочтениях, сгенерированных моделями.
Несмотря на то, что текстовые модели любят галлюционировать, а VLM плохо сохраняют временные взаимодействия, их комбинация работает сильно лучше — они компенсируют недостатки друг друга.
В начале обучения авторы обходятся траекториями, сгенерированными LLM: генерируют, перемешивают и просят LLM выбрать лучшую. А дальше объединяют вердикты LLM и VLM.
Ещë один трюк — включение в лосс причинности. Так за счëт модели получается найти лучшие варианты и вознаградить их.
#YaNeurIPS25
Заметил на конференции
404 driver not found
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍7🔥7😎4❤1