Тезисы / Sundar Pichai p.2
2025 / Робототехника - Android для роботов
Когда я смотрю на прогресс гуманоидных роботов — раньше они выглядели дёргаными. Теперь я должен присмотреться, чтобы понять, фейк это или реальный робот. Прогресс виден. Думаю, через 2–3 года будет магический момент в робототехнике. У Google есть шанс создать Android для робототехники. Gemini Robotics — модели vision-language-action мирового класса.
2025 / Квантовые технологии - Фундаментальная платформа
Бизнес в квантовых вычислениях трудно предсказать, квантовые технологии - платформа. Никто не мог линейно предсказать Uber из смартфонов и GPS. Квант — фундаментальная платформа. Мы ещё не знаем всех алгоритмов. Это как пытаться предсказать использование ПК в 1977 году.
2025 / Квантовые технологии - Google Quantum AI
Квантовые вычисления получают больше внимания в последние 12 месяцев, но мы работаем над ними давно, исходя из убеждения о долгосрочных трендах. Вселенная фундаментально квантовая. Чтобы делать масштабные симуляции природы, нужны квантовые компьютеры. Для меня квант сейчас как ИИ в 2015 году. В горизонте 5 лет будет момент, когда квантовое вычисление покажет практическое превосходство над классическим. Я уверен, что мы туда придём.Три года назад так же было с автономным вождением — казалось, что все на одном уровне, но это не так. Я чувствовал, насколько Waymo впереди. Так же чувствую по квантовым усилиям Google. Мы на фронтире.
2025 / Bottle-Neck AI - Энергетика
Проблемы сейчас скорее практические — можем ли мы построить дата-центры достаточно быстро, хватает ли электриков. Мы знаем технологии, которые могут обеспечить спрос. Это скорее вызов исполнения. Нужно избегать «дилеммы инноватора» в энергетике. Нужно внедрять все инновации — солнечную энергию с батареями, ядерную, геотермальную, модернизацию сетей, передачу, разрешительные процессы. Я думаю, это решаемо, но нужно сфокусироваться.дальше.
2025 / AR - Очки
AR-очки - будущее интерфейса взаимодействия с технологиями..Это следующий уровень бесшовности, когда всё присутствует фоново и делает что-то для вас. Не иммерсивные дисплеи, а AR-очки, это не полное погружение, а лёгкий слой поверх реальности. Я чувствую этот следующий скачок. Нам нужно ещё пару циклов, чтобы достичь «эффект вау», как смартфоны в 2006–2007.
2025 / Поиск - ЧатБоты
Чат-боты выросли до сотен миллионов пользователей. При этом количество поисковых запросов у нас выросло. Это не игра с нулевой суммой. Когда появился TikTok, YouTube тоже вырос. Поиск по-прежнему очень хорошо делает своё дело, и пользователи подтверждают это своим поведением. AI Overviews уже используют более 1,5 млрд пользователей в 150 странах. Стоимость запроса резко снизилась за 18 месяцев. Это то, о чём люди действительно беспокоились два года назад. Но я всегда чувствовал — если вопрос касается стоимости обслуживания, Google со своей инфраструктурой — я бы поставил на это. Главный вызов — латентность, а не цена. В AI Overviews доход уже достиг базового уровня поиска без AI.
2026 / Энергия - смешанных подход к источникам ВИЭ
ИИ драматически увеличивает спрос на энергию так, что текущие системы не могут полностью справиться. Но это стимулирует чрезвычайные инвестиции в солнечную энергетику, в технологии аккумуляторов, в ядерные технологии и другие источники.Мы только что завершили подписание нашей крупнейшей корпоративной покупки ядерной термоядерной энергии с Commonwealth Fusion Systems. Думаю, у нас будут обильные источники возобновляемой энергии в будущем.
2026 / Позиционирование Google - AI FIRST
Первое что я сделал,в качестве CEO - перевел компанию на AI-FIRST в 2015 г. Наш подход заключается в полном стеке - мы производим все от базовой физической инфраструктуры до исследований, которые вам нужно делать, чтобы продвигать эту технологию вперёд, до её развертывания в продуктах и платформах — будь то поиск, будь то в YouTube, будь то в Android, и так далее. Я думаю, поэтому мы лучше позиционированы чем остальные.
2025 / Робототехника - Android для роботов
Когда я смотрю на прогресс гуманоидных роботов — раньше они выглядели дёргаными. Теперь я должен присмотреться, чтобы понять, фейк это или реальный робот. Прогресс виден. Думаю, через 2–3 года будет магический момент в робототехнике. У Google есть шанс создать Android для робототехники. Gemini Robotics — модели vision-language-action мирового класса.
2025 / Квантовые технологии - Фундаментальная платформа
Бизнес в квантовых вычислениях трудно предсказать, квантовые технологии - платформа. Никто не мог линейно предсказать Uber из смартфонов и GPS. Квант — фундаментальная платформа. Мы ещё не знаем всех алгоритмов. Это как пытаться предсказать использование ПК в 1977 году.
2025 / Квантовые технологии - Google Quantum AI
Квантовые вычисления получают больше внимания в последние 12 месяцев, но мы работаем над ними давно, исходя из убеждения о долгосрочных трендах. Вселенная фундаментально квантовая. Чтобы делать масштабные симуляции природы, нужны квантовые компьютеры. Для меня квант сейчас как ИИ в 2015 году. В горизонте 5 лет будет момент, когда квантовое вычисление покажет практическое превосходство над классическим. Я уверен, что мы туда придём.Три года назад так же было с автономным вождением — казалось, что все на одном уровне, но это не так. Я чувствовал, насколько Waymo впереди. Так же чувствую по квантовым усилиям Google. Мы на фронтире.
2025 / Bottle-Neck AI - Энергетика
Проблемы сейчас скорее практические — можем ли мы построить дата-центры достаточно быстро, хватает ли электриков. Мы знаем технологии, которые могут обеспечить спрос. Это скорее вызов исполнения. Нужно избегать «дилеммы инноватора» в энергетике. Нужно внедрять все инновации — солнечную энергию с батареями, ядерную, геотермальную, модернизацию сетей, передачу, разрешительные процессы. Я думаю, это решаемо, но нужно сфокусироваться.дальше.
2025 / AR - Очки
AR-очки - будущее интерфейса взаимодействия с технологиями..Это следующий уровень бесшовности, когда всё присутствует фоново и делает что-то для вас. Не иммерсивные дисплеи, а AR-очки, это не полное погружение, а лёгкий слой поверх реальности. Я чувствую этот следующий скачок. Нам нужно ещё пару циклов, чтобы достичь «эффект вау», как смартфоны в 2006–2007.
2025 / Поиск - ЧатБоты
Чат-боты выросли до сотен миллионов пользователей. При этом количество поисковых запросов у нас выросло. Это не игра с нулевой суммой. Когда появился TikTok, YouTube тоже вырос. Поиск по-прежнему очень хорошо делает своё дело, и пользователи подтверждают это своим поведением. AI Overviews уже используют более 1,5 млрд пользователей в 150 странах. Стоимость запроса резко снизилась за 18 месяцев. Это то, о чём люди действительно беспокоились два года назад. Но я всегда чувствовал — если вопрос касается стоимости обслуживания, Google со своей инфраструктурой — я бы поставил на это. Главный вызов — латентность, а не цена. В AI Overviews доход уже достиг базового уровня поиска без AI.
2026 / Энергия - смешанных подход к источникам ВИЭ
ИИ драматически увеличивает спрос на энергию так, что текущие системы не могут полностью справиться. Но это стимулирует чрезвычайные инвестиции в солнечную энергетику, в технологии аккумуляторов, в ядерные технологии и другие источники.Мы только что завершили подписание нашей крупнейшей корпоративной покупки ядерной термоядерной энергии с Commonwealth Fusion Systems. Думаю, у нас будут обильные источники возобновляемой энергии в будущем.
2026 / Позиционирование Google - AI FIRST
Первое что я сделал,в качестве CEO - перевел компанию на AI-FIRST в 2015 г. Наш подход заключается в полном стеке - мы производим все от базовой физической инфраструктуры до исследований, которые вам нужно делать, чтобы продвигать эту технологию вперёд, до её развертывания в продуктах и платформах — будь то поиск, будь то в YouTube, будь то в Android, и так далее. Я думаю, поэтому мы лучше позиционированы чем остальные.
❤1🔥1
Тезисы / Demis Hassabis / p.1
2025 / AGI - Неограниченная энергия - решение проблем человечества
Из-за изменение климата, бедные части мира, более засушливые части мира будут иметь проблемы с доступом к питьевой воде. У нас есть решение проблемы доступа - опреснение. Морской воды предостаточно. Почти у всех стран есть береговая линия. Но опреснение используют только очень богатые страны, некоторые страны это делают. Это требует очень много энергии Но если бы энергия была практически равна нулю, существовала бы возобновляемая, бесплатная и чистая энергия, верно? Например, термоядерный синтез, и тогда внезапно решалась бы проблема доступа к воде. AGI может дать нам доступ к неограниченным ресурсам и энергии. Это решит большое кол-во проблем человечества и создаст мир изобилия.
2025 / Спрос на вычислительные мощности
Помимо больших вычислительных мощностей на обучение моделей, требуется еще огромное кол-во мощностей для обслуживания ИИ- продуктов, которые пользуются в реальном времени большим спросом. И по мере совершенствования систем ИИ они будут становиться все более полезными, и спрос на них будет расти.
2025 / Проблема недостатка данных
Я не очень беспокоюсь об этом, отчасти потому, что, я думаю, данных достаточно - мы рассматриваем достаточность не полную, нам нужно чтобы хватало данных для возможности генерации на основе имеющихся.
2025 / Конкурентное преимущество Google в AGI
Успех AGI - 50% в масштабировании, 50% в новых исселдованиях. Наши шансы в этом выше, чем у всех остальных - так как 80-90% исследований, которые лежат в основе сегодняшнего ИИ зародились в Google Brain / DeepMind .
2025 / Солнечная энергетика
Я ставлю на синтез и солнечную энергию. Солнце — это термоядерный реактор в небе. Проблема — аккумуляторы и передача энергии. ИИ может помочь с новыми материалами, сверхпроводниками, батареями, оптимизацией сетей. Если мы решим проблему энергии, исчезнет множество ограничений: вода через опреснение, дешёвое топливо для ракет, добыча ресурсов в космосе. Это может привести к эпохе радикального изобилия.
2025 / Робототехника - Стратегия Google
Мы ещё немного рано в развитии робототехники. Думаю, в ближайшие пару лет будет «вау-момент». Но алгоритмы и модели ещё должны стать более надёжными. Затем вопрос — когда начинать масштабное производство. Если начать слишком рано, через 6 месяцев может появиться гораздо более совершенная версия. Есть стратегия создания своего рода «Android для роботов» — операционной системы для разных типов робототехники. Но мы также исследуем вертикальную интеграцию: объединение модели и конкретного дизайна робота в end-to-end обучении.
2025 / Genie 3 - Робототехника - Личный Ассистент - AGI
Это не игры и не видео — это миры. Интерактивные среды, созданные Genie 3. Можно задать текстовый запрос — и модель создаёт целый мир, который вы можете исследовать. Все пиксели генерируются в реальном времени. Их не существует до тех пор, пока пользователь не «пойдёт» в эту часть мира.Это не 3D-движок вроде Unity или Unreal. Это 2D-изображения, создаваемые ИИ на основе изучения миллионов видео. Модель по сути «обратно сконструировала» интуитивную физику мира. Она изучила, как отражается свет, как ведут себя материалы, как движутся объекты. Для создания AGI система должна понимать физический мир, а не только язык и математику. Это критично для робототехники и для устройств вроде умных очков. Ассистент должен понимать физический контекст, интуитивную физику окружающего мира. . Это даёт почти бесконечные тренировочные данные — особенно полезно для робототехники. Но и в прикладном смысле — это может изменить интерактивные развлечения. Может появиться новый жанр — между фильмом и игрой
2025 / ИИ - Спорт
Я играл за юниорскую сборную Англии. А потом появился Deep Blue, и стало ясно, что компьютеры будут сильнее чемпионов мира навсегда. Но люди всё равно продолжают играть в шахматы и получать от этого удовольствие. Это изменилось, но не исчезло. Это как Усэйн Болт: у нас есть машины быстрее, но нас всё равно интересует человеческое достижение.
2025 / AGI - Неограниченная энергия - решение проблем человечества
Из-за изменение климата, бедные части мира, более засушливые части мира будут иметь проблемы с доступом к питьевой воде. У нас есть решение проблемы доступа - опреснение. Морской воды предостаточно. Почти у всех стран есть береговая линия. Но опреснение используют только очень богатые страны, некоторые страны это делают. Это требует очень много энергии Но если бы энергия была практически равна нулю, существовала бы возобновляемая, бесплатная и чистая энергия, верно? Например, термоядерный синтез, и тогда внезапно решалась бы проблема доступа к воде. AGI может дать нам доступ к неограниченным ресурсам и энергии. Это решит большое кол-во проблем человечества и создаст мир изобилия.
2025 / Спрос на вычислительные мощности
Помимо больших вычислительных мощностей на обучение моделей, требуется еще огромное кол-во мощностей для обслуживания ИИ- продуктов, которые пользуются в реальном времени большим спросом. И по мере совершенствования систем ИИ они будут становиться все более полезными, и спрос на них будет расти.
2025 / Проблема недостатка данных
Я не очень беспокоюсь об этом, отчасти потому, что, я думаю, данных достаточно - мы рассматриваем достаточность не полную, нам нужно чтобы хватало данных для возможности генерации на основе имеющихся.
2025 / Конкурентное преимущество Google в AGI
Успех AGI - 50% в масштабировании, 50% в новых исселдованиях. Наши шансы в этом выше, чем у всех остальных - так как 80-90% исследований, которые лежат в основе сегодняшнего ИИ зародились в Google Brain / DeepMind .
2025 / Солнечная энергетика
Я ставлю на синтез и солнечную энергию. Солнце — это термоядерный реактор в небе. Проблема — аккумуляторы и передача энергии. ИИ может помочь с новыми материалами, сверхпроводниками, батареями, оптимизацией сетей. Если мы решим проблему энергии, исчезнет множество ограничений: вода через опреснение, дешёвое топливо для ракет, добыча ресурсов в космосе. Это может привести к эпохе радикального изобилия.
2025 / Робототехника - Стратегия Google
Мы ещё немного рано в развитии робототехники. Думаю, в ближайшие пару лет будет «вау-момент». Но алгоритмы и модели ещё должны стать более надёжными. Затем вопрос — когда начинать масштабное производство. Если начать слишком рано, через 6 месяцев может появиться гораздо более совершенная версия. Есть стратегия создания своего рода «Android для роботов» — операционной системы для разных типов робототехники. Но мы также исследуем вертикальную интеграцию: объединение модели и конкретного дизайна робота в end-to-end обучении.
2025 / Genie 3 - Робототехника - Личный Ассистент - AGI
Это не игры и не видео — это миры. Интерактивные среды, созданные Genie 3. Можно задать текстовый запрос — и модель создаёт целый мир, который вы можете исследовать. Все пиксели генерируются в реальном времени. Их не существует до тех пор, пока пользователь не «пойдёт» в эту часть мира.Это не 3D-движок вроде Unity или Unreal. Это 2D-изображения, создаваемые ИИ на основе изучения миллионов видео. Модель по сути «обратно сконструировала» интуитивную физику мира. Она изучила, как отражается свет, как ведут себя материалы, как движутся объекты. Для создания AGI система должна понимать физический мир, а не только язык и математику. Это критично для робототехники и для устройств вроде умных очков. Ассистент должен понимать физический контекст, интуитивную физику окружающего мира. . Это даёт почти бесконечные тренировочные данные — особенно полезно для робототехники. Но и в прикладном смысле — это может изменить интерактивные развлечения. Может появиться новый жанр — между фильмом и игрой
2025 / ИИ - Спорт
Я играл за юниорскую сборную Англии. А потом появился Deep Blue, и стало ясно, что компьютеры будут сильнее чемпионов мира навсегда. Но люди всё равно продолжают играть в шахматы и получать от этого удовольствие. Это изменилось, но не исчезло. Это как Усэйн Болт: у нас есть машины быстрее, но нас всё равно интересует человеческое достижение.
❤1
Тезисы / Demis Hassabis / p.2
2025 / ЧатБоты - неразумно эффективны
Если бы мы перемотали назад на 5–10 лет и вы сказали бы, что способ, которым мы будем это делать, — это построить эти удивительные архитектуры, а затем масштабировать их оттуда, и не обязательно взламывать конкретные вещи вроде понятий или абстракций, это были большие споры, которые мы вели 5–10 лет назад, нужно ли особым образом делать абстракции, мозг, безусловно, кажется, делает это, но тем не менее каким-то образом системы, если дать им достаточно данных, то есть весь интернет, они, похоже, учатся этому и обобщают из этих примеров, не просто механически запоминают, а действительно в некоторой степени понимают то, что обрабатывают, и это немного «неразумно эффективно» в том смысле, что я не думаю, что кто-то думал бы, что это будет работать настолько хорошо, как это работает, скажем, 5 лет назад.
2025 / ИИ в реальном мире -Project Astra
ИИ должен иметь физическое понимание и возможность планирования в реальном мире, для этого нужно. Это то, что нужно для робототехники или универсального цифрового ассистента. Представьте ассистента на вашем телефоне или в очках, который понимает контекст, в котором вы находитесь, и мир вокруг вас. Мы очень близки к этому с Project Astra.
2025 / Открытие новых материалов
Было известно около 30 000 стабильных материалов, мы открыли 2,2 миллиона с новой программой ИИ. Из этих 2,2 млн примерно ~380 тысяч считаются особенно перспективными для синтеза. Я мечтаю однажды открыть сверхпроводник при комнатной температуре. Это помогло бы с энергетическим кризисом и климатическим кризисом, у нас бы были дешёвые сверхпроводники, мы могли бы транспортировать энергию из одного места в другое без каких-либо потерь этой энергии. Мы сделали шаг первый, где мы показали, что можем придумать новые стабильные материалы, но нам нужен способ тестировать свойства этих материалов, потому что ни одна лаборатория не может протестировать их в данный момент. Так что мы должны научиться этому.
2025 / ИИ разработка лекартсв
Дело в том, что в биологии вы действительно понимаете, что происходит, только если вы понимаете динамику и взаимодействия между различными вещами в клетке, и поэтому проект виртуальной клетки заключается в создании симуляции, ИИ-симуляции полностью функционирующей клетки. И причина, по которой это важно, в том, что вы могли бы выдвигать гипотезы и тестировать эти гипотезы о внесении какого-то изменения — изменение питательного вещества или введение лекарства в клетку — и затем смотреть, как клетка реагирует. Представьте, если бы вы могли сделать это в тысячу, в миллион раз быстрее через моделирование сначала, и только на последнем шаге провести валидацию в мокрой лаборатории. Большая часть старой команды AlphaFold работает над этим, думаю создание такой системы моделирования для разработки лекартсв займет 5 лет.
2025 / Project Astra - ИИ Ассистент - AR Очки
Project Astra потенциально может стать главным killer use-case для очков. Мы пока прототипируем на телефонах из-за мощности, но очки могут стать идеальным форм-фактором, особенно для сценариев вроде готовки. Мы планируем быть в авангарде новых форм-факторов. Очевидно, у Google есть длинная история с умными очками. Но я думаю, возможно, мы были немного слишком впереди своего времени, когда впервые начали это 10 лет назад. Я думаю то, чего не хватало, — это killer-app для этого. И я думаю, своего рода универсальный цифровой ассистент, который помогает вам в вашей повседневной жизни, вполне может быть этим killer-app для таких вещей, как умные очки, которые подключены к вашему телефону.
2025 / Веб в мире ИИ агентов - Agent Commerce
Нас ждёт интересная фаза. Если всё станет агентным, ассистенты будут выполнять за нас рутинную работу: заполнять формы, бронировать столики. Возможно, возникнет экономика, где агенты общаются с агентами, ведут переговоры, а вам возвращают результат. Это приведёт к изменениям в структуре веба.
2025 / ЧатБоты - неразумно эффективны
Если бы мы перемотали назад на 5–10 лет и вы сказали бы, что способ, которым мы будем это делать, — это построить эти удивительные архитектуры, а затем масштабировать их оттуда, и не обязательно взламывать конкретные вещи вроде понятий или абстракций, это были большие споры, которые мы вели 5–10 лет назад, нужно ли особым образом делать абстракции, мозг, безусловно, кажется, делает это, но тем не менее каким-то образом системы, если дать им достаточно данных, то есть весь интернет, они, похоже, учатся этому и обобщают из этих примеров, не просто механически запоминают, а действительно в некоторой степени понимают то, что обрабатывают, и это немного «неразумно эффективно» в том смысле, что я не думаю, что кто-то думал бы, что это будет работать настолько хорошо, как это работает, скажем, 5 лет назад.
2025 / ИИ в реальном мире -Project Astra
ИИ должен иметь физическое понимание и возможность планирования в реальном мире, для этого нужно. Это то, что нужно для робототехники или универсального цифрового ассистента. Представьте ассистента на вашем телефоне или в очках, который понимает контекст, в котором вы находитесь, и мир вокруг вас. Мы очень близки к этому с Project Astra.
2025 / Открытие новых материалов
Было известно около 30 000 стабильных материалов, мы открыли 2,2 миллиона с новой программой ИИ. Из этих 2,2 млн примерно ~380 тысяч считаются особенно перспективными для синтеза. Я мечтаю однажды открыть сверхпроводник при комнатной температуре. Это помогло бы с энергетическим кризисом и климатическим кризисом, у нас бы были дешёвые сверхпроводники, мы могли бы транспортировать энергию из одного места в другое без каких-либо потерь этой энергии. Мы сделали шаг первый, где мы показали, что можем придумать новые стабильные материалы, но нам нужен способ тестировать свойства этих материалов, потому что ни одна лаборатория не может протестировать их в данный момент. Так что мы должны научиться этому.
2025 / ИИ разработка лекартсв
Дело в том, что в биологии вы действительно понимаете, что происходит, только если вы понимаете динамику и взаимодействия между различными вещами в клетке, и поэтому проект виртуальной клетки заключается в создании симуляции, ИИ-симуляции полностью функционирующей клетки. И причина, по которой это важно, в том, что вы могли бы выдвигать гипотезы и тестировать эти гипотезы о внесении какого-то изменения — изменение питательного вещества или введение лекарства в клетку — и затем смотреть, как клетка реагирует. Представьте, если бы вы могли сделать это в тысячу, в миллион раз быстрее через моделирование сначала, и только на последнем шаге провести валидацию в мокрой лаборатории. Большая часть старой команды AlphaFold работает над этим, думаю создание такой системы моделирования для разработки лекартсв займет 5 лет.
2025 / Project Astra - ИИ Ассистент - AR Очки
Project Astra потенциально может стать главным killer use-case для очков. Мы пока прототипируем на телефонах из-за мощности, но очки могут стать идеальным форм-фактором, особенно для сценариев вроде готовки. Мы планируем быть в авангарде новых форм-факторов. Очевидно, у Google есть длинная история с умными очками. Но я думаю, возможно, мы были немного слишком впереди своего времени, когда впервые начали это 10 лет назад. Я думаю то, чего не хватало, — это killer-app для этого. И я думаю, своего рода универсальный цифровой ассистент, который помогает вам в вашей повседневной жизни, вполне может быть этим killer-app для таких вещей, как умные очки, которые подключены к вашему телефону.
2025 / Веб в мире ИИ агентов - Agent Commerce
Нас ждёт интересная фаза. Если всё станет агентным, ассистенты будут выполнять за нас рутинную работу: заполнять формы, бронировать столики. Возможно, возникнет экономика, где агенты общаются с агентами, ведут переговоры, а вам возвращают результат. Это приведёт к изменениям в структуре веба.
❤1
Тезисы / Demis Hassabis / p.3
2025 / Уровни креативности ИИ
Я различаю три уровня креативности. Первый — интерполяция: просто усреднение увиденного. Например, создать «нового кота» как среднее миллиона котов — это оригинально, но не креативно. Второй уровень — экстраполяция, как ход 37: система сыграла миллионы партий и придумала стратегию, которую люди не видели. Это полезно и креативно. Третий уровень — изобретение самой игры. Если бы вы задали абстрактное описание: «игра, правила которой можно выучить за пять минут, но на освоение уходят жизни», и система придумала игру столь же элегантную, как го — это высший уровень. Мы пока не можем этого сделать. Неясно, нужно ли просто больше абстрактных уровней или отсутствует фундаментальная способность.
2025 / Недостатки текущей модели для AGI
Масштабирование работает, именно так мы достигли текущего уровня. Cоотношение стоимость/производительность радикально улучшается, что важно для внедрения систем. Но помимо масштабирования нам нужно вернуть идеи планирования, памяти, поиска и рассуждения поверх модели. Модель сама по себе недостаточна для AGI — ей нужны дополнительные способности - действовать в мире и решать задачи. И остаётся вопрос об изобретательности и творчестве — о подлинной креативности, выходящей за пределы комбинирования уже известного.
2025 / AGI - критерий новые открытия
Я всегда имел в качестве ориентира для AGI способность этих систем изобретать собственные гипотезы или предположения в науке, а не просто доказывать существующие.Я думаю, что сегодняшние системы всё ещё довольно далеки от такого рода творческой изобретательной способности. Думаю это займет от трёх до пяти лет. Например, создание новой гипотезы уровня Эйнштейна или изобретение новой игры глубины Go. Или прохождение теста — дать системе знания до 1900 года и посмотреть, сможет ли она вывести теорию относительности.
2025 / Уровни креативности ИИ
Я различаю три уровня креативности. Первый — интерполяция: просто усреднение увиденного. Например, создать «нового кота» как среднее миллиона котов — это оригинально, но не креативно. Второй уровень — экстраполяция, как ход 37: система сыграла миллионы партий и придумала стратегию, которую люди не видели. Это полезно и креативно. Третий уровень — изобретение самой игры. Если бы вы задали абстрактное описание: «игра, правила которой можно выучить за пять минут, но на освоение уходят жизни», и система придумала игру столь же элегантную, как го — это высший уровень. Мы пока не можем этого сделать. Неясно, нужно ли просто больше абстрактных уровней или отсутствует фундаментальная способность.
2025 / Недостатки текущей модели для AGI
Масштабирование работает, именно так мы достигли текущего уровня. Cоотношение стоимость/производительность радикально улучшается, что важно для внедрения систем. Но помимо масштабирования нам нужно вернуть идеи планирования, памяти, поиска и рассуждения поверх модели. Модель сама по себе недостаточна для AGI — ей нужны дополнительные способности - действовать в мире и решать задачи. И остаётся вопрос об изобретательности и творчестве — о подлинной креативности, выходящей за пределы комбинирования уже известного.
2025 / AGI - критерий новые открытия
Я всегда имел в качестве ориентира для AGI способность этих систем изобретать собственные гипотезы или предположения в науке, а не просто доказывать существующие.Я думаю, что сегодняшние системы всё ещё довольно далеки от такого рода творческой изобретательной способности. Думаю это займет от трёх до пяти лет. Например, создание новой гипотезы уровня Эйнштейна или изобретение новой игры глубины Go. Или прохождение теста — дать системе знания до 1900 года и посмотреть, сможет ли она вывести теорию относительности.
2026 / Гонка Китай - ИИ
Ведущие компании, такие как Bytedance, отстают всего на шесть месяцев, а не на один или два года от передовых технологий. И еще один момент, который, я думаю, еще предстоит увидеть, - смогут ли китайские компании сами внедрять инновации за пределы Китая.
2025 / Уровни креативности ИИ
Я различаю три уровня креативности. Первый — интерполяция: просто усреднение увиденного. Например, создать «нового кота» как среднее миллиона котов — это оригинально, но не креативно. Второй уровень — экстраполяция, как ход 37: система сыграла миллионы партий и придумала стратегию, которую люди не видели. Это полезно и креативно. Третий уровень — изобретение самой игры. Если бы вы задали абстрактное описание: «игра, правила которой можно выучить за пять минут, но на освоение уходят жизни», и система придумала игру столь же элегантную, как го — это высший уровень. Мы пока не можем этого сделать. Неясно, нужно ли просто больше абстрактных уровней или отсутствует фундаментальная способность.
2025 / Недостатки текущей модели для AGI
Масштабирование работает, именно так мы достигли текущего уровня. Cоотношение стоимость/производительность радикально улучшается, что важно для внедрения систем. Но помимо масштабирования нам нужно вернуть идеи планирования, памяти, поиска и рассуждения поверх модели. Модель сама по себе недостаточна для AGI — ей нужны дополнительные способности - действовать в мире и решать задачи. И остаётся вопрос об изобретательности и творчестве — о подлинной креативности, выходящей за пределы комбинирования уже известного.
2025 / AGI - критерий новые открытия
Я всегда имел в качестве ориентира для AGI способность этих систем изобретать собственные гипотезы или предположения в науке, а не просто доказывать существующие.Я думаю, что сегодняшние системы всё ещё довольно далеки от такого рода творческой изобретательной способности. Думаю это займет от трёх до пяти лет. Например, создание новой гипотезы уровня Эйнштейна или изобретение новой игры глубины Go. Или прохождение теста — дать системе знания до 1900 года и посмотреть, сможет ли она вывести теорию относительности.
2025 / Уровни креативности ИИ
Я различаю три уровня креативности. Первый — интерполяция: просто усреднение увиденного. Например, создать «нового кота» как среднее миллиона котов — это оригинально, но не креативно. Второй уровень — экстраполяция, как ход 37: система сыграла миллионы партий и придумала стратегию, которую люди не видели. Это полезно и креативно. Третий уровень — изобретение самой игры. Если бы вы задали абстрактное описание: «игра, правила которой можно выучить за пять минут, но на освоение уходят жизни», и система придумала игру столь же элегантную, как го — это высший уровень. Мы пока не можем этого сделать. Неясно, нужно ли просто больше абстрактных уровней или отсутствует фундаментальная способность.
2025 / Недостатки текущей модели для AGI
Масштабирование работает, именно так мы достигли текущего уровня. Cоотношение стоимость/производительность радикально улучшается, что важно для внедрения систем. Но помимо масштабирования нам нужно вернуть идеи планирования, памяти, поиска и рассуждения поверх модели. Модель сама по себе недостаточна для AGI — ей нужны дополнительные способности - действовать в мире и решать задачи. И остаётся вопрос об изобретательности и творчестве — о подлинной креативности, выходящей за пределы комбинирования уже известного.
2025 / AGI - критерий новые открытия
Я всегда имел в качестве ориентира для AGI способность этих систем изобретать собственные гипотезы или предположения в науке, а не просто доказывать существующие.Я думаю, что сегодняшние системы всё ещё довольно далеки от такого рода творческой изобретательной способности. Думаю это займет от трёх до пяти лет. Например, создание новой гипотезы уровня Эйнштейна или изобретение новой игры глубины Go. Или прохождение теста — дать системе знания до 1900 года и посмотреть, сможет ли она вывести теорию относительности.
2026 / Гонка Китай - ИИ
Ведущие компании, такие как Bytedance, отстают всего на шесть месяцев, а не на один или два года от передовых технологий. И еще один момент, который, я думаю, еще предстоит увидеть, - смогут ли китайские компании сами внедрять инновации за пределы Китая.
Тезисы / Demis Hassabis / p.4
2026 / Робототехника - Сроки прорыва
Я большую часть прошлого года посвятил очень тщательному изучению робототехники. Я думаю, мы находимся на пороге своего рода прорывного момента в области физического интеллекта. Я все еще думаю, что до этого нам осталось примерно 18 - 24 месяцев. Создавать синтетические данные гораздо сложнее, чем просто цифровые. И до сих пор есть некоторые нерешенные проблемы в аппаратном обеспечении, особенно в таких вещах, как рука и кисть. Мы только что объявили о новом масштабном сотрудничестве с Boston Dynamics.
2026 / ИИ - Пузырь
Тезисы интервьюера : "LLM-обучения дают всё меньшую отдачу, законы масштабирования LLM перестают давать экспоненциальный эффект, Flash-модели делают AI почти бесплатным, условный Gemini Flash и подобные модели достаточно хороши для большинства задач - соответственно, более дорогие модели могут стать более нишевыми, исходя из этих двух момент - инфраструктурные большие вливания могут стать избыточными "
Тезисы Hassibis : Это возможно, но маловероятно, ИИ уже доказал свою реальную ценность +это будет самая трансформирующая технология в истории и самое главное, что сегодняшние модели уже могут больше, чем мы умеем использовать - продукты пока просто не появились на рынке и бизнес ещё не догнал возможности. Лично, мы в Google - только начали нативно внедрять ИИ в наши продукты: AI Agents / AI Inbox / AI поиск и т.д.
2026 / Проблема непрерывного обучения ИИ - Персональный помощник
Мы очень усердно работаем над этим. Мы проделали некоторую работу, знаете, я думаю, лучшую работу в этом направлении в прошлом, с такими вещами, как Alpha Zero, знаете, которая обучалась с нуля, версии Alph Go. То есть мы делали это в гораздо более узких областях. Так что еще предстоит увидеть, действительно ли подобные методы масштабируются и обобщаются на реальный мир.Я считаю, что это критически важная часть создания отличного помощника — он должен понимать вас и работать на вас как технология, которая работает на вас.
2026 / Модель физического ИИ - World Model
Есть аспекты реальности, которые трудно выразить словами: пространственная динамика, физический контекст, механика движения. Есть сенсорный опыт — запахи, углы моторики, тактильные ощущения — которые практически невозможно описать текстом. Если мы хотим создать работающую робототехнику или универсального ассистента, который будет сопровождать человека в реальной жизни — возможно, в очках или на телефоне — нам нужно глубокое понимание мира. World model — это модель причинно-следственных связей в физической реальности, своего рода «интуитивная физика». Мы уже видим зачатки этого в видеомоделях. Если система способна генерировать реалистичный мир, значит, она в какой-то мере поняла его механику. Поэтому такие проекты, как Genie и VO, — это важный шаг к обобщённым моделям, которые затем можно применить в робототехнике и универсальных ассистентах.
2026 / Commonwealth Fusion Systems - Термоядерный синтез
Мы объявили более глубокое сотрудничество с Commonwealth Fusion Systems. Это, вероятно, лучший стартап в области традиционных токамаков. Они ближе всего к практической реализации. Мы хотим помочь им ускориться — в управлении плазмой, в магнитах, возможно, в разработке материалов. Если термоядерный синтез станет реальностью, это изменит мир.Это святой Грааль. Хотя солнечная энергия тоже очень перспективна — по сути, это использование уже существующего термоядерного реактора на небе. Но если бы у нас были модульные реакторы синтеза и почти бесплатная чистая энергия — это бы трансформировало всё. Энергия — это корневой узел. Если энергия дешёвая и чистая, возможна повсеместная опреснительная вода. Производство ракетного топлива из морской воды. Водород и кислород — это и есть ракетное топливо, просто требуется много энергии, чтобы их разделить.Если энергия дешёвая, можно производить его круглосуточно.
2026 / Робототехника - Сроки прорыва
Я большую часть прошлого года посвятил очень тщательному изучению робототехники. Я думаю, мы находимся на пороге своего рода прорывного момента в области физического интеллекта. Я все еще думаю, что до этого нам осталось примерно 18 - 24 месяцев. Создавать синтетические данные гораздо сложнее, чем просто цифровые. И до сих пор есть некоторые нерешенные проблемы в аппаратном обеспечении, особенно в таких вещах, как рука и кисть. Мы только что объявили о новом масштабном сотрудничестве с Boston Dynamics.
2026 / ИИ - Пузырь
Тезисы интервьюера : "LLM-обучения дают всё меньшую отдачу, законы масштабирования LLM перестают давать экспоненциальный эффект, Flash-модели делают AI почти бесплатным, условный Gemini Flash и подобные модели достаточно хороши для большинства задач - соответственно, более дорогие модели могут стать более нишевыми, исходя из этих двух момент - инфраструктурные большие вливания могут стать избыточными "
Тезисы Hassibis : Это возможно, но маловероятно, ИИ уже доказал свою реальную ценность +это будет самая трансформирующая технология в истории и самое главное, что сегодняшние модели уже могут больше, чем мы умеем использовать - продукты пока просто не появились на рынке и бизнес ещё не догнал возможности. Лично, мы в Google - только начали нативно внедрять ИИ в наши продукты: AI Agents / AI Inbox / AI поиск и т.д.
2026 / Проблема непрерывного обучения ИИ - Персональный помощник
Мы очень усердно работаем над этим. Мы проделали некоторую работу, знаете, я думаю, лучшую работу в этом направлении в прошлом, с такими вещами, как Alpha Zero, знаете, которая обучалась с нуля, версии Alph Go. То есть мы делали это в гораздо более узких областях. Так что еще предстоит увидеть, действительно ли подобные методы масштабируются и обобщаются на реальный мир.Я считаю, что это критически важная часть создания отличного помощника — он должен понимать вас и работать на вас как технология, которая работает на вас.
2026 / Модель физического ИИ - World Model
Есть аспекты реальности, которые трудно выразить словами: пространственная динамика, физический контекст, механика движения. Есть сенсорный опыт — запахи, углы моторики, тактильные ощущения — которые практически невозможно описать текстом. Если мы хотим создать работающую робототехнику или универсального ассистента, который будет сопровождать человека в реальной жизни — возможно, в очках или на телефоне — нам нужно глубокое понимание мира. World model — это модель причинно-следственных связей в физической реальности, своего рода «интуитивная физика». Мы уже видим зачатки этого в видеомоделях. Если система способна генерировать реалистичный мир, значит, она в какой-то мере поняла его механику. Поэтому такие проекты, как Genie и VO, — это важный шаг к обобщённым моделям, которые затем можно применить в робототехнике и универсальных ассистентах.
2026 / Commonwealth Fusion Systems - Термоядерный синтез
Мы объявили более глубокое сотрудничество с Commonwealth Fusion Systems. Это, вероятно, лучший стартап в области традиционных токамаков. Они ближе всего к практической реализации. Мы хотим помочь им ускориться — в управлении плазмой, в магнитах, возможно, в разработке материалов. Если термоядерный синтез станет реальностью, это изменит мир.Это святой Грааль. Хотя солнечная энергия тоже очень перспективна — по сути, это использование уже существующего термоядерного реактора на небе. Но если бы у нас были модульные реакторы синтеза и почти бесплатная чистая энергия — это бы трансформировало всё. Энергия — это корневой узел. Если энергия дешёвая и чистая, возможна повсеместная опреснительная вода. Производство ракетного топлива из морской воды. Водород и кислород — это и есть ракетное топливо, просто требуется много энергии, чтобы их разделить.Если энергия дешёвая, можно производить его круглосуточно.
Тезисы / Demis Hassabis / p.5
2026 / ИИ - Биотех
Я надеюсь в следующие несколько лет у нас будет первое лекарство, спроектированное ИИ , но это это зависит от того, как пойдут доклинические испытания и клинические испытания. Мы работаем с J&J, Eli, Lily, и Novartis, тремя из из лучших фарм компаниями в мире.
2026 / Пузырь ИИ
ИИ -большая индустрия. С точки зрения нашей части бизнеса - мы видим колоссальный спрос на наши технологии, мы едва можем удовлетворить этот спрос, не хватает чипов. Так что я думаю, с этой точки зрения там на самом деле не может быть пузыря. Но с другой стороны я думаю, есть части индустрии, которые, вы знаете, выглядят пузырь-подобно, например сид-раунды, многомиллиардные сид-раунд, новых стартапах, у которых ещё нет продукта или технологии или чего-либо, действительно выглядит немного неустойчиво. Так что могут быть некоторые коррекции в некоторых частях рынка.
2026 / Мультимодальность - робототехника - личный ассистент - AR очки
Я думаю, мы проделали очень большую работу в области мультимодальности.Причина, по которой мы хотим это делать, и я думаю это то, что меня воодушевляет в этом году, — это то, что вам понадобится для своего рода ассистента, который путешествует с вами в реальном мире, возможно на ваших очках или вашем телефоне. Ему нужно понимать мир, контекст вокруг вас, физический мир. И, конечно, для робототехники это тоже критично. И я думаю, я провёл довольно много времени над этим в прошлом году, и я думаю это приведёт к большим моментам в следующие пару лет.
2026 / Универсальный личный цифровой ассистент - Сроки - AR Очки
У нас есть концепция универсального ассистента, которым мы хотим, чтобы Gemini в конечном итоге стала. Я думаю, это тоже вы увидите от нас в течение следующего года.Под универсальным мы имеем в виду, что это не только на вашем компьютере или вашем ноутбуке или вашем телефоне, но, возможно, сопровождает вас на очках или других устройствах. Это становится частью ткани вашей жизни, и это просто улучшает вашу продуктивность, но также вашу личную жизнь.
2026 / Спрос на вычислительные мощности
Нам повезло в Google, в DeepMind. У нас много ресурсов. Они не бесконечные. Нам всегда нужно больше вычислительных мощностей.
2026 / ИИ - Биотех
Я надеюсь в следующие несколько лет у нас будет первое лекарство, спроектированное ИИ , но это это зависит от того, как пойдут доклинические испытания и клинические испытания. Мы работаем с J&J, Eli, Lily, и Novartis, тремя из из лучших фарм компаниями в мире.
2026 / Пузырь ИИ
ИИ -большая индустрия. С точки зрения нашей части бизнеса - мы видим колоссальный спрос на наши технологии, мы едва можем удовлетворить этот спрос, не хватает чипов. Так что я думаю, с этой точки зрения там на самом деле не может быть пузыря. Но с другой стороны я думаю, есть части индустрии, которые, вы знаете, выглядят пузырь-подобно, например сид-раунды, многомиллиардные сид-раунд, новых стартапах, у которых ещё нет продукта или технологии или чего-либо, действительно выглядит немного неустойчиво. Так что могут быть некоторые коррекции в некоторых частях рынка.
2026 / Мультимодальность - робототехника - личный ассистент - AR очки
Я думаю, мы проделали очень большую работу в области мультимодальности.Причина, по которой мы хотим это делать, и я думаю это то, что меня воодушевляет в этом году, — это то, что вам понадобится для своего рода ассистента, который путешествует с вами в реальном мире, возможно на ваших очках или вашем телефоне. Ему нужно понимать мир, контекст вокруг вас, физический мир. И, конечно, для робототехники это тоже критично. И я думаю, я провёл довольно много времени над этим в прошлом году, и я думаю это приведёт к большим моментам в следующие пару лет.
2026 / Универсальный личный цифровой ассистент - Сроки - AR Очки
У нас есть концепция универсального ассистента, которым мы хотим, чтобы Gemini в конечном итоге стала. Я думаю, это тоже вы увидите от нас в течение следующего года.Под универсальным мы имеем в виду, что это не только на вашем компьютере или вашем ноутбуке или вашем телефоне, но, возможно, сопровождает вас на очках или других устройствах. Это становится частью ткани вашей жизни, и это просто улучшает вашу продуктивность, но также вашу личную жизнь.
2026 / Спрос на вычислительные мощности
Нам повезло в Google, в DeepMind. У нас много ресурсов. Они не бесконечные. Нам всегда нужно больше вычислительных мощностей.
Тезисы Cristiano Amon [ Qualcomm ] p.1
2022 / Глобальный дефицит чипов
Главная причина — ускорение цифровой трансформации во всех отраслях. Каждой индустрии нужно больше полупроводников. Новые автомобили содержат в 10 раз больше чипов, чем предыдущие модели. Следующее поколение — ещё в 10 раз больше. Больше устройств становятся «умными». Больше данных уходит в облако. Потребление полупроводников резко выросло. Кризис показал, что полупроводники критически важны, и в них нужно инвестировать. Есть инициативы вроде US CHIPS Act — $52 млрд — и European Chips Act — около $43 млрд. Цель — увеличить локальное производство до 50% потребления.
2024 / Автомобиль - девайс платформа
Раньше были desktop и laptop. Потом появился телефон. Он не заменил PC — он создал новое пространство. Машина — ещё одно такое пространство. Люди будут работать и развлекаться в машине.
2024 / AR - очки
Смешанная, виртуальная, дополненная реальность. Это уже не проблема кремния. С развитием оптики появится новое вычислительное пространство — очки. Мы видим в этом большую возможность. Партнёрства с Meta, Google, Samsung и другими.
2025 / 6G - связь для эпохи ИИ
Каждое поколение беспроводных технологий направлено на решение какой-то проблемы. 6G - это связь для эпохи искусственного интеллекта. Это слияние связи и вычислений.
2025 / AR очки - конвергенция устройств
Я невероятно оптимистично настроен по поводу умных очков, потому что умные очки действительно становятся носимым ИИ. Это будет искусственный интеллект, который видит то, что видите вы, слышит то, что слышите вы, и, как я уже сказал, у него не будет никаких предшественников, это будут совершенно новые сценарии использования. Очки будут размывать границы между вашими устройствами.
2025 / AI - главный интерфейс будущего / NPU > GPU
ИИ станет новым интерфейсом взаимодействия, так как он начал понимать человеческий язык. AI-инференс должен идти на NPU, чтобы CPU/GPU занимались своим делом. NPU более производительный для таких задач и более энергосбережающий. В inference-кластерах энергоэффективность станет важнее пиковых FLOPS. Вы не будете нажимать кнопки, и это будет естественное взаимодействие, они понимают мир так, как мы его понимаем, они видят и понимают изображение, они понимают наш голос, понимают наш текст.
2025 / AI PC - скейлинг
Сначала на смартфонах было 20 приложений, потом 100 000. AI-ПК сейчас на стадии 20 приложений. Настоящий взрыв будет, когда разработчики начнут массово использовать NPU и локальные модели.
2026 / Edge- вычисления / on-device вычисления > GPU дата центров
Для Qualcomm важно, что люди наконец поняли масштаб edge-возможности. Раньше всё внимание было на дата-центрах, теперь часть внимания переходит на edge. И мы только в начале этой кривой. Преимущества on-device инференса : Мгновенность / Приватность / Наличии контекста о пользователе - персонализация / Снижение стоимости
2026 / Гуманоидные роботы - Специальные vs Универсальные
Когда мы начали в автомобильной сфере и строили платформы для авто, мы также вошли в стек автономного вождения. Если говорить о полностью автономном вождении — уровень 5, без руля, вы садитесь назад и спите — для этого нужно огромное количество обучения. Можно дойти до 95%, но чтобы получить 99.999% и покрыть крайние случаи, нужно много тренировки.Однако если говорить о помощи водителю, где человек всё ещё отвечает и может взять руль, — это можно внедрить в каждую машину: от уровня 2 до 3 и дальше. Это огромная рыночная возможность, и этим мы сейчас занимаемся. Можно принести определённую форму ассистированного вождения в каждую модель. Я так же смотрю на робототехнику. Если вы делаете гуманоидного робота или руку, которая использует мир, созданный для нас, и обучаете её конкретной задаче — это уже происходит, и с бизнес-точки зрения это огромная возможность. Поэтому мы фокусируемся на промышленных роботах. Например, задача — ночью идти в супермаркет и расставлять товары на полки. Это замкнутая задача. Вы не учите робота делать всё. Робот, который делает всё, появится позже.
2022 / Глобальный дефицит чипов
Главная причина — ускорение цифровой трансформации во всех отраслях. Каждой индустрии нужно больше полупроводников. Новые автомобили содержат в 10 раз больше чипов, чем предыдущие модели. Следующее поколение — ещё в 10 раз больше. Больше устройств становятся «умными». Больше данных уходит в облако. Потребление полупроводников резко выросло. Кризис показал, что полупроводники критически важны, и в них нужно инвестировать. Есть инициативы вроде US CHIPS Act — $52 млрд — и European Chips Act — около $43 млрд. Цель — увеличить локальное производство до 50% потребления.
2024 / Автомобиль - девайс платформа
Раньше были desktop и laptop. Потом появился телефон. Он не заменил PC — он создал новое пространство. Машина — ещё одно такое пространство. Люди будут работать и развлекаться в машине.
2024 / AR - очки
Смешанная, виртуальная, дополненная реальность. Это уже не проблема кремния. С развитием оптики появится новое вычислительное пространство — очки. Мы видим в этом большую возможность. Партнёрства с Meta, Google, Samsung и другими.
2025 / 6G - связь для эпохи ИИ
Каждое поколение беспроводных технологий направлено на решение какой-то проблемы. 6G - это связь для эпохи искусственного интеллекта. Это слияние связи и вычислений.
2025 / AR очки - конвергенция устройств
Я невероятно оптимистично настроен по поводу умных очков, потому что умные очки действительно становятся носимым ИИ. Это будет искусственный интеллект, который видит то, что видите вы, слышит то, что слышите вы, и, как я уже сказал, у него не будет никаких предшественников, это будут совершенно новые сценарии использования. Очки будут размывать границы между вашими устройствами.
2025 / AI - главный интерфейс будущего / NPU > GPU
ИИ станет новым интерфейсом взаимодействия, так как он начал понимать человеческий язык. AI-инференс должен идти на NPU, чтобы CPU/GPU занимались своим делом. NPU более производительный для таких задач и более энергосбережающий. В inference-кластерах энергоэффективность станет важнее пиковых FLOPS. Вы не будете нажимать кнопки, и это будет естественное взаимодействие, они понимают мир так, как мы его понимаем, они видят и понимают изображение, они понимают наш голос, понимают наш текст.
2025 / AI PC - скейлинг
Сначала на смартфонах было 20 приложений, потом 100 000. AI-ПК сейчас на стадии 20 приложений. Настоящий взрыв будет, когда разработчики начнут массово использовать NPU и локальные модели.
2026 / Edge- вычисления / on-device вычисления > GPU дата центров
Для Qualcomm важно, что люди наконец поняли масштаб edge-возможности. Раньше всё внимание было на дата-центрах, теперь часть внимания переходит на edge. И мы только в начале этой кривой. Преимущества on-device инференса : Мгновенность / Приватность / Наличии контекста о пользователе - персонализация / Снижение стоимости
2026 / Гуманоидные роботы - Специальные vs Универсальные
Когда мы начали в автомобильной сфере и строили платформы для авто, мы также вошли в стек автономного вождения. Если говорить о полностью автономном вождении — уровень 5, без руля, вы садитесь назад и спите — для этого нужно огромное количество обучения. Можно дойти до 95%, но чтобы получить 99.999% и покрыть крайние случаи, нужно много тренировки.Однако если говорить о помощи водителю, где человек всё ещё отвечает и может взять руль, — это можно внедрить в каждую машину: от уровня 2 до 3 и дальше. Это огромная рыночная возможность, и этим мы сейчас занимаемся. Можно принести определённую форму ассистированного вождения в каждую модель. Я так же смотрю на робототехнику. Если вы делаете гуманоидного робота или руку, которая использует мир, созданный для нас, и обучаете её конкретной задаче — это уже происходит, и с бизнес-точки зрения это огромная возможность. Поэтому мы фокусируемся на промышленных роботах. Например, задача — ночью идти в супермаркет и расставлять товары на полки. Это замкнутая задача. Вы не учите робота делать всё. Робот, который делает всё, появится позже.
Тезисы Cristiano Amon [ Qualcomm ] p.2
2026 /post-GPU архитектура для дата-центров под инференс ИИ
Мы всегда считали, что при переходе к инференсу появится большая конкуренция между игроками. Тогда значение имеет совокупная стоимость владения, энергопотребление и архитектура. Логика такая: в телефоне энергоэффективность критична, а энергия — узкое место для ИИ. Это преимущество можно перенести в дата-центр. Если посмотреть на текущий агрессивный рост ИИ, то роста энергогенерации в таком же темпе нет. Уже есть разрыв между доступной энергией и потребностями ИИ. Энергия станет ресурсом для работы инференс-дата-центра и одним из крупнейших пунктов операционных расходов. Второй момент — архитектура. Дата-центр проходит ещё один этап дизагрегации. В мобильной индустрии смартфон — сложнейшая инженерная задача. Нужно уместить много вычислений в корпусе, который помещается в карман. Он не должен нагреваться. Вы касаетесь экрана, прикладываете его к лицу. Нельзя ставить вентиляторы. Нельзя использовать жидкостное охлаждение. Батарея должна работать весь день, иначе устройство бесполезно. Чтобы этого добиться, мы довели до совершенства дизагрегацию вычислений. Дата-центры идут в этом направлении. Уже начинается дизагрегация. Есть архитектура для prefill, есть для decode.Мы строим то, что считаем post-GPU архитектурой для инференса — когда нужны специализированные движки. Я считаю, что приобретение Nvidia компании Groq подтверждает идею: нужны разные движки под разные задачи. Именно этим мы и занимаемся. Это наш фокус в дата-центрах.
2026 / AI PC - Edge вычисления
Главное — возможность выполнять значительный высокопроизводительный инференс прямо на ноутбуке. Сейчас множество приложений используют облачные вычисления. Если задействовать вычисления на самом ПК, это быстрее и меняет экономику. Пример. SaaS-компании сейчас под давлением из-за ИИ. Если в их приложении есть агент, и каждый раз данные отправляются в облако для обработки, они платят за облачные вычисления. Экономика резко меняется, если часть вычислений выполняется на устройстве. Практический пример: кнопка «Summarize this» — «Суммируй это». У тебя несколько страниц текста. Можно отправить в облако и платить за вычисления, а можно запустить модель суммаризации на компьютере — это бесплатно, потому что это твое устройство. Мы уже видим интерес со стороны предприятий и разработчиков к тому, чтобы часть логики запускать на AI-движке устройства. Это начинается прямо сейчас. В корпоративном сегменте экономика изменится, потому что многие ISV и SaaS-приложения будут требовать вычислений на устройстве. И это будет иметь значение.
2026 / Bottlenecks Физического ИИ
Нужна зрелость моделей — они должны стать более развитыми и способными. Мы только в начале эры «физического ИИ», который критически важен для контекста. Вторая часть — вычисления. Нужно много высокопроизводительных вычислений. И здесь мы подключаемся, потому что всё нельзя делать в облаке — из-за задержек. Некоторые задачи должны выполняться на устройстве и быстро. Сейчас распознавание речи начинают делать локально, потому что задержку никто не терпит. Мы к этому придем.
Задержка 200-300 мс через облачные вычисления, локальный 20-30 мс. Реакция должна быть быстрее, чем человек моргает ( 100 мс ) .
2026 / Гонка ИИ - edge устройства
На мой взгляд, когда ИИ станет физическим, победит тот кто в итоге кто будет контролировать большую часть устройств. Без личного устройства не будет контекста. Когда мы перейдём к моделям с «физическим AI» — которые понимают реальный мир, твой контекст, тебя — они будут гораздо полезнее, чем обобщённая модель, обученная на интернет-данных. Поэтому тот, у кого есть доступ к такому контекстному данным, будет в очень сильной позиции. Это компании, которые уже присутствуют во множестве устройств. У них преимущество
2026 /post-GPU архитектура для дата-центров под инференс ИИ
Мы всегда считали, что при переходе к инференсу появится большая конкуренция между игроками. Тогда значение имеет совокупная стоимость владения, энергопотребление и архитектура. Логика такая: в телефоне энергоэффективность критична, а энергия — узкое место для ИИ. Это преимущество можно перенести в дата-центр. Если посмотреть на текущий агрессивный рост ИИ, то роста энергогенерации в таком же темпе нет. Уже есть разрыв между доступной энергией и потребностями ИИ. Энергия станет ресурсом для работы инференс-дата-центра и одним из крупнейших пунктов операционных расходов. Второй момент — архитектура. Дата-центр проходит ещё один этап дизагрегации. В мобильной индустрии смартфон — сложнейшая инженерная задача. Нужно уместить много вычислений в корпусе, который помещается в карман. Он не должен нагреваться. Вы касаетесь экрана, прикладываете его к лицу. Нельзя ставить вентиляторы. Нельзя использовать жидкостное охлаждение. Батарея должна работать весь день, иначе устройство бесполезно. Чтобы этого добиться, мы довели до совершенства дизагрегацию вычислений. Дата-центры идут в этом направлении. Уже начинается дизагрегация. Есть архитектура для prefill, есть для decode.Мы строим то, что считаем post-GPU архитектурой для инференса — когда нужны специализированные движки. Я считаю, что приобретение Nvidia компании Groq подтверждает идею: нужны разные движки под разные задачи. Именно этим мы и занимаемся. Это наш фокус в дата-центрах.
2026 / AI PC - Edge вычисления
Главное — возможность выполнять значительный высокопроизводительный инференс прямо на ноутбуке. Сейчас множество приложений используют облачные вычисления. Если задействовать вычисления на самом ПК, это быстрее и меняет экономику. Пример. SaaS-компании сейчас под давлением из-за ИИ. Если в их приложении есть агент, и каждый раз данные отправляются в облако для обработки, они платят за облачные вычисления. Экономика резко меняется, если часть вычислений выполняется на устройстве. Практический пример: кнопка «Summarize this» — «Суммируй это». У тебя несколько страниц текста. Можно отправить в облако и платить за вычисления, а можно запустить модель суммаризации на компьютере — это бесплатно, потому что это твое устройство. Мы уже видим интерес со стороны предприятий и разработчиков к тому, чтобы часть логики запускать на AI-движке устройства. Это начинается прямо сейчас. В корпоративном сегменте экономика изменится, потому что многие ISV и SaaS-приложения будут требовать вычислений на устройстве. И это будет иметь значение.
2026 / Bottlenecks Физического ИИ
Нужна зрелость моделей — они должны стать более развитыми и способными. Мы только в начале эры «физического ИИ», который критически важен для контекста. Вторая часть — вычисления. Нужно много высокопроизводительных вычислений. И здесь мы подключаемся, потому что всё нельзя делать в облаке — из-за задержек. Некоторые задачи должны выполняться на устройстве и быстро. Сейчас распознавание речи начинают делать локально, потому что задержку никто не терпит. Мы к этому придем.
Задержка 200-300 мс через облачные вычисления, локальный 20-30 мс. Реакция должна быть быстрее, чем человек моргает ( 100 мс ) .
2026 / Гонка ИИ - edge устройства
На мой взгляд, когда ИИ станет физическим, победит тот кто в итоге кто будет контролировать большую часть устройств. Без личного устройства не будет контекста. Когда мы перейдём к моделям с «физическим AI» — которые понимают реальный мир, твой контекст, тебя — они будут гораздо полезнее, чем обобщённая модель, обученная на интернет-данных. Поэтому тот, у кого есть доступ к такому контекстному данным, будет в очень сильной позиции. Это компании, которые уже присутствуют во множестве устройств. У них преимущество
Тезисы Cristiano Amon [ Qualcomm ] p.3
2026 / OpenAI - Qualcomm / ИИ Устройство
Вопрос интервьюера: Сейчас OpenAI собирается делать семейство устройств, и ходили слухи, что это будет устройство размером со смартфон, без экрана, которое просто слушает тебя и присылает уведомления о твоей жизни. Я подумал: почему это не может быть просто приложением на телефоне? Зачем это должно быть носимым устройством? - Ответ: Не обязано. Мы с ними работаем. К сожалению, я не могу рассказать, что это будет. Увидите — будет интересно. ( OpenAI вместе с легендарным дизайнером Джони Айвом (создатель iPhone.) трудится над персональным устройством на базе ИИ, это устройство без экрана - управление и взаимодействие ориентировано на голос, звук, возможно камеры и сенсоры. Возможное позиционирование: персональный ИИ-ассистент, который активно слушает, интерпретирует контекст и помогает в задачи, а не просто приложение на телефоне.)
2026 / AR Очки - новый смартфон
Когда появились широкополосные скорости, стало ясно: на другом конце нужен компьютер. Телефон должен стать компьютером.И нужно создать компьютер, который помещается в ладони. Это и есть смартфон.Он навсегда изменил вычисления. Сегодня смартфонов продаётся 1,2 млрд в год. Это крупнейшая категория потребительской электроники, и он есть у всех.Но когда ИИ начинает понимать нас — ситуация меняется. Речь уже не только о компьютере, который вы носите в кармане, но и о компьютере, который вы носите на себе. Если агенты должны быть полезны, они должны быть с вами постоянно. Тогда помимо телефона появляются очки, кольца, браслеты, часы.
2026 / Локальный инференс - Edge вычисления
Мы планируем сделать инференс ИИ-модели прямо в крошечном телефоне, а затем попытаемся сделать это в очень маленькой рамке стекла, и нам нужно решить эти проблемы, и мы чувствуем, что если мы не решим эти проблемы, то и другая компания этого не сделает. Так что это наша проблема, которую мы должны решить. ( Сейчас инференс выполняется через облако, минусы: Задержка 200-300 мс, локальный 20-30 мс для роботов и физического ИИ это вообще критично. Реакция должна быть быстрее, чем человек моргает / приватность - все хотят чтобы данные хранились локально,а не в облаке / стоимость - CAPEX от дата центров переходит на держателя устройства / масштабируемость - дата центры нельзя бесконечно масштабировать. Но в любом случае - это гибрид . Лёгкие задачи — локально. Тяжёлые рассуждения — в облаке. Так работает эволюция вычислений. Персональные компьютеры не убили серверы. Смартфоны не убили дата-центры. Они распределили нагрузку.
2026 / 6G- инфраструктура для физического ИИ
6G — это обеспечение высокоскоростного соединения для мира искусственного интеллекта. Сеть будет воспринимать всё, что нас окружает, потому что, подобно тому, как компьютеры сейчас понимают то, что мы видим и слышим, сеть также сможет это делать, и эти данные с датчиков будут использоваться для обучения моделей на основе нашего физического мира и дальнейшего развития ИИ.
2026 / Фаза обучения -> Фаза массового использования ( inference )
Мы перейдем от создания искусственного интеллекта к фактическому внедрению искусственного интеллекта в производство. AI сейчас переходит из фазы обучения (training) в фазу массового использования (inference). И именно поэтому Qualcomm идёт в дата-центры. Инференс превзойдет обучение по объему вычислительных мощностей в дата-центрах. Миллиарды пользователей будут использовать ИИ везде. Победит тот, кто дешевле обработает триллионы запросов. Мы 30 лет учились как выжать максимум вычислений на минимальной энергии. Теперь, мы хотим применить эти знания и философию в дата-центры. Те, кто смогут предоставлять инференс по самой низкой стоимости, будут более прибыльными.
2026 / OpenAI - Qualcomm / ИИ Устройство
Вопрос интервьюера: Сейчас OpenAI собирается делать семейство устройств, и ходили слухи, что это будет устройство размером со смартфон, без экрана, которое просто слушает тебя и присылает уведомления о твоей жизни. Я подумал: почему это не может быть просто приложением на телефоне? Зачем это должно быть носимым устройством? - Ответ: Не обязано. Мы с ними работаем. К сожалению, я не могу рассказать, что это будет. Увидите — будет интересно. ( OpenAI вместе с легендарным дизайнером Джони Айвом (создатель iPhone.) трудится над персональным устройством на базе ИИ, это устройство без экрана - управление и взаимодействие ориентировано на голос, звук, возможно камеры и сенсоры. Возможное позиционирование: персональный ИИ-ассистент, который активно слушает, интерпретирует контекст и помогает в задачи, а не просто приложение на телефоне.)
2026 / AR Очки - новый смартфон
Когда появились широкополосные скорости, стало ясно: на другом конце нужен компьютер. Телефон должен стать компьютером.И нужно создать компьютер, который помещается в ладони. Это и есть смартфон.Он навсегда изменил вычисления. Сегодня смартфонов продаётся 1,2 млрд в год. Это крупнейшая категория потребительской электроники, и он есть у всех.Но когда ИИ начинает понимать нас — ситуация меняется. Речь уже не только о компьютере, который вы носите в кармане, но и о компьютере, который вы носите на себе. Если агенты должны быть полезны, они должны быть с вами постоянно. Тогда помимо телефона появляются очки, кольца, браслеты, часы.
2026 / Локальный инференс - Edge вычисления
Мы планируем сделать инференс ИИ-модели прямо в крошечном телефоне, а затем попытаемся сделать это в очень маленькой рамке стекла, и нам нужно решить эти проблемы, и мы чувствуем, что если мы не решим эти проблемы, то и другая компания этого не сделает. Так что это наша проблема, которую мы должны решить. ( Сейчас инференс выполняется через облако, минусы: Задержка 200-300 мс, локальный 20-30 мс для роботов и физического ИИ это вообще критично. Реакция должна быть быстрее, чем человек моргает / приватность - все хотят чтобы данные хранились локально,а не в облаке / стоимость - CAPEX от дата центров переходит на держателя устройства / масштабируемость - дата центры нельзя бесконечно масштабировать. Но в любом случае - это гибрид . Лёгкие задачи — локально. Тяжёлые рассуждения — в облаке. Так работает эволюция вычислений. Персональные компьютеры не убили серверы. Смартфоны не убили дата-центры. Они распределили нагрузку.
2026 / 6G- инфраструктура для физического ИИ
6G — это обеспечение высокоскоростного соединения для мира искусственного интеллекта. Сеть будет воспринимать всё, что нас окружает, потому что, подобно тому, как компьютеры сейчас понимают то, что мы видим и слышим, сеть также сможет это делать, и эти данные с датчиков будут использоваться для обучения моделей на основе нашего физического мира и дальнейшего развития ИИ.
2026 / Фаза обучения -> Фаза массового использования ( inference )
Мы перейдем от создания искусственного интеллекта к фактическому внедрению искусственного интеллекта в производство. AI сейчас переходит из фазы обучения (training) в фазу массового использования (inference). И именно поэтому Qualcomm идёт в дата-центры. Инференс превзойдет обучение по объему вычислительных мощностей в дата-центрах. Миллиарды пользователей будут использовать ИИ везде. Победит тот, кто дешевле обработает триллионы запросов. Мы 30 лет учились как выжать максимум вычислений на минимальной энергии. Теперь, мы хотим применить эти знания и философию в дата-центры. Те, кто смогут предоставлять инференс по самой низкой стоимости, будут более прибыльными.
Bernt Bornich [ 1X Robotics ] / p.1
2025 / Улучшение продукта через потребительский рынок
Мы выбрали дом по двум причинам. Первая очевидна: потребительское железо масштабируется быстрее всего. iPhone достиг миллиарда устройств за немного больше десятилетия. Гуманоидные роботы не имеют смысла без масштаба. Нужен масштаб, чтобы получить надёжность, низкую стоимость, экосистему, интеллект. Вторая причина глубже: интеллект рождается из разнообразия. Это видно во всём ИИ — язык, изображения, видео, робототехника. Вам не нужны данные одного и того же снова и снова. Если робот в автозаводе делает одно действие, он не движется к общей интеллектуальности. Мы развернули предыдущее поколение Eve в охране и логистике в 2022–2023. Через 20–40 часов робот выходил на плато для конкретной задачи. Радикальные технологии не идут сверху вниз. ChatGPT сначала пошёл к потребителям, потом — в корпорации. Мы уже пытались с Enterprise — медленно: комплаенс, риски, профсоюзы. фабрике робот делает одну задачу — через 5 минут данных достаточно. В доме — каждый дом разный, каждый день разный. Эта энтропия и создаёт интеллект.
2025 / Робототехника путь к AGI
Мы видим себя не как просто робототехническую компанию, а как компанию, идущую к AGI. Роботика — инструмент для построения настоящих AGI-моделей через богатые реальные данные.
2025 / Социальный аспект гуманоидного робота
Каждый захочет робота. Гуманоид — естественный интерфейс для ИИ. Когда он смотрит на тебя, реагирует, понимает направление голоса, язык тела — это другой уровень взаимодействия. Компаньонский аспект сильно недооценён.
2025 / Собственная модель ИИ
Мы видим, что модели, изначально построенные под физические модальности, а потом дополненные текстом, будут более умными и мощными, чем подход, который используют гиперскейлеры в LLM. Ядро — пространственное и временное. Оно связано с тем, как ты воспринимаешь мир: как видишь его и как ощущаешь. Есть ещё два важных момента в обучении робота. Первый очевидный — интерактивное обучение. Робот взаимодействует с миром и учится.Если смотреть YouTube, у тебя есть только наблюдения. Ты не знаешь ментальную модель человека, его цель, какие действия он предпринял. Это не то, как мы учимся. Мы используем научный метод: гипотеза, эксперимент, наблюдение результата, повтор. Этого нет в интернет-данных.
2025 / Обучение через симулирование данных
Теоретически, если масштабировать симуляцию и обучение агентов в ней, возможно приблизиться. Но точность симуляции далека от реальности. Довести её до уровня реального мира крайне сложно и вычислительно дорого. Это не финальная цель, но полезно. Это позволяет довести роботов до уровня, когда они делают достаточно полезных вещей, чтобы собрать достаточно данных в реальном мире и больше не зависеть от симуляции. В долгосрочной перспективе симуляция не будет играть большую роль. Но для начального разгона, для создания data-flywheel, она критична.
2025 / Улучшение продукта через потребительский рынок
Мы выбрали дом по двум причинам. Первая очевидна: потребительское железо масштабируется быстрее всего. iPhone достиг миллиарда устройств за немного больше десятилетия. Гуманоидные роботы не имеют смысла без масштаба. Нужен масштаб, чтобы получить надёжность, низкую стоимость, экосистему, интеллект. Вторая причина глубже: интеллект рождается из разнообразия. Это видно во всём ИИ — язык, изображения, видео, робототехника. Вам не нужны данные одного и того же снова и снова. Если робот в автозаводе делает одно действие, он не движется к общей интеллектуальности. Мы развернули предыдущее поколение Eve в охране и логистике в 2022–2023. Через 20–40 часов робот выходил на плато для конкретной задачи. Радикальные технологии не идут сверху вниз. ChatGPT сначала пошёл к потребителям, потом — в корпорации. Мы уже пытались с Enterprise — медленно: комплаенс, риски, профсоюзы. фабрике робот делает одну задачу — через 5 минут данных достаточно. В доме — каждый дом разный, каждый день разный. Эта энтропия и создаёт интеллект.
2025 / Робототехника путь к AGI
Мы видим себя не как просто робототехническую компанию, а как компанию, идущую к AGI. Роботика — инструмент для построения настоящих AGI-моделей через богатые реальные данные.
2025 / Социальный аспект гуманоидного робота
Каждый захочет робота. Гуманоид — естественный интерфейс для ИИ. Когда он смотрит на тебя, реагирует, понимает направление голоса, язык тела — это другой уровень взаимодействия. Компаньонский аспект сильно недооценён.
2025 / Собственная модель ИИ
Мы видим, что модели, изначально построенные под физические модальности, а потом дополненные текстом, будут более умными и мощными, чем подход, который используют гиперскейлеры в LLM. Ядро — пространственное и временное. Оно связано с тем, как ты воспринимаешь мир: как видишь его и как ощущаешь. Есть ещё два важных момента в обучении робота. Первый очевидный — интерактивное обучение. Робот взаимодействует с миром и учится.Если смотреть YouTube, у тебя есть только наблюдения. Ты не знаешь ментальную модель человека, его цель, какие действия он предпринял. Это не то, как мы учимся. Мы используем научный метод: гипотеза, эксперимент, наблюдение результата, повтор. Этого нет в интернет-данных.
2025 / Обучение через симулирование данных
Теоретически, если масштабировать симуляцию и обучение агентов в ней, возможно приблизиться. Но точность симуляции далека от реальности. Довести её до уровня реального мира крайне сложно и вычислительно дорого. Это не финальная цель, но полезно. Это позволяет довести роботов до уровня, когда они делают достаточно полезных вещей, чтобы собрать достаточно данных в реальном мире и больше не зависеть от симуляции. В долгосрочной перспективе симуляция не будет играть большую роль. Но для начального разгона, для создания data-flywheel, она критична.
Bernt Bornich [ 1X Robotics ] / p.2
2025 / Конкуретное преимущество - потребительский рынок
Наша цель — собрать максимум данных о взаимодействии роботов в доме. Если 10 000 роботов большую часть дня собирают недублированные данные, это уже больше полезного контента, чем ежедневно появляется на YouTube.
У 8 миллиардов людей лишь малая часть жизни попадает в интернет. У роботов — весь их опыт. П
Опыт каждого робота отправляется в облачную модель, которая обучается на данных всего флота..
Сегодня все ИИ тренируются на одном интернете и конкурируют вычислениями и талантом. Интернет постепенно станет лишь малой частью обучения. Сейчас робототехнические данные — крошечный слой, поэтому мы вынуждены дообучаться на интернет-корпусах.
Интеллект прямо пропорционален разнообразию задач, с которыми сталкивается система. В ИИ важен не просто объём данных, а их разнообразие. Масштаб — следствие разнообразия. Сто миллионов одинаковых примеров бесполезны. В будущем выиграет тот, у кого самый большой и самый разнообразный потребительский флот роботов.
2025 / Объем производства 1X
На текущий момент, мы построили больше 100 роботов. К концу 2026 года годовой ранрейт завода — более 20 000 единиц. Есть разгон, поэтому в 2026 фактический выпуск будет меньше. Рост iPhone был примерно 1,7x. Можно представить ранрейт к концу десятилетия в сотни тысяч в год.
2025 / Потенциальные проблемы масштабирования - нехватка алюминия
Нужно думать, что замедлит рост. Это добыча, переработка, но всё больше — труд. Без роботов в производстве не масштабироваться. При сильном масштабировании, вы упрётесь в нехватку труда для производства самих роботов. Даже Apple в пике упёрлась в нехватку рабочих рук. Если гуманоид требует в пять раз больше сборки, чем iPhone, труда не хватит. Поэтому роботы должны строить роботов. Они должны строить энергетическую инфраструктуру, фабрики чипов, дата-центры. Да, они будут делать и другие вещи, но приоритет — ускорять собственный рост. Мы сделали конструкцию максимально простой: несколько сотен деталей. У автомобиля около 50 000. Наш робот весит 66 фунтов, машина — 4000. При масштабировании гуманоидов до уровня iPhone возникают интересные проблемы — например, нехватка алюминия. Не всего алюминия на планете, но доли текущей переработки.
2025 / Приватность / Безопасность / Телеоператор
Ранние пользователи частично жертвуют приватностью ради улучшения продукта. Нам нужны данные. Но всё будет под контролем пользователя. Ни один человек в компании не видит данные. Они идут в модель, но не просматриваются людьми. Есть режим «best effort autonomy» — обычная автономия. Робот учится в процессе, быстрее прогрессирует через ошибки, чем через успех. Есть режим задач по расписанию. Я задаю задачи через телефон: постирать бельё, принять доставку, убрать дом. Робот делает это автономно или через телеоператора — мне всё равно, главное результат. В начале многие задачи выполняются через телеоператоров, потому что мы пока не умеем полностью автоматизировать всё. Но телеоперация — это экспертные демонстрации, размеченные данные. Так же обучаются крупные ИИ-модели. Это не обман, это источник качественных данных. Главное — прозрачность. Если телеоператор подключается, это видно: меняется подсветка, и это только из списка одобренных вами операторов. Если оператор решит сделать что-то вредное — это как если бы нанятый вами уборщик сделал это. Но у нас лучше контроль: у операторов есть менеджер, есть двойные уровни безопасности, глубокие проверки персонала. Риск не нулевой, но мы можем сделать лучше, чем текущая практика. Есть физический аварийный выключатель. Есть настраиваемое стоп-слово — отдельная система, которая останавливает всё.
2025 / Конкуретное преимущество - потребительский рынок
Наша цель — собрать максимум данных о взаимодействии роботов в доме. Если 10 000 роботов большую часть дня собирают недублированные данные, это уже больше полезного контента, чем ежедневно появляется на YouTube.
У 8 миллиардов людей лишь малая часть жизни попадает в интернет. У роботов — весь их опыт. П
Опыт каждого робота отправляется в облачную модель, которая обучается на данных всего флота..
Сегодня все ИИ тренируются на одном интернете и конкурируют вычислениями и талантом. Интернет постепенно станет лишь малой частью обучения. Сейчас робототехнические данные — крошечный слой, поэтому мы вынуждены дообучаться на интернет-корпусах.
Интеллект прямо пропорционален разнообразию задач, с которыми сталкивается система. В ИИ важен не просто объём данных, а их разнообразие. Масштаб — следствие разнообразия. Сто миллионов одинаковых примеров бесполезны. В будущем выиграет тот, у кого самый большой и самый разнообразный потребительский флот роботов.
2025 / Объем производства 1X
На текущий момент, мы построили больше 100 роботов. К концу 2026 года годовой ранрейт завода — более 20 000 единиц. Есть разгон, поэтому в 2026 фактический выпуск будет меньше. Рост iPhone был примерно 1,7x. Можно представить ранрейт к концу десятилетия в сотни тысяч в год.
2025 / Потенциальные проблемы масштабирования - нехватка алюминия
Нужно думать, что замедлит рост. Это добыча, переработка, но всё больше — труд. Без роботов в производстве не масштабироваться. При сильном масштабировании, вы упрётесь в нехватку труда для производства самих роботов. Даже Apple в пике упёрлась в нехватку рабочих рук. Если гуманоид требует в пять раз больше сборки, чем iPhone, труда не хватит. Поэтому роботы должны строить роботов. Они должны строить энергетическую инфраструктуру, фабрики чипов, дата-центры. Да, они будут делать и другие вещи, но приоритет — ускорять собственный рост. Мы сделали конструкцию максимально простой: несколько сотен деталей. У автомобиля около 50 000. Наш робот весит 66 фунтов, машина — 4000. При масштабировании гуманоидов до уровня iPhone возникают интересные проблемы — например, нехватка алюминия. Не всего алюминия на планете, но доли текущей переработки.
2025 / Приватность / Безопасность / Телеоператор
Ранние пользователи частично жертвуют приватностью ради улучшения продукта. Нам нужны данные. Но всё будет под контролем пользователя. Ни один человек в компании не видит данные. Они идут в модель, но не просматриваются людьми. Есть режим «best effort autonomy» — обычная автономия. Робот учится в процессе, быстрее прогрессирует через ошибки, чем через успех. Есть режим задач по расписанию. Я задаю задачи через телефон: постирать бельё, принять доставку, убрать дом. Робот делает это автономно или через телеоператора — мне всё равно, главное результат. В начале многие задачи выполняются через телеоператоров, потому что мы пока не умеем полностью автоматизировать всё. Но телеоперация — это экспертные демонстрации, размеченные данные. Так же обучаются крупные ИИ-модели. Это не обман, это источник качественных данных. Главное — прозрачность. Если телеоператор подключается, это видно: меняется подсветка, и это только из списка одобренных вами операторов. Если оператор решит сделать что-то вредное — это как если бы нанятый вами уборщик сделал это. Но у нас лучше контроль: у операторов есть менеджер, есть двойные уровни безопасности, глубокие проверки персонала. Риск не нулевой, но мы можем сделать лучше, чем текущая практика. Есть физический аварийный выключатель. Есть настраиваемое стоп-слово — отдельная система, которая останавливает всё.
Bernt Bornich [ 1X Robotics ] / p.3
2025 / Непривлекательность HardWare компаний в прошлом
США долго делали только софт. Чипы ушли. Кремниевая долина без кремния. Венчур тоже ушёл в софт. Если в бизнес-плане был физический компонент — не инвестировали. Илон сделал hardware снова сексуальным. Но путь был через PayPal. Он вложил свои деньги, был на грани банкротства с Tesla и SpaceX. Венчур тогда не шёл в это. У нас был ранний норвежский инвестор. Компания началась в амбаре. Через два года он продал ферму, чтобы финансировать нас. В Силиконовой долине мы бы не выжили — слишком дорого. В Норвегии это было возможно.
2025 / Главный прогресс в робототехнике - кроме ИИ
Со стороны физики главный прогресс — в моторах и материалах. Мы делаем собственные моторы: не только IP, но и производство и автоматизацию. Всё в цепочке. Сейчас наши моторы в Neo дают в 5,5 раза больше крутящего момента, чем предыдущий мировой рекорд. Поэтому робот мощный без редукторов Это делает систему лёгкой, податливой, дешёвой в производстве. Но если есть сухожилия, нужно решить проблемы износа — миллионы циклов. Это не просто инженерия, это исследование. Такие моторы невозможны без инноваций в электронике, усилении мощности, драйвах.
2025 / 10 млрд гуманоидных роботов к 2040 г. - Проблемы масштабирования
Elon и Adcock называли цифрку 10 млрд. к 2040г. Думаю, примерно так. Возможно, даже раньше. Все зависит от искусственных ограничений масштабирования. Нужно думать о добыче редкоземельных металлов, алюминия, о том, как роботы помогут развернуть производство, как строить энергетику. Нам нужно больше фабрик по производству чипов.
( Комментарий Интервьюера: Для сравнения — на планете около миллиарда автомобилей и примерно 8 миллиардов смартфонов. Каждый такой робот использует примерно один GPU, возможно два. А мы производим около 20 миллионов GPU в год. У TSMC около 66% рынка фабрик — это одна точка отказа для всей экономики. Мы остро ограничены фабриками. Не говоря, уже о ASML - у которых еще более хрупкая цепочка поставок )
2025 / Естественность в движении
Человек по природе низкоэнергетичен. Любое действие — это столкновение: беру бутылку, ставлю руку на стол, делаю шаг — и это стабильно, мягко, безопасно. Потому что в движении мало энергии.В роботе же есть редуктор и мотор, который крутится в 100 раз быстрее руки — 10 000 об/мин. Энергия растёт пропорционально квадрату скорости. Поэтому мы начали с моторов. Если моторы достаточно сильные, не нужны тяжёлые редукторы. Можно тянуть «сухожилия», как мышцы человека, и двигаться биоинспирированно. Наши роботы двигаются иначе — естественно. Не ради красоты, а ради способности и безопасности, чтобы интегрироваться в общество. Это позволяет Neo двигаться тихо, плавно, быть легким и энергоэффективным, как человек. Это делает его безопасным и частью того, что делает его доступным — система проще и производительнее.
2025 / Телеоператоры
Телеоперация — это когда человек остаётся в контуре принятия решений робота. Как у Waymo: машина едет сама, но оператор следит за несколькими авто и помогает, если возникает сложная ситуация. То же самое, только для роботов. 2026 году, если вы купите продукт, вы должны быть согласны с этим социальным контрактом. Без данных продукт не станет лучше. При этом всё должно быть на ваших условиях. Оператор не видит вас — можно размывать людей. Он не может зайти в зоны, которые вы запретили. Даже если попытается — система не позволит. И оператор никогда не подключится без вашего одобрения.Если происходит что-то, что вы не хотите показывать, вы можете удалить этот фрагмент данных через приложение. Мы не можем видеть данные. Модель обучается на данных, но люди их не просматривают. В начале операторы будут локально. Нам важен высокий уровень сервиса и талант операторов: чем они лучше управляют системой, тем больше система учится. У вас будет небольшая группа операторов, закреплённых за вами по расписанию. Это не всегда один и тот же человек, но ограниченный круг, с которым вы познакомитесь — вы знаете, кого впускаете в дом, как с клининговым сервисом, где есть одобренные вами люди.
2025 / Непривлекательность HardWare компаний в прошлом
США долго делали только софт. Чипы ушли. Кремниевая долина без кремния. Венчур тоже ушёл в софт. Если в бизнес-плане был физический компонент — не инвестировали. Илон сделал hardware снова сексуальным. Но путь был через PayPal. Он вложил свои деньги, был на грани банкротства с Tesla и SpaceX. Венчур тогда не шёл в это. У нас был ранний норвежский инвестор. Компания началась в амбаре. Через два года он продал ферму, чтобы финансировать нас. В Силиконовой долине мы бы не выжили — слишком дорого. В Норвегии это было возможно.
2025 / Главный прогресс в робототехнике - кроме ИИ
Со стороны физики главный прогресс — в моторах и материалах. Мы делаем собственные моторы: не только IP, но и производство и автоматизацию. Всё в цепочке. Сейчас наши моторы в Neo дают в 5,5 раза больше крутящего момента, чем предыдущий мировой рекорд. Поэтому робот мощный без редукторов Это делает систему лёгкой, податливой, дешёвой в производстве. Но если есть сухожилия, нужно решить проблемы износа — миллионы циклов. Это не просто инженерия, это исследование. Такие моторы невозможны без инноваций в электронике, усилении мощности, драйвах.
2025 / 10 млрд гуманоидных роботов к 2040 г. - Проблемы масштабирования
Elon и Adcock называли цифрку 10 млрд. к 2040г. Думаю, примерно так. Возможно, даже раньше. Все зависит от искусственных ограничений масштабирования. Нужно думать о добыче редкоземельных металлов, алюминия, о том, как роботы помогут развернуть производство, как строить энергетику. Нам нужно больше фабрик по производству чипов.
( Комментарий Интервьюера: Для сравнения — на планете около миллиарда автомобилей и примерно 8 миллиардов смартфонов. Каждый такой робот использует примерно один GPU, возможно два. А мы производим около 20 миллионов GPU в год. У TSMC около 66% рынка фабрик — это одна точка отказа для всей экономики. Мы остро ограничены фабриками. Не говоря, уже о ASML - у которых еще более хрупкая цепочка поставок )
2025 / Естественность в движении
Человек по природе низкоэнергетичен. Любое действие — это столкновение: беру бутылку, ставлю руку на стол, делаю шаг — и это стабильно, мягко, безопасно. Потому что в движении мало энергии.В роботе же есть редуктор и мотор, который крутится в 100 раз быстрее руки — 10 000 об/мин. Энергия растёт пропорционально квадрату скорости. Поэтому мы начали с моторов. Если моторы достаточно сильные, не нужны тяжёлые редукторы. Можно тянуть «сухожилия», как мышцы человека, и двигаться биоинспирированно. Наши роботы двигаются иначе — естественно. Не ради красоты, а ради способности и безопасности, чтобы интегрироваться в общество. Это позволяет Neo двигаться тихо, плавно, быть легким и энергоэффективным, как человек. Это делает его безопасным и частью того, что делает его доступным — система проще и производительнее.
2025 / Телеоператоры
Телеоперация — это когда человек остаётся в контуре принятия решений робота. Как у Waymo: машина едет сама, но оператор следит за несколькими авто и помогает, если возникает сложная ситуация. То же самое, только для роботов. 2026 году, если вы купите продукт, вы должны быть согласны с этим социальным контрактом. Без данных продукт не станет лучше. При этом всё должно быть на ваших условиях. Оператор не видит вас — можно размывать людей. Он не может зайти в зоны, которые вы запретили. Даже если попытается — система не позволит. И оператор никогда не подключится без вашего одобрения.Если происходит что-то, что вы не хотите показывать, вы можете удалить этот фрагмент данных через приложение. Мы не можем видеть данные. Модель обучается на данных, но люди их не просматривают. В начале операторы будут локально. Нам важен высокий уровень сервиса и талант операторов: чем они лучше управляют системой, тем больше система учится. У вас будет небольшая группа операторов, закреплённых за вами по расписанию. Это не всегда один и тот же человек, но ограниченный круг, с которым вы познакомитесь — вы знаете, кого впускаете в дом, как с клининговым сервисом, где есть одобренные вами люди.
Bernt Bornich [ 1X Robotics ] / p.4
2025 / Понимание задачи > Выполнения конкретных действий
Успех выполнения задачи — плохо определённая метрика. Представим фабрику: робот сортирует мусорные мешки. Всё идёт нормально. Один мешок падает на пол. Есть разные уровни интеллекта. Первый — робот просто продолжает повторять движение, как обучен. Это классический end-to-end deep learning. Если в данных много примеров ошибок, возможно он поднимет мешок. Но если система понимает задачу — не просто сортировку, а зачем она это делает и как это вписывается в процесс — она поднимет мешок, вернёт его и ускорится на 20 секунд, чтобы компенсировать задержку. Это понимание имплицитно. В реальном производстве ошибки случаются постоянно, и люди их покрывают. Наша цель — чтобы роботы не повторяли движения, а глубоко понимали задачу. Тогда они смогут обобщать на edge cases, которых не видели. В вождении это называют «отрезать длинный хвост» — есть бесконечный хвост редких ситуаций, которые невозможно увидеть все. В какой-то момент система должна уметь решать то, чего не видела. Это достигается через разнообразие. Лучшее доказательство — LLM, они стали хороши именно из-за разнообразия данных.
2025 / World Models
Сегодняшние world models — не полноценные omni-models. Нам не хватает данных и вычислений. В идеале мы бы просто искали решение в world model и использовали её как policy. Это работает, но вычислительно нереально. Нужно дистиллировать из неё меньшую policy, которая может работать на роботе. Даже в облаке world model слишком медленная — миллисекунда реального времени может считаться секунды. Можно масштабировать compute, но мы пойдём умнее.
2025 / Вертикально - интегрирированная система производства
Для гуманоидов нет готовой инфраструктуры. Если идти по старому пути, получишь 200-фунтовых тяжёлых, дорогих, жёстких и небезопасных роботов. Это не масштабируется. Нужно инновации на каждом уровне цепочки поставок.Мы делаем буквально всё сами — вплоть до абсурда. У нас патенты на новые способы старения литого алюминия, мировой рекорд по соотношению прочности к весу. Мы занимаемся материаловедением, делаем своё производственное оборудование и автоматизацию, свои моторы, синтетические сухожилия для приводов, силовую электронику, батареи, механику, даже камеры и сенсоры. У нас тактильные сенсоры на новом принципе, запатентованные. Собственные модели для обучения и т.д.
2025 / Понимание задачи > Выполнения конкретных действий
Успех выполнения задачи — плохо определённая метрика. Представим фабрику: робот сортирует мусорные мешки. Всё идёт нормально. Один мешок падает на пол. Есть разные уровни интеллекта. Первый — робот просто продолжает повторять движение, как обучен. Это классический end-to-end deep learning. Если в данных много примеров ошибок, возможно он поднимет мешок. Но если система понимает задачу — не просто сортировку, а зачем она это делает и как это вписывается в процесс — она поднимет мешок, вернёт его и ускорится на 20 секунд, чтобы компенсировать задержку. Это понимание имплицитно. В реальном производстве ошибки случаются постоянно, и люди их покрывают. Наша цель — чтобы роботы не повторяли движения, а глубоко понимали задачу. Тогда они смогут обобщать на edge cases, которых не видели. В вождении это называют «отрезать длинный хвост» — есть бесконечный хвост редких ситуаций, которые невозможно увидеть все. В какой-то момент система должна уметь решать то, чего не видела. Это достигается через разнообразие. Лучшее доказательство — LLM, они стали хороши именно из-за разнообразия данных.
2025 / World Models
Сегодняшние world models — не полноценные omni-models. Нам не хватает данных и вычислений. В идеале мы бы просто искали решение в world model и использовали её как policy. Это работает, но вычислительно нереально. Нужно дистиллировать из неё меньшую policy, которая может работать на роботе. Даже в облаке world model слишком медленная — миллисекунда реального времени может считаться секунды. Можно масштабировать compute, но мы пойдём умнее.
2025 / Вертикально - интегрирированная система производства
Для гуманоидов нет готовой инфраструктуры. Если идти по старому пути, получишь 200-фунтовых тяжёлых, дорогих, жёстких и небезопасных роботов. Это не масштабируется. Нужно инновации на каждом уровне цепочки поставок.Мы делаем буквально всё сами — вплоть до абсурда. У нас патенты на новые способы старения литого алюминия, мировой рекорд по соотношению прочности к весу. Мы занимаемся материаловедением, делаем своё производственное оборудование и автоматизацию, свои моторы, синтетические сухожилия для приводов, силовую электронику, батареи, механику, даже камеры и сенсоры. У нас тактильные сенсоры на новом принципе, запатентованные. Собственные модели для обучения и т.д.
Tye Brady [ Amazon Robotics ]
2025 /Точка перегиба для робототехники
Это действительно большой день для робототехники. Vulcan — наш первый робот с чувством осязания. Мы открываем ворота физического ИИ: робот использует не только зрение для идентификации и манипуляции объектами, но и осязание в сочетании со зрением, чтобы брать сотни миллионов разных товаров. Именно сотни миллионов. Cтанция Vulcan- две роботизированные руки тянутся в ячейки, где всё в беспорядке, и с помощью видео и сенсоров выбирают нужный товар. Он буквально «нащупывает» его. У нас есть датчики крутящего момента, силы и давления — мы понимаем, насколько сильно давим, можем разделять предметы. Это также используется для операции «stow» — когда робот создаёт пространство в ячейке и помещает туда товар. Огромное разнообразие объектов — серьёзный вызов. Это прорыв и в ИИ, и в железе. Да — и там, и там.
2025 / Обучение через практику
Если говорить про ИИ: в отличие от языковых моделей, которые обучаются на интернете, в робототехнике мы обучаем траектории движения и способы захвата. В робототехнике обучение не через язык. Язык можно использовать для постановки задачи, но обучение идёт через данные и предыдущие действия в структурированной и неструктурированной среде. Мы строим такую foundation model. У нас крупнейший в мире парк мобильных промышленных роботов. Например, система Robin: она берёт посылку из кучи, определяет её, проверяет на повреждения и передаёт дальше на сортировку. Кажется просто — но вариативность форм и упаковок огромна. Уже более двух миллиардов захватов.Каждый захват, каждый новый объект добавляется в foundation model. Если робот сталкивается с новым предметом, данные распространяются по всей системе — все руки учатся. Это очень мощно.
Jeff Cardenas [ Apptronik ]
2025 / Точка перегиба для робототехники
Люди думают о гуманоидных роботах тысячи лет. И вот сейчас — 2025 год — мы действительно можем это делать. Это потрясающе. Мы десять лет выводили технологию из лаборатории в реальный мир. Она здесь, но это начало.Сейчас в этом участвуют умные, серьёзные люди и со стороны клиентов, и со стороны разработчиков. Мы достигли точки перегиба. Это захватывающе. Но работы ещё много.
2025 / Конкуретное преимущество -Партнерство с Google
Можно делать всё внутри, можно партнёриться. Мы партнёримся. Это сложные задачи. Нужно находить других. Google — хороший пример. Мы сотрудничаем с Google.Мы балансируем амбицию и прагматизм. Наша цель — лучшие человекоцентричные роботы по качеству, опыту, безопасности. Будут части стека, которые не имеет смысла делать внутри компании. Например, элементы DeepMind. Мы известны тем, что делаем выдающееся железо, мы создаем тело, мышцы, расширенную нервную систему из сенсоров, а Google создает мозг. Мы построим лучшую платформу.
2025 / Стадии развития робототехники
Я вижу три стадии. Первая — индустриальная база. Контролируемая среда, специалисты рядом. Логистика и производство. Вторая — выход к публике. Роботы работают рядом с людьми, с детьми, родителями. Это ритейл и здравоохранение. Коммерческая среда, задачи более непрерывные. Третья — дом. Для меня святая цель — ассистивный уход. Первая стадия уже происходит. Это как персональный компьютер для робототехники. Гуманоид — универсальная платформа, способная масштабироваться. Сейчас это примерно 80-е годы, если использовать аналогию. Системы и возможности уже есть, есть ранние коммерческие применения с большой ценностью. К 2035 году роботы будут в домах.
2025 / Смена парадигмы движения с помощью ИИ
Робот — это сеть моторов и сенсоров. Традиционные роботы были позиционно-управляемыми: мотор просто перемещал механизм в точку в пространстве. Сейчас всё меняется. Роботы эпохи ИИ работают иначе: теперь у нас датчики в контуре обратной связи — камеры, датчики силы, касания, температуры, акселерометр, который чувствует положение и ориентацию. Мы объединяем все эти сенсоры, чтобы робот осознавал происходящее, был динамичным и реагировал на среду. Для нас это базовый строительный блок. Именно актуаторы — приводы — определяют производительность и стоимость робота.
2025 /Точка перегиба для робототехники
Это действительно большой день для робототехники. Vulcan — наш первый робот с чувством осязания. Мы открываем ворота физического ИИ: робот использует не только зрение для идентификации и манипуляции объектами, но и осязание в сочетании со зрением, чтобы брать сотни миллионов разных товаров. Именно сотни миллионов. Cтанция Vulcan- две роботизированные руки тянутся в ячейки, где всё в беспорядке, и с помощью видео и сенсоров выбирают нужный товар. Он буквально «нащупывает» его. У нас есть датчики крутящего момента, силы и давления — мы понимаем, насколько сильно давим, можем разделять предметы. Это также используется для операции «stow» — когда робот создаёт пространство в ячейке и помещает туда товар. Огромное разнообразие объектов — серьёзный вызов. Это прорыв и в ИИ, и в железе. Да — и там, и там.
2025 / Обучение через практику
Если говорить про ИИ: в отличие от языковых моделей, которые обучаются на интернете, в робототехнике мы обучаем траектории движения и способы захвата. В робототехнике обучение не через язык. Язык можно использовать для постановки задачи, но обучение идёт через данные и предыдущие действия в структурированной и неструктурированной среде. Мы строим такую foundation model. У нас крупнейший в мире парк мобильных промышленных роботов. Например, система Robin: она берёт посылку из кучи, определяет её, проверяет на повреждения и передаёт дальше на сортировку. Кажется просто — но вариативность форм и упаковок огромна. Уже более двух миллиардов захватов.Каждый захват, каждый новый объект добавляется в foundation model. Если робот сталкивается с новым предметом, данные распространяются по всей системе — все руки учатся. Это очень мощно.
Jeff Cardenas [ Apptronik ]
2025 / Точка перегиба для робототехники
Люди думают о гуманоидных роботах тысячи лет. И вот сейчас — 2025 год — мы действительно можем это делать. Это потрясающе. Мы десять лет выводили технологию из лаборатории в реальный мир. Она здесь, но это начало.Сейчас в этом участвуют умные, серьёзные люди и со стороны клиентов, и со стороны разработчиков. Мы достигли точки перегиба. Это захватывающе. Но работы ещё много.
2025 / Конкуретное преимущество -Партнерство с Google
Можно делать всё внутри, можно партнёриться. Мы партнёримся. Это сложные задачи. Нужно находить других. Google — хороший пример. Мы сотрудничаем с Google.Мы балансируем амбицию и прагматизм. Наша цель — лучшие человекоцентричные роботы по качеству, опыту, безопасности. Будут части стека, которые не имеет смысла делать внутри компании. Например, элементы DeepMind. Мы известны тем, что делаем выдающееся железо, мы создаем тело, мышцы, расширенную нервную систему из сенсоров, а Google создает мозг. Мы построим лучшую платформу.
2025 / Стадии развития робототехники
Я вижу три стадии. Первая — индустриальная база. Контролируемая среда, специалисты рядом. Логистика и производство. Вторая — выход к публике. Роботы работают рядом с людьми, с детьми, родителями. Это ритейл и здравоохранение. Коммерческая среда, задачи более непрерывные. Третья — дом. Для меня святая цель — ассистивный уход. Первая стадия уже происходит. Это как персональный компьютер для робототехники. Гуманоид — универсальная платформа, способная масштабироваться. Сейчас это примерно 80-е годы, если использовать аналогию. Системы и возможности уже есть, есть ранние коммерческие применения с большой ценностью. К 2035 году роботы будут в домах.
2025 / Смена парадигмы движения с помощью ИИ
Робот — это сеть моторов и сенсоров. Традиционные роботы были позиционно-управляемыми: мотор просто перемещал механизм в точку в пространстве. Сейчас всё меняется. Роботы эпохи ИИ работают иначе: теперь у нас датчики в контуре обратной связи — камеры, датчики силы, касания, температуры, акселерометр, который чувствует положение и ориентацию. Мы объединяем все эти сенсоры, чтобы робот осознавал происходящее, был динамичным и реагировал на среду. Для нас это базовый строительный блок. Именно актуаторы — приводы — определяют производительность и стоимость робота.
Jeff Cardenas [ Apptronik ] / p.2
2025 / Масштабирование -> Снижение стоимости
Если сравнить гуманоидного робота и автомобиль, то по весу в роботе на 96% меньше сырья, чем в машине. Базовый металл в наших роботах — алюминий. Во всём роботе около 300 долларов сырого алюминия. Это значит, что с точки зрения первых принципов нет причины, по которой такие роботы должны быть дорогими или не станут намного дешевле автомобилей по мере роста цепочки поставок и объёмов производства. Сейчас цепочки поставок для этого не существует, поэтому нам приходится делать больше самостоятельно. И объёмы пока недостаточны, чтобы по-настоящему снизить себестоимость и распределить капитальные затраты на большое количество роботов. Многие компоненты уже используются в других отраслях. Например, коммерческие дроны снизили стоимость нужных нам моторов. Электромобили снизили стоимость батарей — теперь они достаточно хороши. Мы берём зрелые технологии из других индустрий и объединяем их в конечную форму.
2025 / Отсутсвие вертикально интегрированной системы
Сейчас мы проектируем и собираем системы в Остине, Техас. Постепенно передаём больше Jabil по мере масштабирования. Финальная сборка пока в Остине, дальше будет больше через Jabil. Многие приводят Tesla как полностью вертикально интегрированную компанию и спрашивают, как мы будем конкурировать, не владея производством. Но Tesla в начале работала с контрактными производителями. Говорят, нужно владеть своим AI-стеком — Tesla не владела Autopilot в начале, они работали с Mobileye. Они сотрудничали с экспертами и постепенно усиливали вертикальную интеграцию. Я считаю, что нужно выбирать свои битвы. Мы лучше всех умеем делать роботов и программное обеспечение. На этом фокус. Производство — с лучшими в мире. У нас хорошие отношения с Jabil — с этого начинаем. Это не значит, что так будет всегда.
2026 / Главный bottleneck робототехники- данные / Скептицизм об объемах
В краткосрочной перспективе в следующем году — сотни, возможно первые тысячи роботов, в основном меньше 1000 на компанию. 2027 — год начала реального масштабирования. Разговоры о 10 000 в следующем году — слишком амбициозно. Будет медленнее. Главный вопрос — данные. Есть идея собирать эгоцентрические данные людей, минуя телеоперацию. Мы и другие над этим работаем. Есть и внешние источники, например видеоданные.
2025 / Структура робототехники - прорыв Софт
Два блока — железо и софт. Железо: сеть моторов и сенсоров. Вместо пошагового программирования — сенсоры в обратной связи. Камеры (зрение), тактильные датчики, температурные сенсоры, акселерометры. Робот реагирует на мир динамически. Мы сделали более 60 итераций электрических приводов (актуаторов), балансируя безопасность, производительность и стоимость. Мы используем прогресс из дронов (дешёвые моторы), электромобилей (батареи, сенсоры). Софт: прорыв последних лет — генеративный ИИ. Вместо программирования через PhD — можно обучать, показывая пример. Софт Apollo : Linux . Поверх — наша собственная операционная система. Далее — когнитивный слой ИИ. У нас партнёрство с Google DeepMind. В Apollo вычисления находятся в груди. Подход гибридный: часть в облаке, часть — локально для реального времени.
2025 / Приложения для гуманоидных роботов - Iphone в мире робототехники
Наша цель — создать платформу, «iPhone роботов». Поверх неё разработчики смогут строить приложения. Сейчас мы идём вертикально до конечного клиента, чтобы доказать коммерческую модель. Позже появится широкая экосистема.
2025 / Масштабирование -> Снижение стоимости
Если сравнить гуманоидного робота и автомобиль, то по весу в роботе на 96% меньше сырья, чем в машине. Базовый металл в наших роботах — алюминий. Во всём роботе около 300 долларов сырого алюминия. Это значит, что с точки зрения первых принципов нет причины, по которой такие роботы должны быть дорогими или не станут намного дешевле автомобилей по мере роста цепочки поставок и объёмов производства. Сейчас цепочки поставок для этого не существует, поэтому нам приходится делать больше самостоятельно. И объёмы пока недостаточны, чтобы по-настоящему снизить себестоимость и распределить капитальные затраты на большое количество роботов. Многие компоненты уже используются в других отраслях. Например, коммерческие дроны снизили стоимость нужных нам моторов. Электромобили снизили стоимость батарей — теперь они достаточно хороши. Мы берём зрелые технологии из других индустрий и объединяем их в конечную форму.
2025 / Отсутсвие вертикально интегрированной системы
Сейчас мы проектируем и собираем системы в Остине, Техас. Постепенно передаём больше Jabil по мере масштабирования. Финальная сборка пока в Остине, дальше будет больше через Jabil. Многие приводят Tesla как полностью вертикально интегрированную компанию и спрашивают, как мы будем конкурировать, не владея производством. Но Tesla в начале работала с контрактными производителями. Говорят, нужно владеть своим AI-стеком — Tesla не владела Autopilot в начале, они работали с Mobileye. Они сотрудничали с экспертами и постепенно усиливали вертикальную интеграцию. Я считаю, что нужно выбирать свои битвы. Мы лучше всех умеем делать роботов и программное обеспечение. На этом фокус. Производство — с лучшими в мире. У нас хорошие отношения с Jabil — с этого начинаем. Это не значит, что так будет всегда.
2026 / Главный bottleneck робототехники- данные / Скептицизм об объемах
В краткосрочной перспективе в следующем году — сотни, возможно первые тысячи роботов, в основном меньше 1000 на компанию. 2027 — год начала реального масштабирования. Разговоры о 10 000 в следующем году — слишком амбициозно. Будет медленнее. Главный вопрос — данные. Есть идея собирать эгоцентрические данные людей, минуя телеоперацию. Мы и другие над этим работаем. Есть и внешние источники, например видеоданные.
2025 / Структура робототехники - прорыв Софт
Два блока — железо и софт. Железо: сеть моторов и сенсоров. Вместо пошагового программирования — сенсоры в обратной связи. Камеры (зрение), тактильные датчики, температурные сенсоры, акселерометры. Робот реагирует на мир динамически. Мы сделали более 60 итераций электрических приводов (актуаторов), балансируя безопасность, производительность и стоимость. Мы используем прогресс из дронов (дешёвые моторы), электромобилей (батареи, сенсоры). Софт: прорыв последних лет — генеративный ИИ. Вместо программирования через PhD — можно обучать, показывая пример. Софт Apollo : Linux . Поверх — наша собственная операционная система. Далее — когнитивный слой ИИ. У нас партнёрство с Google DeepMind. В Apollo вычисления находятся в груди. Подход гибридный: часть в облаке, часть — локально для реального времени.
2025 / Приложения для гуманоидных роботов - Iphone в мире робототехники
Наша цель — создать платформу, «iPhone роботов». Поверх неё разработчики смогут строить приложения. Сейчас мы идём вертикально до конечного клиента, чтобы доказать коммерческую модель. Позже появится широкая экосистема.
Sergey Levine [ Physical Intelligence ] / p.1
2025 / Выход в коммерцию - решение проблемы масштаба данных
Я всегда считал, что робототехника не так уж отличается от других областей ИИ — масштаб будет критичен.Но добраться до него сложно. У нас в отличии от автомобильной индустрии -нет миллионов машин, ездящих и собирающих данные. В отличии от LLM - нет интернета, куда генериуется миллионы контента ежедневно. Поэтому приходится быть изобретательными — деплоить роботов, заставлять их делать задачи, собирать собственные данные в масштабе. Нужно преодолеть «энергию активации», а потом запустить маховик, который будет постоянно улучшать систему. Думаю, что лучший способ создать маховик — выйти в коммерцию и работать в реальном мире.
2025 / Проблема композиционнсоти в робототехнике
Современные большие модели при достаточном масштабе начинают проявлять композиционность. Её нельзя «заставить» вручную — она появляется при масштабе и правильном распределении данных. В робототехнике сложнее — композиция движений не всегда даёт целостный контроль. Я не знаю точного ответа. Возможно решение проблемы в робототехнике - тоже придет с масштабом, возможно , нужна иерархия абстракций — высокий уровень планирования, средний — выбор объектов, низкий — моторный контроль. Пока это решается в реальном времени научным сообществом.
205 / Семантический подход к решению задач
Следующий шаг - лучшее следование сложным инструкциям. Робот мог бы не только выполнить задачу, но и уточнить детали. Это не только про взаимодействие, но и про реальное выполнение сложной работы.Это позволит роботу переиспользовать навыки. Он может подумать: какие из моих умений подходят для новой задачи? Это требует семантического знания из LLM и, возможно, дополнительного test-time compute. Мы над этим работаем.
Начало запуска флайвила > Срока достижения X
Это будет как с ИИ-ассистентами. Как только будет достигнут базовый уровень полезности, его выпустят в мир. И дальше он начнёт собирать опыт и становиться лучше. Я думаю не о дате завершения, а о дате запуска маховика. Когда он начнёт крутиться? Это может быть скоро. Чем уже задача, тем быстрее можно выйти в реальный мир. Мы уже исследуем, что именно робот может делать, чтобы начать этот маховик. Что касается того, что вам реально будет важно — однозначные годы, не десятилетия. Я надеюсь, что что-то будет уже через один-два года, но сложно сказать.Робототехника не принципиально отличается. Есть небольшие различия. Если робот работает вместе с людьми, возникают естественные сигналы обучения. Люди заинтересованы помогать, чтобы всё получилось. В физическом мире ошибки очевидны. Если ты ответил неправильно на вопрос — человек может не знать, что ответ неверен. Если ты неправильно сложил футболку — это видно. Можно проанализировать и сделать лучше. Я не думаю, что нужны радикально новые идеи. Нужен правильный синтез уже известных компонентов. Синтез сам по себе сложен. Это глубокая задача. Если повезёт и всё пойдёт по плану — разумно ожидать в пределах одного десятилетия. Если нужен медианный ответ — пять лет.
2025 / Повышение границ использования- > Масштабирование
Cовокупная выручка AI-компаний — порядка 20–30 миллиардов долларов в год, что намного меньше объёма всей интеллектуальной работы — 30–40 триллионов. LLM не делают всю разработку, потому что они хороши в определённой области, но у неё есть пределы. Эти пределы ежегодно расширяются. Нет причин думать, что с роботами будет иначе. Их область применения сначала будет небольшой: что-то они смогут делать очень хорошо, а где-то потребуется серьёзный человеческий надзор. Область будет расти. Это приведёт к росту продуктивности.
2025 / Долгосрочное снижение стоимости
Когда я начал заниматься робототехникой в 2014, я использовал PR2 за $400 000. Когда открыл лабораторию в Беркли, покупал руки по $30 000. Сейчас в Physical Intelligence каждая рука стоит около $3 000. Мы думаем, что их можно производить за малую часть этой суммы.
2025 / Выход в коммерцию - решение проблемы масштаба данных
Я всегда считал, что робототехника не так уж отличается от других областей ИИ — масштаб будет критичен.Но добраться до него сложно. У нас в отличии от автомобильной индустрии -нет миллионов машин, ездящих и собирающих данные. В отличии от LLM - нет интернета, куда генериуется миллионы контента ежедневно. Поэтому приходится быть изобретательными — деплоить роботов, заставлять их делать задачи, собирать собственные данные в масштабе. Нужно преодолеть «энергию активации», а потом запустить маховик, который будет постоянно улучшать систему. Думаю, что лучший способ создать маховик — выйти в коммерцию и работать в реальном мире.
2025 / Проблема композиционнсоти в робототехнике
Современные большие модели при достаточном масштабе начинают проявлять композиционность. Её нельзя «заставить» вручную — она появляется при масштабе и правильном распределении данных. В робототехнике сложнее — композиция движений не всегда даёт целостный контроль. Я не знаю точного ответа. Возможно решение проблемы в робототехнике - тоже придет с масштабом, возможно , нужна иерархия абстракций — высокий уровень планирования, средний — выбор объектов, низкий — моторный контроль. Пока это решается в реальном времени научным сообществом.
205 / Семантический подход к решению задач
Следующий шаг - лучшее следование сложным инструкциям. Робот мог бы не только выполнить задачу, но и уточнить детали. Это не только про взаимодействие, но и про реальное выполнение сложной работы.Это позволит роботу переиспользовать навыки. Он может подумать: какие из моих умений подходят для новой задачи? Это требует семантического знания из LLM и, возможно, дополнительного test-time compute. Мы над этим работаем.
Начало запуска флайвила > Срока достижения X
Это будет как с ИИ-ассистентами. Как только будет достигнут базовый уровень полезности, его выпустят в мир. И дальше он начнёт собирать опыт и становиться лучше. Я думаю не о дате завершения, а о дате запуска маховика. Когда он начнёт крутиться? Это может быть скоро. Чем уже задача, тем быстрее можно выйти в реальный мир. Мы уже исследуем, что именно робот может делать, чтобы начать этот маховик. Что касается того, что вам реально будет важно — однозначные годы, не десятилетия. Я надеюсь, что что-то будет уже через один-два года, но сложно сказать.Робототехника не принципиально отличается. Есть небольшие различия. Если робот работает вместе с людьми, возникают естественные сигналы обучения. Люди заинтересованы помогать, чтобы всё получилось. В физическом мире ошибки очевидны. Если ты ответил неправильно на вопрос — человек может не знать, что ответ неверен. Если ты неправильно сложил футболку — это видно. Можно проанализировать и сделать лучше. Я не думаю, что нужны радикально новые идеи. Нужен правильный синтез уже известных компонентов. Синтез сам по себе сложен. Это глубокая задача. Если повезёт и всё пойдёт по плану — разумно ожидать в пределах одного десятилетия. Если нужен медианный ответ — пять лет.
2025 / Повышение границ использования- > Масштабирование
Cовокупная выручка AI-компаний — порядка 20–30 миллиардов долларов в год, что намного меньше объёма всей интеллектуальной работы — 30–40 триллионов. LLM не делают всю разработку, потому что они хороши в определённой области, но у неё есть пределы. Эти пределы ежегодно расширяются. Нет причин думать, что с роботами будет иначе. Их область применения сначала будет небольшой: что-то они смогут делать очень хорошо, а где-то потребуется серьёзный человеческий надзор. Область будет расти. Это приведёт к росту продуктивности.
2025 / Долгосрочное снижение стоимости
Когда я начал заниматься робототехникой в 2014, я использовал PR2 за $400 000. Когда открыл лабораторию в Беркли, покупал руки по $30 000. Сейчас в Physical Intelligence каждая рука стоит около $3 000. Мы думаем, что их можно производить за малую часть этой суммы.
Sergey Levine [ Physical Intelligence ] / p.2
2019 / Достижение успеха в обобщение - большие данные + нейросети
Вы умеете завязывать шнурки и без усилий обобщаете этот навык на новые ситуации. Если у вас другие, даже странные ботинки, это не выбьет вас из колеи. У вас есть здравый смысл, который позволяет обобщать поведение. Но когда мы пытаемся систематизировать этот здравый смысл, выделить принципы — например, физику, инерцию, свойства объектов — оказывается, что реальный мир полон бесконечных исключений и частных случаев. И красивые принципы сами по себе не дают хорошего обобщения. Если посмотреть на области, где машины научились обобщать в открытом мире — компьютерное зрение, распознавание речи, обработка языка — мы увидим, что рецепт успеха не в том, чтобы формализовать принципы, а в том, чтобы использовать большие модели высокой ёмкости и обучать их на огромных объёмах данных. И вторую часть нельзя игнорировать. Успех — это не просто большие нейросети. Это большие нейросети плюс большие данные.
Chelsea Finn [ Physical Intelligence ]
2025 / Главная проблема робототехники- спецификация задач обучения
Проблема в том, что если вы хотите полностью решить конкретную робототехническую задачу, вам по сути нужно строить целую компанию вокруг этой задачи. Отдельная компания для логистики, для автоматизации мокрых лабораторий, для кухонных роботов, для хирургических роботов и так далее. Это очень сложно, потому что такой компании нужно разрабатывать новое железо, писать кастомный софт, проектировать уникальные двигательные примитивы под конкретное применение, обрабатывать крайние случаи. Всё приходится делать с нуля, если вы хотите решить задачу в робототехнике. В результате многие робототехнические компании не добились успеха во внедрении роботов в физический мир и в нашу повседневную жизнь. Мы хотим создать универсальную модель, которая позволит любому роботу выполнять любую задачу в любой среде. Мы считаем, что такая обобщённая модель может работать лучше и быть проще в использовании, чем специализированные решения — как это произошло с foundation-моделями в языке и других областях.
2025 / Прорыв робототехники
Я занимаюсь этим больше 10 лет. Раньше ничего не работало. Сейчас есть ощущение зрелости и готовности к реальному миру. Есть большой интерес к этой технологии, потому что она начинает реально работать.
2023 / Главная проблема робототехники - обобщение
Видео Boston Dynamics впечатляют, потому что движения выглядят сложными, и легко начать воспринимать робота как человека. Если человек делает такое, значит он умеет многое. Но в робототехнике такие демонстрации настроены под конкретную среду. Робота подготавливают под этот сценарий. Если изменить среду, начальную позицию или задачу, демонстрация перестает работать — робот падает. Главная проблема — обобщение. Роботы должны уметь работать в разных сценариях, с разными объектами и в разных средах. Сейчас они хорошо работают в контролируемых условиях, например на фабриках. Но дать им гибкость человеческих навыков — это сложная задача.
2019 / Достижение успеха в обобщение - большие данные + нейросети
Вы умеете завязывать шнурки и без усилий обобщаете этот навык на новые ситуации. Если у вас другие, даже странные ботинки, это не выбьет вас из колеи. У вас есть здравый смысл, который позволяет обобщать поведение. Но когда мы пытаемся систематизировать этот здравый смысл, выделить принципы — например, физику, инерцию, свойства объектов — оказывается, что реальный мир полон бесконечных исключений и частных случаев. И красивые принципы сами по себе не дают хорошего обобщения. Если посмотреть на области, где машины научились обобщать в открытом мире — компьютерное зрение, распознавание речи, обработка языка — мы увидим, что рецепт успеха не в том, чтобы формализовать принципы, а в том, чтобы использовать большие модели высокой ёмкости и обучать их на огромных объёмах данных. И вторую часть нельзя игнорировать. Успех — это не просто большие нейросети. Это большие нейросети плюс большие данные.
Chelsea Finn [ Physical Intelligence ]
2025 / Главная проблема робототехники- спецификация задач обучения
Проблема в том, что если вы хотите полностью решить конкретную робототехническую задачу, вам по сути нужно строить целую компанию вокруг этой задачи. Отдельная компания для логистики, для автоматизации мокрых лабораторий, для кухонных роботов, для хирургических роботов и так далее. Это очень сложно, потому что такой компании нужно разрабатывать новое железо, писать кастомный софт, проектировать уникальные двигательные примитивы под конкретное применение, обрабатывать крайние случаи. Всё приходится делать с нуля, если вы хотите решить задачу в робототехнике. В результате многие робототехнические компании не добились успеха во внедрении роботов в физический мир и в нашу повседневную жизнь. Мы хотим создать универсальную модель, которая позволит любому роботу выполнять любую задачу в любой среде. Мы считаем, что такая обобщённая модель может работать лучше и быть проще в использовании, чем специализированные решения — как это произошло с foundation-моделями в языке и других областях.
2025 / Прорыв робототехники
Я занимаюсь этим больше 10 лет. Раньше ничего не работало. Сейчас есть ощущение зрелости и готовности к реальному миру. Есть большой интерес к этой технологии, потому что она начинает реально работать.
2023 / Главная проблема робототехники - обобщение
Видео Boston Dynamics впечатляют, потому что движения выглядят сложными, и легко начать воспринимать робота как человека. Если человек делает такое, значит он умеет многое. Но в робототехнике такие демонстрации настроены под конкретную среду. Робота подготавливают под этот сценарий. Если изменить среду, начальную позицию или задачу, демонстрация перестает работать — робот падает. Главная проблема — обобщение. Роботы должны уметь работать в разных сценариях, с разными объектами и в разных средах. Сейчас они хорошо работают в контролируемых условиях, например на фабриках. Но дать им гибкость человеческих навыков — это сложная задача.
Chelsea Finn [ Physical Intelligence ] / p,2
2025 / Главный bottleneck робототехники- данные
Промышленная автоматизация дает огромное количество данных, но нет разнообразия. YouTube дает огромное количество данных, но не учимся писать, просто наблюдая, как пишут другие.Симуляция - есть масштаб, данные из симуляции нереалистичны и есть разрыв с реальностью. Мы пытались решить задачу по выгрузке белья из сушилки и сложить ее. Задача тяжёлая из-за вариативности одежды, её положения, смятости. Мы начали просто: складывание футболки одного бренда и размера, динамическое расправление одной футболки. Собрали данные через телеманипуляцию, обучили политику методом имитационного обучения. Модель — около 100 млн параметров, вход — изображения с камер, выход — целевые положения суставов, управление на частоте 50 Гц. Компания основана в марте 2024. Через пару месяцев мы получили политику, которая надёжно складывала одну футболку одного размера. Также тестировали динамические движения — важно точно соответствовать частоте управления. Затем усложнили: футболка не лежит ровно, а смята. Это резко усложняет задачу. Первые попытки выглядели частично разумно, но прогресса не было. Часто 0% успеха. В конце июня появились первые признаки прогресса: робот начал расправлять и складывать. Всё ещё медленно. Дальше — бельё в корзине, разные размеры, шорты. Опять 0% успеха. Мы думали: нужна память? Дольше обучать? Управление в пространстве эффектора вместо суставов? Проблемы калибровки? Больше условий? Иерархия? Более высокое разрешение? Интервенции в сборе данных? Мы всё это пробовали. Два-три месяца без результата. Прорыв случился, когда мы вдохновились языковыми моделями: вместо обучения политики на всех данных мы сделали предварительное обучение на всём датасете, а затем дообучили на тщательно отобранных, качественных демонстрациях. Он складывает V-образную футболку, хотя таких не было в дообучающем датасете. Складывает рубашки с пуговицами. Есть обобщение. Это показывает преимущество foundation-моделей, о котором я говорил: для разных задач не нужно начинать с нуля. Можно использовать предобучение на разных роботах и разных задачах. Мы также применили этот рецепт к роботам других компаний. Этого робота я никогда не видел лично. Они собрали данные, отправили их нам, мы дообучили модель на их данных. Мы даже не знали точно, как именно управляется их робот, как представляются его действия. Но после дообучения модель смогла управлять роботом, чтобы в данном случае приготовить кофе. Итоги: мы смогли независимо разработать предобучение и постобучение, разделить проблему, а затем объединить лучшее из обоих. Обучение на всех данных не работает для сложных задач; предобучение плюс постобучение на отобранных данных дает гораздо лучший результат. Аналогичный подход мы используем и при смене среды - Мы собирали данные в домах по всему Сан-Франциско, а также в разнообразных макетах кухонь и спален. В итоге более 100 уникальных комнат вошли в датасет, который стал частью более крупной смеси для предобучения. Мы арендовали три Airbnb, где никогда не были. Поставили робота на кухне. Попросили закрыть шкаф, убрать посуду. Он никогда не видел эти вилки и тарелки. Робот справился, несмотря на новые столешницы, мебель, объекты. Есть сбои. Успех около 80%.
2025 / Главный bottleneck робототехники- данные
Промышленная автоматизация дает огромное количество данных, но нет разнообразия. YouTube дает огромное количество данных, но не учимся писать, просто наблюдая, как пишут другие.Симуляция - есть масштаб, данные из симуляции нереалистичны и есть разрыв с реальностью. Мы пытались решить задачу по выгрузке белья из сушилки и сложить ее. Задача тяжёлая из-за вариативности одежды, её положения, смятости. Мы начали просто: складывание футболки одного бренда и размера, динамическое расправление одной футболки. Собрали данные через телеманипуляцию, обучили политику методом имитационного обучения. Модель — около 100 млн параметров, вход — изображения с камер, выход — целевые положения суставов, управление на частоте 50 Гц. Компания основана в марте 2024. Через пару месяцев мы получили политику, которая надёжно складывала одну футболку одного размера. Также тестировали динамические движения — важно точно соответствовать частоте управления. Затем усложнили: футболка не лежит ровно, а смята. Это резко усложняет задачу. Первые попытки выглядели частично разумно, но прогресса не было. Часто 0% успеха. В конце июня появились первые признаки прогресса: робот начал расправлять и складывать. Всё ещё медленно. Дальше — бельё в корзине, разные размеры, шорты. Опять 0% успеха. Мы думали: нужна память? Дольше обучать? Управление в пространстве эффектора вместо суставов? Проблемы калибровки? Больше условий? Иерархия? Более высокое разрешение? Интервенции в сборе данных? Мы всё это пробовали. Два-три месяца без результата. Прорыв случился, когда мы вдохновились языковыми моделями: вместо обучения политики на всех данных мы сделали предварительное обучение на всём датасете, а затем дообучили на тщательно отобранных, качественных демонстрациях. Он складывает V-образную футболку, хотя таких не было в дообучающем датасете. Складывает рубашки с пуговицами. Есть обобщение. Это показывает преимущество foundation-моделей, о котором я говорил: для разных задач не нужно начинать с нуля. Можно использовать предобучение на разных роботах и разных задачах. Мы также применили этот рецепт к роботам других компаний. Этого робота я никогда не видел лично. Они собрали данные, отправили их нам, мы дообучили модель на их данных. Мы даже не знали точно, как именно управляется их робот, как представляются его действия. Но после дообучения модель смогла управлять роботом, чтобы в данном случае приготовить кофе. Итоги: мы смогли независимо разработать предобучение и постобучение, разделить проблему, а затем объединить лучшее из обоих. Обучение на всех данных не работает для сложных задач; предобучение плюс постобучение на отобранных данных дает гораздо лучший результат. Аналогичный подход мы используем и при смене среды - Мы собирали данные в домах по всему Сан-Франциско, а также в разнообразных макетах кухонь и спален. В итоге более 100 уникальных комнат вошли в датасет, который стал частью более крупной смеси для предобучения. Мы арендовали три Airbnb, где никогда не были. Поставили робота на кухне. Попросили закрыть шкаф, убрать посуду. Он никогда не видел эти вилки и тарелки. Робот справился, несмотря на новые столешницы, мебель, объекты. Есть сбои. Успех около 80%.
Carolina Parada [ DeepMind ] / p.1
2025 / Обобщение - VLA + VLM
Мы начали внедрять большие языковые модели и foundation-модели в робототехнику, и внезапно открылась возможность, что роботы могут понимать людей. Понимать естественный язык. Интерпретировать сцену — то, что раньше приходилось жестко программировать. Это делает технологию гораздо более доступной для разных приложений. Затем мы ввели концепцию VLA — visual language action моделей, которые переносят знания из веб-концептов, которые робот физически никогда не видел, но при этом могут действовать. Вы можете сказать: «Собери все карандаши вместе», и робот поймет, что это значит, даже если никто не обучал его конкретной фразе «собери карандаши вместе». VLA — это visual language action модель. Обычно, когда говорят об ИИ, имеют в виду мультимодальные модели, VLM — visual language models. Такая модель понимает мир через зрение и язык и может рассуждать. Выход VLA — это действия, которые двигают робота. Выход VLM — это цепочка рассуждений и ответ на вопрос. Это позволяет переносить большое количество информации из семантического пространства, из мультимодальных и world-моделей в пространство действий, делая модель более универсальной. Это и позволяет создавать роботов общего назначения. Но все равно нужны прорывы, чтобы масштабироваться до уровня других foundation-моделей.
2025 / AGI в физическом мире
Мы всегда хотели решить общую задачу интеллекта — AGI. Моя команда сосредоточена на AGI в физическом мире.
2025 / Гуманоидные роботы для дома - последняя стадия
Дом — более поздний рубеж. Не потому что мы не сможем решать задачи в доме — технологии развиваются очень быстро, — а потому что дом требует более высокого уровня безопасности, приватности и защиты. Это займет время. Сначала логистика, производство, ритейл, затем здравоохранение — пространства более структурированные, но с большим разнообразием задач. Все простое там уже автоматизировано. В логистике остались сложные случаи.
2025 / Проблема обучения через наблюдение - foundation model
Мечта любого робототехника — чтобы робот мог смотреть видео или наблюдать за людьми, выполняющими задачи, и учиться из этого. Мы сами так учимся — наблюдая за другими. Раньше в команде все говорили: это случится после нашей карьеры. А сейчас мы обсуждаем — это через 5 лет или через 10? За последние годы мы внедрили LLM и VLM в робототехнику как инструменты планирования. Это позволило роботам понимать язык и абстрактные инструкции — например, разложить блоки по цветам в разные углы. Мы представили VLA — visual-language-action модель, позволяющую учиться на web-scale данных и переносить концепции в действия.
2025 / Обобщение - VLA + VLM
Сейчас робот — как двухлетний ребёнок: понимает мир, играет с объектами, знает концепции. Но если учить его, например, складывать оригами, ему нужно время практиковаться. После практики он сможет это делать. Но до повседневных пространств ещё далеко. Самое впечатляющее — это ситуации, которых робот раньше не видел. Даже мы не знали, справится ли он. И во многих случаях он справлялся. Один из примеров — слэм-данк. Команда принесла игрушки, которых робот не видел. Среди них — маленькое баскетбольное кольцо и мяч. Робота попросили сделать слэм-данк. Он никогда не видел баскетбол и эту игрушку. Через долю секунды он положил мяч в кольцо. Он опирался на понимание Gemini — что такое баскетбол и что такое слэм-данк — и выполнил правильное движение.
2025 / Обобщение - VLA + VLM
Мы начали внедрять большие языковые модели и foundation-модели в робототехнику, и внезапно открылась возможность, что роботы могут понимать людей. Понимать естественный язык. Интерпретировать сцену — то, что раньше приходилось жестко программировать. Это делает технологию гораздо более доступной для разных приложений. Затем мы ввели концепцию VLA — visual language action моделей, которые переносят знания из веб-концептов, которые робот физически никогда не видел, но при этом могут действовать. Вы можете сказать: «Собери все карандаши вместе», и робот поймет, что это значит, даже если никто не обучал его конкретной фразе «собери карандаши вместе». VLA — это visual language action модель. Обычно, когда говорят об ИИ, имеют в виду мультимодальные модели, VLM — visual language models. Такая модель понимает мир через зрение и язык и может рассуждать. Выход VLA — это действия, которые двигают робота. Выход VLM — это цепочка рассуждений и ответ на вопрос. Это позволяет переносить большое количество информации из семантического пространства, из мультимодальных и world-моделей в пространство действий, делая модель более универсальной. Это и позволяет создавать роботов общего назначения. Но все равно нужны прорывы, чтобы масштабироваться до уровня других foundation-моделей.
2025 / AGI в физическом мире
Мы всегда хотели решить общую задачу интеллекта — AGI. Моя команда сосредоточена на AGI в физическом мире.
2025 / Гуманоидные роботы для дома - последняя стадия
Дом — более поздний рубеж. Не потому что мы не сможем решать задачи в доме — технологии развиваются очень быстро, — а потому что дом требует более высокого уровня безопасности, приватности и защиты. Это займет время. Сначала логистика, производство, ритейл, затем здравоохранение — пространства более структурированные, но с большим разнообразием задач. Все простое там уже автоматизировано. В логистике остались сложные случаи.
2025 / Проблема обучения через наблюдение - foundation model
Мечта любого робототехника — чтобы робот мог смотреть видео или наблюдать за людьми, выполняющими задачи, и учиться из этого. Мы сами так учимся — наблюдая за другими. Раньше в команде все говорили: это случится после нашей карьеры. А сейчас мы обсуждаем — это через 5 лет или через 10? За последние годы мы внедрили LLM и VLM в робототехнику как инструменты планирования. Это позволило роботам понимать язык и абстрактные инструкции — например, разложить блоки по цветам в разные углы. Мы представили VLA — visual-language-action модель, позволяющую учиться на web-scale данных и переносить концепции в действия.
2025 / Обобщение - VLA + VLM
Сейчас робот — как двухлетний ребёнок: понимает мир, играет с объектами, знает концепции. Но если учить его, например, складывать оригами, ему нужно время практиковаться. После практики он сможет это делать. Но до повседневных пространств ещё далеко. Самое впечатляющее — это ситуации, которых робот раньше не видел. Даже мы не знали, справится ли он. И во многих случаях он справлялся. Один из примеров — слэм-данк. Команда принесла игрушки, которых робот не видел. Среди них — маленькое баскетбольное кольцо и мяч. Робота попросили сделать слэм-данк. Он никогда не видел баскетбол и эту игрушку. Через долю секунды он положил мяч в кольцо. Он опирался на понимание Gemini — что такое баскетбол и что такое слэм-данк — и выполнил правильное движение.
Carolina Parada [ DeepMind ] / p.2
2025 / Ловкость - Манипуляции
В прошлом году мы почти все усилия направили на ловкость. Это всё ещё активная область. Мы поняли: если позволить людям показывать роботу сложные действия через телеоперацию или «кукловождение», то человек получает дополнительную пару роботизированных рук и показывает задачу. Если это интуитивно, можно собрать много данных — робот выполняет задачу, управляемый человеком, но это роботизированные данные. В сочетании с трансформером и хорошим датасетом можно научить почти чему угодно. Это было неожиданно. Тогда мы увидели, что можем завязывать шнурки, складывать бельё, делать оригами.
2025 / Безопасность
Кроме этого, появляется семантическая физическая безопасность. Если вас просят поставить стакан на стол, вы не поставите его на край. Если видите предмет на полу, который может вызвать падение, вы его поднимете. Мы ввели новый набор данных — Asimov dataset. Он содержит множество сценариев возможных физических ситуаций и вопросы о том, какое действие безопасно. Он вдохновлён тремя законами Азимова: робот не должен причинять вред человеку; должен подчиняться приказам, если это не противоречит первому закону; должен защищать себя, если это не противоречит первым двум. Но эти законы недостаточны. Мы использовали реальные данные о травмах из больниц США, создали визуальные сценарии с вопросами о правильном действии и открыли их сообществу для тестирования моделей. Пример — нельзя класть мягкую игрушку на горячую плиту. Казалось бы, это очевидно, но такие случаи происходили. Конечно, невозможно составить исчерпывающий список. Поэтому мы используем ИИ для анализа широкого набора ситуаций травм из разных стран, формируем более сжатый список правил, а затем люди проверяют и обновляют его со временем.
2025 / Прорыв робототехники SOON
Сегодняшние роботы — как двухлетние дети. Талантливые, но в начале пути. Нужны прорывы в ловкости с обобщением — уметь быть одновременно точным и универсальным. Нужна способность учиться на работе. Они не выучат всё в лаборатории. Их нужно выпускать, давать сталкиваться с новым и становиться лучше со временем. Раньше мы спорили, случится ли это в нашей жизни. Теперь спорим — через пять или десять лет. Следующие два года будут определяющими. Ловкость, управление всем телом — всё начинает складываться в цельную систему. Да, нас ждёт взрыв робототехники, как был взрыв больших языковых моделей. И умение работать в физическом мире сделает сами ИИ-модели сильнее, потому что они начнут понимать пространство человеческого опыта. Всё начинает меняться.
2025 / Ловкость - Манипуляции
В прошлом году мы почти все усилия направили на ловкость. Это всё ещё активная область. Мы поняли: если позволить людям показывать роботу сложные действия через телеоперацию или «кукловождение», то человек получает дополнительную пару роботизированных рук и показывает задачу. Если это интуитивно, можно собрать много данных — робот выполняет задачу, управляемый человеком, но это роботизированные данные. В сочетании с трансформером и хорошим датасетом можно научить почти чему угодно. Это было неожиданно. Тогда мы увидели, что можем завязывать шнурки, складывать бельё, делать оригами.
2025 / Безопасность
Кроме этого, появляется семантическая физическая безопасность. Если вас просят поставить стакан на стол, вы не поставите его на край. Если видите предмет на полу, который может вызвать падение, вы его поднимете. Мы ввели новый набор данных — Asimov dataset. Он содержит множество сценариев возможных физических ситуаций и вопросы о том, какое действие безопасно. Он вдохновлён тремя законами Азимова: робот не должен причинять вред человеку; должен подчиняться приказам, если это не противоречит первому закону; должен защищать себя, если это не противоречит первым двум. Но эти законы недостаточны. Мы использовали реальные данные о травмах из больниц США, создали визуальные сценарии с вопросами о правильном действии и открыли их сообществу для тестирования моделей. Пример — нельзя класть мягкую игрушку на горячую плиту. Казалось бы, это очевидно, но такие случаи происходили. Конечно, невозможно составить исчерпывающий список. Поэтому мы используем ИИ для анализа широкого набора ситуаций травм из разных стран, формируем более сжатый список правил, а затем люди проверяют и обновляют его со временем.
2025 / Прорыв робототехники SOON
Сегодняшние роботы — как двухлетние дети. Талантливые, но в начале пути. Нужны прорывы в ловкости с обобщением — уметь быть одновременно точным и универсальным. Нужна способность учиться на работе. Они не выучат всё в лаборатории. Их нужно выпускать, давать сталкиваться с новым и становиться лучше со временем. Раньше мы спорили, случится ли это в нашей жизни. Теперь спорим — через пять или десять лет. Следующие два года будут определяющими. Ловкость, управление всем телом — всё начинает складываться в цельную систему. Да, нас ждёт взрыв робототехники, как был взрыв больших языковых моделей. И умение работать в физическом мире сделает сами ИИ-модели сильнее, потому что они начнут понимать пространство человеческого опыта. Всё начинает меняться.