Forwarded from Zavtracast (Dmitriy Zombak)
Media is too big
VIEW IN TELEGRAM
Учёные из Google Deepmind представили свою работу по созданию нейросети SIMA (Scalable Instructable Multiworld Agent, Масштабируемый Инструктируемый Многомировой Агент).
Цель SIMA - следовать инструкциям людей на естественном языке для выполнения задач в различных условиях видеоигр. Ученые объясняют её создание так: "как и в реальном мире, виртуальные миры в видеоиграх представляют собой насыщенную обучающую среду с быстро меняющейся в реальном времени обстановкой и целями".
SIMA - это ИИ общего назначения для виртуальных 3D-миров. Эта работа не направлена на достижение высоких результатов в таких играх, а скорее научится взаимодействовать с миром в целом. Научиться играть даже в одну видеоигру - это уже технический подвиг для систем ИИ, но обучение следовать инструкциям в различных игровых ситуациях может открыть более полезные применения ИИ для любой среды.
Пока что SIMA учится на девяти разных видеоиграх. Одна из них это No Man's Sky от студии Hello Games, а вторая - Teardown от Tuxedo Labs. На скринах можно заметить также Valheim, Hydroneer, Wobbly Life, Satisfactory и Goat Simulator 3.
Нейросеть обучают целому ряду навыков, которые ей нужно освоить: от простой навигации и использования меню до добычи ресурсов, полета на космическом корабле или же крафтинга.
Также ученые сделали четыре исследовательские среды на движке Unity, где агентам нужно строить скульптуры из строительных блоков, что проверяет их умение манипулировать объектами и интуитивное понимание физического мира.
Обучается она при этом на стримах людей-игроков, причём один игрок давал указания другому. Также нейросети наблюдают за тем, как игроки играют свободно, без указаний.
Текущая версия SIMA оценивается по 600 базовым навыкам, включая навигацию ("повернуть налево"), взаимодействие с объектами ("подняться по лестнице") и использование меню ("открыть карту").
Результаты работы SIMA демонстрируют потенциал для разработки новой волны универсальных, управляемых голосом ИИ-агентов.
Исследование находится на ранней стадии.
@zavtracast
Цель SIMA - следовать инструкциям людей на естественном языке для выполнения задач в различных условиях видеоигр. Ученые объясняют её создание так: "как и в реальном мире, виртуальные миры в видеоиграх представляют собой насыщенную обучающую среду с быстро меняющейся в реальном времени обстановкой и целями".
SIMA - это ИИ общего назначения для виртуальных 3D-миров. Эта работа не направлена на достижение высоких результатов в таких играх, а скорее научится взаимодействовать с миром в целом. Научиться играть даже в одну видеоигру - это уже технический подвиг для систем ИИ, но обучение следовать инструкциям в различных игровых ситуациях может открыть более полезные применения ИИ для любой среды.
Пока что SIMA учится на девяти разных видеоиграх. Одна из них это No Man's Sky от студии Hello Games, а вторая - Teardown от Tuxedo Labs. На скринах можно заметить также Valheim, Hydroneer, Wobbly Life, Satisfactory и Goat Simulator 3.
Нейросеть обучают целому ряду навыков, которые ей нужно освоить: от простой навигации и использования меню до добычи ресурсов, полета на космическом корабле или же крафтинга.
Также ученые сделали четыре исследовательские среды на движке Unity, где агентам нужно строить скульптуры из строительных блоков, что проверяет их умение манипулировать объектами и интуитивное понимание физического мира.
Обучается она при этом на стримах людей-игроков, причём один игрок давал указания другому. Также нейросети наблюдают за тем, как игроки играют свободно, без указаний.
Текущая версия SIMA оценивается по 600 базовым навыкам, включая навигацию ("повернуть налево"), взаимодействие с объектами ("подняться по лестнице") и использование меню ("открыть карту").
Результаты работы SIMA демонстрируют потенциал для разработки новой волны универсальных, управляемых голосом ИИ-агентов.
Исследование находится на ранней стадии.
@zavtracast
🔥15👍2❤1
This media is not supported in your browser
VIEW IN TELEGRAM
Немного проклятого вам с утра пораньше
🔥29😁9😢2🎉2
Vision-RWKV
Неплохо, показывает себя наравне с ViT схожего размера (2-я vs 3-я картинка), но при этом отлично скейлится на большие разрешения, не улетая по памяти и времени инференса в космос.
И все это на базе RWKV-2, так что интересно посмотреть, как оно будет на RWKV-6, которую доучат через месяц.
Хочу аналог sora на D-VRWKV вместо DiT!
github
paper
@derplearning
Неплохо, показывает себя наравне с ViT схожего размера (2-я vs 3-я картинка), но при этом отлично скейлится на большие разрешения, не улетая по памяти и времени инференса в космос.
И все это на базе RWKV-2, так что интересно посмотреть, как оно будет на RWKV-6, которую доучат через месяц.
Хочу аналог sora на D-VRWKV вместо DiT!
github
paper
@derplearning
👍15🤩6🔥2
Forwarded from Denis Sexy IT 🤖
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
Media is too big
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
Media is too big
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
Все уже наверное слышали про генератор песен suno.ai — но я тут обнаружил, что если скармливать туда стишки-пирожки (привет 2011) и выбирать разные стили металла, то получаются дико легендарные баллады, сделал вам подборку 🍊
Теперь моим планом «Б» будет выступление глэм рок группой на свадьбах
Теперь моим планом «Б» будет выступление глэм рок группой на свадьбах
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥25😁10🤩2❤1
Forwarded from эйай ньюз
Media is too big
VIEW IN TELEGRAM
Mapillary - уличные карты на стеройдах
Думаю, что не все слышали о картах Mapillary (да я и сам не знал, что есть такой отдельный продукт).
Mapillary - это сервис который позволяет просматривать виды улиц, тыкнув на карту, основываясь на краудсорсинговых видео и фотках. Фирма существует с 2013 году и была приобретена Meta в 2020 году.
Mapillary предлагает изображения улиц, аналогичные Google Street View, причем позволяет пользователям загружать фотографии с любой камеры и использовать их для совместного создания вида улиц по всему миру. То есть там можно прогуляться не только по автодорогам, как в Google Street View, но и по мелким пешеходным улицам, т.к. любой пользователь может загрузить свое видео или фото.
Под капотом сервиса бегают алгоритмы CV, для создания консистентного экспириенса прогулки по улицам и склеивания фоток. А вчера на карту добавили еще и Нерфы! То есть любой может отснять локацию, следуя инструкциям, и через пару дней на карте появится 3D нерф, на основе его снимков!
Я снял для вас короткий видос о том, как работает апка. Вот тут можно потыкаться в карту самому https://mapillary.com/app
@ai_newz
Думаю, что не все слышали о картах Mapillary (да я и сам не знал, что есть такой отдельный продукт).
Mapillary - это сервис который позволяет просматривать виды улиц, тыкнув на карту, основываясь на краудсорсинговых видео и фотках. Фирма существует с 2013 году и была приобретена Meta в 2020 году.
Mapillary предлагает изображения улиц, аналогичные Google Street View, причем позволяет пользователям загружать фотографии с любой камеры и использовать их для совместного создания вида улиц по всему миру. То есть там можно прогуляться не только по автодорогам, как в Google Street View, но и по мелким пешеходным улицам, т.к. любой пользователь может загрузить свое видео или фото.
Под капотом сервиса бегают алгоритмы CV, для создания консистентного экспириенса прогулки по улицам и склеивания фоток. А вчера на карту добавили еще и Нерфы! То есть любой может отснять локацию, следуя инструкциям, и через пару дней на карте появится 3D нерф, на основе его снимков!
Я снял для вас короткий видос о том, как работает апка. Вот тут можно потыкаться в карту самому https://mapillary.com/app
@ai_newz
🔥26👍6🤩2
https://github.com/xai-org/grok
https://github.com/xai-org/grok-1 (уже переименовали)
https://github.com/xai-org/grok-1 (уже переименовали)
magnet:?xt=urn:btih:5f96d43576e3d386c9ba65b883210a393b68210e&tr=https%3A%2F%2Facademictorrents.com%2Fannounce.php&tr=udp%3A%2F%2Ftracker.coppersurfer.tk%3A6969&tr=udp%3A%2F%2Ftracker.opentrackr.org%3A1337%2Fannounce
🫡18🔥6👀5
Forwarded from ЭйАйЛера
This media is not supported in your browser
VIEW IN TELEGRAM
StyleGaussian новая разработка, расширяющая возможности работы с 3D-сканами — перенос стиля с картинки на 3D среду. То есть можно отсканировать окружающий мир своим смартфоном и дальше красить как угодно.
Пока без демок, только с примерами и кодом. Выглядит пока страшненько, но все когда-то выглядело страшненько.
Пока без демок, только с примерами и кодом. Выглядит пока страшненько, но все когда-то выглядело страшненько.
❤9👍4
Forwarded from эйай ньюз
Media is too big
VIEW IN TELEGRAM
Чел в кожаной куртке : “ChatGPT момент для роботов может быть уже за углом”
На вчерашнем ивенте Дженcен Хуанг, CEO Nvidia, представил новые GPU, а также анонсировал GR00T - Generalist Robot 00 Technology.
GR00T (отсылка к Марвелу) позиционируется как foundation модель для будущих роботов, от простых манипуляторов до робо-гуманоидов. Моделька способна обрабатывать мультимодальные данные, такие как видео, текст и другие сенсоры, выдавая действия робота в ответ на различные ситуации. В придачу с ним можно разговаривать и голосом – LLM-ка все осилит. Кроме того, GR00T может обучаться эмулировать действия, наблюдая за человеком.
Однако данных для тренировки таких роботов не наберешься, как я уже говорил, например здесь. Поэтому Nvidia представила обновленный Isaac Lab – среду для обучения роботов c помощью RL в симуляции, максимально приближенной к реальному миру.
Так например натренировали Isaac Manipulator – это умная роборука. Эта штука может выполнять простые задания получая на вход текстовые указания и на лету адаптироваться к изменяющимся условиям, находя новое решение для задачи. Скоро на заводах тоже пройдут лэйофы, ведь люди больше не будут нужны : )
А гоняется моделька GR00T на мобильном GPU-чипе Jetson Thor (800 TFlops в FP8), специально разработанном для управления роботом с минимальной задержкой.
Похоже, Nvidia хорошо так притопила в разработке роботов. В ближайший год стоит ждать больше и больше новостей про умных гуманоидов.
@ai_newz
На вчерашнем ивенте Дженcен Хуанг, CEO Nvidia, представил новые GPU, а также анонсировал GR00T - Generalist Robot 00 Technology.
GR00T (отсылка к Марвелу) позиционируется как foundation модель для будущих роботов, от простых манипуляторов до робо-гуманоидов. Моделька способна обрабатывать мультимодальные данные, такие как видео, текст и другие сенсоры, выдавая действия робота в ответ на различные ситуации. В придачу с ним можно разговаривать и голосом – LLM-ка все осилит. Кроме того, GR00T может обучаться эмулировать действия, наблюдая за человеком.
Однако данных для тренировки таких роботов не наберешься, как я уже говорил, например здесь. Поэтому Nvidia представила обновленный Isaac Lab – среду для обучения роботов c помощью RL в симуляции, максимально приближенной к реальному миру.
Так например натренировали Isaac Manipulator – это умная роборука. Эта штука может выполнять простые задания получая на вход текстовые указания и на лету адаптироваться к изменяющимся условиям, находя новое решение для задачи. Скоро на заводах тоже пройдут лэйофы, ведь люди больше не будут нужны : )
А гоняется моделька GR00T на мобильном GPU-чипе Jetson Thor (800 TFlops в FP8), специально разработанном для управления роботом с минимальной задержкой.
Похоже, Nvidia хорошо так притопила в разработке роботов. В ближайший год стоит ждать больше и больше новостей про умных гуманоидов.
@ai_newz
🔥12👀4👍3😱2🎉1🤩1
Forwarded from Нейронавт | Нейросети в творчестве
AnimateDiff Lightning
в 10 раз быстрее оригинального AnimateDiff.
Инструкции по использованию в ComfyUI прилагаются
#text2video
в 10 раз быстрее оригинального AnimateDiff.
Инструкции по использованию в ComfyUI прилагаются
#text2video
👍12🔥7