SIMA 2
Игровой ИИ-агент от Google DeepMind на базе Gemini
Не просто следует базовым инструкциям, а способен мыслить, понимать и предпринимать действия в интерактивных средах.
Автономный, но ему можно давать указания.
Обучен достигать высокоуровневых целей в разнообразных играх, способен к сложному рассуждению и самостоятельному планированию задач
Его поместили в мир сгенерированный Genie 3, см видео с бабочкой
Ну и конечно только хвастаются а попробовать не дают
#gaming #agent #research #news
Игровой ИИ-агент от Google DeepMind на базе Gemini
Не просто следует базовым инструкциям, а способен мыслить, понимать и предпринимать действия в интерактивных средах.
Автономный, но ему можно давать указания.
Обучен достигать высокоуровневых целей в разнообразных играх, способен к сложному рассуждению и самостоятельному планированию задач
Его поместили в мир сгенерированный Genie 3, см видео с бабочкой
Ну и конечно только хвастаются а попробовать не дают
#gaming #agent #research #news
🔥6👍1😁1
TubeletGraph: Tracking and Understanding Object Transformations
Трекер объектов на видео на языковой модели.
Отслеживает объекты и их трасформации на видео, составляет граф всех трасформаций и решает какие данные включить в результат. Умеет отслеживать исчезающие и вновь появляющиеся объекты.
Код
#tracking #segmentation
Трекер объектов на видео на языковой модели.
Отслеживает объекты и их трасформации на видео, составляет граф всех трасформаций и решает какие данные включить в результат. Умеет отслеживать исчезающие и вновь появляющиеся объекты.
Код
#tracking #segmentation
👍14❤1
This media is not supported in your browser
VIEW IN TELEGRAM
Steve
Мод для Minecraft, добавляет в игру ИИ-агентов. Агенты добывают ресурсы, строят, сражаются и исследуют мир.
При работе нескольких агентов одновременно система координирует их действия, чтобы избежать конфликтов и оптимизировать распределение задач.
Под капотом Groq, но можно использовать OpenAI или Gemini
#gaming #agent
Мод для Minecraft, добавляет в игру ИИ-агентов. Агенты добывают ресурсы, строят, сражаются и исследуют мир.
При работе нескольких агентов одновременно система координирует их действия, чтобы избежать конфликтов и оптимизировать распределение задач.
Под капотом Groq, но можно использовать OpenAI или Gemini
#gaming #agent
❤9🤷♂2😁2🍾2👀1
This media is not supported in your browser
VIEW IN TELEGRAM
Time-to-Move: Training-Free Motion Controlled Video Generation via Dual-Clock Denoising
Контроль движения при генерации видео, в том числе контроль камеры
Прикручено к WAN 2.2, SVD, CogVideoX
Код
#wan22 #motioncontrol #conditioning
Контроль движения при генерации видео, в том числе контроль камеры
Прикручено к WAN 2.2, SVD, CogVideoX
Код
#wan22 #motioncontrol #conditioning
🔥14👍3👀2
Depth Anything 3: Recovering the Visual Space from Any Views
Новая версия генератора глубины от ByteDance.
Только теперь это реконструктор 3D сцен на гауссианах с качественной геометрией по любому количеству входных данных. Ну и глубину конечно тоже выдает. Качество карт глубины и оценку положения камеры улучшили.
Код
HF
Демо
#video2depth #video2scene #image2depth #image2scene #video2camera #gaussian
Новая версия генератора глубины от ByteDance.
Только теперь это реконструктор 3D сцен на гауссианах с качественной геометрией по любому количеству входных данных. Ну и глубину конечно тоже выдает. Качество карт глубины и оценку положения камеры улучшили.
Код
HF
Демо
#video2depth #video2scene #image2depth #image2scene #video2camera #gaussian
👍8🔥5
Нейронавт | Нейросети в творчестве
SIMA 2 Игровой ИИ-агент от Google DeepMind на базе Gemini Не просто следует базовым инструкциям, а способен мыслить, понимать и предпринимать действия в интерактивных средах. Автономный, но ему можно давать указания. Обучен достигать высокоуровневых целей…
This media is not supported in your browser
VIEW IN TELEGRAM
Lumine: Building Generalist Agents in 3D Open Worlds
ByteDance тоже показали своего игрового агента на базе Qwen2-VL-7B. И тоже только показали🤩
Lumine обрабатывает видеопоток с экрана и генерирует команды для клавиатуры и мыши в реальном времени. Может играть в 3D игры часами, проходя сложные миссии.
— Это вы что же, и играть за меня будете?
— Ага!
#reserach #agent #gaming
ByteDance тоже показали своего игрового агента на базе Qwen2-VL-7B. И тоже только показали
Lumine обрабатывает видеопоток с экрана и генерирует команды для клавиатуры и мыши в реальном времени. Может играть в 3D игры часами, проходя сложные миссии.
— Это вы что же, и играть за меня будете?
— Ага!
#reserach #agent #gaming
Please open Telegram to view this post
VIEW IN TELEGRAM
👍6🤔1
FlashVSR-v1.1
Обновился апскейлер-реставратор видео на базе WAN
Улучшили стабильность и точность
———————————————————
Wan2.2-T2V-A14B-4steps-lora-rank64-Seko-V2.0
Обновилась ускорялка WAN 2,2
Спасибо @m_franz
#upscale #upscalevideo #videorestoration #superresolution #workflow #realtime #lora #optimization
Обновился апскейлер-реставратор видео на базе WAN
Улучшили стабильность и точность
———————————————————
Wan2.2-T2V-A14B-4steps-lora-rank64-Seko-V2.0
Обновилась ускорялка WAN 2,2
Спасибо @m_franz
#upscale #upscalevideo #videorestoration #superresolution #workflow #realtime #lora #optimization
huggingface.co
JunhaoZhuang/FlashVSR-v1.1 · Hugging Face
We’re on a journey to advance and democratize artificial intelligence through open source and open science.
👍15
Qwen DeepResearch 2511
Обновили инструмент для глубокого исследования
Два режима работы: обычный (эффективный и универсальный) и продвинутый (для более тщательного анализа)
— позволяет загружать документы и изображения для анализа
— контролирует формат отчётов: количество слов, абзацы, содержание
— повышена надёжность цитирования
— более плавный и отзывчивый пользовательский интерфейс.
Попробовать в чате
#deepresearch #assistant
Обновили инструмент для глубокого исследования
Два режима работы: обычный (эффективный и универсальный) и продвинутый (для более тщательного анализа)
— позволяет загружать документы и изображения для анализа
— контролирует формат отчётов: количество слов, абзацы, содержание
— повышена надёжность цитирования
— более плавный и отзывчивый пользовательский интерфейс.
Попробовать в чате
#deepresearch #assistant
👍7❤1
PRX
Генератор картинок уровня примерно SD 1.5 от Photoroom
Правда, старшая модель разрешением 1024, это как у SDXL. Но может ли она выдать картинку качества SDXL?
Немножко может в NSFW, как SD1.5 без файтюнов, см наш чат
Главная особенность в том, что
HF
Демо 1024
Спасибо @EvgenyiPerm
#text2image
Генератор картинок уровня примерно SD 1.5 от Photoroom
Правда, старшая модель разрешением 1024, это как у SDXL. Но может ли она выдать картинку качества SDXL?
Немножко может в NSFW, как SD1.5 без файтюнов, см наш чат
Главная особенность в том, что
разработчики стремятся сделать открытым не только конечный продукт, но и весь процесс создания: делиться опытом, ошибками и деталями, которые обычно остаются скрытыми.
HF
Демо 1024
Спасибо @EvgenyiPerm
#text2image
👍10❤1