Depth Anything 3: Recovering the Visual Space from Any Views
Новая версия генератора глубины от ByteDance.
Только теперь это реконструктор 3D сцен на гауссианах с качественной геометрией по любому количеству входных данных. Ну и глубину конечно тоже выдает. Качество карт глубины и оценку положения камеры улучшили.
Код
HF
Демо
#video2depth #video2scene #image2depth #image2scene #video2camera #gaussian
Новая версия генератора глубины от ByteDance.
Только теперь это реконструктор 3D сцен на гауссианах с качественной геометрией по любому количеству входных данных. Ну и глубину конечно тоже выдает. Качество карт глубины и оценку положения камеры улучшили.
Код
HF
Демо
#video2depth #video2scene #image2depth #image2scene #video2camera #gaussian
👍8🔥5
Нейронавт | Нейросети в творчестве
SIMA 2 Игровой ИИ-агент от Google DeepMind на базе Gemini Не просто следует базовым инструкциям, а способен мыслить, понимать и предпринимать действия в интерактивных средах. Автономный, но ему можно давать указания. Обучен достигать высокоуровневых целей…
This media is not supported in your browser
VIEW IN TELEGRAM
Lumine: Building Generalist Agents in 3D Open Worlds
ByteDance тоже показали своего игрового агента на базе Qwen2-VL-7B. И тоже только показали🤩
Lumine обрабатывает видеопоток с экрана и генерирует команды для клавиатуры и мыши в реальном времени. Может играть в 3D игры часами, проходя сложные миссии.
— Это вы что же, и играть за меня будете?
— Ага!
#reserach #agent #gaming
ByteDance тоже показали своего игрового агента на базе Qwen2-VL-7B. И тоже только показали
Lumine обрабатывает видеопоток с экрана и генерирует команды для клавиатуры и мыши в реальном времени. Может играть в 3D игры часами, проходя сложные миссии.
— Это вы что же, и играть за меня будете?
— Ага!
#reserach #agent #gaming
Please open Telegram to view this post
VIEW IN TELEGRAM
👍6🤔1
FlashVSR-v1.1
Обновился апскейлер-реставратор видео на базе WAN
Улучшили стабильность и точность
———————————————————
Wan2.2-T2V-A14B-4steps-lora-rank64-Seko-V2.0
Обновилась ускорялка WAN 2,2
Спасибо @m_franz
#upscale #upscalevideo #videorestoration #superresolution #workflow #realtime #lora #optimization
Обновился апскейлер-реставратор видео на базе WAN
Улучшили стабильность и точность
———————————————————
Wan2.2-T2V-A14B-4steps-lora-rank64-Seko-V2.0
Обновилась ускорялка WAN 2,2
Спасибо @m_franz
#upscale #upscalevideo #videorestoration #superresolution #workflow #realtime #lora #optimization
huggingface.co
JunhaoZhuang/FlashVSR-v1.1 · Hugging Face
We’re on a journey to advance and democratize artificial intelligence through open source and open science.
👍15
Qwen DeepResearch 2511
Обновили инструмент для глубокого исследования
Два режима работы: обычный (эффективный и универсальный) и продвинутый (для более тщательного анализа)
— позволяет загружать документы и изображения для анализа
— контролирует формат отчётов: количество слов, абзацы, содержание
— повышена надёжность цитирования
— более плавный и отзывчивый пользовательский интерфейс.
Попробовать в чате
#deepresearch #assistant
Обновили инструмент для глубокого исследования
Два режима работы: обычный (эффективный и универсальный) и продвинутый (для более тщательного анализа)
— позволяет загружать документы и изображения для анализа
— контролирует формат отчётов: количество слов, абзацы, содержание
— повышена надёжность цитирования
— более плавный и отзывчивый пользовательский интерфейс.
Попробовать в чате
#deepresearch #assistant
👍7❤1
PRX
Генератор картинок уровня примерно SD 1.5 от Photoroom
Правда, старшая модель разрешением 1024, это как у SDXL. Но может ли она выдать картинку качества SDXL?
Немножко может в NSFW, как SD1.5 без файтюнов, см наш чат
Главная особенность в том, что
HF
Демо 1024
Спасибо @EvgenyiPerm
#text2image
Генератор картинок уровня примерно SD 1.5 от Photoroom
Правда, старшая модель разрешением 1024, это как у SDXL. Но может ли она выдать картинку качества SDXL?
Немножко может в NSFW, как SD1.5 без файтюнов, см наш чат
Главная особенность в том, что
разработчики стремятся сделать открытым не только конечный продукт, но и весь процесс создания: делиться опытом, ошибками и деталями, которые обычно остаются скрытыми.
HF
Демо 1024
Спасибо @EvgenyiPerm
#text2image
👍10❤1
Music Flamingo: Scaling Music Understanding in Audio Language Models
Аудиоязыковая модель от NVIDIA для понимания музыки
Обрабатывает аудиозаписи длительностью до 15 минут с контекстным окном в 24 тысячи токенов
Возможности модели:
— делает детальные описания треков, включая жанр, темп, тональность, инструменты и настроение
— отвечает на вопросы о структуре, вокале, лирических темах и решениях в микшировании
— распознаёт инструменты и жанры
— транскрибирует тексты песен на разных языках. То есть это еще и транскрибатор
— анализирует музыку с учётом культурного контекста.
Гитхаб
Демо
HF
#captioning #asr #ALM #music2text #audio2text #assistant
Аудиоязыковая модель от NVIDIA для понимания музыки
Обрабатывает аудиозаписи длительностью до 15 минут с контекстным окном в 24 тысячи токенов
Возможности модели:
— делает детальные описания треков, включая жанр, темп, тональность, инструменты и настроение
— отвечает на вопросы о структуре, вокале, лирических темах и решениях в микшировании
— распознаёт инструменты и жанры
— транскрибирует тексты песен на разных языках. То есть это еще и транскрибатор
— анализирует музыку с учётом культурного контекста.
Гитхаб
Демо
HF
#captioning #asr #ALM #music2text #audio2text #assistant
👍9🔥6❤1
Нейронавт | Нейросети в творчестве
Ну подумаешь - российский робот упал на презентации. Ахаха. хаха 😐 . Так же несмешно как и человеческие падения. Вообще непонятно зачем это постят, никак не тянет на новость. У всех роботы падали, и у Маска тоже, и ничего стыдного в этом нет. Вот если бы он…
This media is not supported in your browser
VIEW IN TELEGRAM
😁38👍3🍾3😱1
This media is not supported in your browser
VIEW IN TELEGRAM
alphaxiv.org
Инструмент для удобного чтения статей на arxiv.org
Меняем в адресной строке статьи
Есть чат с ИИ, можно задавать вопросы по статье
#tools #assistant
Инструмент для удобного чтения статей на arxiv.org
Меняем в адресной строке статьи
arxiv на quickarXiv и читаем выжимкуЕсть чат с ИИ, можно задавать вопросы по статье
#tools #assistant
👍13🔥5
Нейронавт | Нейросети в творчестве
alphaxiv.org Инструмент для удобного чтения статей на arxiv.org Меняем в адресной строке статьи arxiv на quickarXiv и читаем выжимку Есть чат с ИИ, можно задавать вопросы по статье #tools #assistant
This media is not supported in your browser
VIEW IN TELEGRAM
Code wiki
Новый инструмент от Google для работы с кодом
Открываем codewiki.google, закидываем ссылку на репозиторий и получаем документацию со схемами.
Есть чат с Gemini по репозиторию
Изменения в репозитории отражаются в документации на codewiki
Спасибо @EvgenyiPerm
#assistant #tools
Новый инструмент от Google для работы с кодом
Открываем codewiki.google, закидываем ссылку на репозиторий и получаем документацию со схемами.
Есть чат с Gemini по репозиторию
Изменения в репозитории отражаются в документации на codewiki
Спасибо @EvgenyiPerm
#assistant #tools
👍10❤1