Forwarded from Метаверсище и ИИще (Sergey Tsyptsyn ️️)
Media is too big
VIEW IN TELEGRAM
RTFM: A Real-Time Frame Model
Про генерацию миров от WorldLab я уже писал и не раз.
Но тут они выкатили новое интерактивное демо, которое нельзя не попробовать.
Главные фишки: бесконечный контекст(память) и нефотореалистичные "скины".
Для начала, идете сюда и пробуете:
https://rtfm.worldlabs.ai/
Там пока нельзя вгрузить свое изображение, но можно попробовать картинки из библиотеки.
На входе ОДНО изображение и промпт - на выходе - целый мир.
Потом читаете тут:
https://www.worldlabs.ai/blog/rtfm
По мере развития этой технологии становится ясно одно: генеративные модели мира будут требовать очень больших вычислительных ресурсов, гораздо больше, чем современные LLM. Если мы наивно применим современные видеоархитектуры к этой задаче, то для генерации интерактивного 4K-видеопотока со скоростью 60 кадров в секунду потребуется производить более 100 тысяч токенов в секунду (примерно столько же, сколько составляет длина романа «Франкенштейн» или первой книги о Гарри Поттере); чтобы эти генерации сохранялись в течение часового (или дольше) взаимодействия, необходимо обрабатывать контексты, превышающие 100 миллионов токенов. Это невозможно и экономически нецелесообразно с учетом современной вычислительной инфраструктуры.
Но WorldLab сделал так, что RTFM может крутиться на ОДНОЙ H100, обеспечивая интерактивный опыт.
С бесконечным контекстом они придумали интересный трюк: они не запоминают все сгенерированные кадры (экономя память), а лишь углы камеры и метадату плюс "некоторое" количество кадров вокруг текущего ракурса (кеш генераций), при достаточно большой смене ракурса перегенерируют заново.
Модель обрабатывает широкий спектр типов сцен, визуальных стилей и эффектов, включая отражения, полированные поверхности, тени и блики.
На видео в начале каждого плана можно заметить небольшие артефакты, но на общем фоне и с учетом красоты работы это мелочи.
@cgevent
Про генерацию миров от WorldLab я уже писал и не раз.
Но тут они выкатили новое интерактивное демо, которое нельзя не попробовать.
Главные фишки: бесконечный контекст(память) и нефотореалистичные "скины".
Для начала, идете сюда и пробуете:
https://rtfm.worldlabs.ai/
Там пока нельзя вгрузить свое изображение, но можно попробовать картинки из библиотеки.
На входе ОДНО изображение и промпт - на выходе - целый мир.
Потом читаете тут:
https://www.worldlabs.ai/blog/rtfm
По мере развития этой технологии становится ясно одно: генеративные модели мира будут требовать очень больших вычислительных ресурсов, гораздо больше, чем современные LLM. Если мы наивно применим современные видеоархитектуры к этой задаче, то для генерации интерактивного 4K-видеопотока со скоростью 60 кадров в секунду потребуется производить более 100 тысяч токенов в секунду (примерно столько же, сколько составляет длина романа «Франкенштейн» или первой книги о Гарри Поттере); чтобы эти генерации сохранялись в течение часового (или дольше) взаимодействия, необходимо обрабатывать контексты, превышающие 100 миллионов токенов. Это невозможно и экономически нецелесообразно с учетом современной вычислительной инфраструктуры.
Но WorldLab сделал так, что RTFM может крутиться на ОДНОЙ H100, обеспечивая интерактивный опыт.
С бесконечным контекстом они придумали интересный трюк: они не запоминают все сгенерированные кадры (экономя память), а лишь углы камеры и метадату плюс "некоторое" количество кадров вокруг текущего ракурса (кеш генераций), при достаточно большой смене ракурса перегенерируют заново.
Модель обрабатывает широкий спектр типов сцен, визуальных стилей и эффектов, включая отражения, полированные поверхности, тени и блики.
На видео в начале каждого плана можно заметить небольшие артефакты, но на общем фоне и с учетом красоты работы это мелочи.
@cgevent
👍6👎1
Media is too big
VIEW IN TELEGRAM
UrbanVerse: Scaling Urban Simulation by Watching City-Tour Videos
3D миры здоровогочеловека робота
UrbanVerse преобразует реальные городские сцены из видеопрогулок по городам в интерактивные симуляционные среды с учётом физики. Это позволяет масштабировать обучение роботов в городских пространствах и улучшать их адаптацию к реальным условиям
Из некалиброваных видео извлекает семантические макеты.
На основе одного видео и макета генерирует несколько разнообразных цифровых сцен.
Ну и у них есть свой датасет UrbanVerse-100K для создания симуляций, основанных на реальных макетах
Код ждем
#videotoscene #videoto3d #video2world #world
3D миры здорового
UrbanVerse преобразует реальные городские сцены из видеопрогулок по городам в интерактивные симуляционные среды с учётом физики. Это позволяет масштабировать обучение роботов в городских пространствах и улучшать их адаптацию к реальным условиям
Из некалиброваных видео извлекает семантические макеты.
На основе одного видео и макета генерирует несколько разнообразных цифровых сцен.
Ну и у них есть свой датасет UrbanVerse-100K для создания симуляций, основанных на реальных макетах
Код ждем
#videotoscene #videoto3d #video2world #world
👍6
ImagerySearch: Adaptive Test-Time Search for Video Generation Beyond Semantic Dependency Constraints
Видеогtнератор на базе WAN 2.1 от Alibaba
Лучше справляется с творческими и сложными задачами, где нужно сочетать редко встречающиеся вместе понятия
Якобы превосходит другие модели и на VBench, демонстрируя высокое качество генерации.
Но из визуальных материалов только картинки и таблицы для демонстрации превосходства
Код ждем
#text2video #research
Видеогtнератор на базе WAN 2.1 от Alibaba
Лучше справляется с творческими и сложными задачами, где нужно сочетать редко встречающиеся вместе понятия
Якобы превосходит другие модели и на VBench, демонстрируя высокое качество генерации.
Но из визуальных материалов только картинки и таблицы для демонстрации превосходства
Код ждем
#text2video #research
👍4👀1
Ditto: Scaling Instruction-Based Video Editing with a High-Quality Synthetic Dataset
Редактирование видео текстовыми инструкциями.
В качестве примера дообученный WAN 2.1 (VACE):
— преодолевает ограничения существующих методов по качеству и разнообразию редактирования;
— использует усовершенствованный подход к генерации видео, сочетая редактор изображений и генератор видео;
— снижает вычислительные затраты до 20 % от исходных при сохранении стабильности во времени и отсутствии визуальных артефактов;
— применяет агента Vision-Language Model (VLM) для автоматического создания инструкций и фильтрации некачественных результатов
А вообще у них основной продукт - датасет для обучения редактирующих моделей
Код
Веса
Ditto-1M - датасет
#videoediting
Редактирование видео текстовыми инструкциями.
В качестве примера дообученный WAN 2.1 (VACE):
— преодолевает ограничения существующих методов по качеству и разнообразию редактирования;
— использует усовершенствованный подход к генерации видео, сочетая редактор изображений и генератор видео;
— снижает вычислительные затраты до 20 % от исходных при сохранении стабильности во времени и отсутствии визуальных артефактов;
— применяет агента Vision-Language Model (VLM) для автоматического создания инструкций и фильтрации некачественных результатов
А вообще у них основной продукт - датасет для обучения редактирующих моделей
Код
Веса
Ditto-1M - датасет
#videoediting
👍8🔥6❤1
DeepSeek-OCR
Распознавалка текстов (и не только) от DeepSeek
Состоит из двух частей – DeepEncoder и DeepSeek-3B-MoE Decoder. DeepEncoder оптически сжимает изображения, превращая его в набор vision токенов.
Под капотом тут SAM + CLIP. SAM извлекает главную структуру и символы: буквы, главы, подписи, картинки, формулы. А CLIP добавляет глобальное понимание контекста
Работает в том числе с формулами, сложными структурами, чертежами, картинками и прочим.
Превосходит MinerU2.0, используя в 9 раз меньше ресурсов
HF
Гитхаб
#OCR #VLM #pdf2text
Распознавалка текстов (и не только) от DeepSeek
Состоит из двух частей – DeepEncoder и DeepSeek-3B-MoE Decoder. DeepEncoder оптически сжимает изображения, превращая его в набор vision токенов.
Под капотом тут SAM + CLIP. SAM извлекает главную структуру и символы: буквы, главы, подписи, картинки, формулы. А CLIP добавляет глобальное понимание контекста
Работает в том числе с формулами, сложными структурами, чертежами, картинками и прочим.
Превосходит MinerU2.0, используя в 9 раз меньше ресурсов
HF
Гитхаб
#OCR #VLM #pdf2text
👍17
Media is too big
VIEW IN TELEGRAM
NANO3D: A Training-Free Approach for Efficient 3D Editing Without Masks
Редактирование 3D без масок и обучения
— использует FlowEdit и TRELLIS для локального редактирования
— сохраняет структурную точность благодаря стратегиям слияния регионов
Код ждем
#3d #3dedtiting
Редактирование 3D без масок и обучения
— использует FlowEdit и TRELLIS для локального редактирования
— сохраняет структурную точность благодаря стратегиям слияния регионов
Код ждем
#3d #3dedtiting
👍4
Forwarded from Data Secrets
OpenAI немного переборщили с маркетингом и опозорились на весь Твиттер
Помните, мы рассказывали, что GPT-5 "решила" открытую задачу по математике из списка Эрдёша? Кратко освежаем память: решить-то модель задачу решила, вот только решение было не ее. Она откопала его в литературе 20-летней давности. То есть задача уже была кем-то решена кучу лет назад, просто люди об этом забыли и пометили ее как "нерешенную".
Ну так вот. У истории появилось продолжение, и при этом не совсем приятное. Ровно таким же образом GPT-5 "решила" еще 10 задачек из того же списка AKA нашла их решение в забытой литературе. И вроде бы все норм: моделька молодец, умеет качественно серчить материал, честно сообщает об источниках и все такое.
Вот только сотрудники OpenAI почему-то решили запостить это вот с такими словами: "GPT-5 нашла решения еще 10 открытых задач по математике".
И да, с одной стороны, где-то там они сослались на прошлые твиты, в которых прямо говорили, что решения были найдены именно в литературе, а не выдуманы моделью. С другой стороны, если читатель не знаком с предысторией (что очень вероятно), то для него это однозначно звучит как "ИИ открыл новую математику".
Невольно появляется ощущение, что OpenAI на то и рассчитывали, и выбрали такую формулировку специально, чтобы похайпиться. Но Твиттер подобного не прощает, и в итоге вместо хайпа они заслужили только волну насмешек и обвинений. Даже нобелевский лауреат из Google Демис Хассабис прокомментировал ситуацию как "Это позор".
В итоге твит с неудачной формулировкой был удален, а авторы оправдались тем, что ничего такого в виду не имели. Верим🤖
Помните, мы рассказывали, что GPT-5 "решила" открытую задачу по математике из списка Эрдёша? Кратко освежаем память: решить-то модель задачу решила, вот только решение было не ее. Она откопала его в литературе 20-летней давности. То есть задача уже была кем-то решена кучу лет назад, просто люди об этом забыли и пометили ее как "нерешенную".
Ну так вот. У истории появилось продолжение, и при этом не совсем приятное. Ровно таким же образом GPT-5 "решила" еще 10 задачек из того же списка AKA нашла их решение в забытой литературе. И вроде бы все норм: моделька молодец, умеет качественно серчить материал, честно сообщает об источниках и все такое.
Вот только сотрудники OpenAI почему-то решили запостить это вот с такими словами: "GPT-5 нашла решения еще 10 открытых задач по математике".
И да, с одной стороны, где-то там они сослались на прошлые твиты, в которых прямо говорили, что решения были найдены именно в литературе, а не выдуманы моделью. С другой стороны, если читатель не знаком с предысторией (что очень вероятно), то для него это однозначно звучит как "ИИ открыл новую математику".
Невольно появляется ощущение, что OpenAI на то и рассчитывали, и выбрали такую формулировку специально, чтобы похайпиться. Но Твиттер подобного не прощает, и в итоге вместо хайпа они заслужили только волну насмешек и обвинений. Даже нобелевский лауреат из Google Демис Хассабис прокомментировал ситуацию как "Это позор".
В итоге твит с неудачной формулировкой был удален, а авторы оправдались тем, что ничего такого в виду не имели. Верим
Please open Telegram to view this post
VIEW IN TELEGRAM
😁10👍9🌚3
Нейронавт | Нейросети в творчестве
эмм... сегодня будет браузер от Open AI? #news
This media is not supported in your browser
VIEW IN TELEGRAM
ChatGPT Atlas
В общем, если вы еще не в курсе, Open AI родили ИИ-браузер
Основные фичи:
1. Встроенный ChatGPT на любой веб-странице.
2. Память — интеллектуальный поиск по истории. Ее можно включать/отключать и вообще решать какие сайты ChatGPT может просматривать а какие нет.
3. Агент, только для тарифов Pro и Plus.
Тесты уже показали, что навороченные сайты с кучей скриптов могут поставить Atlas в тупик, но со статичными страницами справляется
Доступен для #MacOS кроме intel - скачать через 3 буквы. Но после установки должен работать для всех стран
Windows, iOS, Android - ждем
#browser
В общем, если вы еще не в курсе, Open AI родили ИИ-браузер
Основные фичи:
1. Встроенный ChatGPT на любой веб-странице.
2. Память — интеллектуальный поиск по истории. Ее можно включать/отключать и вообще решать какие сайты ChatGPT может просматривать а какие нет.
3. Агент, только для тарифов Pro и Plus.
Тесты уже показали, что навороченные сайты с кучей скриптов могут поставить Atlas в тупик, но со статичными страницами справляется
Доступен для #MacOS кроме intel - скачать через 3 буквы. Но после установки должен работать для всех стран
Windows, iOS, Android - ждем
#browser
😁2👍1
This media is not supported in your browser
VIEW IN TELEGRAM
Krea Realtime 14B
Потоковый видеогенератор от Krea на базе WAN 2.1 14B с Self-Forcing
Позволяет редактировать видео промптом на лету
Тут конечно сферический рилтайм в ваккуме ибо это 11 фпс на NVIDIA B200
HF
Гитхаб
Попробовать
Спасибо @EvgenyiPerm
#realtime #text2video
Потоковый видеогенератор от Krea на базе WAN 2.1 14B с Self-Forcing
Позволяет редактировать видео промптом на лету
Тут конечно сферический рилтайм в ваккуме ибо это 11 фпс на NVIDIA B200
HF
Гитхаб
Попробовать
Спасибо @EvgenyiPerm
#realtime #text2video
🔥6👍2🥴2
Media is too big
VIEW IN TELEGRAM
Qwen Deep Research
Обновился.
Теперь создает не только отчет, но и веб-страницу в режиме реального времени и подкаст - на базе Qwen3-Coder, Qwen-Image и Qwen3-TTS
#deepresearch #assistant
Обновился.
Теперь создает не только отчет, но и веб-страницу в режиме реального времени и подкаст - на базе Qwen3-Coder, Qwen-Image и Qwen3-TTS
#deepresearch #assistant
❤7👍4🤯1
HunyuanWorld-Mirror
В полку генераторов-реконструкторов объемных сцен от Hunyuan-Tencent прибыло.
Говорю так потому что его определили в одно семейство с генераторами 3D миров
Воссоздает 3D сцены по видео, в том числе сгенерированным, мультиракурсным наборам изображений, и по одному изображению
За один проход создает сразу облако точек, многовидовые карты глубины, параметры камеры, нормали поверхности, сцену на гауссианах.
Код
Демо - очень шустрое. Сделал тест по одной картинке. Лучше все-таки иметь несколько ракурсов
HF ~5 ГБ
#videoto3d #video2scene #gaussian #imageto3d #image2scene #video2gaussian #video2normal #video2depth #image2normal #image2depth
В полку генераторов-реконструкторов объемных сцен от Hunyuan-Tencent прибыло.
Говорю так потому что его определили в одно семейство с генераторами 3D миров
Воссоздает 3D сцены по видео, в том числе сгенерированным, мультиракурсным наборам изображений, и по одному изображению
За один проход создает сразу облако точек, многовидовые карты глубины, параметры камеры, нормали поверхности, сцену на гауссианах.
Код
Демо - очень шустрое. Сделал тест по одной картинке. Лучше все-таки иметь несколько ракурсов
HF ~5 ГБ
#videoto3d #video2scene #gaussian #imageto3d #image2scene #video2gaussian #video2normal #video2depth #image2normal #image2depth
🔥5👎1😁1