Matrix3D: Large Photogrammetry Model All-in-One
Единая модель фотограмметрии от Apple, выполняющая оценку ракурса, глубины и синтез нового ракурса
Сгенерированные новые ракурсы предлагают использовать для реконструкции сцены гауссианами
Код
#photogrammetry #novelview #image2depth
Единая модель фотограмметрии от Apple, выполняющая оценку ракурса, глубины и синтез нового ракурса
Сгенерированные новые ракурсы предлагают использовать для реконструкции сцены гауссианами
Код
#photogrammetry #novelview #image2depth
👍5
Подписчик поделился фиксом FramePack Studio для настройки разрешения видео (автор почему-то ограничил по ширине то ли 640 то ли 768). Файлы закину в комментарии. Дальше текст подписчика
Спасибо @neurotemporary
#image2video #text2video
Добавил повышенное разрешение для FramePack Studio во вкладку F1
в оригинале было максимум 640 по ширине
bucket_tools.py - добавлены размеры из платной турецкой сборки, размер подбирается примерно (положить в FramePack-Studio\diffusers_helper)
interface.py - разблокировано до 1216 (положить в FramePack-Studio\modules)
Если будут ошибки с тензорами (но лучше не трогать):
wrapper.py (положить в FramePack-Studio\diffusers_helper\k_diffusion)
Так же установлено 40 шагов по умолчанию, можно легко поменять в interface.py
Прога сама по себе супер глючная, надеюсь допилят)
Спасибо @neurotemporary
#image2video #text2video
👍8
Опубликован код инструмента для работы с изображениями ZenCtrl
Разрешение до 1024×1024, уже работают над 1500х1500 и больше, работают над агентским и видеопайплайном
Лучше всего работает с объектами. С людьми - ограниченно. Плохо умеет в иллюстации. Ибо обучен на бедном датасете. В будущем улучшат.
Код
#conditioning #deblur #image2image #personalization #multiview #novelview #referencing
Разрешение до 1024×1024, уже работают над 1500х1500 и больше, работают над агентским и видеопайплайном
Лучше всего работает с объектами. С людьми - ограниченно. Плохо умеет в иллюстации. Ибо обучен на бедном датасете. В будущем улучшат.
Код
#conditioning #deblur #image2image #personalization #multiview #novelview #referencing
👍5
SuperEdit: Rectifying and Facilitating Supervision for Instruction-Based Image Editing
Редактор картинок текстом от ByteDance
Авторы обнаружили, что разные шаги генерации играют разные роли в генерации изображений, независимо от промта. В частности, диффузионные модели фокусируются на (а) глобальном макете на ранних стадиях, (б) локальных атрибутах объекта на средних стадиях, (в) деталях изображения на поздних стадиях и (г) стиле изображения на всех стадиях выборки. Это вдохновило их на использование VLM. На схеме видно что ее используют вместо CLIP
Код
#imageediting
Редактор картинок текстом от ByteDance
Авторы обнаружили, что разные шаги генерации играют разные роли в генерации изображений, независимо от промта. В частности, диффузионные модели фокусируются на (а) глобальном макете на ранних стадиях, (б) локальных атрибутах объекта на средних стадиях, (в) деталях изображения на поздних стадиях и (г) стиле изображения на всех стадиях выборки. Это вдохновило их на использование VLM. На схеме видно что ее используют вместо CLIP
Код
#imageediting
👍5🔥2
This media is not supported in your browser
VIEW IN TELEGRAM
Voila: Voice-Language Foundation Models for Real-Time Autonomous Interaction and Voice Role-Play
Голосовая-языковая модель, позволяет выполнять разные задачи. Есть миллионы (что?) готовых голосов, можно делать свои. Можно переключать их на лету.
Да, это значит рилтайм, потоковоая генерация. Задержка 195мс - меньше чем среднее время реакции человека.
Знает 6 языков: Английский, китайский, французский, Немецкий, Японский и Корейский.
Придумали свой бенчмарк и побили в нем Moshi и SpeechGPT втрое🤩
Код
Демо - видимо, еще не собрали
#tts #asr #stt #text2speech #speech2text #realtime #voicecloning
Голосовая-языковая модель, позволяет выполнять разные задачи. Есть миллионы (что?) готовых голосов, можно делать свои. Можно переключать их на лету.
Да, это значит рилтайм, потоковоая генерация. Задержка 195мс - меньше чем среднее время реакции человека.
Знает 6 языков: Английский, китайский, французский, Немецкий, Японский и Корейский.
Придумали свой бенчмарк и побили в нем Moshi и SpeechGPT втрое
Код
Демо - видимо, еще не собрали
#tts #asr #stt #text2speech #speech2text #realtime #voicecloning
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥6👍4👎1
This media is not supported in your browser
VIEW IN TELEGRAM
ACE-Step: A Step Towards Music Generation Foundation Model
Генератор музыки в опенсорсе, базовая модель, пригодная для дальнейшего файнтюна.
Мультиязычный, есть русский!
Помимо собственно генерации музыки по тексту, умеет делать вариации, смену пола вокалиста, замену слов, замену музыкальных фрагментов.
Обещают лоры с контролнетами, генерацию стемов (отдельных партий), вокал по готовому аккомпанементу
Звучит пока не очень, надеемся на пластичность в файнтюне
Код
Демо
Веса
#music #text2music #musicediting
Генератор музыки в опенсорсе, базовая модель, пригодная для дальнейшего файнтюна.
Мультиязычный, есть русский!
Помимо собственно генерации музыки по тексту, умеет делать вариации, смену пола вокалиста, замену слов, замену музыкальных фрагментов.
Обещают лоры с контролнетами, генерацию стемов (отдельных партий), вокал по готовому аккомпанементу
Звучит пока не очень, надеемся на пластичность в файнтюне
Код
Демо
Веса
#music #text2music #musicediting
👍11👌1
This media is not supported in your browser
VIEW IN TELEGRAM
LTX VIDEO-13B
Выложили веса модели видеогенератора с 13B параметров
ltxv-13b-0.9.7-dev и
ltxv-13b-0.9.7-dev-fp8
FP8 должен завестись на 4090
HF
Гитхаб
ComfyUI
Попробовать на офсайте - притворитесь что вы не в РФ
#text2video #image2video
Выложили веса модели видеогенератора с 13B параметров
ltxv-13b-0.9.7-dev и
ltxv-13b-0.9.7-dev-fp8
FP8 должен завестись на 4090
HF
Гитхаб
ComfyUI
Попробовать на офсайте - притворитесь что вы не в РФ
#text2video #image2video
🔥9❤1
This media is not supported in your browser
VIEW IN TELEGRAM
Insert Anything: Image Insertion via In-Context Editing in DiT
Короче еще один инпейнтинг персонализатор.
Показываем одной картинкой что вставить, на другой - куда вставить
Под капотом FLUX.1-Fill-dev и FLUX.1-Redux-dev
Код
Демо
ComfyUI
#inpainting #personalization #imageediting
Короче еще один инпейнтинг персонализатор.
Показываем одной картинкой что вставить, на другой - куда вставить
Под капотом FLUX.1-Fill-dev и FLUX.1-Redux-dev
Код
Демо
ComfyUI
#inpainting #personalization #imageediting
👍10😁2🔥1
Cursor Pro за фото студенческого билета.
Раздают подписку Cursor Pro студентам на год.
Говорят, заявки из России тоже принимают.
#coding #gift
Раздают подписку Cursor Pro студентам на год.
Говорят, заявки из России тоже принимают.
#coding #gift
🔥13
This media is not supported in your browser
VIEW IN TELEGRAM
Computer Agent
Агент, аналог Operator
Работает в песочнице
Под капотом
smolagents
Qwen2-VL-72B
E2B Desktop
Демо
#agent #browser
Агент, аналог Operator
Работает в песочнице
Под капотом
smolagents
Qwen2-VL-72B
E2B Desktop
Демо
#agent #browser
❤5🤔1
This media is not supported in your browser
VIEW IN TELEGRAM
AgenticSeek
Еще один агент, позиционируют себя как локальную опенсорсную альтернативу Manus на DeepSeek R1.
Без отправки данных в облако.
Для установки понадобятся ChromeDriver, Docker, Python 3.10
Гитхаб
#agent #desktop
Еще один агент, позиционируют себя как локальную опенсорсную альтернативу Manus на DeepSeek R1.
Без отправки данных в облако.
Для установки понадобятся ChromeDriver, Docker, Python 3.10
Гитхаб
#agent #desktop
👍6
This media is not supported in your browser
VIEW IN TELEGRAM
WildGS-SLAM: Monocular Gaussian Splatting SLAM in Dynamic Environments
Реконструкция 3D сцен на гауссианах с удалением движущихся объектов.
На вход нужно монокулярное видео
Код
#gaussian
Реконструкция 3D сцен на гауссианах с удалением движущихся объектов.
На вход нужно монокулярное видео
Код
#gaussian
👍6🔥3❤1
Heygen Avatar IV
Сервис Heygen запустил обновленную функцию оживления портретов.
Достаточно закинуть фото и текст.
А также создали MCP сервер
Доки
Гитхаб
#postrainanimation #lipsync #text2speech #tts #image2video #mcp
Сервис Heygen запустил обновленную функцию оживления портретов.
Достаточно закинуть фото и текст.
А также создали MCP сервер
Доки
Гитхаб
#postrainanimation #lipsync #text2speech #tts #image2video #mcp
👍7🔥3
This media is not supported in your browser
VIEW IN TELEGRAM
LAM: Large Avatar Model for One-shot Animatable Gaussian Head
Анимируемые аватары по одному изображению на гауссианах от Alibaba.
Управляются звуком и видео, поддаются редактированию-стилизации, шустро крутятся на разных девайсах
Код
Демо
Чат с аватарами - ну здесь они долго думают прежде чем ответить
#humanavatar #talkinghead #gaussian #head #mobile #realtime #lipsync #motion2video
Анимируемые аватары по одному изображению на гауссианах от Alibaba.
Управляются звуком и видео, поддаются редактированию-стилизации, шустро крутятся на разных девайсах
Код
Демо
Чат с аватарами - ну здесь они долго думают прежде чем ответить
#humanavatar #talkinghead #gaussian #head #mobile #realtime #lipsync #motion2video
👍5🤔2❤1👎1
Подписчики в чате продолжают улучшать FramepackStudio
На сей раз прикрутили настройки teacache.
Файлы в комментариях
Спасибо @m_franz
#image2video #text2video
На сей раз прикрутили настройки teacache.
заменить studio.py в app\studio.py . interface.py в app\modules\interface.py
Файлы в комментариях
Спасибо @m_franz
#image2video #text2video
❤7👍1
This media is not supported in your browser
VIEW IN TELEGRAM
По совету подписчиков объявляю парад FramePack генераций. Хвастайтесь в комментариях что вам удалось выжать из этого генератора
👍11❤1🔥1
Media is too big
VIEW IN TELEGRAM
HoloTime: Taming Video Diffusion Models for Panoramic 4D Scene Generation
Генерирует панорамные динамичные видео по тексту или по картинке, реконструируя 4D ассеты
Код
#image2scene #text2video #image2video #360 #panorama #4d #textto4d #imageto4d
Генерирует панорамные динамичные видео по тексту или по картинке, реконструируя 4D ассеты
Код
#image2scene #text2video #image2video #360 #panorama #4d #textto4d #imageto4d
👍6😱3