SynCD: Generating Multi-Image Synthetic Data for Text-to-Image Customization
Вообще это инструмент для кастомизации генераторов картинок. А по сути персонализатор. Даем ему три референса нашего объекта и получаем этот объект в разных новых местах - как материал для обучающего датасета
У меня нубский вопрос. Если мы и так уже можем создавать новые изображения нашего объекта, зачем нам еще чего-то там обучать на него?
Код
Демо
#personalization #text2image
Вообще это инструмент для кастомизации генераторов картинок. А по сути персонализатор. Даем ему три референса нашего объекта и получаем этот объект в разных новых местах - как материал для обучающего датасета
У меня нубский вопрос. Если мы и так уже можем создавать новые изображения нашего объекта, зачем нам еще чего-то там обучать на него?
Код
Демо
#personalization #text2image
👍4🔥2🎃1
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
RIFLEx: A Free Lunch for Length Extrapolation in Video Diffusion Transformers
Рецепты наших дедушек. Сделать ваше генеративное видео вдвое длиннее очень просто, нужен всего лишь простой советский...freq[k-1]=(2*np.pi)/(L*s)
Короче, этот трюк позволяет создавать генеративное видео длиннее без какого-либо дообучения. На примерах видео удлинено с 129 до 261 кадров
Бонус - так можно не только увеличивать количество кадров, но повышать разрешение (см картинки)
Код - прикручено к Hunyuan, планируют прикрутить к другим моделям
#text2video
Рецепты наших дедушек. Сделать ваше генеративное видео вдвое длиннее очень просто, нужен всего лишь простой советский...
Короче, этот трюк позволяет создавать генеративное видео длиннее без какого-либо дообучения. На примерах видео удлинено с 129 до 261 кадров
Бонус - так можно не только увеличивать количество кадров, но повышать разрешение (см картинки)
Код - прикручено к Hunyuan, планируют прикрутить к другим моделям
#text2video
🔥8😁5👍3🎃1
This media is not supported in your browser
VIEW IN TELEGRAM
Wan2.1
Генератор видео по тексту и по картинке от Alibaba, опенсорс
Требует всего 8.19 GB VRAM для работы
Младшая модель 1.3B требует всего 8.19 GB VRAM для работы, 5-секундное видео 480p создает за 4 минуты на RTX 4090
Старшая 14B выдает 480p и 720p
Гитхаб
Веса
#text2video #image2video
Генератор видео по тексту и по картинке от Alibaba, опенсорс
Требует всего 8.19 GB VRAM для работы
Младшая модель 1.3B требует всего 8.19 GB VRAM для работы, 5-секундное видео 480p создает за 4 минуты на RTX 4090
Старшая 14B выдает 480p и 720p
Гитхаб
Веса
#text2video #image2video
🔥8👏1
QwQ-Max-Preview
Рассуждалка от Qwen, обновленная Qwen2.5-Max
——————
YandexGPT 5
Тоже обновили. И теперь в ее основе Qwen2.5. Да, поэтому две новости объединил
Из нативно русскоязычных с нуля обученных моделей остался только Гигачат. Мне кажется вы были к нему слишком строги
Веса Pretrain-версии доступны на HF
Попробовать YandexGPT 5 Pro в чате с Алисой
#news #assistant #reasoning
Рассуждалка от Qwen, обновленная Qwen2.5-Max
——————
YandexGPT 5
Тоже обновили. И теперь в ее основе Qwen2.5. Да, поэтому две новости объединил
Из нативно русскоязычных с нуля обученных моделей остался только Гигачат. Мне кажется вы были к нему слишком строги
Веса Pretrain-версии доступны на HF
Попробовать YandexGPT 5 Pro в чате с Алисой
#news #assistant #reasoning
❤4👍4🔥1
This media is not supported in your browser
VIEW IN TELEGRAM
ComfyUI-WanVideoWrapper
Ноды видеогенератора Wan2.1 для #ComfyUI
В репозитории выложен тест 512x512x81, "~16GB used with 20/40 blocks offloaded"
Автор пишет что пока смог запустить только image2video
Сохраняйте спокойствие, работы ведутся
Пожатые веса
#image2video
Ноды видеогенератора Wan2.1 для #ComfyUI
В репозитории выложен тест 512x512x81, "~16GB used with 20/40 blocks offloaded"
Автор пишет что пока смог запустить только image2video
Сохраняйте спокойствие, работы ведутся
Пожатые веса
#image2video
❤7😁3🔥2👍1
This media is not supported in your browser
VIEW IN TELEGRAM
Gemini Code Assist стал бесплатным.
Окно контекста 128K токенов
20+ языков программирования
180 тысяч дополнений кода в месяц
Доступно для VSCode, Jetbrains. Github
Блог
#coding
Окно контекста 128K токенов
20+ языков программирования
180 тысяч дополнений кода в месяц
Доступно для VSCode, Jetbrains. Github
Блог
#coding
👍14🔥2
This media is not supported in your browser
VIEW IN TELEGRAM
Proxy Lite
Convergence опубликовали в общий доступ младшую версию своего браузерного агента
3B параметров
На основе Qwen2.5-VL-3B-Instruct
Код/Веса
#agent #browser #vlm
Convergence опубликовали в общий доступ младшую версию своего браузерного агента
3B параметров
На основе Qwen2.5-VL-3B-Instruct
Код/Веса
#agent #browser #vlm
🔥7❤1
This media is not supported in your browser
VIEW IN TELEGRAM
Keyframe Control Lora
Лора ключевых кадров для HunyuanVideo T2V (T2V, генератор по тексту - так в репозитории написано)
Задаем два кадра и количество кадров - получаем видео, начинающееся с первого, оканчивающееся вторым
#lora #text2video #image2video
Лора ключевых кадров для HunyuanVideo T2V (T2V, генератор по тексту - так в репозитории написано)
Задаем два кадра и количество кадров - получаем видео, начинающееся с первого, оканчивающееся вторым
#lora #text2video #image2video
👍13❤1
This media is not supported in your browser
VIEW IN TELEGRAM
Видеогенератор Wan2.1 поддерживается в #ComfyUI нативно
Судя по тому что по инструкции надо скачать fp8_e4m3fn модель, не удивлюсь если всю работу взяли у Kijai
У людей t2i (она может оказывается и просто картинки генерить) заводится даже на RTX2060!
Для видео на 1.3B модели заготовьте 15ГБ VRAM, а для 14B - 40ГБ VRAM
Блог
#text2video #image2video
Судя по тому что по инструкции надо скачать fp8_e4m3fn модель, не удивлюсь если всю работу взяли у Kijai
У людей t2i (она может оказывается и просто картинки генерить) заводится даже на RTX2060!
Для видео на 1.3B модели заготовьте 15ГБ VRAM, а для 14B - 40ГБ VRAM
Блог
#text2video #image2video
👍8❤2
This media is not supported in your browser
VIEW IN TELEGRAM
Prompt-to-Leaderboard (P2L)
Теперь на lmarena.ai можете создавать свои лидерборды написав промпт во вкладке Chat.
Этим занимаются специально обученные модели, начинающиеся с 'p2l-'
Впрочем, можете организовать и свою арену с блекджеком и ботами, ведь есть веса и код
Гитхаб
Веса
#prompt2leaderboard #p2l #text2leaderboard
Теперь на lmarena.ai можете создавать свои лидерборды написав промпт во вкладке Chat.
Этим занимаются специально обученные модели, начинающиеся с 'p2l-'
Впрочем, можете организовать и свою арену с блекджеком и ботами, ведь есть веса и код
Гитхаб
Веса
#prompt2leaderboard #p2l #text2leaderboard
👍4❤1
This media is not supported in your browser
VIEW IN TELEGRAM
moonshine-live
Распознавание речи в реальном времени на Moonshine
Демо
Модели
#speech2text #ASR #subnoscripts #realtime
Распознавание речи в реальном времени на Moonshine
Демо
Модели
#speech2text #ASR #subnoscripts #realtime
🔥4
MASt3R-SLAM: Real-Time Dense SLAM with 3D Reconstruction Priors
Реконструкция сцен реального мира по одному видео в реальном времени, 15 кадров в секунду на RTX 4090
Код
#video2scene #rendering #videoto3D
Реконструкция сцен реального мира по одному видео в реальном времени, 15 кадров в секунду на RTX 4090
Код
#video2scene #rendering #videoto3D
👍19🤯6🔥2