FFGO: First Frame is the Place to Go For Video Content Custimization
Метод подсовывания референсов видеогенераторам через первый кадр
Исследователи показывают: первый кадр видео не просто точка отсчёта, а своего рода «буфер памяти», где хранятся визуальные элементы для дальнейшего использования при генерации. Благодаря этому открытию можно кастомизировать видеоконтент в разных сценариях.
Нужно всего 20–50 примеров для обучения, без масштабных доработок архитектуры или детальной настройки.
Можно кастомизировать контент в разнообразных сценариях.
Работает с разными типами взаимодействий: между несколькими объектами, людьми и объектами, роботами и животными.
Прикручено к Wan2.2-14B-I2V
Hunyuan 1.5 8B и Wan2.2 5B - ждем
Гитхаб
HF
#referencing #image2video #lora #wan22
Метод подсовывания референсов видеогенераторам через первый кадр
Исследователи показывают: первый кадр видео не просто точка отсчёта, а своего рода «буфер памяти», где хранятся визуальные элементы для дальнейшего использования при генерации. Благодаря этому открытию можно кастомизировать видеоконтент в разных сценариях.
Нужно всего 20–50 примеров для обучения, без масштабных доработок архитектуры или детальной настройки.
Можно кастомизировать контент в разнообразных сценариях.
Работает с разными типами взаимодействий: между несколькими объектами, людьми и объектами, роботами и животными.
Прикручено к Wan2.2-14B-I2V
Hunyuan 1.5 8B и Wan2.2 5B - ждем
Гитхаб
HF
#referencing #image2video #lora #wan22
👍7❤1🔥1😁1
Step-Audio-R1
Степан (Step-fun) выпустил первую аудиорассуждалку, в которой реализована цепочка рассуждений (CoT).
Превзошли Gemini 2.5 Pro и поравнялись с Gemini 3 Pro.
Решает проблему «обратного масштабирования», которая характерна для существующих моделей (когда производительность ухудшается с увеличением длины рассуждения)
Демонстрирует, что для аудио, как и для текста и видео, увеличение вычислительных мощностей во время тестирования улучшает производительность.
Примеры работы (на китайском) - на офсайте
Модель выпустят в опенсорс
Гитхаб
HF - ждем
Демо - ждем
#ALM #CoT
Степан (Step-fun) выпустил первую аудиорассуждалку, в которой реализована цепочка рассуждений (CoT).
Превзошли Gemini 2.5 Pro и поравнялись с Gemini 3 Pro.
Решает проблему «обратного масштабирования», которая характерна для существующих моделей (когда производительность ухудшается с увеличением длины рассуждения)
Демонстрирует, что для аудио, как и для текста и видео, увеличение вычислительных мощностей во время тестирования улучшает производительность.
Примеры работы (на китайском) - на офсайте
Модель выпустят в опенсорс
Гитхаб
HF - ждем
Демо - ждем
#ALM #CoT
👍10
(Beta) Minimalistic Comfy Wrapper WebUI
Альтернативный дополнительный безнодовый #GUI для #ComfyUI, который динамически адаптируется к вашим воркфлоу, вам нужно только изменить названия нод, которые вы хотите видеть в минималистичном webui, и нажать кнопку "Refresh".
Альтернативный дополнительный безнодовый #GUI для #ComfyUI, который динамически адаптируется к вашим воркфлоу, вам нужно только изменить названия нод, которые вы хотите видеть в минималистичном webui, и нажать кнопку "Refresh".
👍6🤔6
Хиггсфилд раздает по 10 кредитов в день. Их, естественно, не потратишь на что угодно
Можно потратить на нанобанан 2, Soul, Face swap, Character swap
Бонусом получите щедрый вотермарк размером на всю картинку
Можно потратить на нанобанан 2, Soul, Face swap, Character swap
Бонусом получите щедрый вотермарк размером на всю картинку
😁17❤1
Но за бананом лучше сходить на LMarena
Или вот список сервисов в с бесплатным нанобананом 2 которые я не проверял
felo.ai
nano-banana.ai
nanobanana-pro.com
Lovart.ai
#imageediting #text2image #image2image
Или вот список сервисов в с бесплатным нанобананом 2 которые я не проверял
felo.ai
nano-banana.ai
nanobanana-pro.com
Lovart.ai
#imageediting #text2image #image2image
🔥15👍1
realorai.dev
Ну все. Думал хотя бы 6 из 10 отличу. Неа
Нанобанан поднял ИИ-картинки на новый уровень.
Попробуйте угадать где генерация а где нет
Делитесь позором в комментах
Ну все. Думал хотя бы 6 из 10 отличу. Неа
Нанобанан поднял ИИ-картинки на новый уровень.
Попробуйте угадать где генерация а где нет
Делитесь позором в комментах
❤11
hunyuanvideo1.5_t2v_480p_lightx2v_4step_lora_rank_32_bf16.safetensors
лора для HV1.5 t2v на 4-8 шагов
euler/beta 1CFG
Hy1.5-Distill-Models - дистиллированный HV1.5
Спасибо @m_franz
#hv15 #lora #optimization
лора для HV1.5 t2v на 4-8 шагов
euler/beta 1CFG
Hy1.5-Distill-Models - дистиллированный HV1.5
Спасибо @m_franz
#hv15 #lora #optimization
huggingface.co
Comfy-Org/HunyuanVideo_1.5_repackaged at main
We’re on a journey to advance and democratize artificial intelligence through open source and open science.
👍12
Claude Opus 4.5
На SWE-bench 80.9%, лучше Gemini-3-Pro.
По API немного дешевле прошлой версии и сильно экономнее по количеству токенов в ризонинге
Claude Code доступен в десктопном приложении.
#assistant #reasoning #coding
На SWE-bench 80.9%, лучше Gemini-3-Pro.
По API немного дешевле прошлой версии и сильно экономнее по количеству токенов в ризонинге
Claude Code доступен в десктопном приложении.
#assistant #reasoning #coding
👍6
Loomis Painter: Reconstructing the painting process
Лора для реконструкции процесса рисования картины на базе WAN 2.1
На вход даем картину, на выходе - видео.
Работает в разных техниках - акрил, масло, карандаш
Был похожий проект Paints-Undo от lllyasviel
Гитхаб
HF
#image2video #wan
Лора для реконструкции процесса рисования картины на базе WAN 2.1
На вход даем картину, на выходе - видео.
Работает в разных техниках - акрил, масло, карандаш
Был похожий проект Paints-Undo от lllyasviel
Гитхаб
HF
#image2video #wan
❤7👍5🥴4
Почему японский дизайн такой странный? Как любое медиа рано или поздно превращается в телевидение? Можно ли отличить сгенерированные фотки (и котиков 😐 ) от настоящих?
На эти и другие вопросы о влиянии технологий ищите ответы на канале «Живем в обществе».
Подписывайтесь!
#промо
На эти и другие вопросы о влиянии технологий ищите ответы на канале «Живем в обществе».
Подписывайтесь!
#промо
Please open Telegram to view this post
VIEW IN TELEGRAM
1👍2
GeoVista: Web-Augmented Agentic Visual Reasoning for Geolocalization
Агент от Tencent по фото определяет координаты где оно снято
Объединяет визуальное рассуждение и веб-поиск для уточнения гипотез.
Увеличивает масштаб изображений чтобы детально рассматривать интересующие области.
Гитхаб
HF ~34 ГБ
#image2geolocation #map #location #geolocation
Агент от Tencent по фото определяет координаты где оно снято
Объединяет визуальное рассуждение и веб-поиск для уточнения гипотез.
Увеличивает масштаб изображений чтобы детально рассматривать интересующие области.
Гитхаб
HF ~34 ГБ
#image2geolocation #map #location #geolocation
👍11