👍9
This media is not supported in your browser
VIEW IN TELEGRAM
Опубликован код / веса оживлятора портретов FLOAT
Код
Веса
#talkinghead #speech2video #facialanimation #lipsync
Код
Веса
#talkinghead #speech2video #facialanimation #lipsync
👍9
NeMo Canary-Qwen-2.5B
#SOTA в транскрибации аудио речи в текст от NVIDIA.
Умеет и отвечать на вопросы по обработанному аудио.
Знает только английский язык.
Влез на вершину Open ASR Leaderboard
Гитхаб
HF
Демо
#ASR #speech2text #stt #llm #leaderboard
#SOTA в транскрибации аудио речи в текст от NVIDIA.
Умеет и отвечать на вопросы по обработанному аудио.
Знает только английский язык.
Влез на вершину Open ASR Leaderboard
Гитхаб
HF
Демо
#ASR #speech2text #stt #llm #leaderboard
👍10
Нейронавт | Нейросети в творчестве
Kimi K2 Новая версия китайской мультимодалки. Пишут что убийца cHatGPT и DeepSeek, но как всегда преувеличивают Архитертура #MoE, Триллион параметров, из них 32B активных. Заточена на агентные и программерские задачи. Есть две версии: Kimi-K2-Base: Базовая…
Qwen3-235B-A22B-Instruct-2507
Недолго музыка Kimi K2 играла
Новая версия не-ризонинг модели Qwen3-235B-A22B возглавила олимп. Ну может и не возглавила но побила DeepSeek V3, Claude 4 Opus Non-thinking и Kimi K2 на многих задачах
Архитектура - совет экспертов.
Рассуждалку ждем
Чат
Веса
#assistant #moe
Недолго музыка Kimi K2 играла
Новая версия не-ризонинг модели Qwen3-235B-A22B возглавила олимп. Ну может и не возглавила но побила DeepSeek V3, Claude 4 Opus Non-thinking и Kimi K2 на многих задачах
Архитектура - совет экспертов.
Рассуждалку ждем
Чат
Веса
#assistant #moe
👍13
OmniSVG: A Unified Scalable Vector Graphics Generation Model
Генератор SVG по тексту и по картинке
Модель способна генерировать SVG разной сложности — от простых иконок до сложных аниме-персонажей. Может отрисовывать персонажей по референсу
Код
Демо
#text2vector
Генератор SVG по тексту и по картинке
Модель способна генерировать SVG разной сложности — от простых иконок до сложных аниме-персонажей. Может отрисовывать персонажей по референсу
Код
Демо
#text2vector
🔥16👍2
This media is not supported in your browser
VIEW IN TELEGRAM
Drag-and-Drop LLMs: Zero-Shot Prompt-to-Weights
Метод позволяет быстро адаптировать большие языковые модели к различным задачам без необходимости их полного переобучения.
Параметры настройки генерируются за секунды на основе текстового промпта и упаковываются в LoRa
Код
Демо
#llm #lora #finetuning
Метод позволяет быстро адаптировать большие языковые модели к различным задачам без необходимости их полного переобучения.
Параметры настройки генерируются за секунды на основе текстового промпта и упаковываются в LoRa
Код
Демо
#llm #lora #finetuning
👍10❤1
SageAttention3 - ранний доступ
Для раннего доступа к ускорятору генерации заполните анкету на HF.
Доступ дают владельцам GPU Blackwell (серия 50xx)
#optimization #news
Для раннего доступа к ускорятору генерации заполните анкету на HF.
Доступ дают владельцам GPU Blackwell (серия 50xx)
#optimization #news
huggingface.co
jt-zhang/SageAttention3 · Hugging Face
We’re on a journey to advance and democratize artificial intelligence through open source and open science.
👍5😱1
VSF: Simple, Efficient, and Effective Negative Guidance in Few-Step Image Generation Models By Value Sign Flip
Улучшает обработку негативных промптов генераторами
Существующие методы (CFG) либо работают плохо, либо требуют серьезных изменений в модели (NegationCLIP).
VSF переворачивает вектор значений негативных вложений подсказок во время внимания.
- Поддерживает SD3.5, Flux, Wan
- Работает в томи числе с малошаговыми и одношаговыми моделями
- Не требует переобучения
- Отсутствует усиление незапрашиваемых концепций
- Маскирование внимания и дупликация токенов для изоляции влияния в заданных областях
На видео - Flux, позитивный промпт
Примеры работы с WAN 2.1 тут
Код
Демо Wan 2.1
#optimization #text2image #negativeprompt
Улучшает обработку негативных промптов генераторами
Существующие методы (CFG) либо работают плохо, либо требуют серьезных изменений в модели (NegationCLIP).
VSF переворачивает вектор значений негативных вложений подсказок во время внимания.
- Поддерживает SD3.5, Flux, Wan
- Работает в томи числе с малошаговыми и одношаговыми моделями
- Не требует переобучения
- Отсутствует усиление незапрашиваемых концепций
- Маскирование внимания и дупликация токенов для изоляции влияния в заданных областях
На видео - Flux, позитивный промпт
a canadian winter landscape in the style of a 19th century painting и негативный промпт snow с возрастающей силой от 1 до 8.9Примеры работы с WAN 2.1 тут
Код
Демо Wan 2.1
#optimization #text2image #negativeprompt
👍7🔥3
DMOSpeech 2: Reinforcement Learning for Duration Prediction in Metric-Optimized Speech Synthesis
Новая голосовая модель.
Умеет подстраивать длительность звуков в словах, что делает речь более естественной. Заявлена возможность клонирования голоса без дообучения.
Знает английский и китайский
Код
Альтернативный код
Демо
Спасибо @m_franz
#voicecloning #tts #text2speech
Новая голосовая модель.
Умеет подстраивать длительность звуков в словах, что делает речь более естественной. Заявлена возможность клонирования голоса без дообучения.
Знает английский и китайский
Код
Альтернативный код
Демо
Спасибо @m_franz
#voicecloning #tts #text2speech
GitHub
GitHub - yl4579/DMOSpeech2
Contribute to yl4579/DMOSpeech2 development by creating an account on GitHub.
👍4
Qwen 3 Coder
Еще один релиз Qwen, на этот раз для программизма.
Кодит на уровне Sonnet 4 ю
Архитектура #MoE
480B параметров, 35В активных.
Контекст – 256к, скейлится до 1 миллиона токенов.
Бонусом выпустили инструмент командной строки для агентного кодинга Qwen Code - форк Gemini Code
Попробовать
#coding #agent
Еще один релиз Qwen, на этот раз для программизма.
Кодит на уровне Sonnet 4 ю
Архитектура #MoE
480B параметров, 35В активных.
Контекст – 256к, скейлится до 1 миллиона токенов.
Бонусом выпустили инструмент командной строки для агентного кодинга Qwen Code - форк Gemini Code
Попробовать
#coding #agent
🔥7👍3😱1
ObjectClear: Complete Object Removal via Object-Effect Attention
Удаляет объекты с изображения вместе с тенью и отражением.
В основе адаптированная для фотореалистичной ретуши модель SDXL-Inpainting, которая в оригинале не учитывала эффекты объекта такие как тени, отражения и т д.
Указать объект на удаление можно кистью или кликом (за это отвечает SAM)
Отражение Форреста в мокрой плитке удалил - молодец. Тень скамейки тоже чуть удалил и зарисовал не очень чисто - 4/5 учитывая что это с первой же попытки.
Код
Демо
#inpainting #objectremoval
Удаляет объекты с изображения вместе с тенью и отражением.
В основе адаптированная для фотореалистичной ретуши модель SDXL-Inpainting, которая в оригинале не учитывала эффекты объекта такие как тени, отражения и т д.
Указать объект на удаление можно кистью или кликом (за это отвечает SAM)
Отражение Форреста в мокрой плитке удалил - молодец. Тень скамейки тоже чуть удалил и зарисовал не очень чисто - 4/5 учитывая что это с первой же попытки.
Код
Демо
#inpainting #objectremoval
👍22❤1😁1