This media is not supported in your browser
VIEW IN TELEGRAM
OpenAudio S1
полностью кастомный ИИ-диктор от Fish Audio
Говорят что занял первое место на TTS-арене - не нашел
Клонирует голос за 15 секунд.
Можно выбирать любые эмоции, паузы, вздохи, шепот, крики, акценты и стили озвучки вашего текста.
Подходит для озвучки видео, аудиокниг, подкастов и так далее.
Поддерживает русский язык
#tts #text2speech #voicecloning
полностью кастомный ИИ-диктор от Fish Audio
Говорят что занял первое место на TTS-арене - не нашел
Клонирует голос за 15 секунд.
Можно выбирать любые эмоции, паузы, вздохи, шепот, крики, акценты и стили озвучки вашего текста.
Подходит для озвучки видео, аудиокниг, подкастов и так далее.
Поддерживает русский язык
#tts #text2speech #voicecloning
❤11🤔1
Google AI Edge Gallery
Экспериментальное приложение Гугла для локального запуска ИИ-моделей на смартфоне
Основные возможности:
- Генерация изображений
- ИИ-чат без интернета
- Написание и редактирование кода
- Анализ изображений ("Ask Image")
- Prompt Lab с готовыми шаблонами для различных задач
- Поддержка моделей Google Gemma 3n и других
- AI Chat: участвуйте в многопользовательских беседах.
- Анализ производительности: тесты в реальном времени (TTFT, скорость декодирования, задержка).
- Загрузите свою собственную модель: протестируйте местные .taskмодели LiteRT.
- Ресурсы для разработчиков: быстрые ссылки на карточки моделей и исходный код.
Android
iOS ждем
#mobile #android #assistant #tools
Экспериментальное приложение Гугла для локального запуска ИИ-моделей на смартфоне
Основные возможности:
- Генерация изображений
- ИИ-чат без интернета
- Написание и редактирование кода
- Анализ изображений ("Ask Image")
- Prompt Lab с готовыми шаблонами для различных задач
- Поддержка моделей Google Gemma 3n и других
- AI Chat: участвуйте в многопользовательских беседах.
- Анализ производительности: тесты в реальном времени (TTFT, скорость декодирования, задержка).
- Загрузите свою собственную модель: протестируйте местные .taskмодели LiteRT.
- Ресурсы для разработчиков: быстрые ссылки на карточки моделей и исходный код.
Android
iOS ждем
#mobile #android #assistant #tools
❤8
Wan2.1-VACE Native Support and Ace-Step Workflow Refined
Нативная поддержка редактора видео VACE в #ComfyUI
+ обновка воркфлоу генератора музыки Ace-Step
Воркфлоу по ссылке в заголовке
а еще они придумали как сшивать картинки в коллаж для сборки в Flux Kontext
#workflow #text2music #videoediting #imageediting #text2image #vibeediting
Нативная поддержка редактора видео VACE в #ComfyUI
+ обновка воркфлоу генератора музыки Ace-Step
Воркфлоу по ссылке в заголовке
а еще они придумали как сшивать картинки в коллаж для сборки в Flux Kontext
#workflow #text2music #videoediting #imageediting #text2image #vibeediting
👍7
У кого не открывается сайт pinokio.computer держите инструкцию от подписчика
Спасибо Oleg K
#tutorial
Нам нужно отредактировать файл hosts, чтобы перенаправить запросы к сайту Pinokio на рабочий IP-адрес.
Сначала открываем Блокнот обязательно от имени администратора - это критически важно! Нажимаем Win+R, вводим 'notepad', и запускаем через Ctrl+Shift+Enter.
Теперь в Блокноте идем в 'Файл' - 'Открыть' и вводим путь: C:\Windows\System32\drivers\etc\hosts. Не забудьте изменить тип файлов на 'Все файлы', иначе hosts не будет виден.
В самый конец файла добавляем две строки:
3.75.10.80 portal.pinokio.computer
3.75.10.80 pinokio.computer
Сохраняем файл ! Кстати, разработчики также предоставили альтернативный адрес https://pinokio-home.netlify.app, который тоже можно использовать для загрузки приложений."
Финальный штрих - очищаем DNS-кэш. Открываем командную строку от имени администратора и выполняем: ipconfig /flushdns
Спасибо Oleg K
#tutorial
pinokio.co
Pinokio: The 1-Click Localhost Cloud
Run your own personal Internet on Mac, Windows, and Linux with one click.
🔥6
This media is not supported in your browser
VIEW IN TELEGRAM
Chatterbox TTS
Генератор речи в опенсорсе от Resemble AI
#SOTA в клонировании голоса без обучения, клонирует по 5-секундному образцу
Под капотом 0.5B Llama.
Уникальный контроль выразительности.
Водяные знаки на выходе.
Легкий скрипт для конверсии голоса.
Превосходит ElevenLabs.
Есть в Pinokio
Код
Демо - по русски не понимает, генерирует эльфийский
Веса
#tts #text2speech #voicecloning
Генератор речи в опенсорсе от Resemble AI
#SOTA в клонировании голоса без обучения, клонирует по 5-секундному образцу
Под капотом 0.5B Llama.
Уникальный контроль выразительности.
Водяные знаки на выходе.
Легкий скрипт для конверсии голоса.
Превосходит ElevenLabs.
Есть в Pinokio
Код
Демо - по русски не понимает, генерирует эльфийский
Веса
#tts #text2speech #voicecloning
👍7❤3👎1
WanGP
Инструмент для запуска видеогенераторов на GPU от 6 ГБ VRAM
Позволяет генерировать видео длительностью более 10 секунд с разрешением 720p на RTX 4090 и 480p с менее чем 12 ГБ VRAM.
Поддерживает Wan, Hunyuan Video и LTV Video/ Добавили поддержку Phantom 14Bб Wan CausVidб VACE
- Поддержка старых графических процессоров (RTX 10XX, 20xx, ...)
-Интегрированные инструменты для облегчения создания видео: редактор масок, усилитель подсказок, временная и пространственная генерация
- Поддержка лор
- Очередь заданий
#tools #text2video #image2video #video2video #optimization
Инструмент для запуска видеогенераторов на GPU от 6 ГБ VRAM
Позволяет генерировать видео длительностью более 10 секунд с разрешением 720p на RTX 4090 и 480p с менее чем 12 ГБ VRAM.
Поддерживает Wan, Hunyuan Video и LTV Video/ Добавили поддержку Phantom 14Bб Wan CausVidб VACE
- Поддержка старых графических процессоров (RTX 10XX, 20xx, ...)
-Интегрированные инструменты для облегчения создания видео: редактор масок, усилитель подсказок, временная и пространственная генерация
- Поддержка лор
- Очередь заданий
#tools #text2video #image2video #video2video #optimization
GitHub
GitHub - deepbeepmeep/Wan2GP: A fast AI Video Generator for the GPU Poor. Supports Wan 2.1/2.2, Qwen Image, Hunyuan Video, LTX…
A fast AI Video Generator for the GPU Poor. Supports Wan 2.1/2.2, Qwen Image, Hunyuan Video, LTX Video and Flux. - deepbeepmeep/Wan2GP
❤3
This media is not supported in your browser
VIEW IN TELEGRAM
Luma Modify Video
Обновка видеогенератора Ray2.
• Позволяет стилизовать видео длиной до 10 секунд с сохранением динамики персонажей, лицевой анимации и деталей фона.
• Можно изолировать отдельные элементы, такие как одежда, лица и предметы
• Позволяет подавать визуальные референсы
Доступно на тарифах Unlimited и Enterprise.
#videoediting #stylize
Обновка видеогенератора Ray2.
• Позволяет стилизовать видео длиной до 10 секунд с сохранением динамики персонажей, лицевой анимации и деталей фона.
• Можно изолировать отдельные элементы, такие как одежда, лица и предметы
• Позволяет подавать визуальные референсы
Доступно на тарифах Unlimited и Enterprise.
#videoediting #stylize
👍5❤3
Media is too big
VIEW IN TELEGRAM
TIGER: Time-frequency Interleaved Gain Extraction and Reconstruction for Efficient Speech Separation
Легковесная китайская модель для разделения речи, музыки, эффектов
Хвастаются что бьют #SOTA модель TF-GridNet
Код
#audioseparation #demix #unmix
Легковесная китайская модель для разделения речи, музыки, эффектов
Хвастаются что бьют #SOTA модель TF-GridNet
Код
#audioseparation #demix #unmix
👍8❤1😁1🤔1
This media is not supported in your browser
VIEW IN TELEGRAM
MMaDA - Open-Sourced Multimodal Large Diffusion Language Models
Рассуждающая визуально-языковая модель
Умеет генерировать картинки по тексту? понимать их и рассуждать
Код
Демо
#vlm #reasoning
Рассуждающая визуально-языковая модель
Умеет генерировать картинки по тексту? понимать их и рассуждать
Код
Демо
#vlm #reasoning
👍3❤1🔥1
Media is too big
VIEW IN TELEGRAM
Sky
Агент-ассистент для #Mac
Может выполнять действия и отвечать на вопросы для любого окна и любого приложения, открытого на вашем Mac
Под капотом GPT 4.1 или Claude. Умеет пользоваться MCP
Большой обзор
Записаться в вейтлист
#agent
Агент-ассистент для #Mac
Может выполнять действия и отвечать на вопросы для любого окна и любого приложения, открытого на вашем Mac
Под капотом GPT 4.1 или Claude. Умеет пользоваться MCP
Большой обзор
Записаться в вейтлист
#agent
👍6❤1🔥1
Please open Telegram to view this post
VIEW IN TELEGRAM
💩9🤡5👍4😐4👎1
This media is not supported in your browser
VIEW IN TELEGRAM
DCM: Dual-Expert Consistency Model for Efficient and High-Quality Video Generation
Ускорение видеогенерации в 10 раз с сохранением качества. Лучше чем LCM и PCM
Прикручено к HunyuanVideo и WAN2.1
Код
Веса
#optimization #text2video
Ускорение видеогенерации в 10 раз с сохранением качества. Лучше чем LCM и PCM
Прикручено к HunyuanVideo и WAN2.1
Код
Веса
#optimization #text2video
👍12❤2👎2🤡1🌚1
This media is not supported in your browser
VIEW IN TELEGRAM
FLAIR: Flow-Based Latent Alignment for Image Restoration
Инверсное восстановление и редактирование изображений на основе потока
Код
Демо
#imageediting #imagerestoration
Инверсное восстановление и редактирование изображений на основе потока
Код
Демо
#imageediting #imagerestoration
👍4❤1
Brie's FramePack Lazy Repose workflow
Управляем позой в FramePack
+ еще какие-то воркфлоу для WAN и VACE
#pose2video #image2video #workflow
Управляем позой в FramePack
+ еще какие-то воркфлоу для WAN и VACE
#pose2video #image2video #workflow
👍11❤1🔥1
This media is not supported in your browser
VIEW IN TELEGRAM
FlowMo: Variance-Based Flow Guidance for Coherent Motion in Video Generation
Улучшение согласованности движения для видеогенераторов без дообучения
Прикручено к Wan2.1 и CogVideo
Код
#text2video
Улучшение согласованности движения для видеогенераторов без дообучения
Прикручено к Wan2.1 и CogVideo
Код
#text2video
🔥13
This media is not supported in your browser
VIEW IN TELEGRAM
Mirage Studio
Сервис говорящих аватаров от Captions уехал на отдельный сайт и дает бесплатно 600 кредитов, 1 секунда видео обойдется в 10 кредитов.
Создает видео говорящего блогера по тексту или аудио.
Можно настроить мимику, движения, эмоции, голос и фон
Попробовать
#humananimation #speech2video #humanavatar #talkinghead
Сервис говорящих аватаров от Captions уехал на отдельный сайт и дает бесплатно 600 кредитов, 1 секунда видео обойдется в 10 кредитов.
Создает видео говорящего блогера по тексту или аудио.
Можно настроить мимику, движения, эмоции, голос и фон
Попробовать
#humananimation #speech2video #humanavatar #talkinghead
👍8
IEAP: Image Editing As Programs with Diffusion Models
И еще один метод редактирования изображений на диффузных трансформерах
Разбивает сложные инструкции на последовательность простых операций. Операции программируются агентом на основе VLM
Код
Демо
#imageediting #inpainting
И еще один метод редактирования изображений на диффузных трансформерах
Разбивает сложные инструкции на последовательность простых операций. Операции программируются агентом на основе VLM
Код
Демо
#imageediting #inpainting
👍3