Обучение Chroma (чекпойнт на базе Flux Schnell) завершено, семейство моделей доступно для использования.
Модели можно дообучать под конкретные задачи.
Chroma1-Base (базовая модель 512x512)
Chroma1-HD (модель с высоким разрешением 1024x1024)
Chroma1-Flash (экспериментальная версия для ускорения работы моделей)
Chroma1-Radiance [WIP] (модель, работающая напрямую с пикселями, а не с латентным пространством, что должно устранить некоторые артефакты).
Базовые модели универсальны и дают больше возможностей для дальнейшей настройки, в отличие от моделей, заточенных под определённый стиль.
На примерах черрипики с flash и HD
Реддит
Fictional.ai - говорят, в мобильной аппке есть Chroma. Дают ли попробовать бесплатно не заню
#text2image #mobile #ios #android
Модели можно дообучать под конкретные задачи.
Chroma1-Base (базовая модель 512x512)
Chroma1-HD (модель с высоким разрешением 1024x1024)
Chroma1-Flash (экспериментальная версия для ускорения работы моделей)
Chroma1-Radiance [WIP] (модель, работающая напрямую с пикселями, а не с латентным пространством, что должно устранить некоторые артефакты).
Базовые модели универсальны и дают больше возможностей для дальнейшей настройки, в отличие от моделей, заточенных под определённый стиль.
На примерах черрипики с flash и HD
Реддит
Fictional.ai - говорят, в мобильной аппке есть Chroma. Дают ли попробовать бесплатно не заню
#text2image #mobile #ios #android
👍12
lightx2v Qwen-Image-Edit-Lightning
ускоряющая лора Qwen-Image-Edit
есть 8-шаговая, 4-шаговая, полные веса и bf16
#lora #optimization #qwenimage
ускоряющая лора Qwen-Image-Edit
есть 8-шаговая, 4-шаговая, полные веса и bf16
#lora #optimization #qwenimage
huggingface.co
lightx2v/Qwen-Image-Lightning at main
We’re on a journey to advance and democratize artificial intelligence through open source and open science.
🔥5👍4
Waver 1.0
Единая модель от ByteDance для генерации видео и изображений
3 место на T2V leaderboard & I2V leaderboard
— поддерживает создание видео по тексту и изображениям;
— генерирует видео длиной 5 и 10 секунд;
— работает с разрешением 720p и 1080p;
— создаёт видео с реалистичными движениями, особенно в масштабных сценах с людьми и животными;
— позволяет создавать нарративные видео с несколькими последовательными кадрами, сохраняя при этом согласованность сюжета, визуального стиля и атмосферы;
— поддерживает генерацию видео в различных художественных стилях, включая гиперреализм, анимацию, плюшевые игрушки и другие;
— способна отображать сложные и масштабные движения, например, в спортивных сценах;
— может создавать видео с многокамерным повествованием, обеспечивая согласованность основного объекта, визуального стиля и общей атмосферы при переключении кадров.
Гитхаб без кода
Дискорд - попробовать предлагают здесь
#text2image #image2video #text2video
Единая модель от ByteDance для генерации видео и изображений
3 место на T2V leaderboard & I2V leaderboard
— поддерживает создание видео по тексту и изображениям;
— генерирует видео длиной 5 и 10 секунд;
— работает с разрешением 720p и 1080p;
— создаёт видео с реалистичными движениями, особенно в масштабных сценах с людьми и животными;
— позволяет создавать нарративные видео с несколькими последовательными кадрами, сохраняя при этом согласованность сюжета, визуального стиля и атмосферы;
— поддерживает генерацию видео в различных художественных стилях, включая гиперреализм, анимацию, плюшевые игрушки и другие;
— способна отображать сложные и масштабные движения, например, в спортивных сценах;
— может создавать видео с многокамерным повествованием, обеспечивая согласованность основного объекта, визуального стиля и общей атмосферы при переключении кадров.
Гитхаб без кода
Дискорд - попробовать предлагают здесь
#text2image #image2video #text2video
👍9❤1🔥1
Нейронавт | Нейросети в творчестве
Waver 1.0 Единая модель от ByteDance для генерации видео и изображений 3 место на T2V leaderboard & I2V leaderboard — поддерживает создание видео по тексту и изображениям; — генерирует видео длиной 5 и 10 секунд; — работает с разрешением 720p и 1080p;…
потестил
Первое - t2v
Prompt: fantasy Fish straight-walking from right to the left out of sea to a human city as undercover agent, wearing human suite, wearing a landsuite with a helmet filled with water to breathe, wearing a hat over the helmet, in human disguise, masterpiece, wide view, distant view
Второе - i2v
Prompt: fantasy Fish straight-walking in a human city as undercover agent, wearing human suite, wearing a landsuite with a helmet filled with water to breathe, wearing a hat over the helmet. The Fish is walking and turning his head around exploring the human world. masterpiece, wide view, distant view
Третье - t2v, скормил монолог идущего к реке
Prompt: I am so filled with my knowledge that I seem to have been living on trillions and trillions of planets like this Earth for a hundred trillion billion years, this world is absolutely clear to me, and I am looking for only one thing here - peace, peace and this harmony, from merging with the infinitely eternal, from contemplating the great fractal similarity and from this wonderful unity of being, infinitely eternal, wherever you look, though deep - infinitely small, though up - infinitely large
Первое - t2v
Prompt: fantasy Fish straight-walking from right to the left out of sea to a human city as undercover agent, wearing human suite, wearing a landsuite with a helmet filled with water to breathe, wearing a hat over the helmet, in human disguise, masterpiece, wide view, distant view
Второе - i2v
Prompt: fantasy Fish straight-walking in a human city as undercover agent, wearing human suite, wearing a landsuite with a helmet filled with water to breathe, wearing a hat over the helmet. The Fish is walking and turning his head around exploring the human world. masterpiece, wide view, distant view
Третье - t2v, скормил монолог идущего к реке
Prompt: I am so filled with my knowledge that I seem to have been living on trillions and trillions of planets like this Earth for a hundred trillion billion years, this world is absolutely clear to me, and I am looking for only one thing here - peace, peace and this harmony, from merging with the infinitely eternal, from contemplating the great fractal similarity and from this wonderful unity of being, infinitely eternal, wherever you look, though deep - infinitely small, though up - infinitely large
🥴13😁3👍2😐2🔥1
TINKER: Diffusion's Gift to 3D--Multi-View Consistent Editing From Sparse Inputs without Per-Scene Optimization
Редактор 3D сцен на гауссианах текстовыми указаниями
— не требует много исходных данных;
— не нуждается в настройке для каждой сцены;
— может редактировать 3D с одним или несколькими входными данными;
— создаёт согласованные правки с несколькими ракурсами по 1–2 изображениям;
— реконструирует видео по первому кадру и глубине;
— улучшает качество 3DGS
Код ждем, с интеграцией в NerfStudio
#gaussian #3dediting
Редактор 3D сцен на гауссианах текстовыми указаниями
— не требует много исходных данных;
— не нуждается в настройке для каждой сцены;
— может редактировать 3D с одним или несколькими входными данными;
— создаёт согласованные правки с несколькими ракурсами по 1–2 изображениям;
— реконструирует видео по первому кадру и глубине;
— улучшает качество 3DGS
Код ждем, с интеграцией в NerfStudio
#gaussian #3dediting
🔥7👍1
Griffith Voice — AI Voice Cloner & Dubber
Проект соло-разработчика для дубляжа видео с клонированием оригинальных голосов на Whisper / GPT / GPT-SoVITS
На вход нужно только видео. Поддерживает Английский, корейский? японский, китайский.
В разработке: русский!, французский, арабский, немецкий
Работает на 4GB VRAM
#dubbing #voicecloning #translation
Проект соло-разработчика для дубляжа видео с клонированием оригинальных голосов на Whisper / GPT / GPT-SoVITS
На вход нужно только видео. Поддерживает Английский, корейский? японский, китайский.
В разработке: русский!, французский, арабский, немецкий
Работает на 4GB VRAM
#dubbing #voicecloning #translation
👍11🔥2
Nunchaku Qwen-Image in ComfyUI
Nunchaku объявили о поддержке своих квантов #qwenimage в #ComfyUI
Поддержку лор обещают в грядущих апдейтах
Версия еще не добавлена в реестр ComfyUI, используйте nunchaku v1.0.0dev20250823
Веса
воркфлоу
Реддит
#workflow #optimization
Nunchaku объявили о поддержке своих квантов #qwenimage в #ComfyUI
Поддержку лор обещают в грядущих апдейтах
Версия еще не добавлена в реестр ComfyUI, используйте nunchaku v1.0.0dev20250823
Веса
воркфлоу
Реддит
#workflow #optimization
👍9❤1
👍1
Forwarded from Den4ik Research
Наш русскоязычный датасет для TTS опубликован!
Сегодня выкладываем открытые корпуса на 4000+ часов речи, а еще синтезатор речи ESpeech-TTS-1
Наш датасет содержит больше 4000 часов русской речи. Статистика по корпусам:
Многоголосые:
ESpeech-podcasts - 3200 часов
ESpeech-webinars - 850 часов
Одноголосые:
ESpeech-igm - 220 часов
ESpeech-buldjat - 54 часа
ESpeech-upvote - 296 часов
ESpeech-tuchniyzhab - 306 часов
Данные лежат вот тут: https://huggingface.co/ESpeech
Техрепорт датасета доступен тут: https://github.com/Den4ikAI/ESpeech/blob/main/ESpeech_techreport.pdf
Также, мы решили провести некоторые эксперименты с TTS. Получилось обучить F5-TTS на 10000 часов речи и сделать одну из лучших по нашим замерам моделей в опенсурсе для русского языка.
Какие модели доступны?
ESpeech-TTS-1 [RL] V1 - Первая версия модели с RL
ESpeech-TTS-1 [RL] V2 - Вторая версия модели с RL
ESpeech-TTS-1 PODCASTER [SFT] - Модель обученная только на подкастах, лучше генерирует спонтанную речь
ESpeech-TTS-1 [SFT] 95K - чекпоинт с 95000 шагов (на нем основана RL V1)
ESpeech-TTS-1 [SFT] 265K - чекпоинт с 265000 шагов (на нем основана RL V2)
Лайкайте модель которая больше понравится чтобы мы понимали есть ли смысл запускать RL.
Послушать модели без скачивания можно вот здесь:
https://huggingface.co/spaces/Den4ikAI/ESpeech-TTS
Совместно с @speech_recognition_ru ещё сделали лидерборд русского ТТС, где можно глянуть метрики:
https://huggingface.co/spaces/ESpeech/open_tts_leaderboard_ru
Задать вопросы по поводу данных и модели можно в наших телеграм каналах:
https://news.1rj.ru/str/den4ikresearch
https://news.1rj.ru/str/voice_stuff_chat
Вы можете мне задонатить, чтобы у меня были ресурсы делать более крутые модели и датасеты:
USDT (TRC20): TEpEM4VVmGmqKHn4Xz1FxM7qZiXjWtUEUB
BTC: bc1qw5lq7fc455e47hggax6zp8txw4ru7yvsxvawv3
https://www.tbank.ru/cf/7WKnNMqWtOx
Сегодня выкладываем открытые корпуса на 4000+ часов речи, а еще синтезатор речи ESpeech-TTS-1
Наш датасет содержит больше 4000 часов русской речи. Статистика по корпусам:
Многоголосые:
ESpeech-podcasts - 3200 часов
ESpeech-webinars - 850 часов
Одноголосые:
ESpeech-igm - 220 часов
ESpeech-buldjat - 54 часа
ESpeech-upvote - 296 часов
ESpeech-tuchniyzhab - 306 часов
Данные лежат вот тут: https://huggingface.co/ESpeech
Техрепорт датасета доступен тут: https://github.com/Den4ikAI/ESpeech/blob/main/ESpeech_techreport.pdf
Также, мы решили провести некоторые эксперименты с TTS. Получилось обучить F5-TTS на 10000 часов речи и сделать одну из лучших по нашим замерам моделей в опенсурсе для русского языка.
Какие модели доступны?
ESpeech-TTS-1 [RL] V1 - Первая версия модели с RL
ESpeech-TTS-1 [RL] V2 - Вторая версия модели с RL
ESpeech-TTS-1 PODCASTER [SFT] - Модель обученная только на подкастах, лучше генерирует спонтанную речь
ESpeech-TTS-1 [SFT] 95K - чекпоинт с 95000 шагов (на нем основана RL V1)
ESpeech-TTS-1 [SFT] 265K - чекпоинт с 265000 шагов (на нем основана RL V2)
Лайкайте модель которая больше понравится чтобы мы понимали есть ли смысл запускать RL.
Послушать модели без скачивания можно вот здесь:
https://huggingface.co/spaces/Den4ikAI/ESpeech-TTS
Совместно с @speech_recognition_ru ещё сделали лидерборд русского ТТС, где можно глянуть метрики:
https://huggingface.co/spaces/ESpeech/open_tts_leaderboard_ru
Задать вопросы по поводу данных и модели можно в наших телеграм каналах:
https://news.1rj.ru/str/den4ikresearch
https://news.1rj.ru/str/voice_stuff_chat
Вы можете мне задонатить, чтобы у меня были ресурсы делать более крутые модели и датасеты:
USDT (TRC20): TEpEM4VVmGmqKHn4Xz1FxM7qZiXjWtUEUB
BTC: bc1qw5lq7fc455e47hggax6zp8txw4ru7yvsxvawv3
https://www.tbank.ru/cf/7WKnNMqWtOx
1❤23🔥5👍3