Grok Imagine 1.0
Говорят что таинственный картинкогенератор Mandarin на LMarena это Grok Imagine 1.0
Ну и пишут что он уже на https://grok.com/imagine
Но чтото я не вижу явных доказательств
#news #text2image
Говорят что таинственный картинкогенератор Mandarin на LMarena это Grok Imagine 1.0
Ну и пишут что он уже на https://grok.com/imagine
Но чтото я не вижу явных доказательств
#news #text2image
👍5
ERNIE-4.5-VL-28B-A3B-Thinking: A Breakthrough in Multimodal AI
Очередной визуал-мыслитель Эрни от Baidu
28B параметров, из них 3B активных.
Думает с помощью изображений, может увеличивать и уменьшать их, чтобы рассмотреть детали
Использует внешние инструменты, например, поиск по изображениям, для получения дополнительной информации
Понимает видео, определяет изменения содержания в разных временных сегментах и извлекает субтитры с таймкодами
Понимает и отвечает на русском. Но думает ан английском.
Как видим, успешно галлюцинирует.
Гитхаб с кукбукой
HF
Демо
#multimodal #assistant #vlm #reasoning #image2text
Очередной визуал-мыслитель Эрни от Baidu
28B параметров, из них 3B активных.
Думает с помощью изображений, может увеличивать и уменьшать их, чтобы рассмотреть детали
Использует внешние инструменты, например, поиск по изображениям, для получения дополнительной информации
Понимает видео, определяет изменения содержания в разных временных сегментах и извлекает субтитры с таймкодами
Понимает и отвечает на русском. Но думает ан английском.
Как видим, успешно галлюцинирует.
Гитхаб с кукбукой
HF
Демо
#multimodal #assistant #vlm #reasoning #image2text
😁16👍5❤1🤯1
Infinity: Unified SpaceTime AutoRegressive Modeling for Visual Generation
Дискретный авторегрессионный видеогенератор
Видимо от авторов Waver, потому что пригласительная Discord ссылка ведет на их канал
Создает контент в разных форматах: генерирует изображения по тексту, превращает изображения в видео, создаёт динамические видео и длинные интерактивные (???) ролики
Работает быстрее аналогов: примерно в 10 раз быстрее диффузионных методов, например, HunyuanVideo
Ну и вроде как нативное 720p. Модель поменьше делает 480p
Гитхаб
HF
Попробовать в дискорде
Спасибо @m_franz
#text2video #image2video
Дискретный авторегрессионный видеогенератор
Видимо от авторов Waver, потому что пригласительная Discord ссылка ведет на их канал
Создает контент в разных форматах: генерирует изображения по тексту, превращает изображения в видео, создаёт динамические видео и длинные интерактивные (???) ролики
Работает быстрее аналогов: примерно в 10 раз быстрее диффузионных методов, например, HunyuanVideo
Ну и вроде как нативное 720p. Модель поменьше делает 480p
Гитхаб
HF
Попробовать в дискорде
Спасибо @m_franz
#text2video #image2video
👍7❤2🔥2😱1
This media is not supported in your browser
VIEW IN TELEGRAM
Ну подумаешь - российский робот упал на презентации. Ахаха. хаха 😐 . Так же несмешно как и человеческие падения. Вообще непонятно зачем это постят, никак не тянет на новость. У всех роботы падали, и у Маска тоже, и ничего стыдного в этом нет.
Вот если бы он упал и взорвался с криком "ИИ-Акбар!"
Или на худой конец упал и обос*ался — вот это я понимаю новость была бы.
А так и не хочется даже постить. И не буду
#robot #оффтоп
Вот если бы он упал и взорвался с криком "ИИ-Акбар!"
Или на худой конец упал и обос*ался — вот это я понимаю новость была бы.
А так и не хочется даже постить. И не буду
#robot #оффтоп
Please open Telegram to view this post
VIEW IN TELEGRAM
1😁31💯16🍌6😐3
FlowFeat: Pixel-Dense Embedding of Motion Profiles
Конкурент DINO и V-JEPA, создаёт детализированные представления видеоданных на уровне пикселей, используя информацию о движении.
В принципе должно работать для сегментации
Интересно где сравнение с DINO v3
Гитхаб
#segmentation #video2mask
Конкурент DINO и V-JEPA, создаёт детализированные представления видеоданных на уровне пикселей, используя информацию о движении.
В принципе должно работать для сегментации
Интересно где сравнение с DINO v3
Гитхаб
#segmentation #video2mask
❤5👍2🤔1🤯1
Нейронавт | Нейросети в творчестве
XVerse: Consistent Multi-Subject Control of Identity and Semantic Attributes via DiT Modulation Генератор картинок по тексту от ByteDance Позволяет точно управлять несколькими объектами в одном изображении. Детальная настройка семантических атрибутов, таких…
XVerse Demo
Демоспейс июньского генератора картинок от ByteDAnce
#text2image #subjectcontrol #multisubject
Демоспейс июньского генератора картинок от ByteDAnce
#text2image #subjectcontrol #multisubject
👍4🔥1
Media is too big
VIEW IN TELEGRAM
Space DJ
Кто-то навайбкодил.
Летаешь в космосе где каждая звездочка это музыкальный стиль.
Управление неудобное но вверху можно включить автопилот.
Лупы генерятся в реальном времени.
Можно перейти в Google AI Studio и продолжить эксперименты там.
#music #realtime
Кто-то навайбкодил.
Летаешь в космосе где каждая звездочка это музыкальный стиль.
Управление неудобное но вверху можно включить автопилот.
Лупы генерятся в реальном времени.
Можно перейти в Google AI Studio и продолжить эксперименты там.
#music #realtime
🔥13👍3❤2🤯1
ChatGPT-5.1
Платным подписчикам выдали новую версию.
Разговорный стиль + улучшенное следование инструкциям.
Есть 2 режима:
Instant — быстрый
Thinking — для сложных задач
Можно выбрать тон — Профессиональный, Откровенный, Необычный
#assistant #news
Платным подписчикам выдали новую версию.
Разговорный стиль + улучшенное следование инструкциям.
Есть 2 режима:
Instant — быстрый
Thinking — для сложных задач
Можно выбрать тон — Профессиональный, Откровенный, Необычный
#assistant #news
👍4
ComfyUI Advanced Camera Prompts
Генератор промптов для управления камерой в #ComfyUI, оптимизированный для работы с Qwen-Edit-2509-Multiple-angles от dx8152. Анализирует данные камеры из нод Load 3D и автоматически генерирует промпты.
Спасибо @m_franz
#imageediting #novelview #cameracontrol
Генератор промптов для управления камерой в #ComfyUI, оптимизированный для работы с Qwen-Edit-2509-Multiple-angles от dx8152. Анализирует данные камеры из нод Load 3D и автоматически генерирует промпты.
Спасибо @m_franz
#imageediting #novelview #cameracontrol
❤9👍6🔥3
Media is too big
VIEW IN TELEGRAM
FireRedTTS-2: Towards Long Conversational Speech Generation for Podcast and Chatbot
Китайский голосовой движок с поддержкой мультиспикер диалога и клонированием голоса.
Проверил в демо - по-русски говорит. Но Демо быстро выжрало лимит а сохранить я ничего не успел.
— генерирует стабильную и естественную речь
— надёжно переключает говорящих
— учитывает контекст при формировании просодии
— использует новый токенизатор речи с частотой 12,5 Гц, который ускоряет обучение и вывод, увеличивает максимальную длину диалога и улучшает моделирование текста
Вот кстати про частоту - у потоковых голосовых моделей есть параметр частота токенизатора, это не частота дискретизации аудиосигнала.
Можно пилить подкасты в комфи
HF
Демо
ComfyUI-FireRedTTS
#voicecloning #tts #text2speech #russian #comfyUI
Китайский голосовой движок с поддержкой мультиспикер диалога и клонированием голоса.
Проверил в демо - по-русски говорит. Но Демо быстро выжрало лимит а сохранить я ничего не успел.
— генерирует стабильную и естественную речь
— надёжно переключает говорящих
— учитывает контекст при формировании просодии
— использует новый токенизатор речи с частотой 12,5 Гц, который ускоряет обучение и вывод, увеличивает максимальную длину диалога и улучшает моделирование текста
Вот кстати про частоту - у потоковых голосовых моделей есть параметр частота токенизатора, это не частота дискретизации аудиосигнала.
Можно пилить подкасты в комфи
HF
Демо
ComfyUI-FireRedTTS
#voicecloning #tts #text2speech #russian #comfyUI
🔥6❤1👍1
This media is not supported in your browser
VIEW IN TELEGRAM
MuleRun
Маркетплейс ИИ-агентов под разные задачи.
Доступно более 180 агентов:
- инвестиции и исследование рынка
- дизайн для электронной коммерции
- создание контента
- помощь в играх
- автоматизация рабочих процессов и т д
При регистрации по реферральной ссылке дают 200 кредитов
#agent #marketplace
Маркетплейс ИИ-агентов под разные задачи.
Доступно более 180 агентов:
- инвестиции и исследование рынка
- дизайн для электронной коммерции
- создание контента
- помощь в играх
- автоматизация рабочих процессов и т д
При регистрации по реферральной ссылке дают 200 кредитов
#agent #marketplace
👍3👎1