ERNIE-4.5-VL-28B-A3B-Thinking: A Breakthrough in Multimodal AI
Очередной визуал-мыслитель Эрни от Baidu
28B параметров, из них 3B активных.
Думает с помощью изображений, может увеличивать и уменьшать их, чтобы рассмотреть детали
Использует внешние инструменты, например, поиск по изображениям, для получения дополнительной информации
Понимает видео, определяет изменения содержания в разных временных сегментах и извлекает субтитры с таймкодами
Понимает и отвечает на русском. Но думает ан английском.
Как видим, успешно галлюцинирует.
Гитхаб с кукбукой
HF
Демо
#multimodal #assistant #vlm #reasoning #image2text
Очередной визуал-мыслитель Эрни от Baidu
28B параметров, из них 3B активных.
Думает с помощью изображений, может увеличивать и уменьшать их, чтобы рассмотреть детали
Использует внешние инструменты, например, поиск по изображениям, для получения дополнительной информации
Понимает видео, определяет изменения содержания в разных временных сегментах и извлекает субтитры с таймкодами
Понимает и отвечает на русском. Но думает ан английском.
Как видим, успешно галлюцинирует.
Гитхаб с кукбукой
HF
Демо
#multimodal #assistant #vlm #reasoning #image2text
😁16👍5❤1🤯1
Infinity: Unified SpaceTime AutoRegressive Modeling for Visual Generation
Дискретный авторегрессионный видеогенератор
Видимо от авторов Waver, потому что пригласительная Discord ссылка ведет на их канал
Создает контент в разных форматах: генерирует изображения по тексту, превращает изображения в видео, создаёт динамические видео и длинные интерактивные (???) ролики
Работает быстрее аналогов: примерно в 10 раз быстрее диффузионных методов, например, HunyuanVideo
Ну и вроде как нативное 720p. Модель поменьше делает 480p
Гитхаб
HF
Попробовать в дискорде
Спасибо @m_franz
#text2video #image2video
Дискретный авторегрессионный видеогенератор
Видимо от авторов Waver, потому что пригласительная Discord ссылка ведет на их канал
Создает контент в разных форматах: генерирует изображения по тексту, превращает изображения в видео, создаёт динамические видео и длинные интерактивные (???) ролики
Работает быстрее аналогов: примерно в 10 раз быстрее диффузионных методов, например, HunyuanVideo
Ну и вроде как нативное 720p. Модель поменьше делает 480p
Гитхаб
HF
Попробовать в дискорде
Спасибо @m_franz
#text2video #image2video
👍7❤2🔥2😱1
This media is not supported in your browser
VIEW IN TELEGRAM
Ну подумаешь - российский робот упал на презентации. Ахаха. хаха 😐 . Так же несмешно как и человеческие падения. Вообще непонятно зачем это постят, никак не тянет на новость. У всех роботы падали, и у Маска тоже, и ничего стыдного в этом нет.
Вот если бы он упал и взорвался с криком "ИИ-Акбар!"
Или на худой конец упал и обос*ался — вот это я понимаю новость была бы.
А так и не хочется даже постить. И не буду
#robot #оффтоп
Вот если бы он упал и взорвался с криком "ИИ-Акбар!"
Или на худой конец упал и обос*ался — вот это я понимаю новость была бы.
А так и не хочется даже постить. И не буду
#robot #оффтоп
Please open Telegram to view this post
VIEW IN TELEGRAM
1😁31💯16🍌6😐3
FlowFeat: Pixel-Dense Embedding of Motion Profiles
Конкурент DINO и V-JEPA, создаёт детализированные представления видеоданных на уровне пикселей, используя информацию о движении.
В принципе должно работать для сегментации
Интересно где сравнение с DINO v3
Гитхаб
#segmentation #video2mask
Конкурент DINO и V-JEPA, создаёт детализированные представления видеоданных на уровне пикселей, используя информацию о движении.
В принципе должно работать для сегментации
Интересно где сравнение с DINO v3
Гитхаб
#segmentation #video2mask
❤5👍2🤔1🤯1
Нейронавт | Нейросети в творчестве
XVerse: Consistent Multi-Subject Control of Identity and Semantic Attributes via DiT Modulation Генератор картинок по тексту от ByteDance Позволяет точно управлять несколькими объектами в одном изображении. Детальная настройка семантических атрибутов, таких…
XVerse Demo
Демоспейс июньского генератора картинок от ByteDAnce
#text2image #subjectcontrol #multisubject
Демоспейс июньского генератора картинок от ByteDAnce
#text2image #subjectcontrol #multisubject
👍4🔥1
Media is too big
VIEW IN TELEGRAM
Space DJ
Кто-то навайбкодил.
Летаешь в космосе где каждая звездочка это музыкальный стиль.
Управление неудобное но вверху можно включить автопилот.
Лупы генерятся в реальном времени.
Можно перейти в Google AI Studio и продолжить эксперименты там.
#music #realtime
Кто-то навайбкодил.
Летаешь в космосе где каждая звездочка это музыкальный стиль.
Управление неудобное но вверху можно включить автопилот.
Лупы генерятся в реальном времени.
Можно перейти в Google AI Studio и продолжить эксперименты там.
#music #realtime
🔥13👍3❤2🤯1
ChatGPT-5.1
Платным подписчикам выдали новую версию.
Разговорный стиль + улучшенное следование инструкциям.
Есть 2 режима:
Instant — быстрый
Thinking — для сложных задач
Можно выбрать тон — Профессиональный, Откровенный, Необычный
#assistant #news
Платным подписчикам выдали новую версию.
Разговорный стиль + улучшенное следование инструкциям.
Есть 2 режима:
Instant — быстрый
Thinking — для сложных задач
Можно выбрать тон — Профессиональный, Откровенный, Необычный
#assistant #news
👍4
ComfyUI Advanced Camera Prompts
Генератор промптов для управления камерой в #ComfyUI, оптимизированный для работы с Qwen-Edit-2509-Multiple-angles от dx8152. Анализирует данные камеры из нод Load 3D и автоматически генерирует промпты.
Спасибо @m_franz
#imageediting #novelview #cameracontrol
Генератор промптов для управления камерой в #ComfyUI, оптимизированный для работы с Qwen-Edit-2509-Multiple-angles от dx8152. Анализирует данные камеры из нод Load 3D и автоматически генерирует промпты.
Спасибо @m_franz
#imageediting #novelview #cameracontrol
❤9👍6🔥3
Media is too big
VIEW IN TELEGRAM
FireRedTTS-2: Towards Long Conversational Speech Generation for Podcast and Chatbot
Китайский голосовой движок с поддержкой мультиспикер диалога и клонированием голоса.
Проверил в демо - по-русски говорит. Но Демо быстро выжрало лимит а сохранить я ничего не успел.
— генерирует стабильную и естественную речь
— надёжно переключает говорящих
— учитывает контекст при формировании просодии
— использует новый токенизатор речи с частотой 12,5 Гц, который ускоряет обучение и вывод, увеличивает максимальную длину диалога и улучшает моделирование текста
Вот кстати про частоту - у потоковых голосовых моделей есть параметр частота токенизатора, это не частота дискретизации аудиосигнала.
Можно пилить подкасты в комфи
HF
Демо
ComfyUI-FireRedTTS
#voicecloning #tts #text2speech #russian #comfyUI
Китайский голосовой движок с поддержкой мультиспикер диалога и клонированием голоса.
Проверил в демо - по-русски говорит. Но Демо быстро выжрало лимит а сохранить я ничего не успел.
— генерирует стабильную и естественную речь
— надёжно переключает говорящих
— учитывает контекст при формировании просодии
— использует новый токенизатор речи с частотой 12,5 Гц, который ускоряет обучение и вывод, увеличивает максимальную длину диалога и улучшает моделирование текста
Вот кстати про частоту - у потоковых голосовых моделей есть параметр частота токенизатора, это не частота дискретизации аудиосигнала.
Можно пилить подкасты в комфи
HF
Демо
ComfyUI-FireRedTTS
#voicecloning #tts #text2speech #russian #comfyUI
🔥6❤1👍1
This media is not supported in your browser
VIEW IN TELEGRAM
MuleRun
Маркетплейс ИИ-агентов под разные задачи.
Доступно более 180 агентов:
- инвестиции и исследование рынка
- дизайн для электронной коммерции
- создание контента
- помощь в играх
- автоматизация рабочих процессов и т д
При регистрации по реферральной ссылке дают 200 кредитов
#agent #marketplace
Маркетплейс ИИ-агентов под разные задачи.
Доступно более 180 агентов:
- инвестиции и исследование рынка
- дизайн для электронной коммерции
- создание контента
- помощь в играх
- автоматизация рабочих процессов и т д
При регистрации по реферральной ссылке дают 200 кредитов
#agent #marketplace
👍3👎1
apply_texture_qwen_image_edit_2509
Продолжаем парад лор для #QIE
Лора для смены текстуры на объектах
#texture #lora #image2image #imageediting #referencing
Продолжаем парад лор для #QIE
Лора для смены текстуры на объектах
#texture #lora #image2image #imageediting #referencing
👍11
Нейронавт | Нейросети в творчестве
ERNIE-4.5-VL-28B-A3B-Thinking: A Breakthrough in Multimodal AI Очередной визуал-мыслитель Эрни от Baidu 28B параметров, из них 3B активных. Думает с помощью изображений, может увеличивать и уменьшать их, чтобы рассмотреть детали Использует внешние инструменты…
ERNIE 5.0
ОМГ! Горшочек не вари! Новый версии выходят слишком часто.
Ну ладно, тут не просто новая версия. Тут омнимодальная модель на 2.4T (трлн.) параметров
Может работать с текстом, изображениями, аудио и видео как на входе, так и на выходе.
Попробовать в чате
#assistant #vlm #omnimodal
ОМГ! Горшочек не вари! Новый версии выходят слишком часто.
Ну ладно, тут не просто новая версия. Тут омнимодальная модель на 2.4T (трлн.) параметров
Может работать с текстом, изображениями, аудио и видео как на входе, так и на выходе.
Попробовать в чате
#assistant #vlm #omnimodal
👍6
SIMA 2
Игровой ИИ-агент от Google DeepMind на базе Gemini
Не просто следует базовым инструкциям, а способен мыслить, понимать и предпринимать действия в интерактивных средах.
Автономный, но ему можно давать указания.
Обучен достигать высокоуровневых целей в разнообразных играх, способен к сложному рассуждению и самостоятельному планированию задач
Его поместили в мир сгенерированный Genie 3, см видео с бабочкой
Ну и конечно только хвастаются а попробовать не дают
#gaming #agent #research #news
Игровой ИИ-агент от Google DeepMind на базе Gemini
Не просто следует базовым инструкциям, а способен мыслить, понимать и предпринимать действия в интерактивных средах.
Автономный, но ему можно давать указания.
Обучен достигать высокоуровневых целей в разнообразных играх, способен к сложному рассуждению и самостоятельному планированию задач
Его поместили в мир сгенерированный Genie 3, см видео с бабочкой
Ну и конечно только хвастаются а попробовать не дают
#gaming #agent #research #news
🔥6👍1😁1