This media is not supported in your browser
VIEW IN TELEGRAM
DeepEyesV2: Toward Agentic Multimodal Model
Агентная мультимодальная модель на 7B параметров, умеет не только понимать текст и изображения, но и активно использовать внешние инструменты, например, среды выполнения кода и веб-поиск, интегрируя их в процесс рассуждения
Гитхаб
HF
#agent #multimodal #vlm
Агентная мультимодальная модель на 7B параметров, умеет не только понимать текст и изображения, но и активно использовать внешние инструменты, например, среды выполнения кода и веб-поиск, интегрируя их в процесс рассуждения
Гитхаб
HF
#agent #multimodal #vlm
❤7👍4
This media is not supported in your browser
VIEW IN TELEGRAM
ChronoEdit-14B-Diffusers-Upscaler-LoRA
NVIDIA опубликовала лору-апскейлер к редактору ChronoEdit
#upscale #lora #restoration #imagerestoration
NVIDIA опубликовала лору-апскейлер к редактору ChronoEdit
#upscale #lora #restoration #imagerestoration
👍17🔥2
This media is not supported in your browser
VIEW IN TELEGRAM
DEMO: Dense Motion Captioning
Модель для описания действий человека в последовательностях 3D-движений. Генерирует подробные описания действий с привязкой ко времени
Код ждем на этой неделе
#captioning #video2text
Модель для описания действий человека в последовательностях 3D-движений. Генерирует подробные описания действий с привязкой ко времени
Код ждем на этой неделе
#captioning #video2text
👍5
Taku
Операционная система, которая должна заменить вайбкодинг для непрограммистов.
Позволяет создавать и запускать приложения и инструменты в один шаг, работая при этом в привычной рабочей среде без лишних усилий и возни с кодом / деплоем и т д.
Записаться в вейтлист
#coding #agent #assistant #OS
Операционная система, которая должна заменить вайбкодинг для непрограммистов.
Позволяет создавать и запускать приложения и инструменты в один шаг, работая при этом в привычной рабочей среде без лишних усилий и возни с кодом / деплоем и т д.
Записаться в вейтлист
#coding #agent #assistant #OS
👍9❤1
This media is not supported in your browser
VIEW IN TELEGRAM
Moondream распознает видео в реальном времени
От понимания картинок к пониманию потокового видео
Может работать с веб-камерами, камерами безопасности, дронами и другими источниками видео.
Может запускать оповещения, логировать события и управлять системами.
Применяется в безопасности, контроле качества, мониторинге безопасности и розничной аналитике.
Работает по API
Гитхаб
Демо по ссылке в шапке. Там можно подключить свою вебку или закинуть видеофал
#vlm #captioning #detection #moe #cv #image2text
От понимания картинок к пониманию потокового видео
Может работать с веб-камерами, камерами безопасности, дронами и другими источниками видео.
Может запускать оповещения, логировать события и управлять системами.
Применяется в безопасности, контроле качества, мониторинге безопасности и розничной аналитике.
Работает по API
Гитхаб
Демо по ссылке в шапке. Там можно подключить свою вебку или закинуть видеофал
#vlm #captioning #detection #moe #cv #image2text
👍8❤2🥴1
Опубликован код генератора-реставратора изображений DDCM
Код
Демо
#text2image #imagerestoration #enhance #facerestoration #upscale #image2image
Код
Демо
#text2image #imagerestoration #enhance #facerestoration #upscale #image2image
Telegram
Нейронавт | Нейросети в творчестве
DDCM: Compressed Image Generation with Denoising Diffusion Codebook Models
Метод генерации и реставрации изображений
Код ждем
Демо
#text2image #imagerestoration #enhance #facerestoration #upscale #image2image
Метод генерации и реставрации изображений
Код ждем
Демо
#text2image #imagerestoration #enhance #facerestoration #upscale #image2image
👍7🔥2
ComfyUI Step Audio EditX TTS
Кастом ноды аудиомодели Step-Audio-EditX
#comfyui #tts #text2speech #audioediting #speechcontrol #speechediting #speech2speech #voicecloning
Кастом ноды аудиомодели Step-Audio-EditX
#comfyui #tts #text2speech #audioediting #speechcontrol #speechediting #speech2speech #voicecloning
👍9
Пошли слухи про Flux 2 от разработчиков из BlackForest Labs
🙏 Пусть сделают открытые веса, чтоб влезало в 8 ГБ и без цирка с лоу - хай моделями
#news
#news
Please open Telegram to view this post
VIEW IN TELEGRAM
👍28🌚3😱2❤1
Нейронавт | Нейросети в творчестве
Omnilingual ASR: Open-Source Multilingual Speech Recognition for 1600+ Languages Аудиораспознавалка 1600+ языков от Meta (запрещено в РФ) включая 500 низкоресурсных языков, которые ранее не транскрибировались с помощью ИИ. носитель неподдерживаемого языка…
This media is not supported in your browser
VIEW IN TELEGRAM
ElevenLabs Scribe v2 Realtime
У ElevenLabs своя аудиораспознавалка. Рилтаймовая, задержка 150мс.
Распознает и маркирует голоса
Превосходит Gemini 2.5 Flash, GPT 4o MiniTranscribe и Deepgram Nova 3
90+ языков, включая русский.
Бесплатного триала нет
Ну и пусть сидят там со своими жалкими 90 за своим дискриминационным забором
#stt #speech2text #asr #realtime
У ElevenLabs своя аудиораспознавалка. Рилтаймовая, задержка 150мс.
Распознает и маркирует голоса
Превосходит Gemini 2.5 Flash, GPT 4o MiniTranscribe и Deepgram Nova 3
90+ языков, включая русский.
Бесплатного триала нет
Ну и пусть сидят там со своими жалкими 90 за своим дискриминационным забором
#stt #speech2text #asr #realtime
😁12❤1👍1🔥1🤯1
This media is not supported in your browser
VIEW IN TELEGRAM
Аттаркцион неслыханной щедрости от Хиггсфилд
Бесплатный Nano-Banana в твиттере.
Nano-Banana который и так бесплатный в браузере.
Но если вам далеко идти на офсайт гугла, а в твиттер недалеко то просто за скромные пиар-услуги Хиггсфилд БЕЗВАЗДМЕЗДНА сгенерит вам нанобананой картинку
- тэгните @higgsfield_ai в любом месте на X а лучше под постом
- Добавьте #nanobanana + свой промпт
- вам ответят картинкой
- Подпишитесь на @higgsfield_ai,и вам выдадут 250 кредитов за то вы такой красивый котик. Но только примерно до 16ч по МСК сегодня. Проверил. картинку сделали (см комменты). Кредитов - шиш пока что
Ну и похоже они собираются каждый день устраивать аттракционы с разными моделями
#tex2image #giveaway
Бесплатный Nano-Banana в твиттере.
Nano-Banana который и так бесплатный в браузере.
Но если вам далеко идти на офсайт гугла, а в твиттер недалеко то просто за скромные пиар-услуги Хиггсфилд БЕЗВАЗДМЕЗДНА сгенерит вам нанобананой картинку
- тэгните @higgsfield_ai в любом месте на X а лучше под постом
- Добавьте #nanobanana + свой промпт
- вам ответят картинкой
- Подпишитесь на @higgsfield_ai,
Ну и похоже они собираются каждый день устраивать аттракционы с разными моделями
#tex2image #giveaway
👍4
Мэтью Макконахи и Майкл Кейн подписали договор с ElevenLabs на клонирование своих голосов.
ElevenLabs запустили маркетплейс ИИ-голосов знаменитостей для рекламы Iconic Voice Marketplace и уже получили контракт с вышеуказанными актерами.
Макконахи инвестировал в ElevenLabs и использует их технологию для выпуска аудиоверсии своего информационного бюллетеня на испанском языке
На фоне голливудской ИИ-фобии новость смотрится интересно
#news
ElevenLabs запустили маркетплейс ИИ-голосов знаменитостей для рекламы Iconic Voice Marketplace и уже получили контракт с вышеуказанными актерами.
Макконахи инвестировал в ElevenLabs и использует их технологию для выпуска аудиоверсии своего информационного бюллетеня на испанском языке
На фоне голливудской ИИ-фобии новость смотрится интересно
#news
❤14👍9😁2
VibeThinker-1.5B
Открытая языковая модель с всего 1.5B параметров, уровня DeepSeek R1, у которого на минуточку, параметров в 400 раз больше
А обучение этой рассуждалки стоило жалких $7,800 USD
Веса всего 3.5 ГБ. Очень интересно если в жизни он как в описании
[UPDATE] мухлеж с тестами. Этим джентльменам на слово больше не верим
Гитхаб
#assistant #reasoning
Открытая языковая модель с всего 1.5B параметров, уровня DeepSeek R1, у которого на минуточку, параметров в 400 раз больше
А обучение этой рассуждалки стоило жалких $7,800 USD
Веса всего 3.5 ГБ. Очень интересно если в жизни он как в описании
[UPDATE] мухлеж с тестами. Этим джентльменам на слово больше не верим
Гитхаб
#assistant #reasoning
👍8😁4❤3🤯1😱1
🔥9👍6🤯1
Grok Imagine 1.0
Говорят что таинственный картинкогенератор Mandarin на LMarena это Grok Imagine 1.0
Ну и пишут что он уже на https://grok.com/imagine
Но чтото я не вижу явных доказательств
#news #text2image
Говорят что таинственный картинкогенератор Mandarin на LMarena это Grok Imagine 1.0
Ну и пишут что он уже на https://grok.com/imagine
Но чтото я не вижу явных доказательств
#news #text2image
👍5