Forwarded from эйай ньюз
SAM-Audio: находка для шпиона
Meta продолжает расширять возможности SAM (Segment Anything Model), и теперь туда добавилась аудиомодальность.
Выделяешь объект на видео и получаешь звук, который исходит исключительно из этой точки. Как вы понимаете, это просто находка для шпиона, ведь можно выделить диалог двух людей на видео и слышать только его, отделив от всего остального шума. Какие у этого другие применения — думайте сами. А так проект выглядит довольно интересно.
В основе лежит Perception Encoder Audiovisual (PE-AV), который выступает в роли ушей системы. Сама же архитектура построена на flow-matching diffusion transformer, который принимает на вход аудиомикс и промпт, а на выходе генерирует целевой и остаточный аудиотреки.
Модель умеет отделять звук по трём типам промптов, которые можно комбинировать. Это текстовый, визуальный (клик на объект в видео), span prompting (выделение временного отрезка, когда появляется звук). Но вот выделить что-то совсем похожее пока не удастся, например, одного певца из хора вырезать не получится.
При этом модель работает быстрее реального времени (RTF ≈ 0.7) и скейлится от 500M до 3B параметров.
Веса и код выложены в опенсорс, но под некоммерческой лицензией (CC-BY-NC 4.0).
Блогпост
Демо
GitHub
@ai_newz
Meta продолжает расширять возможности SAM (Segment Anything Model), и теперь туда добавилась аудиомодальность.
Выделяешь объект на видео и получаешь звук, который исходит исключительно из этой точки. Как вы понимаете, это просто находка для шпиона, ведь можно выделить диалог двух людей на видео и слышать только его, отделив от всего остального шума. Какие у этого другие применения — думайте сами. А так проект выглядит довольно интересно.
В основе лежит Perception Encoder Audiovisual (PE-AV), который выступает в роли ушей системы. Сама же архитектура построена на flow-matching diffusion transformer, который принимает на вход аудиомикс и промпт, а на выходе генерирует целевой и остаточный аудиотреки.
Модель умеет отделять звук по трём типам промптов, которые можно комбинировать. Это текстовый, визуальный (клик на объект в видео), span prompting (выделение временного отрезка, когда появляется звук). Но вот выделить что-то совсем похожее пока не удастся, например, одного певца из хора вырезать не получится.
При этом модель работает быстрее реального времени (RTF ≈ 0.7) и скейлится от 500M до 3B параметров.
Веса и код выложены в опенсорс, но под некоммерческой лицензией (CC-BY-NC 4.0).
Блогпост
Демо
GitHub
@ai_newz
🤯2
Forwarded from Яндекс
Media is too big
VIEW IN TELEGRAM
Что, опять нейросети? Да, в 2025 году весь бигтех, включая Яндекс, говорит об искусственном интеллекте больше, чем когда-либо, потому что он стал ещё полезнее. Доказываем и показываем — в этом фильме.
Что внутри:
Please open Telegram to view this post
VIEW IN TELEGRAM
❤1
В ChatGPT добавили интеграцию Apple Music и сделали страничку со всеми апками. Можно добавлять свои и монетизировать
https://developers.openai.com/apps-sdk
https://developers.openai.com/apps-sdk
⚡2
Яндекс
«Яндекс Дропс» — беспроводные наушники с ИИ-ассистентом «Алисой». С помощью устройства можно будет получать доступ к нейросетевым функциям голосом в любой момент. В наушниках можно будет на ходу задавать «Алисе AI» любые вопросы и получать ответы, занимаясь другими делами. Кроме этого, пользователи смогут использовать привычные возможности ИИ-ассистента, как на «Станциях», например, управлять музыкой.
В «Дропс» будет доступна функция «Моя память». Всё, что пользователь просит Алису зафиксировать — планы, дела или просто случайные мысли — сохранится в чате с Алисой AI в виде структурированных записей и напоминаний. Устройство может стать виртуальным секретарём, который фиксирует идеи и записывает информацию о важных событиях. Доступ к самим записям можно получить в чате с «Алисой AI» или через голосовой интерфейс.
Источник
❤1
Кроме того, компания показала диктофон с «Алисой Про» — его тоже анонсировали в октябре 2025 года. На него можно записывать, к примеру, деловые встречи или лекции. «Алиса Про» подготовит расшифровку и конспект и ответит на вопросы по содержанию.
Источник
❤2
Codex 5.2 вышел, ну теперь все баги починю в своих поделках
https://openai.com/index/introducing-gpt-5-2-codex/
https://openai.com/index/introducing-gpt-5-2-codex/
👍3
Плагин Claude для управления браузером
claude.com/chrome
https://youtu.be/rBJnWMD0Pho?si=vWk-faZMztHYZCNj
claude.com/chrome
https://youtu.be/rBJnWMD0Pho?si=vWk-faZMztHYZCNj
YouTube
Let Claude handle work in your browser
See Claude for Chrome handle three complete workflows in your browser.
Pull data from dashboards into one analysis doc
Address slide comments automatically
Build with Claude Code, test in Chrome
Claude for Chrome is a browser extension that lets Claude see…
Pull data from dashboards into one analysis doc
Address slide comments automatically
Build with Claude Code, test in Chrome
Claude for Chrome is a browser extension that lets Claude see…
👍1😁1
Google выносит историю чатов с поисковым AI Mode в кнопку на главной Google app
👍1
Google интегрирует свой вайбкод эксперимент Opal внутрь Gemini
https://techcrunch.com/2025/12/17/googles-vibe-coding-tool-opal-comes-to-gemini/
https://techcrunch.com/2025/12/17/googles-vibe-coding-tool-opal-comes-to-gemini/
👍1🤔1
Forwarded from Denis Sexy IT 🤖
This media is not supported in your browser
VIEW IN TELEGRAM
Qwen выкатил интересную модель, которая разбивает обычные картинки на слои – как принято в этом вашем фотошопе
А еще модель может редактировать изображения, меняя конкретный слой когда нужно - наконец-то что-то новое в подходах
Вот тут детали, тут демо, модель уже в опенсорсе
А еще модель может редактировать изображения, меняя конкретный слой когда нужно - наконец-то что-то новое в подходах
Вот тут детали, тут демо, модель уже в опенсорсе
🔥3