Forwarded from эйай ньюз
SAM-Audio: находка для шпиона
Meta продолжает расширять возможности SAM (Segment Anything Model), и теперь туда добавилась аудиомодальность.
Выделяешь объект на видео и получаешь звук, который исходит исключительно из этой точки. Как вы понимаете, это просто находка для шпиона, ведь можно выделить диалог двух людей на видео и слышать только его, отделив от всего остального шума. Какие у этого другие применения — думайте сами. А так проект выглядит довольно интересно.
В основе лежит Perception Encoder Audiovisual (PE-AV), который выступает в роли ушей системы. Сама же архитектура построена на flow-matching diffusion transformer, который принимает на вход аудиомикс и промпт, а на выходе генерирует целевой и остаточный аудиотреки.
Модель умеет отделять звук по трём типам промптов, которые можно комбинировать. Это текстовый, визуальный (клик на объект в видео), span prompting (выделение временного отрезка, когда появляется звук). Но вот выделить что-то совсем похожее пока не удастся, например, одного певца из хора вырезать не получится.
При этом модель работает быстрее реального времени (RTF ≈ 0.7) и скейлится от 500M до 3B параметров.
Веса и код выложены в опенсорс, но под некоммерческой лицензией (CC-BY-NC 4.0).
Блогпост
Демо
GitHub
@ai_newz
Meta продолжает расширять возможности SAM (Segment Anything Model), и теперь туда добавилась аудиомодальность.
Выделяешь объект на видео и получаешь звук, который исходит исключительно из этой точки. Как вы понимаете, это просто находка для шпиона, ведь можно выделить диалог двух людей на видео и слышать только его, отделив от всего остального шума. Какие у этого другие применения — думайте сами. А так проект выглядит довольно интересно.
В основе лежит Perception Encoder Audiovisual (PE-AV), который выступает в роли ушей системы. Сама же архитектура построена на flow-matching diffusion transformer, который принимает на вход аудиомикс и промпт, а на выходе генерирует целевой и остаточный аудиотреки.
Модель умеет отделять звук по трём типам промптов, которые можно комбинировать. Это текстовый, визуальный (клик на объект в видео), span prompting (выделение временного отрезка, когда появляется звук). Но вот выделить что-то совсем похожее пока не удастся, например, одного певца из хора вырезать не получится.
При этом модель работает быстрее реального времени (RTF ≈ 0.7) и скейлится от 500M до 3B параметров.
Веса и код выложены в опенсорс, но под некоммерческой лицензией (CC-BY-NC 4.0).
Блогпост
Демо
GitHub
@ai_newz
🤯2
Forwarded from Яндекс
Media is too big
VIEW IN TELEGRAM
Что, опять нейросети? Да, в 2025 году весь бигтех, включая Яндекс, говорит об искусственном интеллекте больше, чем когда-либо, потому что он стал ещё полезнее. Доказываем и показываем — в этом фильме.
Что внутри:
Please open Telegram to view this post
VIEW IN TELEGRAM
❤1
В ChatGPT добавили интеграцию Apple Music и сделали страничку со всеми апками. Можно добавлять свои и монетизировать
https://developers.openai.com/apps-sdk
https://developers.openai.com/apps-sdk
⚡2
Яндекс
«Яндекс Дропс» — беспроводные наушники с ИИ-ассистентом «Алисой». С помощью устройства можно будет получать доступ к нейросетевым функциям голосом в любой момент. В наушниках можно будет на ходу задавать «Алисе AI» любые вопросы и получать ответы, занимаясь другими делами. Кроме этого, пользователи смогут использовать привычные возможности ИИ-ассистента, как на «Станциях», например, управлять музыкой.
В «Дропс» будет доступна функция «Моя память». Всё, что пользователь просит Алису зафиксировать — планы, дела или просто случайные мысли — сохранится в чате с Алисой AI в виде структурированных записей и напоминаний. Устройство может стать виртуальным секретарём, который фиксирует идеи и записывает информацию о важных событиях. Доступ к самим записям можно получить в чате с «Алисой AI» или через голосовой интерфейс.
Источник
❤1
Кроме того, компания показала диктофон с «Алисой Про» — его тоже анонсировали в октябре 2025 года. На него можно записывать, к примеру, деловые встречи или лекции. «Алиса Про» подготовит расшифровку и конспект и ответит на вопросы по содержанию.
Источник
❤2
Codex 5.2 вышел, ну теперь все баги починю в своих поделках
https://openai.com/index/introducing-gpt-5-2-codex/
https://openai.com/index/introducing-gpt-5-2-codex/
👍3
Плагин Claude для управления браузером
claude.com/chrome
https://youtu.be/rBJnWMD0Pho?si=vWk-faZMztHYZCNj
claude.com/chrome
https://youtu.be/rBJnWMD0Pho?si=vWk-faZMztHYZCNj
YouTube
Let Claude handle work in your browser
See Claude for Chrome handle three complete workflows in your browser.
Pull data from dashboards into one analysis doc
Address slide comments automatically
Build with Claude Code, test in Chrome
Claude for Chrome is a browser extension that lets Claude see…
Pull data from dashboards into one analysis doc
Address slide comments automatically
Build with Claude Code, test in Chrome
Claude for Chrome is a browser extension that lets Claude see…
👍1😁1
Google выносит историю чатов с поисковым AI Mode в кнопку на главной Google app
👍1
Google интегрирует свой вайбкод эксперимент Opal внутрь Gemini
https://techcrunch.com/2025/12/17/googles-vibe-coding-tool-opal-comes-to-gemini/
https://techcrunch.com/2025/12/17/googles-vibe-coding-tool-opal-comes-to-gemini/
👍1🤔1
Forwarded from Denis Sexy IT 🤖
This media is not supported in your browser
VIEW IN TELEGRAM
Qwen выкатил интересную модель, которая разбивает обычные картинки на слои – как принято в этом вашем фотошопе
А еще модель может редактировать изображения, меняя конкретный слой когда нужно - наконец-то что-то новое в подходах
Вот тут детали, тут демо, модель уже в опенсорсе
А еще модель может редактировать изображения, меняя конкретный слой когда нужно - наконец-то что-то новое в подходах
Вот тут детали, тут демо, модель уже в опенсорсе
🔥3
Forwarded from AI для Всех
Карпати и итоги 2025: время призывать духов
Андрей Карпати выкатил Year in Review 2025. В целом, он про смерть «магии» моделей и переход к жёсткому инженерному обвесу.
Что важно понимать про ландшафт ИИ на конец 2025 года:
— RLVR и Thinking Time. Уходим от обучения на лайках (RLHF) к наградам в проверяемых средах (RLVR). Модель находит решение не потому, что мы её «научили думать», а потому что она нащупала путь через миллионы итераций в коде/математике. Появилась ручка test-time compute: хочешь лучше - дай “погудеть” подольше.
— Jagged Intelligence. Любимая метафора: мы не дрессируем животных, мы вызываем призраков. LLM - статистический слепок интернета. Отсюда «зубчатость»: модель может выдать гениальное доказательство теоремы, а потом завалиться на логике уровня сколько r in strawberry 🍓. Бенчмарки в 2025 окончательно стали отдельным видом спорта. Высокий score всё хуже предсказывает качество модели, особенно если решение задачи нельзя проверить автоматически..
— Рождение систем. Cursor просто сделал очевидное видимым: решает не «самая умная LLM», а слой приложения. Профит сейчас в application layer: контекст-инженерия, DAG-оркестрация (цепочки вызовов, а не один запрос), UI для контроля автономности.
— Агенты уходят в runtime. На примере Claude Code видно: лучшие агенты живут рядом с файловой системой, зависимостями и конфигами. Реальный буст начинается там, где агент интегрирован в среду исполнения и может действовать как часть тулчейна.
— Vibe Coding и цена владения. Писать код на английском - база 2025. Подвох стандартный: чем дешевле генерация, тем дороже ревью, безопасность и поддержка. Код стал расходником, но ответственность никуда не делась. Мы просто перестали тратить время на синтаксис и начали тратить его на логику, границы и контроль ущерба.
— Начало конца эпохи текстовых окон. Чат -это консоль 80-х. Карпати ждёт GUI-революцию: ИИ должен генерировать не полотна текста, а интерактивную среду под задачу (схемы, доски, слайды). “Nano banana” от Google - ранний намёк на направление.
Итого: в 2025 выигрывает не тот, кто нашёл «секретный промпт», а тот, кто выстроил вокруг модели нормальный SDLC: eval’ы, тесты, фидбек-лупы, контроль автономности.
Если было полезно — перешлите коллеге, который всё ещё считает, что LLM = «чатик» 🙂
Вопрос: что из этого у вас уже в проде, а что кажется хайпом? Обсудим в комментах 👇
Андрей Карпати выкатил Year in Review 2025. В целом, он про смерть «магии» моделей и переход к жёсткому инженерному обвесу.
Что важно понимать про ландшафт ИИ на конец 2025 года:
— RLVR и Thinking Time. Уходим от обучения на лайках (RLHF) к наградам в проверяемых средах (RLVR). Модель находит решение не потому, что мы её «научили думать», а потому что она нащупала путь через миллионы итераций в коде/математике. Появилась ручка test-time compute: хочешь лучше - дай “погудеть” подольше.
— Jagged Intelligence. Любимая метафора: мы не дрессируем животных, мы вызываем призраков. LLM - статистический слепок интернета. Отсюда «зубчатость»: модель может выдать гениальное доказательство теоремы, а потом завалиться на логике уровня сколько r in strawberry 🍓. Бенчмарки в 2025 окончательно стали отдельным видом спорта. Высокий score всё хуже предсказывает качество модели, особенно если решение задачи нельзя проверить автоматически..
— Рождение систем. Cursor просто сделал очевидное видимым: решает не «самая умная LLM», а слой приложения. Профит сейчас в application layer: контекст-инженерия, DAG-оркестрация (цепочки вызовов, а не один запрос), UI для контроля автономности.
— Агенты уходят в runtime. На примере Claude Code видно: лучшие агенты живут рядом с файловой системой, зависимостями и конфигами. Реальный буст начинается там, где агент интегрирован в среду исполнения и может действовать как часть тулчейна.
— Vibe Coding и цена владения. Писать код на английском - база 2025. Подвох стандартный: чем дешевле генерация, тем дороже ревью, безопасность и поддержка. Код стал расходником, но ответственность никуда не делась. Мы просто перестали тратить время на синтаксис и начали тратить его на логику, границы и контроль ущерба.
— Начало конца эпохи текстовых окон. Чат -это консоль 80-х. Карпати ждёт GUI-революцию: ИИ должен генерировать не полотна текста, а интерактивную среду под задачу (схемы, доски, слайды). “Nano banana” от Google - ранний намёк на направление.
Итого: в 2025 выигрывает не тот, кто нашёл «секретный промпт», а тот, кто выстроил вокруг модели нормальный SDLC: eval’ы, тесты, фидбек-лупы, контроль автономности.
Если было полезно — перешлите коллеге, который всё ещё считает, что LLM = «чатик» 🙂
Вопрос: что из этого у вас уже в проде, а что кажется хайпом? Обсудим в комментах 👇
👍2
Forwarded from Denis Sexy IT 🤖
Если зайти с американского VPN в ChatGPT и отправить:
То вам покажут ваш год с чатгпт, вот мой слайд со статой – это ~10 сообщений в день, я вхожу 1% по количеству отправленных сообщений в ChatGPT по миру☕️
Кажется, пора искать новое хобби
show me my year with chatgptТо вам покажут ваш год с чатгпт, вот мой слайд со статой – это ~10 сообщений в день, я вхожу 1% по количеству отправленных сообщений в ChatGPT по миру
Кажется, пора искать новое хобби
Please open Telegram to view this post
VIEW IN TELEGRAM
👍3