Пупырка AI – Telegram
Пупырка AI
115 subscribers
725 photos
370 videos
1 file
697 links
AI, дизайн, продукт и слухи. Канал репостов, цитат и жвачки. Основной канал — @logicIntermission
Download Telegram
Forwarded from эйай ньюз
SAM-Audio: находка для шпиона

Meta продолжает расширять возможности SAM (Segment Anything Model), и теперь туда добавилась аудиомодальность.

Выделяешь объект на видео и получаешь звук, который исходит исключительно из этой точки. Как вы понимаете, это просто находка для шпиона, ведь можно выделить диалог двух людей на видео и слышать только его, отделив от всего остального шума. Какие у этого другие применения — думайте сами. А так проект выглядит довольно интересно.

В основе лежит Perception Encoder Audiovisual (PE-AV), который выступает в роли ушей системы. Сама же архитектура построена на flow-matching diffusion transformer, который принимает на вход аудиомикс и промпт, а на выходе генерирует целевой и остаточный аудиотреки.

Модель умеет отделять звук по трём типам промптов, которые можно комбинировать. Это текстовый, визуальный (клик на объект в видео), span prompting (выделение временного отрезка, когда появляется звук). Но вот выделить что-то совсем похожее пока не удастся, например, одного певца из хора вырезать не получится.

При этом модель работает быстрее реального времени (RTF ≈ 0.7) и скейлится от 500M до 3B параметров.

Веса и код выложены в опенсорс, но под некоммерческой лицензией (CC-BY-NC 4.0).

Блогпост
Демо
GitHub

@ai_newz
🤯2
Forwarded from Яндекс
Media is too big
VIEW IN TELEGRAM
🔴 В этом году не просто YaC. А YaC AI Edition — большой разговор о том, как всё начинается с ИИ.

Что, опять нейросети? Да, в 2025 году весь бигтех, включая Яндекс, говорит об искусственном интеллекте больше, чем когда-либо, потому что он стал ещё полезнее. Доказываем и показываем — в этом фильме.

Что внутри:

Реальные примеры пользы от ИИ-разработок Яндекса. Бизнес, юристы, врачи, родители, путешественники используют нейросети в работе и жизни и показывают, как именно.

Вы увидите это впервые. Носимые ИИ-устройства: наушники Яндекс Дропс и диктофон с Алисой Про.

И новые возможности, которые открываются сейчас. Первые пользователи попробуют Алису AI в Яндекс Go, агента «Найти дешевле» и режим «Исследование» в Алисе AI, а также обновлённый ИИ-агент в Маркете.

Технологии Яндекса изнутри. Что интересного в автономном грузовике, как работает завод роботов-доставщиков, поможет ли VLM-модель убрать за котом? 🐱

↘️ Смотрите YaC AI Edition — на yandex.ru/yac, VK Видео и YouTube.
Please open Telegram to view this post
VIEW IN TELEGRAM
1
В ChatGPT добавили интеграцию Apple Music и сделали страничку со всеми апками. Можно добавлять свои и монетизировать

https://developers.openai.com/apps-sdk
2
Яндекс
🔴 В этом году не просто YaC. А YaC AI Edition — большой разговор о том, как всё начинается с ИИ. Что, опять нейросети? Да, в 2025 году весь бигтех, включая Яндекс, говорит об искусственном интеллекте больше, чем когда-либо, потому что он стал ещё полезнее.…
«Яндекс Дропс» — беспроводные наушники с ИИ-ассистентом «Алисой». С помощью устройства можно будет получать доступ к нейросетевым функциям голосом в любой момент. В наушниках можно будет на ходу задавать «Алисе AI» любые вопросы и получать ответы, занимаясь другими делами. Кроме этого, пользователи смогут использовать привычные возможности ИИ-ассистента, как на «Станциях», например, управлять музыкой.
В «Дропс» будет доступна функция «Моя память». Всё, что пользователь просит Алису зафиксировать — планы, дела или просто случайные мысли — сохранится в чате с Алисой AI в виде структурированных записей и напоминаний. Устройство может стать виртуальным секретарём, который фиксирует идеи и записывает информацию о важных событиях. Доступ к самим записям можно получить в чате с «Алисой AI» или через голосовой интерфейс.

Источник
1
Кроме того, компания показала диктофон с «Алисой Про» — его тоже анонсировали в октябре 2025 года. На него можно записывать, к примеру, деловые встречи или лекции. «Алиса Про» подготовит расшифровку и конспект и ответит на вопросы по содержанию.


Источник
2
Codex 5.2 вышел, ну теперь все баги починю в своих поделках

https://openai.com/index/introducing-gpt-5-2-codex/
👍3
Google выносит историю чатов с поисковым AI Mode в кнопку на главной Google app
👍1
Google интегрирует свой вайбкод эксперимент Opal внутрь Gemini

https://techcrunch.com/2025/12/17/googles-vibe-coding-tool-opal-comes-to-gemini/
👍1🤔1
Forwarded from Denis Sexy IT 🤖
This media is not supported in your browser
VIEW IN TELEGRAM
Qwen выкатил интересную модель, которая разбивает обычные картинки на слои – как принято в этом вашем фотошопе

А еще модель может редактировать изображения, меняя конкретный слой когда нужно - наконец-то что-то новое в подходах

Вот тут детали, тут демо, модель уже в опенсорсе
🔥3
https://cursor.com/2025

Итоги года, которые мы заслужили
4
В ChatGPT теперь можно контролировать эмодзи в ответе, списки и в целом ton-of-voice ещё гибче чем раньше.
👍3😁2🤨1
Forwarded from AI для Всех
Карпати и итоги 2025: время призывать духов

Андрей Карпати выкатил Year in Review 2025. В целом, он про смерть «магии» моделей и переход к жёсткому инженерному обвесу.

Что важно понимать про ландшафт ИИ на конец 2025 года:

RLVR и Thinking Time. Уходим от обучения на лайках (RLHF) к наградам в проверяемых средах (RLVR). Модель находит решение не потому, что мы её «научили думать», а потому что она нащупала путь через миллионы итераций в коде/математике. Появилась ручка test-time compute: хочешь лучше - дай “погудеть” подольше.

Jagged Intelligence. Любимая метафора: мы не дрессируем животных, мы вызываем призраков. LLM - статистический слепок интернета. Отсюда «зубчатость»: модель может выдать гениальное доказательство теоремы, а потом завалиться на логике уровня сколько r in strawberry 🍓. Бенчмарки в 2025 окончательно стали отдельным видом спорта. Высокий score всё хуже предсказывает качество модели, особенно если решение задачи нельзя проверить автоматически..

Рождение систем. Cursor просто сделал очевидное видимым: решает не «самая умная LLM», а слой приложения. Профит сейчас в application layer: контекст-инженерия, DAG-оркестрация (цепочки вызовов, а не один запрос), UI для контроля автономности.

Агенты уходят в runtime. На примере Claude Code видно: лучшие агенты живут рядом с файловой системой, зависимостями и конфигами. Реальный буст начинается там, где агент интегрирован в среду исполнения и может действовать как часть тулчейна.

Vibe Coding и цена владения. Писать код на английском - база 2025. Подвох стандартный: чем дешевле генерация, тем дороже ревью, безопасность и поддержка. Код стал расходником, но ответственность никуда не делась. Мы просто перестали тратить время на синтаксис и начали тратить его на логику, границы и контроль ущерба.

Начало конца эпохи текстовых окон. Чат -это консоль 80-х. Карпати ждёт GUI-революцию: ИИ должен генерировать не полотна текста, а интерактивную среду под задачу (схемы, доски, слайды). “Nano banana” от Google - ранний намёк на направление.

Итого: в 2025 выигрывает не тот, кто нашёл «секретный промпт», а тот, кто выстроил вокруг модели нормальный SDLC: eval’ы, тесты, фидбек-лупы, контроль автономности.

Если было полезно — перешлите коллеге, который всё ещё считает, что LLM = «чатик» 🙂

Вопрос: что из этого у вас уже в проде, а что кажется хайпом? Обсудим в комментах 👇
👍2
Если вы, как и я, до сегодняшнего дня почему-то ещё не пробовали отправить 🎁 в ChatGPT — попробуйте.
3
Forwarded from Denis Sexy IT 🤖
Если зайти с американского VPN в ChatGPT и отправить:
show me my year with chatgpt

То вам покажут ваш год с чатгпт, вот мой слайд со статой – это ~10 сообщений в день, я вхожу 1% по количеству отправленных сообщений в ChatGPT по миру ☕️

Кажется, пора искать новое хобби
Please open Telegram to view this post
VIEW IN TELEGRAM
👍3