Продолжение суммаризации:
Дизайн как скульптура
Очень яркая метафора из этого интервью — переход от «рисования» к «скульптуре». Старый pipeline: рисуем вайрфреймы, красим их слоями визуала, передаём в разработку, потом когда‑то там появляется «настоящий» продукт. Ты всё время работаешь с артефактом, а не с живой системой.
Новый подход: ты просишь агента собрать «ком», сырой, несовершенный объект, но это уже реальное приложение. Дальше работа дизайнера — отсечь лишнее, переформулировать, заскоупить, объединить части, пока форма не станет правильной. Это принципиально другой навык: не «как красиво нарисовать state», а «как направить систему туда, куда нужно продукту».
Системы, а не фичи
В какой‑то момент разговор уходит в чистый системный дизайн. Ryo противопоставляет подходу «human‑centered как чек‑лист фич» мышление через устойчивые примитивы. Ты не добавляешь новую кнопку под каждый сценарий — ты находишь базовые элементы, которые будут жить и через 10 лет, а потом конфигурируешь их под задачи.
В качестве примера он приводит Notion: блоки, страницы, базы, люди и команды. Всё, что мы видим как «функции», на самом деле комбинации этих штук. В Cursor он стремится к такой же модели: меньше именованных режимов и отдельных экранов, больше продуманной системы примитивов, которые можно пересобирать и расширять без визуального хаоса.
Будущее ролей и интерфейсов
Финальный слой — про будущее профессий. По его картине, дизайнеры, PM и инженеры постепенно сходятся в одном поле: вокруг кода и агентов. Главное преимущество — не в том, чтобы идеально знать инструмент, а в способности системно мыслить, чувствовать ограничения прод‑среды и использовать агента как усилитель, а не как чёрный ящик.
По интерфейсам он ожидает, что привычные «функциональные» приложения (доки, таск‑менеджеры, борды) будут всё сильнее распадаться на компоненты. Агент станет тем, кто подбирает, комбинирует и отображает нужные представления под конкретного человека и конкретную задачу. При этом стабильными останутся базовые структуры данных и примитивы, а UI поверх них станет намного пластичнее и индивидуальнее.
Так что если резюмировать в одну фразу: это видео — хороший манифест того, как выглядит дизайн‑процесс в мире, где твой основной инструмент — не Figma, а агент, которому ты умеешь объяснять, чего именно хочешь от живого продукта, а не от картинки.
🔥2
Media is too big
VIEW IN TELEGRAM
ChatGPT Images
Аламан объявлял красный код из-за двух причин — обгон Google в основной модели и картиночной, ChatGPT генерацию изображений не обновляли пол-года. Первое решили GPT 5.2, а вот и ответ на второе подоспел.
https://openai.com/index/new-chatgpt-images-is-here/
Аламан объявлял красный код из-за двух причин — обгон Google в основной модели и картиночной, ChatGPT генерацию изображений не обновляли пол-года. Первое решили GPT 5.2, а вот и ответ на второе подоспел.
https://openai.com/index/new-chatgpt-images-is-here/
Forwarded from эйай ньюз
SAM-Audio: находка для шпиона
Meta продолжает расширять возможности SAM (Segment Anything Model), и теперь туда добавилась аудиомодальность.
Выделяешь объект на видео и получаешь звук, который исходит исключительно из этой точки. Как вы понимаете, это просто находка для шпиона, ведь можно выделить диалог двух людей на видео и слышать только его, отделив от всего остального шума. Какие у этого другие применения — думайте сами. А так проект выглядит довольно интересно.
В основе лежит Perception Encoder Audiovisual (PE-AV), который выступает в роли ушей системы. Сама же архитектура построена на flow-matching diffusion transformer, который принимает на вход аудиомикс и промпт, а на выходе генерирует целевой и остаточный аудиотреки.
Модель умеет отделять звук по трём типам промптов, которые можно комбинировать. Это текстовый, визуальный (клик на объект в видео), span prompting (выделение временного отрезка, когда появляется звук). Но вот выделить что-то совсем похожее пока не удастся, например, одного певца из хора вырезать не получится.
При этом модель работает быстрее реального времени (RTF ≈ 0.7) и скейлится от 500M до 3B параметров.
Веса и код выложены в опенсорс, но под некоммерческой лицензией (CC-BY-NC 4.0).
Блогпост
Демо
GitHub
@ai_newz
Meta продолжает расширять возможности SAM (Segment Anything Model), и теперь туда добавилась аудиомодальность.
Выделяешь объект на видео и получаешь звук, который исходит исключительно из этой точки. Как вы понимаете, это просто находка для шпиона, ведь можно выделить диалог двух людей на видео и слышать только его, отделив от всего остального шума. Какие у этого другие применения — думайте сами. А так проект выглядит довольно интересно.
В основе лежит Perception Encoder Audiovisual (PE-AV), который выступает в роли ушей системы. Сама же архитектура построена на flow-matching diffusion transformer, который принимает на вход аудиомикс и промпт, а на выходе генерирует целевой и остаточный аудиотреки.
Модель умеет отделять звук по трём типам промптов, которые можно комбинировать. Это текстовый, визуальный (клик на объект в видео), span prompting (выделение временного отрезка, когда появляется звук). Но вот выделить что-то совсем похожее пока не удастся, например, одного певца из хора вырезать не получится.
При этом модель работает быстрее реального времени (RTF ≈ 0.7) и скейлится от 500M до 3B параметров.
Веса и код выложены в опенсорс, но под некоммерческой лицензией (CC-BY-NC 4.0).
Блогпост
Демо
GitHub
@ai_newz
🤯2
Forwarded from Яндекс
Media is too big
VIEW IN TELEGRAM
Что, опять нейросети? Да, в 2025 году весь бигтех, включая Яндекс, говорит об искусственном интеллекте больше, чем когда-либо, потому что он стал ещё полезнее. Доказываем и показываем — в этом фильме.
Что внутри:
Please open Telegram to view this post
VIEW IN TELEGRAM
❤1
В ChatGPT добавили интеграцию Apple Music и сделали страничку со всеми апками. Можно добавлять свои и монетизировать
https://developers.openai.com/apps-sdk
https://developers.openai.com/apps-sdk
⚡2
Яндекс
«Яндекс Дропс» — беспроводные наушники с ИИ-ассистентом «Алисой». С помощью устройства можно будет получать доступ к нейросетевым функциям голосом в любой момент. В наушниках можно будет на ходу задавать «Алисе AI» любые вопросы и получать ответы, занимаясь другими делами. Кроме этого, пользователи смогут использовать привычные возможности ИИ-ассистента, как на «Станциях», например, управлять музыкой.
В «Дропс» будет доступна функция «Моя память». Всё, что пользователь просит Алису зафиксировать — планы, дела или просто случайные мысли — сохранится в чате с Алисой AI в виде структурированных записей и напоминаний. Устройство может стать виртуальным секретарём, который фиксирует идеи и записывает информацию о важных событиях. Доступ к самим записям можно получить в чате с «Алисой AI» или через голосовой интерфейс.
Источник
❤1
Кроме того, компания показала диктофон с «Алисой Про» — его тоже анонсировали в октябре 2025 года. На него можно записывать, к примеру, деловые встречи или лекции. «Алиса Про» подготовит расшифровку и конспект и ответит на вопросы по содержанию.
Источник
❤2
Codex 5.2 вышел, ну теперь все баги починю в своих поделках
https://openai.com/index/introducing-gpt-5-2-codex/
https://openai.com/index/introducing-gpt-5-2-codex/
👍3
Плагин Claude для управления браузером
claude.com/chrome
https://youtu.be/rBJnWMD0Pho?si=vWk-faZMztHYZCNj
claude.com/chrome
https://youtu.be/rBJnWMD0Pho?si=vWk-faZMztHYZCNj
YouTube
Let Claude handle work in your browser
See Claude for Chrome handle three complete workflows in your browser.
Pull data from dashboards into one analysis doc
Address slide comments automatically
Build with Claude Code, test in Chrome
Claude for Chrome is a browser extension that lets Claude see…
Pull data from dashboards into one analysis doc
Address slide comments automatically
Build with Claude Code, test in Chrome
Claude for Chrome is a browser extension that lets Claude see…
👍1😁1
Google выносит историю чатов с поисковым AI Mode в кнопку на главной Google app
👍1
Google интегрирует свой вайбкод эксперимент Opal внутрь Gemini
https://techcrunch.com/2025/12/17/googles-vibe-coding-tool-opal-comes-to-gemini/
https://techcrunch.com/2025/12/17/googles-vibe-coding-tool-opal-comes-to-gemini/
👍1🤔1
Forwarded from Denis Sexy IT 🤖
This media is not supported in your browser
VIEW IN TELEGRAM
Qwen выкатил интересную модель, которая разбивает обычные картинки на слои – как принято в этом вашем фотошопе
А еще модель может редактировать изображения, меняя конкретный слой когда нужно - наконец-то что-то новое в подходах
Вот тут детали, тут демо, модель уже в опенсорсе
А еще модель может редактировать изображения, меняя конкретный слой когда нужно - наконец-то что-то новое в подходах
Вот тут детали, тут демо, модель уже в опенсорсе
🔥3