Aya Vision: больше чем картинка ❤️
Cohere For AI делится новшеством. Их модель понимает разные языки и работает сразу с текстом и изображениями.
Чем крута Aya Vision:
🤓 поддерживает целых 23 языка, которыми пользуются больше половины людей на планете
✍️ можно легко узнать подробности о любом изображении, получить описания и ответы на вопросы. Например, откуда взялось произведение искусства, которое вы увидели в путешествии
Как работает:
👑 показывает топовые результаты в своём классе
⭐️ даже когда сравнивают с другими большими моделями (вроде Qwen2.5-VL 7B), Aya Vision выходит вперёд
🚀 справляется с задачами быстрее и эффективнее, чем аналоги
Добавили ещё и тест Aya Vision Benchmark. Это инструмент для проверки, насколько хорошо работает AI на разных языках❤️
Изображение Cohere For AI
Cohere For AI делится новшеством. Их модель понимает разные языки и работает сразу с текстом и изображениями.
Чем крута Aya Vision:
Как работает:
Добавили ещё и тест Aya Vision Benchmark. Это инструмент для проверки, насколько хорошо работает AI на разных языках
Изображение Cohere For AI
Please open Telegram to view this post
VIEW IN TELEGRAM
🤔3👏1
This media is not supported in your browser
VIEW IN TELEGRAM
DiffSplat видит мир в 3D 🌪
Фреймворк превращает двухмерные картинки в 3D-изображения с помощью диффузионных моделей.
Схема такая:
🚗 берём лёгкую модель на основе трансформеров
🙃 учим восстанавливать 3D Gaussians прямо из набора картинок с разных ракурсов
😓 подключаем VAE для кодирования свойств гауссиан в латентном пространстве
Всё это вместе позволяет создавать 3D-контент с использованием диффузии. Добавляем туда ещё и оба reconstruction и rendering loss для качества автоэнкодинга.
На T3Bench DiffSplat набирает лучшие скоры по CLIP-сходству и R-Precision. Как с отдельными объектами, так и с комплексными сценами 💪
Можно пробовать создавать высококачественные меши. А если интегрировать с ControlNet, получится использовать depth и normal maps. Плюс text-to-image диффузия даст больше контроля 👀
Фреймворк превращает двухмерные картинки в 3D-изображения с помощью диффузионных моделей.
Схема такая:
🚗 берём лёгкую модель на основе трансформеров
🙃 учим восстанавливать 3D Gaussians прямо из набора картинок с разных ракурсов
😓 подключаем VAE для кодирования свойств гауссиан в латентном пространстве
Всё это вместе позволяет создавать 3D-контент с использованием диффузии. Добавляем туда ещё и оба reconstruction и rendering loss для качества автоэнкодинга.
На T3Bench DiffSplat набирает лучшие скоры по CLIP-сходству и R-Precision. Как с отдельными объектами, так и с комплексными сценами 💪
Можно пробовать создавать высококачественные меши. А если интегрировать с ControlNet, получится использовать depth и normal maps. Плюс text-to-image диффузия даст больше контроля 👀
👍6
This media is not supported in your browser
VIEW IN TELEGRAM
Snapchat зажигает: AI Video Lenses с пушистыми друзьями и цветами 🌷
Показываю их новые AI-видеоэффекты. Пока что для подписчиков Platinum (это премиум Snapchat).
Что это за линзы:
📥 креатив от собственного AI Snapchat
👀 доступны первые три линзы: Raccoon (енот) и Fox (лиса) добавляют на снимок анимированных зверюшек 🦊 , Spring Flowers (весенние цветы) делает zoom-out, и вы с букетом 💐 (внезапно!)
🔜 обещают обновы каждую неделю
Как юзать:
🎯 искать в карусели
🪞 выбрать эффект, снять видео на фронталку или основную камеру
📸 пока AI там колдует, можно дальше чатиться или снимать что-то ещё
⬇️ результат сохраняется в Memories, заливается в Stories и Spotlight. Можно скинуть друзьям
Показываю их новые AI-видеоэффекты. Пока что для подписчиков Platinum (это премиум Snapchat).
Что это за линзы:
Как юзать:
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥4👏2
Проверь себя: почему ответ учёного на научный запрос точнее, чем ответ модели?
Anonymous Poll
9%
Учёный имеет доступ к закрытым базам данных
82%
Учёный понимает контекст, может критически анализировать и интерпретировать
13%
Модели ограничены объёмом памяти и не могут хранить достаточно информации для сложных запросов
This media is not supported in your browser
VIEW IN TELEGRAM
Как PaSa переиграла Google Scholar в научном квесте 🤓
Отвечаю на вопрос о научных запросах (опрос см. выше☝️ ). Исследователь справляется с академическим поиском лучше, опираясь на опыт и умение видеть нюансы.
Проблема-то знакомая: поисковики типа Google Scholar часто не тянут научные промпты. Но LLM в науке совершенствуются! ByteDance и Пекинский университет представляют агента PaSa🤨
Как устроен:
🎯 модуль crawler гуляет по статьям и выбирает нужные. Для актуальности используют citation networks
🤨 модуль selector читает выбранное и выуживает подходящее
💬 обучали на AutoScholarQuery и RealScholarQuery
Версия PaSa-7B победила Google, Google Scholar и даже GPT-4 по точности подбора. Заметно улучшение по Recall@20 — прирост 38% в сравнении с Google Scholar🎉
Ну да, тесты-то красивые, но хорошо бы сравнить с конкурентами тоже на основе LLM или хотя бы Perplexity📊
Видео создано для канала Душа Питона с помощью Kandinsky Video 1.1
Отвечаю на вопрос о научных запросах (опрос см. выше
Проблема-то знакомая: поисковики типа Google Scholar часто не тянут научные промпты. Но LLM в науке совершенствуются! ByteDance и Пекинский университет представляют агента PaSa
Как устроен:
Версия PaSa-7B победила Google, Google Scholar и даже GPT-4 по точности подбора. Заметно улучшение по Recall@20 — прирост 38% в сравнении с Google Scholar
Ну да, тесты-то красивые, но хорошо бы сравнить с конкурентами тоже на основе LLM или хотя бы Perplexity
Видео создано для канала Душа Питона с помощью Kandinsky Video 1.1
Please open Telegram to view this post
VIEW IN TELEGRAM
👍4❤1
This media is not supported in your browser
VIEW IN TELEGRAM
4 способа примерить одежду (и обувь 👠 ) с помощью AI
1️⃣ Google Shopping добавили функцию виртуальной подгонки вещей на моделях разного размера — от XXS до XXL. Можно посмотреть, как они сидят на реальных людях. Алгоритм показывает даже обувь, чтобы создать целостный образ 💃
2️⃣ ZERO10 для обуви разработали отдельную технологию. Оценивается поза — точное положение и поворот ноги, чтобы всё выглядело натурально. Сама обувь тоже не отличается от настоящей, учитывается освещение и другие эффекты. Тестировали систему в реальных условиях 😶🌫️
3️⃣ GS-VTON — крутая штука для примерки одежды в 3D. Были проблемы, потому что объёмные версии заметно уступали 🪫 Используют Gaussian Splatting, чтобы перенести данные и добиться чёткости и согласованности между углами обзора.
4️⃣ ЦУМ вместе с VRTech запустили платформу Dresscode, позволяющую прямо в магазине примерять одежду на своё селфи. Не надо делать фото в примерочной, AI сразу выдаст твой новый образ. Доступно больше 15 тысяч товаров разных брендов. Всё, что нужно, — сфоткаться, ввести параметры фигуры и выбрать предмет гардероба.⚡️
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5❤🔥2🤔2❤1
Работа над ошибками моделей: разделяй и властвуй 💪
Исследователи INRIA, Ecole Normale Superieure и Беркли предлагают новый подход ML-классификаторов.
Что сделали:
😉 разложили loss-функцию на ошибку калибрации (показывает степень уверенности модели в решениях) и refinement loss (измеряет качество самой классификации)
📞 доказали, что при обучении нельзя одновременно оптимизировать оба компонента. Поэтому прекращать тренировку на основе validation loss не всегда правильно, что особенно сказывается на refinement error
🧐 придумали другой способ — фокусироваться на refinement error, так как калибрацию можно подтянуть на пост-трейне
Когда разбираешь ошибку на составляющие, проще понять, где именно затык. Обычно такая грануляция приводит к пересмотру стратегий обучения🎓
Подход улучшил перформанс на CIFAR-10 и DIFAR-100😎
Изображение INRIA, Ecole Normale Superieure, University of California
Исследователи INRIA, Ecole Normale Superieure и Беркли предлагают новый подход ML-классификаторов.
Что сделали:
Когда разбираешь ошибку на составляющие, проще понять, где именно затык. Обычно такая грануляция приводит к пересмотру стратегий обучения
Подход улучшил перформанс на CIFAR-10 и DIFAR-100
Изображение INRIA, Ecole Normale Superieure, University of California
Please open Telegram to view this post
VIEW IN TELEGRAM
👏3❤1👍1
Два Ernie против одной DeepSeek
И немножко против GPT 4.5😉
💬 Во-первых, Baidu показали нового Ernie X1, способного объяснять свои решения. Говорят, что он хорош в повседневных разговорах, сложных расчётах и логике.
🔄 Во-вторых, обновили базового Ernie до версии 4.5, превосходящей такую же GPT в работе с текстом 🔤
✔️ До кучи сделали все уровни сервиса (включая X1) бесплатными для юзеров. Раньше запланированного срока 🚀
Очень хотят не ударить в грязь лицом, очень😃 Всё-таки Baidu — первые китайцы, выпустившие аналог ChatGPT, и им надо оправдывать доверие сообщества. Объявили даже, что с 30 июня полностью откроют Ernie 👀
Изображение создано для канала Душа Питона с помощью Kandinsky 3.1
И немножко против GPT 4.5
Очень хотят не ударить в грязь лицом, очень
Изображение создано для канала Душа Питона с помощью Kandinsky 3.1
Please open Telegram to view this post
VIEW IN TELEGRAM
👍3🤔3
This media is not supported in your browser
VIEW IN TELEGRAM
Скейтеры будущего: роботы становятся экстремалами 🏄♂️
Показываю, как умело робопёс управляет скейтом (и даже помогает себе лапками👋 )
Методика DHAL учит роботов рулить в режиме реального времени:
👨🎓 используют принципы гибридных автоматов
🚗 двигаются ученики плавно, даже если имеют сложную конструкцию с четырьмя ногами
🚘 эти задачи решались заданными шаблонами или ML-методами, но оба подхода имеют недостатки
🚗 тут применяют специальную политику поведения и систему оценок, чтобы робот сам понимал, когда и как менять движение по ситуации
И вот наш четвероногий друг уже покоряет горки, доказывая, что тоже умеет ловить вайб😂
Показываю, как умело робопёс управляет скейтом (и даже помогает себе лапками
Методика DHAL учит роботов рулить в режиме реального времени:
И вот наш четвероногий друг уже покоряет горки, доказывая, что тоже умеет ловить вайб
Please open Telegram to view this post
VIEW IN TELEGRAM
👏7🔥3👍2🤔1
UP-VLA: понимание и прогноз в одном алгоритме 👐
Китайскую vision-language-action модель учили одновременно ориентироваться в текущем состоянии (Understanding) и предсказывать будущие (Prediction).
Современные VLM нужны в робототехнике, но при этом часто страдают от неспособности детально анализировать пространство😕
Объединение стратегий обучения и решает эту проблему:
🤝 semantic comprehension сочетают с низкоуровневым spatial recognition
🤡 когда модель управляет физическим агентом (embodied tasks), её действия становятся более эффективными
Тренировка проходила за счёт обучения авторегрессионной модели с использованием attention mask. На Calvin ABC-D перформанс улучшился на 33% в сравнении с SOTA🤘
Изображение создано для канала Душа Питона с помощью Kandinsky 3.1
Китайскую vision-language-action модель учили одновременно ориентироваться в текущем состоянии (Understanding) и предсказывать будущие (Prediction).
Современные VLM нужны в робототехнике, но при этом часто страдают от неспособности детально анализировать пространство
Объединение стратегий обучения и решает эту проблему:
Тренировка проходила за счёт обучения авторегрессионной модели с использованием attention mask. На Calvin ABC-D перформанс улучшился на 33% в сравнении с SOTA
Изображение создано для канала Душа Питона с помощью Kandinsky 3.1
Please open Telegram to view this post
VIEW IN TELEGRAM
👍3🤔2
Сырный челлендж: Perplexity vs Google в борьбе за идеальную пиццу 🍕лидерство
Видели, как Perplexity потроллила конкурентов? Выпустили рекламу, где Ли Джон Джэ из “Игры в кальмара” пытается выбраться из ловушки с помощью веб-поиска. И некая система Poogle😄 его не спасает, зато Perplexity на высоте!
Одна из загадок касается к тому же недавнего фейла AI Google. Помните его совет сделать пиццу с клеем вместо сыра? Perplexity предлагает моцареллу, при этом прямым текстом не рекомендует клей.
Вот тебе и “Google в помощь!”😉 Насладитесь подробностями.
Изображение Perplexity
Видели, как Perplexity потроллила конкурентов? Выпустили рекламу, где Ли Джон Джэ из “Игры в кальмара” пытается выбраться из ловушки с помощью веб-поиска. И некая система Poogle
Одна из загадок касается к тому же недавнего фейла AI Google. Помните его совет сделать пиццу с клеем вместо сыра? Perplexity предлагает моцареллу, при этом прямым текстом не рекомендует клей.
Вот тебе и “Google в помощь!”
Изображение Perplexity
Please open Telegram to view this post
VIEW IN TELEGRAM
😁10
Пробовала общаться с AI-пареньком, созданным с помощью операционки Conversational Video Interface (CVI) от Tavus. Мило 😇 Сразу же уточнила, знает ли он русский, и спросила именно по-русски. Ответ был: “О, ты говоришь на русском!”🔥 То есть язык он распознал, но пока на этом всё 🆗
Систему предлагают для реалистичного и эмоционального общения. Используются технологии Raven-0 и Sparrow-0.
Raven-0:
😊 слышит и видит
🫤 следит за жестами, выражением лица, взглядом
😐 считывает эмоции и реагирует
Sparrow-0
🤓 чувствует ритм речи и точно выбирает момент для ответа
🤫 на паузе не торопит, ждёт
🤾♂️ отвечает за доли секунды
Есть демопомощник Charlie:
💬 реально вовлекается в разговор
🖥 ищет инфу в интернете, смотрит на экран, генерит картинки прямо во время разговора
📣 помогает решать задачи, советует
Через API можно встроить фишки в приложения.
Заходим и общаемся тут.
Систему предлагают для реалистичного и эмоционального общения. Используются технологии Raven-0 и Sparrow-0.
Raven-0:
Sparrow-0
Есть демопомощник Charlie:
Через API можно встроить фишки в приложения.
Заходим и общаемся тут.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍11🤔3
Быт, научные прорывы и перестройка реальности
AI уже меняет наши привычки, становится доступнее и учится думать как человек😶
1️⃣ Встречаем ещё одну умную нейросеть — EXAONE Deep от LG. Разбирается в математике, науке и кодинге 🤖 Версия 32B сравнялась с огромной DeepSeek-R1 (671B) в экзамене на логику AIME 2025.
2️⃣ На конфе GTC 2025, проходящей прямо сейчас в Калифорнии, Nvidia показала свои новенькие мини-суперкомпы — маленький DGX Spark и побольше DGX Station. Работают на Grace Blackwell и могут качать мощные модели. Оба девайса летом будут в продаже ☀️
3️⃣ Microsoft вместе со швейцарским стартапом разрабатывает мозгоподобный AI для роботов 🤪 Идея в том, чтобы научить его думать по-настоящему, а не просто воспроизводить закономерности.
4️⃣ Благодаря AI трафик в онлайн-магазинах взлетел на 1 200%! Люди уже активно юзают технологии для шопинга, планирования поездок, подбора подарков и других целей 🎁 С AI покупатели также дольше сидят на сайтах и просматривают больше страниц. Полное исследование Adobe Analytics смотрим тут.
AI уже меняет наши привычки, становится доступнее и учится думать как человек
Please open Telegram to view this post
VIEW IN TELEGRAM
👍6👏1
This media is not supported in your browser
VIEW IN TELEGRAM
GR00T N1 делает андроидов универсальными 🏋️
Nvidia создали модель для роботов, которая может всё и в любой среде.
Обучение и архитектура:
🧑💻 натренирована на реальных данных роботов, плюс синтетика и много видосов из сети
🧑🎓 совмещены обработка картинок и текста, добавлен диффузионный трансформер для сглаживания движений
Как использовать:
🤬 готовим демо данных (видео, состояние, действие)
👌 приводим в совместимый формат LeRobot
👨💻 настраиваем параметры под своего робота
✍️ дообучаем GR00T N1 на собственной инфе
🏄♂️ интегрируем с контроллером, и в путь!
Что нужно для запуска?
*️⃣ ОС: Ubuntu 20.04/22.04
*️⃣ GPU: H100, L40, A4090, A6000 (для тренировки), 4090, A6000 (для вывода)
*️⃣ Питон: 3.10, CUDA: 12.4
*️⃣ библиотеки: ffmpeg, libsm6, libxext6
Для всех желающих на GitHub.
Nvidia создали модель для роботов, которая может всё и в любой среде.
Обучение и архитектура:
Как использовать:
Что нужно для запуска?
Для всех желающих на GitHub.
Please open Telegram to view this post
VIEW IN TELEGRAM
❤3🤔3
This media is not supported in your browser
VIEW IN TELEGRAM
Драма на сервере: AI-боты играют в “Мафию” 🌚
Энтузиаст разработал сайт, где разные AI-модели рубятся в популярную игру🪞
Наблюдать за ними весело, потому что некоторые явно не шарят в правилах. Один, например, случайно слил, что он мафиози, и тут же вылетел из игры🫣 Зато Claude 3.7 Sonnet показал свои лучшие скиллы и у всех выиграл 😎
Скоро разработчик выложит код на GitHub, чтобы другие могли адаптировать его для новых игр🧑🎓
Видео создано для канала Душа Питона с помощью Kandinsky Video 1.1
Энтузиаст разработал сайт, где разные AI-модели рубятся в популярную игру
Наблюдать за ними весело, потому что некоторые явно не шарят в правилах. Один, например, случайно слил, что он мафиози, и тут же вылетел из игры
Скоро разработчик выложит код на GitHub, чтобы другие могли адаптировать его для новых игр
Видео создано для канала Душа Питона с помощью Kandinsky Video 1.1
Please open Telegram to view this post
VIEW IN TELEGRAM
👏12❤1😁1🤔1
Razer выкатил AI-платформу для геймдевелоперов 🧑💻
Главным козырем на Wyvrn стал AI QA Copilot:
🆘 помогает тестировать игры и автоматом находит баги
😵💫 интегрируется с популярными движками Unreal Engine и Unity
🤓 находит до 25% больше ошибок по сравнению с ручными проверками
⏱ сокращает затраты времени и ресурсов на 50%
Для самих же игроков готовят к релизу ассистента AI Gamer Copilot (раньше это был Project Ava). Помощник разберёт тактику в мультиплеере или в реальном времени подскажет, как проходить сложные моменты в одиночных играх👩💻
Изображение Wyvrn
Главным козырем на Wyvrn стал AI QA Copilot:
Для самих же игроков готовят к релизу ассистента AI Gamer Copilot (раньше это был Project Ava). Помощник разберёт тактику в мультиплеере или в реальном времени подскажет, как проходить сложные моменты в одиночных играх
Изображение Wyvrn
Please open Telegram to view this post
VIEW IN TELEGRAM
👍3
Tencent HunYuan выложили в открытый доступ 5 нейронок для 3D-моделей. Сразу потестила ⏳
Детали:
🚗 работают на базе HunYuan3D-2.0 и делают всё быстро (30 секунд)
😓 движок от Tencent поддерживает разные платформы
🚗 HunYuan3D-2-MV использует сразу несколько ракурсов на инпуте
🆒 облегчённая версия запускается даже на слабеньких девайсах вроде Apple M1 Pro
Мои опыты:
😇 кидаем картинку и погнали (первый слайд)
💩 можно выбрать режим формы или сразу с текстурой (второй слайд)
😵💫 генерится на раз-два (третий слайд)
🌙 после крутим-вертим (четвёртый слайд)
↗️ и даже вид снизу (пятый слайд)
Пробуем тут. Используем для разного контента, производства товаров, разработки игр👨💻
Детали:
Мои опыты:
Пробуем тут. Используем для разного контента, производства товаров, разработки игр
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍6❤3🏆2