Sber AI – Telegram
Sber AI
40.7K subscribers
2.42K photos
616 videos
1 file
2.04K links
AI для людей: всё об искусственном интеллекте в мире и Сбере 💚

Рассказываем, как AI меняет нашу жизнь, разбираем тренды технологий и делимся новыми разработками!
Download Telegram
Aya Vision: больше чем картинка ❤️

Cohere For AI делится новшеством. Их модель понимает разные языки и работает сразу с текстом и изображениями.

Чем крута Aya Vision:
🤓 поддерживает целых 23 языка, которыми пользуются больше половины людей на планете
✍️ можно легко узнать подробности о любом изображении, получить описания и ответы на вопросы. Например, откуда взялось произведение искусства, которое вы увидели в путешествии

Как работает:
👑 показывает топовые результаты в своём классе
⭐️ даже когда сравнивают с другими большими моделями (вроде Qwen2.5-VL 7B), Aya Vision выходит вперёд
🚀 справляется с задачами быстрее и эффективнее, чем аналоги

Добавили ещё и тест Aya Vision Benchmark. Это инструмент для проверки, насколько хорошо работает AI на разных языках ❤️

Изображение Cohere For AI
Please open Telegram to view this post
VIEW IN TELEGRAM
🤔3👏1
This media is not supported in your browser
VIEW IN TELEGRAM
DiffSplat видит мир в 3D 🌪

Фреймворк превращает двухмерные картинки в 3D-изображения с помощью диффузионных моделей.

Схема такая:
🚗 берём лёгкую модель на основе трансформеров
🙃 учим восстанавливать 3D Gaussians прямо из набора картинок с разных ракурсов
😓 подключаем VAE для кодирования свойств гауссиан в латентном пространстве

Всё это вместе позволяет создавать 3D-контент с использованием диффузии. Добавляем туда ещё и оба reconstruction и rendering loss для качества автоэнкодинга.

На T3Bench DiffSplat набирает лучшие скоры по CLIP-сходству и R-Precision. Как с отдельными объектами, так и с комплексными сценами 💪

Можно пробовать создавать высококачественные меши. А если интегрировать с ControlNet, получится использовать depth и normal maps. Плюс text-to-image диффузия даст больше контроля 👀
👍6
This media is not supported in your browser
VIEW IN TELEGRAM
Snapchat зажигает: AI Video Lenses с пушистыми друзьями и цветами 🌷

Показываю их новые AI-видеоэффекты. Пока что для подписчиков Platinum (это премиум Snapchat).

Что это за линзы:
📥 креатив от собственного AI Snapchat
👀 доступны первые три линзы: Raccoon (енот) и Fox (лиса) добавляют на снимок анимированных зверюшек 🦊, Spring Flowers (весенние цветы) делает zoom-out, и вы с букетом 💐 (внезапно!)
🔜 обещают обновы каждую неделю

Как юзать:
🎯 искать в карусели
🪞 выбрать эффект, снять видео на фронталку или основную камеру
📸 пока AI там колдует, можно дальше чатиться или снимать что-то ещё
⬇️ результат сохраняется в Memories, заливается в Stories и Spotlight. Можно скинуть друзьям
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥4👏2
This media is not supported in your browser
VIEW IN TELEGRAM
Как PaSa переиграла Google Scholar в научном квесте 🤓

Отвечаю на вопрос о научных запросах (опрос см. выше ☝️). Исследователь справляется с академическим поиском лучше, опираясь на опыт и умение видеть нюансы.

Проблема-то знакомая: поисковики типа Google Scholar часто не тянут научные промпты. Но LLM в науке совершенствуются! ByteDance и Пекинский университет представляют агента PaSa 🤨

Как устроен:
🎯 модуль crawler гуляет по статьям и выбирает нужные. Для актуальности используют citation networks
🤨 модуль selector читает выбранное и выуживает подходящее
💬 обучали на AutoScholarQuery и RealScholarQuery

Версия PaSa-7B победила Google, Google Scholar и даже GPT-4 по точности подбора. Заметно улучшение по Recall@20 — прирост 38% в сравнении с Google Scholar 🎉

Ну да, тесты-то красивые, но хорошо бы сравнить с конкурентами тоже на основе LLM или хотя бы Perplexity 📊

Видео создано для канала Душа Питона с помощью Kandinsky Video 1.1
Please open Telegram to view this post
VIEW IN TELEGRAM
👍41
This media is not supported in your browser
VIEW IN TELEGRAM
4 способа примерить одежду (и обувь 👠) с помощью AI

1️⃣ Google Shopping добавили функцию виртуальной подгонки вещей на моделях разного размера — от XXS до XXL. Можно посмотреть, как они сидят на реальных людях. Алгоритм показывает даже обувь, чтобы создать целостный образ 💃

2️⃣ ZERO10 для обуви разработали отдельную технологию. Оценивается поза — точное положение и поворот ноги, чтобы всё выглядело натурально. Сама обувь тоже не отличается от настоящей, учитывается освещение и другие эффекты. Тестировали систему в реальных условиях 😶‍🌫️

3️⃣ GS-VTON — крутая штука для примерки одежды в 3D. Были проблемы, потому что объёмные версии заметно уступали 🪫 Используют Gaussian Splatting, чтобы перенести данные и добиться чёткости и согласованности между углами обзора.

4️⃣ ЦУМ вместе с VRTech запустили платформу Dresscode, позволяющую прямо в магазине примерять одежду на своё селфи. Не надо делать фото в примерочной, AI сразу выдаст твой новый образ. Доступно больше 15 тысяч товаров разных брендов. Всё, что нужно, — сфоткаться, ввести параметры фигуры и выбрать предмет гардероба.⚡️
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5❤‍🔥2🤔21
Работа над ошибками моделей: разделяй и властвуй 💪

Исследователи INRIA, Ecole Normale Superieure и Беркли предлагают новый подход ML-классификаторов.

Что сделали:
😉 разложили loss-функцию на ошибку калибрации (показывает степень уверенности модели в решениях) и refinement loss (измеряет качество самой классификации)
📞 доказали, что при обучении нельзя одновременно оптимизировать оба компонента. Поэтому прекращать тренировку на основе validation loss не всегда правильно, что особенно сказывается на refinement error
🧐 придумали другой способ — фокусироваться на refinement error, так как калибрацию можно подтянуть на пост-трейне

Когда разбираешь ошибку на составляющие, проще понять, где именно затык. Обычно такая грануляция приводит к пересмотру стратегий обучения 🎓

Подход улучшил перформанс на CIFAR-10 и DIFAR-100 😎

Изображение INRIA, Ecole Normale Superieure, University of California
Please open Telegram to view this post
VIEW IN TELEGRAM
👏31👍1
Два Ernie против одной DeepSeek

И немножко против GPT 4.5 😉

💬 Во-первых, Baidu показали нового Ernie X1, способного объяснять свои решения. Говорят, что он хорош в повседневных разговорах, сложных расчётах и логике.

🔄 Во-вторых, обновили базового Ernie до версии 4.5, превосходящей такую же GPT в работе с текстом 🔤

✔️ До кучи сделали все уровни сервиса (включая X1) бесплатными для юзеров. Раньше запланированного срока 🚀

Очень хотят не ударить в грязь лицом, очень 😃 Всё-таки Baidu — первые китайцы, выпустившие аналог ChatGPT, и им надо оправдывать доверие сообщества. Объявили даже, что с 30 июня полностью откроют Ernie 👀

Изображение создано для канала Душа Питона с помощью Kandinsky 3.1
Please open Telegram to view this post
VIEW IN TELEGRAM
👍3🤔3
This media is not supported in your browser
VIEW IN TELEGRAM
Скейтеры будущего: роботы становятся экстремалами 🏄‍♂️

Показываю, как умело робопёс управляет скейтом (и даже помогает себе лапками 👋)

Методика DHAL учит роботов рулить в режиме реального времени:
👨‍🎓 используют принципы гибридных автоматов
🚗 двигаются ученики плавно, даже если имеют сложную конструкцию с четырьмя ногами
🚘 эти задачи решались заданными шаблонами или ML-методами, но оба подхода имеют недостатки
🚗 тут применяют специальную политику поведения и систему оценок, чтобы робот сам понимал, когда и как менять движение по ситуации

И вот наш четвероногий друг уже покоряет горки, доказывая, что тоже умеет ловить вайб 😂
Please open Telegram to view this post
VIEW IN TELEGRAM
👏7🔥3👍2🤔1
UP-VLA: понимание и прогноз в одном алгоритме 👐

Китайскую vision-language-action модель учили одновременно ориентироваться в текущем состоянии (Understanding) и предсказывать будущие (Prediction).

Современные VLM нужны в робототехнике, но при этом часто страдают от неспособности детально анализировать пространство 😕

Объединение стратегий обучения и решает эту проблему:
🤝 semantic comprehension сочетают с низкоуровневым spatial recognition
🤡 когда модель управляет физическим агентом (embodied tasks), её действия становятся более эффективными

Тренировка проходила за счёт обучения авторегрессионной модели с использованием attention mask. На Calvin ABC-D перформанс улучшился на 33% в сравнении с SOTA 🤘

Изображение создано для канала Душа Питона с помощью Kandinsky 3.1
Please open Telegram to view this post
VIEW IN TELEGRAM
👍3🤔2
Сырный челлендж: Perplexity vs Google в борьбе за идеальную пиццу 🍕лидерство

Видели, как Perplexity потроллила конкурентов? Выпустили рекламу, где Ли Джон Джэ из “Игры в кальмара” пытается выбраться из ловушки с помощью веб-поиска. И некая система Poogle 😄 его не спасает, зато Perplexity на высоте!

Одна из загадок касается к тому же недавнего фейла AI Google. Помните его совет сделать пиццу с клеем вместо сыра? Perplexity предлагает моцареллу, при этом прямым текстом не рекомендует клей.

Вот тебе и “Google в помощь!” 😉 Насладитесь подробностями.

Изображение Perplexity
Please open Telegram to view this post
VIEW IN TELEGRAM
😁10
Пробовала общаться с AI-пареньком, созданным с помощью операционки Conversational Video Interface (CVI) от Tavus. Мило 😇 Сразу же уточнила, знает ли он русский, и спросила именно по-русски. Ответ был:  “О, ты говоришь на русском!”🔥То есть язык он распознал, но пока на этом всё 🆗

Систему предлагают для реалистичного и эмоционального общения. Используются технологии Raven-0 и Sparrow-0.

Raven-0:
😊 слышит и видит
🫤 следит за жестами, выражением лица, взглядом
😐 считывает эмоции и реагирует

Sparrow-0
🤓 чувствует ритм речи и точно выбирает момент для ответа
🤫 на паузе не торопит, ждёт
🤾‍♂️ отвечает за доли секунды

Есть демопомощник Charlie:
💬 реально вовлекается в разговор
🖥 ищет инфу в интернете, смотрит на экран, генерит картинки прямо во время разговора
📣 помогает решать задачи, советует

Через API можно встроить фишки в приложения.

Заходим и общаемся тут.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍11🤔3
Быт, научные прорывы и перестройка реальности

AI уже меняет наши привычки, становится доступнее и учится думать как человек 😶

1️⃣ Встречаем ещё одну умную нейросеть — EXAONE Deep от LG. Разбирается в математике, науке и кодинге 🤖 Версия 32B сравнялась с огромной DeepSeek-R1 (671B) в экзамене на логику AIME 2025.

2️⃣ На конфе GTC 2025, проходящей прямо сейчас в Калифорнии, Nvidia показала свои новенькие мини-суперкомпы — маленький DGX Spark и побольше DGX Station. Работают на Grace Blackwell и могут качать мощные модели. Оба девайса летом будут в продаже ☀️

3️⃣ Microsoft вместе со швейцарским стартапом разрабатывает мозгоподобный AI для роботов 🤪 Идея в том, чтобы научить его думать по-настоящему, а не просто воспроизводить закономерности.

4️⃣ Благодаря AI трафик в онлайн-магазинах взлетел на 1 200%! Люди уже активно юзают технологии для шопинга, планирования поездок, подбора подарков и других целей 🎁 С AI покупатели также дольше сидят на сайтах и просматривают больше страниц. Полное исследование Adobe Analytics смотрим тут.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍6👏1
This media is not supported in your browser
VIEW IN TELEGRAM
GR00T N1 делает андроидов универсальными 🏋️

Nvidia создали модель для роботов, которая может всё и в любой среде.

Обучение и архитектура:
🧑‍💻 натренирована на реальных данных роботов, плюс синтетика и много видосов из сети
🧑‍🎓 совмещены обработка картинок и текста, добавлен диффузионный трансформер для сглаживания движений

Как использовать:
🤬 готовим демо данных (видео, состояние, действие)
👌 приводим в совместимый формат LeRobot
👨‍💻 настраиваем параметры под своего робота
✍️ дообучаем GR00T N1 на собственной инфе
🏄‍♂️ интегрируем с контроллером, и в путь!

Что нужно для запуска?
*️⃣ ОС: Ubuntu 20.04/22.04
*️⃣ GPU: H100, L40, A4090, A6000 (для тренировки), 4090, A6000 (для вывода)
*️⃣ Питон: 3.10, CUDA: 12.4
*️⃣ библиотеки: ffmpeg, libsm6, libxext6

Для всех желающих на GitHub.
Please open Telegram to view this post
VIEW IN TELEGRAM
3🤔3
This media is not supported in your browser
VIEW IN TELEGRAM
Драма на сервере: AI-боты играют в “Мафию” 🌚

Энтузиаст разработал сайт, где разные AI-модели рубятся в популярную игру 🪞

Наблюдать за ними весело, потому что некоторые явно не шарят в правилах. Один, например, случайно слил, что он мафиози, и тут же вылетел из игры 🫣 Зато Claude 3.7 Sonnet показал свои лучшие скиллы и у всех выиграл 😎

Скоро разработчик выложит код на GitHub, чтобы другие могли адаптировать его для новых игр 🧑‍🎓

Видео создано для канала Душа Питона с помощью Kandinsky Video 1.1
Please open Telegram to view this post
VIEW IN TELEGRAM
👏121😁1🤔1
Razer выкатил AI-платформу для геймдевелоперов 🧑‍💻

Главным козырем на Wyvrn стал AI QA Copilot:
🆘 помогает тестировать игры и автоматом находит баги
😵‍💫 интегрируется с популярными движками Unreal Engine и Unity
🤓 находит до 25% больше ошибок по сравнению с ручными проверками
сокращает затраты времени и ресурсов на 50%

Для самих же игроков готовят к релизу ассистента AI Gamer Copilot (раньше это был Project Ava). Помощник разберёт тактику в мультиплеере или в реальном времени подскажет, как проходить сложные моменты в одиночных играх 👩‍💻

Изображение Wyvrn
Please open Telegram to view this post
VIEW IN TELEGRAM
👍3
Tencent HunYuan выложили в открытый доступ 5 нейронок для 3D-моделей. Сразу потестила

Детали:
🚗 работают на базе HunYuan3D-2.0 и делают всё быстро (30 секунд)
😓 движок от Tencent поддерживает разные платформы
🚗 HunYuan3D-2-MV использует сразу несколько ракурсов на инпуте
🆒 облегчённая версия запускается даже на слабеньких девайсах вроде Apple M1 Pro

Мои опыты:
😇 кидаем картинку и погнали (первый слайд)
💩 можно выбрать режим формы или сразу с текстурой (второй слайд)
😵‍💫 генерится на раз-два (третий слайд)
🌙 после крутим-вертим (четвёртый слайд)
↗️ и даже вид снизу (пятый слайд)

Пробуем тут. Используем для разного контента, производства товаров, разработки игр 👨‍💻
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍63🏆2