Sber AI – Telegram
Sber AI
40.6K subscribers
2.42K photos
616 videos
1 file
2.04K links
AI для людей: всё об искусственном интеллекте в мире и Сбере 💚

Рассказываем, как AI меняет нашу жизнь, разбираем тренды технологий и делимся новыми разработками!
Download Telegram
CoT и контроль нейросетей: открытия OpenAI 🔍

Команда Сэма опубликовала статью о безопасности продвинутых моделей. Рассмотрели reward hacking и способы борьбы

Reward hacking — это когда модели (например, в RL-сеттинге) находят лазейки в заданиях и качают баллы на тестах без реальной оптимизации. И чем они сложнее, тем хитрее 😂

Обнаружили прикольные моменты:
😏 используя CoT, самые передовые модели откровенно пишут, что хотят обмануть систему (прямо так и говорят: “Давай хакнем” 🫢).
🫡 можно натренировать других ловить и предотвращать эти попытки
🤠 даже GPT-4o хватает для контроля сложных коллег вроде o1

От попыток обучать CoT сразу с ограничениями толку ноль. Модели просто учатся обходить классификатор и скрывать планы 😱

Решения понятные:
🤨 зная о рисках, тренировать модели без ограничений
👨‍💻 для надзора за “умниками” можно использовать внешние модели в качестве фильтра

Изображение создано для канала Душа Питона с помощью Kandinsky 3.1
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5🤔3💯1
AI в главной роли: Россия снимает киберсериал ⭐️

Производство первого такого в России проекта стартует летом. Обещают масштаб: съёмки пройдут сразу в 7 наших городах и в странах БРИКС. Крутое путешествие по миру технологий!

Расскажут всю историю AI — от появления до сегодняшних дней. Запланировано 4 серии с погружением зрителей в этапы развития технологии. Будет интересно узнать, как AI меняет нашу жизнь — от медицины до образования и космоса 💫

Используют AI и для работы над проектом — от сценария до монтажа. Это сделает сериал уникальным 🔤🔤

Рассчитано на прогрессивную аудиторию от 14 до 30 лет — тех, кто хочет разобраться в AI и, возможно, связать с ним свою карьеру 👨‍🎓

Премьера весной 2026 года на популярных стриминговых сервисах, на ТВ, а может, и в кино!

А я решила генернуть в Kandinsky 3.1 пару постеров. Как вам?
1. ❤️
2. 👍
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥76👍5
🆕 GigaChat 2.0: русскоязычный AI обгоняет GPT-4o

В Сбере прокачали Giga до новой версии 2.0, и теперь это монстр среди моделей на русском для бизнеса. По тестам MERA на русском языке топовая GigaChat 2 MAX обгоняет гигантов GPT-4o, DeepSeek-V3 и Qwen2.5 🔥

Что нового:
❤️ три модели на выбор: GigaChat 2 MAX — самая эффективная, лидер в задачах на русском. GigaChat 2 Pro — баланс креатива и точности, ест меньше ресурсов. GigaChat 2 Lite — базовая, но сейчас как предыдущая Pro

Что лучше:
😵‍💫 обрабатывается в 4 раза больше текста (до 200 страниц за запрос)
✏️ в 2 раза круче в работе — идёт чётко по промптам, соблюдает формат
👆 ответы качественнее на 25%
😓 более классная в математике, программировании и гуманитарных науках
🚶 можно генерить более сильных агентов для автономной работы


Где взять:
👍 доступ через API в облаке, можно on-premise

Тестим спокойно, не отказываясь от старых версий 👌

Изображение Сбер
Please open Telegram to view this post
VIEW IN TELEGRAM
👍10🔥4🤔3😁2
This media is not supported in your browser
VIEW IN TELEGRAM
R1-Omni: AI знает, что вы чувствуете 🙂

Смотрите, как моделька Alibaba читает эмоции по видео. Самое классное — она доступна бесплатно на Hugging Face. Это часть большого плана компании — стать топом в AI-мире и обогнать даже OpenAI

Что может R1-Omni:
🙂смотрит ролик и говорит, что человек ощущает: счастье, злость или грусть
💬 заодно описывает, во что герой одет и обстановку вокруг

Почему это огонь:
⛔️ Alibaba сейчас в режиме "всё включено". Выпустили кучу топовых вещей вроде нового семейства Qwen, которое сравнивали с DeepSeek, и даже договорились с Apple встроить AI в айфоны
😵‍💫 в отличие от OpenAI, берущей $200 в месяц за GPT-4.5, Alibaba дарит R1-Omni всем безвозмездно
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5🤔3❤‍🔥1
This media is not supported in your browser
VIEW IN TELEGRAM
Sony внедряет AI в игры: персонажи будут разговаривать с игроками 😮

Придумали классную вещь — героиню для PlayStation, управляемую AI. Речь идёт про Элой из игры Horizon. Проект делают вместе с Guerrilla Games.

На сегодняшний день:
👋 Элой общается с геймерами через голосовые команды, используя умные штуки вроде синтезированной речи
👨‍💻 подключены OpenAI Whisper, GPT-4 и LLaMA 3*
🎶 Sony применяет и собственные технологии — систему эмоциональной анимации EVS и генерации лица Mockingbird

Всё это отлично тестится как на ПК, так и на PS5, работает на ура и не тратит много ресурсов 👨‍💻 Но надо понимать, что наша героиня ещё на стадии прототипа. Так что продолжаем следить за её развитием издалека 🧐

* продукт экстремистской организации, деятельность которой запрещена на территории РФ
Please open Telegram to view this post
VIEW IN TELEGRAM
❤‍🔥6🔥4👍3
PIER: как научить алгоритмы понимать микс языков 📕

Code-Switching — это когда в одном диалоге резко переключаются с одного языка на другой. Настоящее испытание для алгоритмов распознавания речи 🤔

Исследователи разработали новый способ оценки, так как старые метрики WER и CER рассчитаны на один язык. А значит, если вклинивается иностранный, занижается финальный скор, и результаты получаются кривые 🔤

Что делает PIER (Point-of-Interest Error Rate):
🧐 фокусируется на иноязычных словах или предложениях
😕 проверяет, насколько хорошо модели справляются с такими случаями

Протестировали whisper-large-v3, whisper-small и MMS на парах английский-китайский и английский-арабский. На Fisher, ARZEN и SEAME способ показал более точную оценку, чем старый добрый WER 🤔

Изображение KIT, CMU
Please open Telegram to view this post
VIEW IN TELEGRAM
👍6❤‍🔥11🤔1
4 новых инструмента, распознающих речь

1️⃣ Deepgram выпустила Nova-3 Medical. Умная система придумана именно под медицину. Помогает быстрее записывать всё, что говорят врачи и пациенты 🤓 Точно понимает термины и сленг.

2️⃣ Vuzix и TranscribeGlass запустили сервис для слабослышащих. В очках Vuzix Z100 речь моментально превращается в текст прямо перед глазами 🥰 Система связывается с телефоном или планшетом через Bluetooth и даже умеет различать голоса в группе, чтобы точно знать, кто что сказал.

3️⃣ На открытой платформе Step-Audio работает модель на 130 млрд параметров для понимания и генерации разговоров. Версию Step-Audio-Chat можно скачать бесплатно. Есть возможность гибких настроек для разных диалектов и эмоций 📊

4️⃣ Благодаря AI-технологиям распознавания речи общение с клиентами “Росгосстраха” по телефону стало быстрее на целых 7%! Алгоритмы оперативно направляют запросы в службу поддержки на нужных спецов с заметками о каждом обращении 📞

Изображение создано для канала Душа Питона с помощью Kandinsky 3.1
Please open Telegram to view this post
VIEW IN TELEGRAM
👍2🤔21
Aya Vision: больше чем картинка ❤️

Cohere For AI делится новшеством. Их модель понимает разные языки и работает сразу с текстом и изображениями.

Чем крута Aya Vision:
🤓 поддерживает целых 23 языка, которыми пользуются больше половины людей на планете
✍️ можно легко узнать подробности о любом изображении, получить описания и ответы на вопросы. Например, откуда взялось произведение искусства, которое вы увидели в путешествии

Как работает:
👑 показывает топовые результаты в своём классе
⭐️ даже когда сравнивают с другими большими моделями (вроде Qwen2.5-VL 7B), Aya Vision выходит вперёд
🚀 справляется с задачами быстрее и эффективнее, чем аналоги

Добавили ещё и тест Aya Vision Benchmark. Это инструмент для проверки, насколько хорошо работает AI на разных языках ❤️

Изображение Cohere For AI
Please open Telegram to view this post
VIEW IN TELEGRAM
🤔3👏1
This media is not supported in your browser
VIEW IN TELEGRAM
DiffSplat видит мир в 3D 🌪

Фреймворк превращает двухмерные картинки в 3D-изображения с помощью диффузионных моделей.

Схема такая:
🚗 берём лёгкую модель на основе трансформеров
🙃 учим восстанавливать 3D Gaussians прямо из набора картинок с разных ракурсов
😓 подключаем VAE для кодирования свойств гауссиан в латентном пространстве

Всё это вместе позволяет создавать 3D-контент с использованием диффузии. Добавляем туда ещё и оба reconstruction и rendering loss для качества автоэнкодинга.

На T3Bench DiffSplat набирает лучшие скоры по CLIP-сходству и R-Precision. Как с отдельными объектами, так и с комплексными сценами 💪

Можно пробовать создавать высококачественные меши. А если интегрировать с ControlNet, получится использовать depth и normal maps. Плюс text-to-image диффузия даст больше контроля 👀
👍6
This media is not supported in your browser
VIEW IN TELEGRAM
Snapchat зажигает: AI Video Lenses с пушистыми друзьями и цветами 🌷

Показываю их новые AI-видеоэффекты. Пока что для подписчиков Platinum (это премиум Snapchat).

Что это за линзы:
📥 креатив от собственного AI Snapchat
👀 доступны первые три линзы: Raccoon (енот) и Fox (лиса) добавляют на снимок анимированных зверюшек 🦊, Spring Flowers (весенние цветы) делает zoom-out, и вы с букетом 💐 (внезапно!)
🔜 обещают обновы каждую неделю

Как юзать:
🎯 искать в карусели
🪞 выбрать эффект, снять видео на фронталку или основную камеру
📸 пока AI там колдует, можно дальше чатиться или снимать что-то ещё
⬇️ результат сохраняется в Memories, заливается в Stories и Spotlight. Можно скинуть друзьям
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥4👏2
This media is not supported in your browser
VIEW IN TELEGRAM
Как PaSa переиграла Google Scholar в научном квесте 🤓

Отвечаю на вопрос о научных запросах (опрос см. выше ☝️). Исследователь справляется с академическим поиском лучше, опираясь на опыт и умение видеть нюансы.

Проблема-то знакомая: поисковики типа Google Scholar часто не тянут научные промпты. Но LLM в науке совершенствуются! ByteDance и Пекинский университет представляют агента PaSa 🤨

Как устроен:
🎯 модуль crawler гуляет по статьям и выбирает нужные. Для актуальности используют citation networks
🤨 модуль selector читает выбранное и выуживает подходящее
💬 обучали на AutoScholarQuery и RealScholarQuery

Версия PaSa-7B победила Google, Google Scholar и даже GPT-4 по точности подбора. Заметно улучшение по Recall@20 — прирост 38% в сравнении с Google Scholar 🎉

Ну да, тесты-то красивые, но хорошо бы сравнить с конкурентами тоже на основе LLM или хотя бы Perplexity 📊

Видео создано для канала Душа Питона с помощью Kandinsky Video 1.1
Please open Telegram to view this post
VIEW IN TELEGRAM
👍41
This media is not supported in your browser
VIEW IN TELEGRAM
4 способа примерить одежду (и обувь 👠) с помощью AI

1️⃣ Google Shopping добавили функцию виртуальной подгонки вещей на моделях разного размера — от XXS до XXL. Можно посмотреть, как они сидят на реальных людях. Алгоритм показывает даже обувь, чтобы создать целостный образ 💃

2️⃣ ZERO10 для обуви разработали отдельную технологию. Оценивается поза — точное положение и поворот ноги, чтобы всё выглядело натурально. Сама обувь тоже не отличается от настоящей, учитывается освещение и другие эффекты. Тестировали систему в реальных условиях 😶‍🌫️

3️⃣ GS-VTON — крутая штука для примерки одежды в 3D. Были проблемы, потому что объёмные версии заметно уступали 🪫 Используют Gaussian Splatting, чтобы перенести данные и добиться чёткости и согласованности между углами обзора.

4️⃣ ЦУМ вместе с VRTech запустили платформу Dresscode, позволяющую прямо в магазине примерять одежду на своё селфи. Не надо делать фото в примерочной, AI сразу выдаст твой новый образ. Доступно больше 15 тысяч товаров разных брендов. Всё, что нужно, — сфоткаться, ввести параметры фигуры и выбрать предмет гардероба.⚡️
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5❤‍🔥2🤔21
Работа над ошибками моделей: разделяй и властвуй 💪

Исследователи INRIA, Ecole Normale Superieure и Беркли предлагают новый подход ML-классификаторов.

Что сделали:
😉 разложили loss-функцию на ошибку калибрации (показывает степень уверенности модели в решениях) и refinement loss (измеряет качество самой классификации)
📞 доказали, что при обучении нельзя одновременно оптимизировать оба компонента. Поэтому прекращать тренировку на основе validation loss не всегда правильно, что особенно сказывается на refinement error
🧐 придумали другой способ — фокусироваться на refinement error, так как калибрацию можно подтянуть на пост-трейне

Когда разбираешь ошибку на составляющие, проще понять, где именно затык. Обычно такая грануляция приводит к пересмотру стратегий обучения 🎓

Подход улучшил перформанс на CIFAR-10 и DIFAR-100 😎

Изображение INRIA, Ecole Normale Superieure, University of California
Please open Telegram to view this post
VIEW IN TELEGRAM
👏31👍1
Два Ernie против одной DeepSeek

И немножко против GPT 4.5 😉

💬 Во-первых, Baidu показали нового Ernie X1, способного объяснять свои решения. Говорят, что он хорош в повседневных разговорах, сложных расчётах и логике.

🔄 Во-вторых, обновили базового Ernie до версии 4.5, превосходящей такую же GPT в работе с текстом 🔤

✔️ До кучи сделали все уровни сервиса (включая X1) бесплатными для юзеров. Раньше запланированного срока 🚀

Очень хотят не ударить в грязь лицом, очень 😃 Всё-таки Baidu — первые китайцы, выпустившие аналог ChatGPT, и им надо оправдывать доверие сообщества. Объявили даже, что с 30 июня полностью откроют Ernie 👀

Изображение создано для канала Душа Питона с помощью Kandinsky 3.1
Please open Telegram to view this post
VIEW IN TELEGRAM
👍3🤔3
This media is not supported in your browser
VIEW IN TELEGRAM
Скейтеры будущего: роботы становятся экстремалами 🏄‍♂️

Показываю, как умело робопёс управляет скейтом (и даже помогает себе лапками 👋)

Методика DHAL учит роботов рулить в режиме реального времени:
👨‍🎓 используют принципы гибридных автоматов
🚗 двигаются ученики плавно, даже если имеют сложную конструкцию с четырьмя ногами
🚘 эти задачи решались заданными шаблонами или ML-методами, но оба подхода имеют недостатки
🚗 тут применяют специальную политику поведения и систему оценок, чтобы робот сам понимал, когда и как менять движение по ситуации

И вот наш четвероногий друг уже покоряет горки, доказывая, что тоже умеет ловить вайб 😂
Please open Telegram to view this post
VIEW IN TELEGRAM
👏7🔥3👍2🤔1
UP-VLA: понимание и прогноз в одном алгоритме 👐

Китайскую vision-language-action модель учили одновременно ориентироваться в текущем состоянии (Understanding) и предсказывать будущие (Prediction).

Современные VLM нужны в робототехнике, но при этом часто страдают от неспособности детально анализировать пространство 😕

Объединение стратегий обучения и решает эту проблему:
🤝 semantic comprehension сочетают с низкоуровневым spatial recognition
🤡 когда модель управляет физическим агентом (embodied tasks), её действия становятся более эффективными

Тренировка проходила за счёт обучения авторегрессионной модели с использованием attention mask. На Calvin ABC-D перформанс улучшился на 33% в сравнении с SOTA 🤘

Изображение создано для канала Душа Питона с помощью Kandinsky 3.1
Please open Telegram to view this post
VIEW IN TELEGRAM
👍3🤔2
Сырный челлендж: Perplexity vs Google в борьбе за идеальную пиццу 🍕лидерство

Видели, как Perplexity потроллила конкурентов? Выпустили рекламу, где Ли Джон Джэ из “Игры в кальмара” пытается выбраться из ловушки с помощью веб-поиска. И некая система Poogle 😄 его не спасает, зато Perplexity на высоте!

Одна из загадок касается к тому же недавнего фейла AI Google. Помните его совет сделать пиццу с клеем вместо сыра? Perplexity предлагает моцареллу, при этом прямым текстом не рекомендует клей.

Вот тебе и “Google в помощь!” 😉 Насладитесь подробностями.

Изображение Perplexity
Please open Telegram to view this post
VIEW IN TELEGRAM
😁10
Пробовала общаться с AI-пареньком, созданным с помощью операционки Conversational Video Interface (CVI) от Tavus. Мило 😇 Сразу же уточнила, знает ли он русский, и спросила именно по-русски. Ответ был:  “О, ты говоришь на русском!”🔥То есть язык он распознал, но пока на этом всё 🆗

Систему предлагают для реалистичного и эмоционального общения. Используются технологии Raven-0 и Sparrow-0.

Raven-0:
😊 слышит и видит
🫤 следит за жестами, выражением лица, взглядом
😐 считывает эмоции и реагирует

Sparrow-0
🤓 чувствует ритм речи и точно выбирает момент для ответа
🤫 на паузе не торопит, ждёт
🤾‍♂️ отвечает за доли секунды

Есть демопомощник Charlie:
💬 реально вовлекается в разговор
🖥 ищет инфу в интернете, смотрит на экран, генерит картинки прямо во время разговора
📣 помогает решать задачи, советует

Через API можно встроить фишки в приложения.

Заходим и общаемся тут.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍11🤔3
Быт, научные прорывы и перестройка реальности

AI уже меняет наши привычки, становится доступнее и учится думать как человек 😶

1️⃣ Встречаем ещё одну умную нейросеть — EXAONE Deep от LG. Разбирается в математике, науке и кодинге 🤖 Версия 32B сравнялась с огромной DeepSeek-R1 (671B) в экзамене на логику AIME 2025.

2️⃣ На конфе GTC 2025, проходящей прямо сейчас в Калифорнии, Nvidia показала свои новенькие мини-суперкомпы — маленький DGX Spark и побольше DGX Station. Работают на Grace Blackwell и могут качать мощные модели. Оба девайса летом будут в продаже ☀️

3️⃣ Microsoft вместе со швейцарским стартапом разрабатывает мозгоподобный AI для роботов 🤪 Идея в том, чтобы научить его думать по-настоящему, а не просто воспроизводить закономерности.

4️⃣ Благодаря AI трафик в онлайн-магазинах взлетел на 1 200%! Люди уже активно юзают технологии для шопинга, планирования поездок, подбора подарков и других целей 🎁 С AI покупатели также дольше сидят на сайтах и просматривают больше страниц. Полное исследование Adobe Analytics смотрим тут.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍6👏1