Sber AI – Telegram
Sber AI
39.7K subscribers
2.42K photos
619 videos
1 file
2.04K links
AI для людей: всё об искусственном интеллекте в мире и Сбере 💚

Рассказываем, как AI меняет нашу жизнь, разбираем тренды технологий и делимся новыми разработками!
Download Telegram
🆕 Wan2.1: планка видеоконтента ещё выше

Новый китайский генератор работает на диффузионных трансформерах 🤖 Суперэффективный 3D-VAE, продвинутые методы предобучения и огромный обучающий датасет позволяют ему генерить просто нереально крутые видосы 💥

Как это устроено:
3D-VAE разработали для видео, добавили идеи для сжатия, экономии памяти и последовательности. Ролики генерятся без зависания с помощью хитрого кэша
Flow Matching и обработка текста на разных языках через T5 Encoder
😓 пара слоёв для работы со временем и прогнозированием параметров
👨‍💻 FSDP и параллельное выполнение задач

Доступна в чате — бегом генерить ⚡️
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍6🔥1
Собираем AI: ловите мануал 👨‍💻

Hugging Face выпустили бесплатную инструкцию для начинающих гениев по тренировке нейросеток ⚡️

6 месяцев работы и год на GPU. И вот результат:
✍️ 100 страниц про обучение моделей на GPU-кластерах — в документе есть всё, что нужно для успешного тренинга
👑 авторы провели более 4 000 экспериментов и изложили в гайде самые важные уроки, которые они извлекли

В Ultra-Scale Playbook много интересного:
🎓 про 5D-параллелизм и технологии ZeRO
☝️ разбор конкретных кейсов вроде таких: как DeepSeek натренировал свою модель всего за $5 млн или почему Mistral выбрал архитектуру MoE
📈 интерактивные графики и виджеты для наглядности. Плюс сразу две базы кода: одна для новичков — Picotron, другая для серьёзных дел — Nanotron

Пока OpenAI держит всё при себе, Hugging Face учат людей делать мощные модели своими руками 🙌

Изображение Ideogram
Please open Telegram to view this post
VIEW IN TELEGRAM
👍8👏2
Civilization 7: почему AI не дружит с картой?

Недавно же вышла новая Цива, и игроки ринулись обсуждать апгрейд AI.

Вот, к примеру, претензия: в Civilization 7 AI удивляет странными идеями при постройке городов 🏰 Периодически лепит поселения в неадекватных местах. Цивилизация развивается медленнее, да ещё и конфликты начинаются 😡

Пользователи на Reddit пишут, что AI ставит города на неудобных клочках земли, хотя рядом полно нормальных участков с ресурсами. Зачем город между тремя другими, когда вокруг есть свободные территории? К тому же с этим сложно бороться — тратить время на разрушение и получать за это штрафы 👎

А ведь технологию в Civ6 критиковали за примитивность. Хотели сложностей? Получили 😠

Теперь просят вернуть систему лояльности, чтобы ограничить такое строительство. Но разрабы Firaxis клятвенно обещают докрутить AI 🫡

Изображение Reddit
Please open Telegram to view this post
VIEW IN TELEGRAM
3👍1😁1
AI на Reddit: новый вызов для комьюнити 🤬

Модераторы популярной площадки пытаются справиться с лавиной AI-контента 🤬

Reddit оказался для AI лакомым куском и крепким орешком одновременно. Прецеденты недовольства со стороны сайта уже были. И вот опять.

Почему там банят AI-посты? Отдельные комьюнити блокируют такой контент, считая его некачественным или несоответствующим целям. Например, модераторы r/AskHistorians боятся, что AI испортит достоверность информации и их репутацию 🆘

Подходы там сейчас разные:
🙅 где-то ввели жёсткий запрет
👌 где-то разрешают посты, если есть человеческий вклад или всё сделано на уровне

А тут ещё в 2024 году Reddit начал продавать датасеты из контента пользователей для обучения LLM, что тоже подлило масла в огонь.

В общем, модерам тяжко разбираться с наплывом. Ждут от Reddit инструментов, которые упростят задачу 😱


Изображение создано для канала Душа Питона с помощью Kandinsky 3.1
Please open Telegram to view this post
VIEW IN TELEGRAM
🤔4🏆2👍1
☄️ GPT-4.5: умнее, креативнее, чувствительнее

Новость так новость! OpenAI выпустили долгожданную версию своей языковой модели. По сравнению с GPT-4 и GPT-4o — самая мощная и довольно интересная 🔥

Основное:
✔️ много эмоций и креатива. GPT-4.5 общается более естественно, творчески подходит к задачам, лучше понимает намерения пользователя и меньше галлюцинирует
✔️ планирует и решает намного круче — справляется с многоходовочками и автоматизацией
✔️ мультимодальная — GPT-4.5 отлично работает с текстом и картинками, а в будущем обещают ещё поддержку аудио и видео

Где взять?
🔔 открыта для подписчиков ChatGPT Pro и скоро появится для Plus, Team, Enterprise и на Edu
🔔 для разрабов доступна через API — это Chat Completions API, Assistants API и Batch API

Чего пока нет и что нельзя делать?
GPT-4.5 не дружит с голосом и видео, совместного использования экрана придётся подождать
ещё одна важная деталь: модель требует больше ресурсов и стоит дороже

Перед запуском провели кучу тестов на безопасность, так что всё чисто 🛡

Изображение OpenAI
Please open Telegram to view this post
VIEW IN TELEGRAM
👍4🔥2🤔2
🆕 Российские учёные улучшили работу банков с помощью AI

Спецы из Сбера и Сколтеха придумали, как сделать умнее нейросети для важной финансовой отрасли. Теперь они точнее на 20%!

Разработали классный метод, позволяющий алгоритмам обрабатывать сразу два уровня данных: общие вещи и внутреннюю информацию. Так можно быстрее анализировать операции и сделать сервисы безопаснее 🤫

Задачи поделили на три типа:
1️⃣ глобальные
2️⃣ локальные
3️⃣ динамические

Проверили разные подходы и создали уникальную методику. С её помощью учитываются данные не только конкретного клиента, но и похожих на него по конкретным признакам.

Технология гибкая и универсальная, но её планируют развивать дальше, чтобы нейросети могли лучше распознавать нестандартные ситуации и защищаться от ошибок 🧑‍🎓

Результаты исследования, поддержанного грантом Российского научного фонда (РНФ), опубликованы в международном журнале International Journal of Information Management Data Insights.

Изображение Sber AI Lab, Skoltech
Please open Telegram to view this post
VIEW IN TELEGRAM
👍6🔥5🥰1😁1🤔1
AI в почте: письма становятся короче, посты — креативнее 💌

В сервисах Mail нейросетями пользуются уже 5 млн человек. Ресурс популярный, поэтому можно по предпочтениям и общие выводы сделать 🧐

Вы можете попросить нейронку:
🤓 вкратце рассказать, кто и о чём вам написал
🔤 пересказать текст
🖥 написать новый с нуля
🦋 подкинуть идеи
🧾 сочинить пост для соцсеток
🥳 нагенерить поздравление

Самый популярный запрос — саммари писем. Это удобно: система делает выжимку входящих, остаётся только прочитать самое важное. Почти 90% всех заявок связаны именно с этим 💌

Ещё народ любит генерить тексты в Заметках и поздравления через Календарь 1️⃣

Стало интересно, чего вы хотите от AI в почте:
❤️ саммари вполне хватит
👍 пусть ещё и отвечает сам
🔥 спам достаёт — нужна помощь
💯 другие идеи

Изображение создано для канала Душа Питона с помощью Kandinsky 3.1
Please open Telegram to view this post
VIEW IN TELEGRAM
👍32🔥2😁2
This media is not supported in your browser
VIEW IN TELEGRAM
SkyReels V1: реализм на уровне кино ⭐️

Показываю открытую видеомодель, заточенную под генерацию людей.

HunyuanVideo прокачали на десятках миллионов фрагментов из топовых фильмов и сериалов:
👍 генерит на уровне крутых закрытых моделей, а среди конкурентов с открытым кодом в плане превращения текста в видео тягается даже с монстрами Kling и Minimax
🫤 делает реалистичную анимацию: SkyReels V1 показывает 33 разных выражения лица и 400 естественных движений
😎 даёт киноэстетику: кадры прямо как в Голливуде — чёткая композиция, грамотное расположение актёров и шикарные ракурсы

Для разработки создали свой конвейер обработки данных и добавили функции анализа эмоций, движений, понимания сцен.

Есть версии для роликов из текста и картинок, а ещё для “живых” портретов 😜
👍8🤔1
Stial Steven пришёл, чтобы всё заблестело

Китайцы Stial Technologies представили супергибкого робота-гуманоида, специализирующегося на полировке всяких сложных штуковин.

Что может этот малыш:
😶‍🌫️ двигаться почти как человек
🤹 работать с мелкими деталями и замысловатыми поверхностями
😑 в отличие от обычных промышленных роботов, быстро адаптируется
🚶‍♂️ регулирует силу нажатия, углы и траекторию прямо на ходу
⚡️ использует AI и 6D умные датчики силы

Stial Steven действует точно и быстро, особенно в узких местах. Ещё один помощник среди роботов на производстве 💯

Изображение создано для канала Душа Питона с помощью Kandinsky 3.1
👍7🔥1🤔1
Большой мозг, маленькая плата: Nvidia и компания творят чудеса с памятью 🧑‍💻

Компания разрабатывает новый стандарт памяти вместе с SK Hynix, Samsung и Micron. Называется SOCAMM (System On Chip Advanced Memory Module) и заточен под AI-компьютеры.

Главное — модуль маленький, но мощный. Следующий уровень после LPCAMM и обычной DRAM-памяти.

Что в нём полезного в целом:
❗️ компактнее DRAM — размером примерно с палец взрослого человека
💥 экономит энергию, потому что память типа LPDDR5X встроена прямо в плату
📥 больше портов для ввода-вывода — целых 694. У LPCAMM их было 644, а у обычной DRAM — вообще 260

Ещё один плюс — SOCAMM легко модернизируется. Его можно снимать и заменять. А это значит, что апгрейд системы станет элементарным 🔄

Массовое производство наметили уже в этом году. Ждём новых мощных компов 💻

Изображение Nvidia
Please open Telegram to view this post
VIEW IN TELEGRAM
👍62👏1🤩1
ProgCo против логической путаницы 🤔

Разработка от ребят из Alibaba для хорошей самокоррекции LLM.

Модели часто не могут адекватно исправлять ошибки, особенно когда дело касается сложных задач на логику. Всему виной их чрезмерная уверенность и проблемы с пониманием хитрых логических цепочек 🥳

ProgCo решает всё двумя модулями:
😓 ProgVe вместо промптов запускает самогенерирующиеся pseudo-verification программы. Так точнее отражается логическая структура
🆘 ProgRe за счёт обратной связи от ProgVe корректирует работу всей модели. Действует в обе стороны: правит и модель, и себя

На разных математических бенчах вроде IFEval, GSM8K и MATH результаты были положительными. GPT-3.5 и GPT-4 показали прирост в среднем на 8% в сложных математических задачах 🏋️‍♂️

Изображение Taobao & Tmall Group of Alibaba
Please open Telegram to view this post
VIEW IN TELEGRAM
👍8🤔1
А голову ты дома не забыл? GHOST 2.0 и новая эра фотомонтажа 🫤

Это модель для замены на фото головы, а не просто лица, как мы привыкли видеть. Сохраняется всё: волосы, уши и прочее. Плюс естественная мимика и идеальное сочетание с фоном 🕺

Что вообще делается? Берётся голова с одного изображения и вставляется в другое с учётом нюансов: движений, эмоций, антуража 😍

Какие технологии задействованы:
😑 Aligner Model как бы рендерит голову, её ракурсы и позы, даже если она повёрнута на 180 градусов
🪞 Blender Module уже соединяет результат с картинкой, чтобы кожа выглядела натурально, а переходы были незаметными
🙄 не проблема даже странные причёски и формы

Где можно применять? Киношники любят такие штуки для спецэффектов, рекламщики — для вставки знаменитостей, в онлайн-примерке, распознавании фейков.

Ну и селфи доработать никто не откажется 😄

Изображение Sber AI, AIRI
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5😁2
📊 ARI: новый взгляд на бизнес-инсайты

You.com запустили помощника для предпринимателей, умеющего молниеносно переваривать массу инфы и выдавать готовые аналитические отчёты.

Экономит время и деньги:
🥇 осиливает сразу сотни источников данных, тогда как конкуренты редко тянут больше пары десятков
👀 система помогает с анализом и наглядной подачей — понятно даже новичкам
🤑 пригодится там, где важна оперативность и точность: финансы, медучреждения, СМИ

В бизнесе можно перейти от разовых ресурсоёмких проектов к непрерывному потоку 🚘

Изображение создано для канала Душа Питона с помощью Kandinsky 3.1
Please open Telegram to view this post
VIEW IN TELEGRAM
👍6
Cisco и Nvidia объединяются ради суперумных сетей 🤪

Компании объявили о партнёрстве, чтобы быстрее внедрять AI в бизнес-сектор.

Что хотят сделать:
🧑‍💻 создать общую платформу с технологиями Cisco Silicon One и Nvidia Spectrum-X
🧑‍🎓 подготовить сети ЦОД к работе с AI
🆒 дать компаниям больше свободы выбора и гибкости при вложениях в AI-инфраструктуру

Проект упростит управление разными сетевыми системами в одной архитектуре. Использовать инструменты для настройки инфраструктуры будет удобнее.

Больше не будет технических сложностей и рисков при запуске AI-решений 🙏

Изображение Ideogram
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5
☄️ Mercury мчит быстрее интернета

Диффузионная LLM генерит до 10 раз быстрее и дешевле всех 🔝

Чеклист:
🚀 обрабатывает больше 1 000 токенов в секунду на Nvidia H100, что раньше было возможно только на кастомных чипах
🤬 версия Mercury Coder в 5-10 раз быстрее текущих моделей и уже доступна для тестирования через интерфейс. Для компаний — через API и установку на свои сервера

Диффузия же используется для генерации картинок, видео и звука, а к тексту и коду начали применять не так давно. Нормальную производительность получали только на спецоборудовании (Groq, Cerebras и SambaNova). Но с dLLM прирост скорости есть даже на стандартных вычислительных устройствах 👨‍💻

По результатам Mercury Coder Mini на стандартных бенчмарках превосходит GPT-4o Mini, Gemini-1.5-Flash, Claude 3.5 Haiku и даже GPT-4o, работая примерно в 4 раза быстрее 🔥
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤‍🔥7👍7
This media is not supported in your browser
VIEW IN TELEGRAM
LAVCap: звук, картинка, волшебство

Фреймворк, объединяющий LLM и теорию оптимального транспорта, разработали в KAIST и Университете Ватерлоо. Он генерит описания к сценам на основе видео и аудио 💬

Как?
😓 алгоритм alignment loss сглаживает различия аудио и изображения при обучении
отдельный модуль optimal transport attention объединяет информацию из обоих источников
🕺 Fused representations преобразуются в скрытое пространство модели через линейную проекцию

В чём фишки:
👍 подход не требует больших датасетов или post-processing. Дело в грамотной оптимизации моделей
👨‍💻 алгоритмы обучали генерации, а LoRA-адаптацию добавили для качества

Что получилось: LAVCap обошла SOTA-модели на бенчмарке AudioCaps сразу по нескольким метрикам. Реально круто, ведь обычно такие успехи требуют гигантских объёмов данных, а тут обошлись без этого!

Видео создано для канала Душа Питона с помощью Kandinsky Video 1.1
Please open Telegram to view this post
VIEW IN TELEGRAM
👍4👏3
This media is not supported in your browser
VIEW IN TELEGRAM
LLM + MCTS: как языковые модели оживили старый добрый алгоритм

Алгоритм Монте-Карло для поиска в дереве - древний способ, который действительно популярен у моделей (к примеру, AlphaGo является имплементацией MCTS). Так вот исследователи из Сингапура решили прокачать его с помощью LLM 🤔

Варианты:
LLM для задания исходных heuristic functions. Позволяют отказаться от seed функций, на генерацию которых уходит время
🍀 оптимизация паттернов обхода дерева
🌎 динамическое расширение. Модель увеличивает охват с ростом накопленных знаний на предыдущих шагах

Результат для классических NP-проблем? Тестирование показало, что синергия превосходит обычные LLM-based методы 📊

Видео создано для канала Душа Питона с помощью Kandinsky Video 1.1
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5🤔2
4 новых AI-ассистента, облегчающих жизнь

📱 В Opera встроили Browser Operator для всякой рутины прямо на девайсе. Никто не получит доступ ни к логинам, ни к кукам, ни к истории просмотров 👀 Operator заходит куда надо, минуя лишние шаги, и работает со скрытыми элементами вроде всплывающих окон.

📱 Ассистент от Microsoft Dragon Copilot для медицины помогает врачам записывать консультации, вести документацию и справляться с массой разной бюрократии. Снижает риск выгорания у докторов и улучшает впечатление от лечения у пациентов 😇

🏋️ Amazon прокачал наконец старушку Alexa, выпустив версию Alexa+. Она уже больше похожа на ChatGPT и Google Gemini. Учитывает личные предпочтения и лучше понимает контекст вопросов 🤬

😎 AI-помощником Tecno Ella в очках от Tecno AI Glasses и AI Glasses Pro можно управлять голосом и прикосновениями к дужке. Узнаёт предметы вокруг, пишет саммари текста, переводит на разные языки 👋

Изображение Zeno
Please open Telegram to view this post
VIEW IN TELEGRAM
👍82🔥2
Media is too big
VIEW IN TELEGRAM
Hi Robot: интуиция, рассудок и исполнительность 🤡

Показываю, как при новом подходе умные роботы не просто выполняют команды, а реально соображают, что от них требуется ✌️

Hi Robot основан на двухуровневой модели принятия решений:
✔️ System 1 — это как чутьё, быстрая и автоматическая реакция
✔️ System 2 — осознанное, медленное и рассудительное мышление

Как это работает в роботах:
👠 высокоуровневые модели интерпретируют сложные команды и разбивают их на понятные шаги
низкоуровневые модели на их основе выполняют конкретные действия

На практике роботы учитывают контекст и корректируют себя по обратной связи в реальном времени. Меняют план, если пользователь указывает на ошибку или предлагает другой вариант 🧠
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥5👍4