Sber AI – Telegram
Sber AI
38.2K subscribers
2.44K photos
620 videos
1 file
2.05K links
AI для людей: всё об искусственном интеллекте в мире и Сбере 💚

Рассказываем, как AI меняет нашу жизнь, разбираем тренды технологий и делимся новыми разработками!
Download Telegram
Бенчмарки: не всё так сложно, как кажется (но иногда сложнее!)

Отвечаю на вопрос о способе выбора моделью верного ответа (опрос см. выше 🤘). Обычно в тестах на понимание языка модели сталкиваются с множественным выбором в вопросах. Алгоритмы скорят каждый ответ, опираясь только на контекст вопроса ⁉️

Но это противоречит элементарной логике ☹️ Модель не учитывает другие доступные опции, в то время как люди всегда сравнивают варианты ответов между собой, чтобы найти подходящий 🧑‍💻

Snowflake AI решили проверить, насколько реально сложны популярные бенчмарки. Так и выяснилось, что сложность тестов не в самих заданиях, а в подходах к скорингу.

Исследование показало: если дать модели все варианты ответов сразу, перформанс заметно улучшается. Например, LLaMA 3.1 70B* повышает показатели с 64% до 93% 💪

* продукт экстремистской организации, деятельность которой запрещена на территории РФ

Изображение Snowflake AI Research
Please open Telegram to view this post
VIEW IN TELEGRAM
👍7🤔3
Тайная печать Google: когда AI становится видимым 👻

Компания внедряет водяные знаки SynthID для фоток, отредактированных Magic Editor.

Опция нужна, чтобы пользователи могли знать о манипуляциях reimagine с картинкой. Про SynthID я рассказывала, она работает с генерациями Google Imagen

Но есть нюансы:
🙅‍♂️ SynthID может не распознать небольшие правки
🥢 для обнаружения вотермарки нужен AI-детектор из About this image

Так что пока это полумера, а разоблачение цифрового следа может и не состояться

Изображение DeepMind
Please open Telegram to view this post
VIEW IN TELEGRAM
👍4🤔2
🆕 Majorana 1: Microsoft на пути к миллиону кубитов!

Разработчики компании презентовали (https://news.microsoft.com/source/features/ai/microsofts-majorana-1-chip-carves-new-path-for-quantum-computing/) чип нового поколения для квантовых вычислений.

Всё дело в уникальном материале — топопроводнике, помогающем управлять частицами и создающем супернадёжные кубиты. Это буквально как изобретение полупроводников, только теперь для квантовой эры ☄️

Главные детали:
#️⃣ топологический материал: ребята из Microsoft сотворили новое состояние вещества, где частицы ведут себя совсем иначе. Оно позволяет создать более стабильный кубит
😓 уникальные способности: материал одновременно надёжный и легко управляемый, что сильно упрощает работу с квантовыми системами
💻 невероятный масштаб: с помощью архитектуры Majorana 1 можно будет реализовать квантовый компьютер с миллионом кубитов
🥳 практические кейсы: 1 000 000 — та самая нужная цифра, чтобы решать реально важные задачи вроде расщепления микропластика или разработки умных материалов

Короче говоря, масштабируемые и мощные квантовые компьютеры — это уже не фантастика, а вполне реальная перспектив
🔥6🤔3😁21
Вклады в AI, рост и провалы

Кто на волне, а кому надо подумать, как развиваться дальше 😕

1️⃣ $10 млрд долларов, 10 тысяч новых рабочих мест и 3 ГВт. Южная Корея собирается строить самый мощный в мире ЦОД для AI. Крутой проект должен быть готов к 2028 году.

2️⃣ Резонное решение, если посмотреть на успех индустрии полупроводников благодаря вложениям в ЦОД. Тут спрос растёт из-за популярности AI 🤑 Продажи микросхем подскочили на 29%, а траты на разработку памяти взлетели аж на 53%!

3️⃣ AI Pin приказал долго жить перестанет выпускаться ☠️ Высокие ожидания наложились на критику продукта. Humane приняла решение свернуть проект AI Pin и продать свои активы HP. Таков уж AI-рынок: нужно быть гибким и адаптироваться к изменениям в условиях развивающихся инноваций.

4️⃣ Тем временем российский чат-бот Neuromed AI стал ординатором по кардиологии и онкологии 🧐 Нейронка Сеченовского университета прошла госаттестацию и справилась со всем, кроме проверки практики (по понятным причинам 😀).
Please open Telegram to view this post
VIEW IN TELEGRAM
👍6🤩2
Французский шарм и американские технологии

Кажется, AI Action Summit в Париже не прошёл даром. AMD и Комиссариат по атомной энергии Франции (CEA) взялись за масштабный проект — создание нового поколения AI-систем. Теперь они партнёры🤝

Что будут делать:
💼 совместно разрабатывать энергоэффективные технологии и архитектуры для самых ресурсоёмких AI-задач
🤓 в 2025 году проведут симпозиум, где соберутся лучшие умы мира для обсуждения будущего вычислений
👋 представят стартапы, суперкомпьютеры и стратегии, чтобы ускорить развитие технологий

Идея неплохая, так как AI нужны альтернативные источники энергии, а это требует и новой вычислительной архитектуры 🫡

Изображение создано для канала Душа Питона с помощью Kandinsky 3.1
👍4🤔2
Чёрный ящик: если модель не открывает секреты, поможет QueRE

Алгоритм разработан учёными из Университета Карнеги-Меллона. QueRE помогает предсказывать перформанс в black-box сеттинге, когда нет полного доступа к внутренним репрезентациям (например, если используешь модель через API) 🔒

Как это работает?
🧐 по промптам модель проверяет, насколько правильно отвечала раньше
🆗 полученный вектор с вероятностями корректности ответов дают на инпут линейной модели. Так тестируют, верны ли оценки
🤩 оказалось, что даже простые модели, обученные на “самооценках”, точнее, чем алгоритмы с опорой на внутренние состояния

На SQuAD и BoolQ, например, в прогнозах перформанса QueRE эффективнее других методов.

Сейчас многие делают модели проприетарными. Пользователи не могут видеть, как они работают 🙈 Поэтому такие непрямые способы оценки становятся всё нужнее 🫴

Изображение Carnegie Mellon University
Please open Telegram to view this post
VIEW IN TELEGRAM
👍61
This media is not supported in your browser
VIEW IN TELEGRAM
EnigmaEval: тест на смекалку для AI 🎓

Новый бенчмарк для LLM проверяет их умение решать головоломки. Он основан на заданиях, где нужно использовать разные типы знаний и уметь думать нестандартно 🤪

В отличие от обычных тестов типа MATH, MMLU и GPQA, тут всё сложнее:
🤔 есть тексты, картинки, схемы и другие штуки, которые надо собрать вместе, чтобы найти правильный ответ
🔝 всего в наборе больше тысячи загадок из восьми источников различного уровня
😛 запредельно трудные требуют пяти и более шагов решения с минимальными подсказками и скрытыми промежуточными ответами

Даже самые современные модели пока не очень хорошо справляются с такими заданиями, особенно когда дело доходит до крайне запутанных.

Данные датасета закрыты, чтобы сохранить их ценность. Но это не точно можно подать заявку, чтобы получить доступ ✍️

Видео создано для канала Душа Питона с помощью Kandinsky Video 1.1
Please open Telegram to view this post
VIEW IN TELEGRAM
🤔3
OREO улучшает многошаговые рассуждения LLM

Главная беда RL-методов типа DPO — в использовании пар с человеческими предпочтениями. Затратно и неэффективно, когда надо научить модель думать на несколько ходов вперёд 🤪

Как OREO решает проблему:
💻 используется метод maximum entropy reinforcement learning
soft Bellman equation одновременно улучшает две вещи: policy model (какие действия выгоднее в конкретный момент 🎉) и value function (как оценить текущее положение и будущее развитие событий ).

Так снижается зависимость от парных наборов предпочтений 😘

На стандартных тестах типа GSM8K и MATH OREO круче традиционных методов offline learning. Например, на MATH выдаёт результат 52.5% 🛍

Изображение UC San Diego, Tsinghua University, Salesforce Research, Northwestern University
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5
Погнали в космос: учёные разглядели метеорит с помощью AR-технологий 💫

В Уральском геологическом музее разработали приложение для изучения челябинского метеорита.

Как работали:
⭐️ использовали сотни фоток обломков небесного тела с разных сторон
⭐️ сделали 3D-модель его кусочков
➡️ загнали модельку в приложение, созданное на платформе разработки компьютерных игр

Технология помогла увидеть мельчайшие детали поверхности. Теперь эти модели можно посмотреть в книге музея, и любой желающий может изучить их поближе 🔭

Изображение создано для канала Душа Питона с помощью Kandinsky 3.1
Please open Telegram to view this post
VIEW IN TELEGRAM
3👏3
В лабиринте слов: 12 LLM против больших объёмов ✍️

Разрабы всё удлиняют и удлиняют контекст, а как в нём работается моделям?

LLM вроде GPT-4o и других топовых моделей, как выяснилось, нормально связывают информацию и делают выводы из длинных материалов только с подсказками в виде повторяющихся слов ✌️

Как это поняли исследователи Мюнхенского университета и компании Adobe:
🎓 разработали тест NOLIMA
убрали одинаковые слова в тексте и запросах
😇 проверили 12 лидирующих LLM
💬 чем длиннее повествование, тем быстрее теряют нить даже продвинутые
💬 особенно проседают с длиной от 2 000 до 8 000 токенов

У GPT-4o был самый большой диапазон — около 8 тысяч 📱, ещё неплохо показала себя LLaMA-3.3-70B* при использовании CoT.

Что делать? Улучшать механизм внимания, разработать новые подходы к обучению, использовать специализированные модели, развивать Chain-of-Thought Prompting 🧑‍💻

* продукт экстремистской организации, деятельность которой запрещена на территории РФ

Изображение создано для канала Душа Питона с помощью Kandinsky 3.1
👍6🔥4🤔3
Учёба с мемчиками: AI знает, как привлечь внимание детей 🕺

Российские разработчики придумали умную систему для школы. Этот AI думает, как ребёнок, поэтому успешно поможет ему учиться.

Что (или даже кого 🫡) включили в платформу “Препод”? 500 уникальных AI-ассистентов (психологи, методисты и прочие профильные спецы). Они умеют подбирать подходящий материал для каждого ученика с учётом возраста, интересов и уровня подготовки 🤓

Что ещё пригодится?
😶 огромный запас знаний: от книг и учебников до компьютерных игр. AI легко находит общий язык с детьми и объясняет сложные вещи простыми словами
👨‍💻 работает на Python и других продвинутых штуках, позволяющих обрабатывать большие объёмы данных
✉️ умеет фильтровать информацию

Учитывая, что в датасете были даже мемы, интересно, что скажут собственно дети — стрём или норм? 😄

Изображение создано для канала Душа Питона с помощью Kandinsky 3.1
Please open Telegram to view this post
VIEW IN TELEGRAM
👍81
Arm меняет приоритеты: новейший чип уже в пути ✈️

Известные дизайнеры процессорных компонентов решили не мелочиться и запустить уже своё производство цельного серверного продукта 💪

Что в перспективе:
💥 проект — часть общего плана по развитию AI-инфраструктуры (напомню про Stargate, на который SoftBank и OpenAI тратят $500 млрд)
🫡 чип Arm, предназначенный для серверов в крупных ЦОД, который будет подстраиваться под нужды клиентов
🛞 первыми в заказчики собралась Meta*

Говорят даже, что на чип рассчитывает и сэр Джони Айв, создающий тот самый AI-гаджет нового типа.

Ну что же, Qualcomm и Nvidia! Приготовиться к конкуренции 🤘

* экстремистская организация, деятельность которой запрещена на территории РФ

Изображение создано для канала Душа Питона с помощью
Kandinsky 3.1
Please open Telegram to view this post
VIEW IN TELEGRAM
👍4👏3🤔1
Civilization 7: почему AI не дружит с картой?

Недавно же вышла новая Цива, и игроки ринулись обсуждать апгрейд AI.

Вот, к примеру, претензия: в Civilization 7 AI удивляет странными идеями при постройке городов 🏰 Периодически лепит поселения в неадекватных местах. Цивилизация развивается медленнее, да ещё и конфликты начинаются 😡

Пользователи на Reddit пишут, что AI ставит города на неудобных клочках земли, хотя рядом полно нормальных участков с ресурсами. Зачем город между тремя другими, когда вокруг есть свободные территории? К тому же с этим сложно бороться — тратить время на разрушение и получать за это штрафы 👎

А ведь технологию в Civ6 критиковали за примитивность. Хотели сложностей? Получили 😠

Теперь просят вернуть систему лояльности, чтобы ограничить такое строительство. Но разрабы Firaxis клятвенно обещают докрутить AI 🫡

Изображение Reddit
👍5😁5
От поиска до отчёта в науке: Agent Laboratory в деле 🥰

Фреймворк AMD и Университета Джонса Хопкинса использует LLM как научных ассистентов. AI сам может искать нужную инфу, ставить эксперименты и отписываться о результатах.

Подробнее:
📊 это система нейросетей, каждая из которых обучена под разные этапы работы
💞 причём проверяли несколько моделей: o1-preview, o1-mini и GPT-4o. Больше всех нравится пользователям o1-preview, зато mini лучше справляется с экспериментами
может работать сам по себе, но эффективнее в режиме co-pilot, когда учёные немного помогают — делают правки на каждом этапе. Хотя пока статьи всё равно чуть хуже, чем нужно для топовых конференций типа NeurIPS ⤵️

По деньгам выходит выгодно: Agent Laboratory на 84% дешевле других методов.

А ещё он отлично проходит тесты на MLE-Bench, создавая качественный ML-код и обгоняя OpenHands, MLAB и AIDE 😓

Изображение AMD, Johns Hopkins University
Please open Telegram to view this post
VIEW IN TELEGRAM
👍6🔥1🤔1
This media is not supported in your browser
VIEW IN TELEGRAM
Apple усиливает Vision Pro: новые AI-фичи и пространство для гостей 😎

VR-шлем прокачивают с помощью Apple Intelligence.

Компания решилась, наконец, добавить AI куда-то ещё, кроме iPhone, iPad и Mac:
😇 будет всё лучшее и любимое вроде Writing Tools, Genmojis и Image Playground
👨‍💻 шлем обработает всё на устройстве (спасибо M2 и 16 ГБ оперативки)
✈️ стартует после апгрейда visionOS 2.4 в апреле
🧐 разрабам уже доступен

Вполне актуально, так как у Google уже есть Android XR с Gemini.

А ещё обновили гостевой режим. Владелец шлема сможет делиться им с друзьями и семьёй, управляя через iPhone 🙃
👍4🤔1
DeepSeek делится секретами 🤫

На этой неделе стартап решил открыть исходники пяти своих проектов 🤩 Показывают, что готовы к сотрудничеству и прозрачной работе. Но тут же всплывают вопросы безопасности.

Вместе с успехом к DeepSeek пришли и проблемы. Компанию стали подозревать в неправильной обработке пользовательских данных и даже в том, что группа, связанная с DeepSeek, могла взломать системы OpenAI 😠

Снятие грифа 🤫 выглядит как попытка всех успокоить. Но многие сомневаются, насколько честно стартап собирается расщедриться и какие у него настоящие мотивы 🙂

А никто и не говорил, что будет легко балансировать между развитием инноваций и этическими аспектами ⚖️

Изображение Leonardo
Please open Telegram to view this post
VIEW IN TELEGRAM
👍3😁1🤔1
🆕 Claude 3.7 Sonnet и Claude Code: умная парочка от Anthropic

Вышли обновлённая reasoning-версия флагмана и мощный кодер бонусом.

Прокачанный Claude 3.7 Sonnet “думает” под запрос: предлагает пошаговые решения или моментально выдаёт ответы. Такого ещё не было 🔥

Claude Code помогает программистам прямо из терминала. Пишет, тестит, находит ошибки.

Разные плюсы:
💬 адаптируется под ситуацию: быстрый ответ или на “подумать”
😓 можно контролировать, сколько ресурсов тратить на вычисления, ограничивая токены
🔡 используется на всех платных тарифах, причём режим углублённого мышления тоже включён
🪙 цены остались такими же: $3 за 1 млн символов ввода и $15 за 1 млн вывода

А что насчёт тестов?
На SWE-bench Verified и TAU-bench — топовые результаты. И лучше o1 😎

Общий свободный доступ, как всегда, в чате 👋

Изображение Anthropic
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5🤔2
🔥 Step-Video-T2V: суперсжатие, два языка и длинные ролики

У открытой модельки 30 млрд параметров, а продолжительность генерации до 204 кадров.

Ещё про характеристики и успехи:
🥳 Video-VAE сжимает ролик в 16 раз по пространству и в 8 раз по времени, при этом сохраняя качество
📕 текстовые запросы обрабатывают два двуязычных кодировщика, поддерживающих английский и китайский
👨‍💻 модель использует DiT с 3D-вниманием и обучается с помощью Flow Matching для преобразования шума в кадры
⭐️ Video-DPO улучшает качество видео и уменьшает артефакты

Тестим на новом бенчмарке Step-Video-T2V-Eval. Результаты отличные 😍

Модель и бенчмарк забираем тут. Генерим здесь 🤌
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍6🔥3