NEW BOT Телеграм, страница - 934041754

Sber AI

38.2K subscribers

2.44K photos

620 videos

1 file

2.05K links

AI для людей: всё об искусственном интеллекте в мире и Сбере 💚

Рассказываем, как AI меняет нашу жизнь, разбираем тренды технологий и делимся новыми разработками!

Download Telegram

About

Blog

Apps

Platform

38.2K subscribers

Бенчмарки: не всё так сложно, как кажется (но иногда сложнее!)

Отвечаю на вопрос о способе выбора моделью верного ответа (опрос см. выше 🤘). Обычно в тестах на понимание языка модели сталкиваются с множественным выбором в вопросах. Алгоритмы скорят каждый ответ, опираясь только на контекст вопроса ⁉️

Но это противоречит элементарной логике ☹️ Модель не учитывает другие доступные опции, в то время как люди всегда сравнивают варианты ответов между собой, чтобы найти подходящий 🧑‍💻

Snowflake AI решили проверить, насколько реально сложны популярные бенчмарки. Так и выяснилось, что сложность тестов не в самих заданиях, а в подходах к скорингу.

Исследование показало: если дать модели все варианты ответов сразу, перформанс заметно улучшается. Например, LLaMA 3.1 70B* повышает показатели с 64% до 93% 💪

* продукт экстремистской организации, деятельность которой запрещена на территории РФ

Изображение Snowflake AI Research

Please open Telegram to view this post

VIEW IN TELEGRAM

👍7🤔3

894 views15:08

Тайная печать Google: когда AI становится видимым

👻

Компания внедряет водяные знаки SynthID для фоток, отредактированных Magic Editor.

Опция нужна, чтобы пользователи могли знать о манипуляциях reimagine с картинкой. Про SynthID я рассказывала, она работает с генерациями Google Imagen ✨

Но есть нюансы:
🙅‍♂️ SynthID может не распознать небольшие правки
🥢 для обнаружения вотермарки нужен AI-детектор из About this image

Так что пока это полумера, а разоблачение цифрового следа может и не состояться ⌛

Изображение DeepMind

Please open Telegram to view this post

VIEW IN TELEGRAM

👍4🤔2

858 views04:51

🆕 Majorana 1: Microsoft на пути к миллиону кубитов!

Разработчики компании презентовали (https://news.microsoft.com/source/features/ai/microsofts-majorana-1-chip-carves-new-path-for-quantum-computing/) чип нового поколения для квантовых вычислений.

Всё дело в уникальном материале — топопроводнике, помогающем управлять частицами и создающем супернадёжные кубиты. Это буквально как изобретение полупроводников, только теперь для квантовой эры ☄️

Главные детали:
#️⃣ топологический материал: ребята из Microsoft сотворили новое состояние вещества, где частицы ведут себя совсем иначе. Оно позволяет создать более стабильный кубит
😓 уникальные способности: материал одновременно надёжный и легко управляемый, что сильно упрощает работу с квантовыми системами
💻 невероятный масштаб: с помощью архитектуры Majorana 1 можно будет реализовать квантовый компьютер с миллионом кубитов
🥳 практические кейсы: 1 000 000 — та самая нужная цифра, чтобы решать реально важные задачи вроде расщепления микропластика или разработки умных материалов

Короче говоря, масштабируемые и мощные квантовые компьютеры — это уже не фантастика, а вполне реальная перспектив

🔥6🤔3😁2❤1

872 views10:46

Вклады в AI, рост и провалы

Кто на волне, а кому надо подумать, как развиваться дальше 😕

1️⃣ $10 млрд долларов, 10 тысяч новых рабочих мест и 3 ГВт. Южная Корея собирается строить самый мощный в мире ЦОД для AI. Крутой проект должен быть готов к 2028 году.

2️⃣ Резонное решение, если посмотреть на успех индустрии полупроводников благодаря вложениям в ЦОД. Тут спрос растёт из-за популярности AI 🤑 Продажи микросхем подскочили на 29%, а траты на разработку памяти взлетели аж на 53%!

3️⃣ AI Pin ~~приказал долго жить~~ перестанет выпускаться ☠️ Высокие ожидания наложились на критику продукта. Humane приняла решение свернуть проект AI Pin и продать свои активы HP. Таков уж AI-рынок: нужно быть гибким и адаптироваться к изменениям в условиях развивающихся инноваций.

4️⃣ Тем временем российский чат-бот Neuromed AI стал ординатором по кардиологии и онкологии 🧐 Нейронка Сеченовского университета прошла госаттестацию и справилась со всем, кроме проверки практики (по понятным причинам 😀).

Please open Telegram to view this post

VIEW IN TELEGRAM

👍6🤩2

833 views14:58

Французский шарм и американские технологии

Кажется, AI Action Summit в Париже не прошёл даром. AMD и Комиссариат по атомной энергии Франции (CEA) взялись за масштабный проект — создание нового поколения AI-систем. Теперь они партнёры🤝

Что будут делать:
💼 совместно разрабатывать энергоэффективные технологии и архитектуры для самых ресурсоёмких AI-задач
🤓 в 2025 году проведут симпозиум, где соберутся лучшие умы мира для обсуждения будущего вычислений
👋 представят стартапы, суперкомпьютеры и стратегии, чтобы ускорить развитие технологий

Идея неплохая, так как AI нужны альтернативные источники энергии, а это требует и новой вычислительной архитектуры 🫡

Изображение создано для канала Душа Питона с помощью Kandinsky 3.1

👍4🤔2

820 views07:17

Чёрный ящик: если модель не открывает секреты, поможет QueRE

Алгоритм разработан учёными из Университета Карнеги-Меллона. QueRE помогает предсказывать перформанс в black-box сеттинге, когда нет полного доступа к внутренним репрезентациям (например, если используешь модель через API)

🔒

Как это работает?
🧐 по промптам модель проверяет, насколько правильно отвечала раньше
🆗 полученный вектор с вероятностями корректности ответов дают на инпут линейной модели. Так тестируют, верны ли оценки
🤩 оказалось, что даже простые модели, обученные на “самооценках”, точнее, чем алгоритмы с опорой на внутренние состояния

На SQuAD и BoolQ, например, в прогнозах перформанса QueRE эффективнее других методов.

Сейчас многие делают модели проприетарными. Пользователи не могут видеть, как они работают 🙈 Поэтому такие непрямые способы оценки становятся всё нужнее 🫴

Изображение Carnegie Mellon University

Please open Telegram to view this post

VIEW IN TELEGRAM

👍6❤1

820 views10:55

This media is not supported in your browser

VIEW IN TELEGRAM

EnigmaEval: тест на смекалку для AI

🎓

Новый бенчмарк для LLM проверяет их умение решать головоломки. Он основан на заданиях, где нужно использовать разные типы знаний и уметь думать нестандартно 🤪

В отличие от обычных тестов типа MATH, MMLU и GPQA, тут всё сложнее:
🤔 есть тексты, картинки, схемы и другие штуки, которые надо собрать вместе, чтобы найти правильный ответ
🔝 всего в наборе больше тысячи загадок из восьми источников различного уровня
😛 запредельно трудные требуют пяти и более шагов решения с минимальными подсказками и скрытыми промежуточными ответами

Даже самые современные модели пока не очень хорошо справляются с такими заданиями, особенно когда дело доходит до крайне запутанных.

Данные датасета закрыты, чтобы сохранить их ценность. Но ~~это не точно~~ можно подать заявку, чтобы получить доступ ✍️

Видео создано для канала Душа Питона с помощью Kandinsky Video 1.1

Please open Telegram to view this post

VIEW IN TELEGRAM

🤔3

752 views14:48

OREO улучшает многошаговые рассуждения LLM

Главная беда RL-методов типа DPO — в использовании пар с человеческими предпочтениями. Затратно и неэффективно, когда надо научить модель думать на несколько ходов вперёд 🤪

Как OREO решает проблему:
💻 используется метод maximum entropy reinforcement learning
⛏ soft Bellman equation одновременно улучшает две вещи: policy model (какие действия выгоднее в конкретный момент 🎉) и value function (как оценить текущее положение и будущее развитие событий ❓).

Так снижается зависимость от парных наборов предпочтений 😘

На стандартных тестах типа GSM8K и MATH OREO круче традиционных методов offline learning. Например, на MATH выдаёт результат 52.5% 🛍

Изображение UC San Diego, Tsinghua University, Salesforce Research, Northwestern University

Please open Telegram to view this post

VIEW IN TELEGRAM

👍5

804 views05:09

Погнали в космос: учёные разглядели метеорит с помощью AR-технологий

💫

В Уральском геологическом музее разработали приложение для изучения челябинского метеорита.

Как работали:
⭐️ использовали сотни фоток обломков небесного тела с разных сторон
⭐️ сделали 3D-модель его кусочков
➡️ загнали модельку в приложение, созданное на платформе разработки компьютерных игр

Технология помогла увидеть мельчайшие детали поверхности. Теперь эти модели можно посмотреть в книге музея, и любой желающий может изучить их поближе 🔭

Изображение создано для канала Душа Питона с помощью Kandinsky 3.1

Please open Telegram to view this post

VIEW IN TELEGRAM

❤3👏3

758 views17:50

В лабиринте слов: 12 LLM против больших объёмов ✍️

Разрабы всё удлиняют и удлиняют контекст, а как в нём работается моделям?

LLM вроде GPT-4o и других топовых моделей, как выяснилось, нормально связывают информацию и делают выводы из длинных материалов только с подсказками в виде повторяющихся слов ✌️

Как это поняли исследователи Мюнхенского университета и компании Adobe:
🎓 разработали тест NOLIMA
✋ убрали одинаковые слова в тексте и запросах
😇 проверили 12 лидирующих LLM
💬 чем длиннее повествование, тем быстрее теряют нить даже продвинутые
💬 особенно проседают с длиной от 2 000 до 8 000 токенов

У GPT-4o был самый большой диапазон — около 8 тысяч 📱, ещё неплохо показала себя LLaMA-3.3-70B* при использовании CoT.

Что делать? Улучшать механизм внимания, разработать новые подходы к обучению, использовать специализированные модели, развивать Chain-of-Thought Prompting 🧑‍💻

* продукт экстремистской организации, деятельность которой запрещена на территории РФ

Изображение создано для канала Душа Питона с помощью Kandinsky 3.1

👍6🔥4🤔3

791 views04:52

Учёба с мемчиками: AI знает, как привлечь внимание детей

🕺

Российские разработчики придумали умную систему для школы. Этот AI думает, как ребёнок, поэтому успешно поможет ему учиться.

Что (или даже кого 🫡) включили в платформу “Препод”? 500 уникальных AI-ассистентов (психологи, методисты и прочие профильные спецы). Они умеют подбирать подходящий материал для каждого ученика с учётом возраста, интересов и уровня подготовки 🤓

Что ещё пригодится?
😶 огромный запас знаний: от книг и учебников до компьютерных игр. AI легко находит общий язык с детьми и объясняет сложные вещи простыми словами
👨‍💻 работает на Python и других продвинутых штуках, позволяющих обрабатывать большие объёмы данных
✉️ умеет фильтровать информацию

Учитывая, что в датасете были даже мемы, интересно, что скажут собственно дети — стрём или норм? 😄

Изображение создано для канала Душа Питона с помощью Kandinsky 3.1

Please open Telegram to view this post

VIEW IN TELEGRAM

👍8❤1

849 views13:53

Arm меняет приоритеты: новейший чип уже в пути

✈️

Известные дизайнеры процессорных компонентов решили не мелочиться и запустить уже своё производство цельного серверного продукта 💪

Что в перспективе:
💥 проект — часть общего плана по развитию AI-инфраструктуры (напомню про Stargate, на который SoftBank и OpenAI тратят $500 млрд)
🫡 чип Arm, предназначенный для серверов в крупных ЦОД, который будет подстраиваться под нужды клиентов
🛞 первыми в заказчики собралась Meta*

Говорят даже, что на чип рассчитывает и сэр Джони Айв, создающий тот самый AI-гаджет нового типа.

Ну что же, Qualcomm и Nvidia! Приготовиться к конкуренции 🤘

* экстремистская организация, деятельность которой запрещена на территории РФ

Изображение создано для канала Душа Питона с помощью Kandinsky 3.1

Please open Telegram to view this post

VIEW IN TELEGRAM

👍4👏3🤔1

804 views04:56

Civilization 7: почему AI не дружит с картой?

Недавно же вышла новая Цива, и игроки ринулись обсуждать апгрейд AI.

Вот, к примеру, претензия: в Civilization 7 AI удивляет странными идеями при постройке городов 🏰 Периодически лепит поселения в неадекватных местах. Цивилизация развивается медленнее, да ещё и конфликты начинаются 😡

Пользователи на Reddit пишут, что AI ставит города на неудобных клочках земли, хотя рядом полно нормальных участков с ресурсами. Зачем город между тремя другими, когда вокруг есть свободные территории? ❓ К тому же с этим сложно бороться — тратить время на разрушение и получать за это штрафы 👎

А ведь технологию в Civ6 критиковали за примитивность. Хотели сложностей? Получили 😠

Теперь просят вернуть систему лояльности, чтобы ограничить такое строительство. Но разрабы Firaxis клятвенно обещают докрутить AI 🫡

Изображение Reddit

👍5😁5

833 views10:32

От поиска до отчёта в науке: Agent Laboratory в деле

🥰

Фреймворк AMD и Университета Джонса Хопкинса использует LLM как научных ассистентов. AI сам может искать нужную инфу, ставить эксперименты и отписываться о результатах.

Подробнее:
📊 это система нейросетей, каждая из которых обучена под разные этапы работы
💞 причём проверяли несколько моделей: o1-preview, o1-mini и GPT-4o. Больше всех нравится пользователям o1-preview, зато mini лучше справляется с экспериментами
⛏ может работать сам по себе, но эффективнее в режиме co-pilot, когда учёные немного помогают — делают правки на каждом этапе. Хотя пока статьи всё равно чуть хуже, чем нужно для топовых конференций типа NeurIPS ⤵️

По деньгам выходит выгодно: Agent Laboratory на 84% дешевле других методов.

А ещё он отлично проходит тесты на MLE-Bench, создавая качественный ML-код и обгоняя OpenHands, MLAB и AIDE 😓

Изображение AMD, Johns Hopkins University

Please open Telegram to view this post

VIEW IN TELEGRAM

👍6🔥1🤔1

819 views14:34

This media is not supported in your browser

VIEW IN TELEGRAM

Apple усиливает Vision Pro: новые AI-фичи и пространство для гостей 😎

VR-шлем прокачивают с помощью Apple Intelligence.

Компания решилась, наконец, добавить AI куда-то ещё, кроме iPhone, iPad и Mac:
😇 будет всё лучшее и любимое вроде Writing Tools, Genmojis и Image Playground
👨‍💻 шлем обработает всё на устройстве (спасибо M2 и 16 ГБ оперативки)
✈️ стартует после апгрейда visionOS 2.4 в апреле
🧐 разрабам уже доступен

Вполне актуально, так как у Google уже есть Android XR с Gemini.

А ещё обновили гостевой режим. Владелец шлема сможет делиться им с друзьями и семьёй, управляя через iPhone 🙃

👍4🤔1

832 views05:04

DeepSeek делится секретами

🤫

На этой неделе стартап решил открыть исходники пяти своих проектов 🤩 Показывают, что готовы к сотрудничеству и прозрачной работе. Но тут же всплывают вопросы безопасности.

Вместе с успехом к DeepSeek пришли и проблемы. Компанию стали подозревать в неправильной обработке пользовательских данных и даже в том, что группа, связанная с DeepSeek, могла взломать системы OpenAI 😠

Снятие грифа 🤫 выглядит как попытка всех успокоить. Но многие сомневаются, насколько честно стартап собирается расщедриться и какие у него настоящие мотивы 🙂

А никто и не говорил, что будет легко балансировать между развитием инноваций и этическими аспектами ⚖️

Изображение Leonardo

Please open Telegram to view this post

VIEW IN TELEGRAM

👍3😁1🤔1

809 views10:39

🆕

Claude 3.7 Sonnet и Claude Code: умная парочка от Anthropic

Вышли обновлённая reasoning-версия флагмана и мощный кодер бонусом.

Прокачанный Claude 3.7 Sonnet “думает” под запрос: предлагает пошаговые решения или моментально выдаёт ответы. Такого ещё не было 🔥

Claude Code помогает программистам прямо из терминала. Пишет, тестит, находит ошибки.

Разные плюсы:
💬 адаптируется под ситуацию: быстрый ответ или на “подумать”
😓 можно контролировать, сколько ресурсов тратить на вычисления, ограничивая токены
🔡 используется на всех платных тарифах, причём режим углублённого мышления тоже включён
🪙 цены остались такими же: $3 за 1 млн символов ввода и $15 за 1 млн вывода

А что насчёт тестов?
На SWE-bench Verified и TAU-bench — топовые результаты. И лучше o1 😎

Общий свободный доступ, как всегда, в чате

👋

Изображение Anthropic

Please open Telegram to view this post

VIEW IN TELEGRAM

👍5🤔2

840 views14:52

This media is not supported in your browser

VIEW IN TELEGRAM

This media is not supported in your browser

VIEW IN TELEGRAM

This media is not supported in your browser

VIEW IN TELEGRAM

This media is not supported in your browser

VIEW IN TELEGRAM

🔥

Step-Video-T2V: суперсжатие, два языка и длинные ролики

У открытой модельки 30 млрд параметров, а продолжительность генерации до 204 кадров.

Ещё про характеристики и успехи:
🥳 Video-VAE сжимает ролик в 16 раз по пространству и в 8 раз по времени, при этом сохраняя качество
📕 текстовые запросы обрабатывают два двуязычных кодировщика, поддерживающих английский и китайский
👨‍💻 модель использует DiT с 3D-вниманием и обучается с помощью Flow Matching для преобразования шума в кадры
⭐️ Video-DPO улучшает качество видео и уменьшает артефакты

Тестим на новом бенчмарке Step-Video-T2V-Eval. Результаты отличные 😍

Модель и бенчмарк забираем тут. Генерим здесь

🤌

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

👍6🔥3

908 views05:04