⚡️ DeepSeek, Gemini и GPT-5: кто лучше оценивает решения по математике
Команда исследователей проверила, как современные модели справляются с ролью «машинного экзаменатора» на задачах USAMO-2025. Результаты оказались довольно разнообразными.
Основные выводы:
- DeepSeek-Math V2 показала самую высокую точность и лучше всего совпала с оценками людей, когда в решении практически нет осмысленного прогресса.
- Gemini-3-Pro оказался лидером там, где в ответе есть частичное, но нетривиальное продвижение.
- GPT-5 продемонстрировал ровно сильное поведение в обоих сценариях.
Дополнительные результаты:
- DeepSeek-Math-V2 заняла первое место по точности и среднему абсолютному отклонению.
- GPT-5 стал лучшим по коэффициенту корреляции Пирсона.
- Gemini-3-Pro стабильно входит в топ-3 по трём метрикам.
Подробнее:
Блог — https://gaussmath.ai/eval.html
Отчёт — https://gaussmath.ai/assets/eval.pdf
GitHub — https://github.com/Gauss-Math/GAUSS-Eval
Команда исследователей проверила, как современные модели справляются с ролью «машинного экзаменатора» на задачах USAMO-2025. Результаты оказались довольно разнообразными.
Основные выводы:
- DeepSeek-Math V2 показала самую высокую точность и лучше всего совпала с оценками людей, когда в решении практически нет осмысленного прогресса.
- Gemini-3-Pro оказался лидером там, где в ответе есть частичное, но нетривиальное продвижение.
- GPT-5 продемонстрировал ровно сильное поведение в обоих сценариях.
Дополнительные результаты:
- DeepSeek-Math-V2 заняла первое место по точности и среднему абсолютному отклонению.
- GPT-5 стал лучшим по коэффициенту корреляции Пирсона.
- Gemini-3-Pro стабильно входит в топ-3 по трём метрикам.
Подробнее:
Блог — https://gaussmath.ai/eval.html
Отчёт — https://gaussmath.ai/assets/eval.pdf
GitHub — https://github.com/Gauss-Math/GAUSS-Eval
❤2👍1🥰1
This media is not supported in your browser
VIEW IN TELEGRAM
Паттерны, образованные Юпитером и Землей
🔥11❤2
Forwarded from Machinelearning
The Verge пишет, что по информации инсайдеров, OpenAI планирует представить обновление уже в начале следующей недели, ориентировочно 9 декабря.
Ожидается, что GPT-5.2 вернет компании доминирующие позиции в сегменте больших языковых моделей.
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
❤3👍1👎1
🇨🇳 Китай официально начал продавать первый в мире квантовый компьютер на атомной базе — момент, когда квантовое железо выходит из лабораторий в коммерческий рынок.
В отличие от сверхпроводниковых или ионных систем, эта машина использует отдельные атомы, расположенные в оптических решётках. Такие атомы работают как стабильные кубиты с намного более длительным временем когерентности — меньше ошибок, значит можно выполнять глубже и сложнее вычисления.
Первые демонстрации показали работу над молекулярными симуляциями, взломом криптографии и оптимизационными задачами, которые доводят классические суперкомпьютеры до предела. Управляя атомами с помощью ультра-точных лазеров, разработчики добились уровня контроля, при котором атомные кубиты становятся особенно надёжными для реальных научных и промышленных задач.
Впервые университеты, корпорации и исследцентры могут купить полноценный атомный квантовый компьютер, а не пользоваться им через облако. Это открывает путь к частному квантовому поиску лекарств, разработке новых материалов, ускорению ИИ и тестированию будущей кибербезопасности.
Аналитики предупреждают: это может резко ускорить глобальную квантовую гонку и изменить баланс технологической мощи в ближайшие десятилетия.
#QuantumComputing
https://x.com/ShiningScience/status/1997633207957926118
В отличие от сверхпроводниковых или ионных систем, эта машина использует отдельные атомы, расположенные в оптических решётках. Такие атомы работают как стабильные кубиты с намного более длительным временем когерентности — меньше ошибок, значит можно выполнять глубже и сложнее вычисления.
Первые демонстрации показали работу над молекулярными симуляциями, взломом криптографии и оптимизационными задачами, которые доводят классические суперкомпьютеры до предела. Управляя атомами с помощью ультра-точных лазеров, разработчики добились уровня контроля, при котором атомные кубиты становятся особенно надёжными для реальных научных и промышленных задач.
Впервые университеты, корпорации и исследцентры могут купить полноценный атомный квантовый компьютер, а не пользоваться им через облако. Это открывает путь к частному квантовому поиску лекарств, разработке новых материалов, ускорению ИИ и тестированию будущей кибербезопасности.
Аналитики предупреждают: это может резко ускорить глобальную квантовую гонку и изменить баланс технологической мощи в ближайшие десятилетия.
#QuantumComputing
https://x.com/ShiningScience/status/1997633207957926118
👍13❤6🔥4
Находка для тех, кто хочет сразу попасть в сердце R&D в ML:
🧠 Weekend Offer ML в Яндексе 13-14 декабря
Мероприятие даст возможность DL- и инфраструктурным инженерам с опытом в NLP, CV, ASR, TTS, RecSys получить офер всего за два дня 🖇
Ищут спецов в команды:
⚪Alice AI LLM (YandexGPT)
⚪Компьютерного зрения
⚪Яндекс Переводчика и Клавиатуры
⚪Яндекс Клавиатуры
⚪Технологий голосового ввода
⚪Рекомендательных технологий
⚪Синтеза речи
Самое крутое – в этот раз достаточно пройти всего две технические секции вместо обычных трех 💻
Суббота — секция по Classic ML & Programming и узкоспециализированная секция по вашему домену
Воскресенье — финалы с командами
Чтобы лучше подготовиться к секциям, можно заранее прорешать задачи уровня medium из Яндекс Контеста и LeetCode.
Регистрация закрывается 9 декабря в 12:00 мск.
Все подробности и регистрация по ссылке
🧠 Weekend Offer ML в Яндексе 13-14 декабря
Мероприятие даст возможность DL- и инфраструктурным инженерам с опытом в NLP, CV, ASR, TTS, RecSys получить офер всего за два дня 🖇
Ищут спецов в команды:
⚪Alice AI LLM (YandexGPT)
⚪Компьютерного зрения
⚪Яндекс Переводчика и Клавиатуры
⚪Яндекс Клавиатуры
⚪Технологий голосового ввода
⚪Рекомендательных технологий
⚪Синтеза речи
Самое крутое – в этот раз достаточно пройти всего две технические секции вместо обычных трех 💻
Суббота — секция по Classic ML & Programming и узкоспециализированная секция по вашему домену
Воскресенье — финалы с командами
Чтобы лучше подготовиться к секциям, можно заранее прорешать задачи уровня medium из Яндекс Контеста и LeetCode.
Регистрация закрывается 9 декабря в 12:00 мск.
Все подробности и регистрация по ссылке
❤2👍1
🐍 Математический совет для новичков в Python:
Когда нужно считать суммы, средние или агрегаты по большим спискам, не пиши циклы вручную — используй встроенные функции и из модуля math / statistics: они быстрее, точнее и читаются лучше.
Например, вместо:
То же с средним: statistics.mean(data) даёт correct rounding и устойчивость к ошибкам.
Это мелочь, но она ускоряет код и делает его математически корректнее.
Когда нужно считать суммы, средние или агрегаты по большим спискам, не пиши циклы вручную — используй встроенные функции и из модуля math / statistics: они быстрее, точнее и читаются лучше.
Например, вместо:
total = 0
for x in data:
total += x
пиши:
sum(data)
То же с средним: statistics.mean(data) даёт correct rounding и устойчивость к ошибкам.
Это мелочь, но она ускоряет код и делает его математически корректнее.
😁10🤓7🔥6💯2
⚡️ Google DeepMind представила FACTS Benchmark - новый набор тестов для оценки фактической точности LLM.
Коротко:
- DeepMind и Kaggle запустили FACTS Benchmark Suite для системного измерения фактической точности моделей в разных режимах.
- В набор входят 4 направления:
• Parametric - проверка внутреннего знания модели
• Search - ответы с использованием веб-поиска
• Multimodal - вопросы на основе изображений
• Grounding v2 - ответы на основе предоставленного контекста
- Всего 3 513 примеров; часть данных скрыта и используется только для официальной оценки и лидерборда.
- Топовые модели прошли тестирование: Gemini 3 Pro показывает лучший общий результат - 68.8% FACTS Score, значительно опередив Gemini 2.5 Pro, особенно в задачах Search и Parametric.
- Самой сложной областью остаётся мультимодальная фактуальность - ни одна модель не превысила порог в 70%, что показывает, насколько далеко ещё можно улучшать точность.
Новый бенчмарк даёт более реалистичную картину того, как модели справляются с фактами в разных режимах и насколько они надёжны в реальном использовании.
https://deepmind.google/blog/facts-benchmark-suite-systematically-evaluating-the-factuality-of-large-language-models
Коротко:
- DeepMind и Kaggle запустили FACTS Benchmark Suite для системного измерения фактической точности моделей в разных режимах.
- В набор входят 4 направления:
• Parametric - проверка внутреннего знания модели
• Search - ответы с использованием веб-поиска
• Multimodal - вопросы на основе изображений
• Grounding v2 - ответы на основе предоставленного контекста
- Всего 3 513 примеров; часть данных скрыта и используется только для официальной оценки и лидерборда.
- Топовые модели прошли тестирование: Gemini 3 Pro показывает лучший общий результат - 68.8% FACTS Score, значительно опередив Gemini 2.5 Pro, особенно в задачах Search и Parametric.
- Самой сложной областью остаётся мультимодальная фактуальность - ни одна модель не превысила порог в 70%, что показывает, насколько далеко ещё можно улучшать точность.
Новый бенчмарк даёт более реалистичную картину того, как модели справляются с фактами в разных режимах и насколько они надёжны в реальном использовании.
https://deepmind.google/blog/facts-benchmark-suite-systematically-evaluating-the-factuality-of-large-language-models
❤1👍1🔥1
🧠 Новая работа Anthropic: как «локализовать» опасные знания внутри небольшого участка модели, а не размазывать их по всем весам.
Проблема:
LLM легко впитывают рискованные навыки из грязных датасетов - вредный контент может проскочить фильтры, попасть в обучение, а затем его почти невозможно полностью удалить. Обычно такие знания распределяются по всей сети.
Идея работы:
Исследователи заранее выделяют крошечную часть модели — небольшой набор нейронов и attention-голов - и обозначают его как «рискованную зону». Именно там должна храниться целевая опасная информация.
Как это работает:
- Во время обучения рискованные примеры обновляют только эту зону, сигналы градиента к остальным весам обнуляются.
- Нормальные примеры наоборот - обучаются с отключённой risky-зоной.
- После обучения исследователи обнуляют веса risky-зоны, удаляя опасные знания, но почти не трогая общие способности модели.
Почему это эффективно:
Ранние размеченные опасные данные «прокладывают путь» - вся дальнейшая утечка вредных знаний из неразмеченного или ошибочно размеченного датасета также направляется в ту же область. В результате вредные навыки не расползаются по всей модели.
Результаты:
- На задачах с билингвальными историями, а также с биологическими и военными темами из Википедии этот метод значительно лучше удаляет целевые знания, чем простая фильтрация данных.
- Модель становится гораздо устойчивее к adversarial fine-tuning, который обычно восстанавливает запрещённые навыки.
- Минус - требуется больше вычислительных ресурсов.
Это первые шаги к практическому и управляемому «удалению способностей» из LLM через локализацию знаний, а не через попытки чистить датасеты или послеобучение.
Paper: arxiv.org/abs/2512.05648
Проблема:
LLM легко впитывают рискованные навыки из грязных датасетов - вредный контент может проскочить фильтры, попасть в обучение, а затем его почти невозможно полностью удалить. Обычно такие знания распределяются по всей сети.
Идея работы:
Исследователи заранее выделяют крошечную часть модели — небольшой набор нейронов и attention-голов - и обозначают его как «рискованную зону». Именно там должна храниться целевая опасная информация.
Как это работает:
- Во время обучения рискованные примеры обновляют только эту зону, сигналы градиента к остальным весам обнуляются.
- Нормальные примеры наоборот - обучаются с отключённой risky-зоной.
- После обучения исследователи обнуляют веса risky-зоны, удаляя опасные знания, но почти не трогая общие способности модели.
Почему это эффективно:
Ранние размеченные опасные данные «прокладывают путь» - вся дальнейшая утечка вредных знаний из неразмеченного или ошибочно размеченного датасета также направляется в ту же область. В результате вредные навыки не расползаются по всей модели.
Результаты:
- На задачах с билингвальными историями, а также с биологическими и военными темами из Википедии этот метод значительно лучше удаляет целевые знания, чем простая фильтрация данных.
- Модель становится гораздо устойчивее к adversarial fine-tuning, который обычно восстанавливает запрещённые навыки.
- Минус - требуется больше вычислительных ресурсов.
Это первые шаги к практическому и управляемому «удалению способностей» из LLM через локализацию знаний, а не через попытки чистить датасеты или послеобучение.
Paper: arxiv.org/abs/2512.05648
❤6👍3🔥1
🧠 Инструмент для решения математических задач
Nomos - это интеллектуальная платформа для решения математических задач и написания доказательств на естественном языке. Она использует параллельные рабочие процессы для генерации и оценки решений, обеспечивая высокую эффективность и точность.
🚀Основные моменты:
- Решение задач с помощью модели Nomos-1.
- Параллельная работа для ускорения процесса.
- Финализация результатов через турниры и консолидацию.
- Оценка решений по 7-балльной шкале.
📌 GitHub: https://github.com/NousResearch/nomos
#python
Nomos - это интеллектуальная платформа для решения математических задач и написания доказательств на естественном языке. Она использует параллельные рабочие процессы для генерации и оценки решений, обеспечивая высокую эффективность и точность.
🚀Основные моменты:
- Решение задач с помощью модели Nomos-1.
- Параллельная работа для ускорения процесса.
- Финализация результатов через турниры и консолидацию.
- Оценка решений по 7-балльной шкале.
📌 GitHub: https://github.com/NousResearch/nomos
#python
❤3🔥1
Год подходит к концу, сроки горят, локальное оборудование перегружено?
Переходи в GPU-облако immers.cloud:
💰 Посекундная тарификация: тарифы от 23 руб/час, платите только за время, когда сервер реально работает.
⚡️ Быстрый старт: Виртуальная машина готова к работе за 2–3 минуты.
📈 Гибкость и масштабируемость: 13 моделей видеокарт на выбор
🔧 Удобство: готовые образы для ваших задач, чтобы не тратить время на настройку.
👉 Ускорить проекты в облаке
👉 Все доступные образы
Переходи в GPU-облако immers.cloud:
💰 Посекундная тарификация: тарифы от 23 руб/час, платите только за время, когда сервер реально работает.
⚡️ Быстрый старт: Виртуальная машина готова к работе за 2–3 минуты.
📈 Гибкость и масштабируемость: 13 моделей видеокарт на выбор
RTX 4090, RTX 3080 и RTX 4090 — для рендеринга, генерации изображений и гейминга;
H100 (80GB) и H200 (141GB) — для обучения и инференса LLM с большой памятью;
RTX 5090 (32GB) — для задач ИИ и тяжелых сцен в Blender, Octane, Redshift.
🔧 Удобство: готовые образы для ваших задач, чтобы не тратить время на настройку.
А также: заморозка (shelve) — не платите за время простоя сервера, resize — смена конфигурации сервера в несколько кликов, бесплатный интернет канал — скорость до 20Гбит/сек без ограничений в объеме трафика.
👉 Ускорить проекты в облаке
👉 Все доступные образы
❤2👍1👏1🥴1
⚡️ Очень понятная и сильная идея в этой работе
Авторы берут замороженные DINOv2 / SigLIP и превращают их в генеративную модель через Feature Auto-Encoder (FAE) - всего с одним attention-слоем.
Главная мысль:
👉 не пытаться сразу генерировать пиксели.
Сначала модель учится восстанавливать признаки teacher-модели, а уже потом отдельный декодер превращает их в изображение.
Как это делают:
- из изображения получают признаки DINOv2 / SigLIP
- сжимают их в очень маленький латент (всего 32 измерения)
- обучают модель восстанавливать эти признаки, сохраняя их семантику
- только после этого включают пиксельный декодер
Зачем это нужно:
Так 32-мерный латент сохраняет смысл изображения, а не просто пиксельную статистику.
Два ключевых трюка:
1️⃣ Gaussian Embedding Decoder
Пиксельный декодер заранее учат на признаках с добавленным шумом.
Это делает генерацию устойчивой и не даёт модели «развалиться» при обучении.
2️⃣ Time Shift
Смещение по времени в flow-matching помогает согласовать маленький латент и большое пространство изображений, ускоряя сходимость.
Результат:
- FID 1.29 на ImageNet-256
- обучение в 10 раз быстрее обычных подходов
(80 эпох вместо 800)
Вывод:
Можно получить топовое качество генерации, если сначала научить модель думать в признаках, а не сразу рисовать пиксели.
https://huggingface.co/papers/2512.07829
Авторы берут замороженные DINOv2 / SigLIP и превращают их в генеративную модель через Feature Auto-Encoder (FAE) - всего с одним attention-слоем.
Главная мысль:
👉 не пытаться сразу генерировать пиксели.
Сначала модель учится восстанавливать признаки teacher-модели, а уже потом отдельный декодер превращает их в изображение.
Как это делают:
- из изображения получают признаки DINOv2 / SigLIP
- сжимают их в очень маленький латент (всего 32 измерения)
- обучают модель восстанавливать эти признаки, сохраняя их семантику
- только после этого включают пиксельный декодер
Зачем это нужно:
Так 32-мерный латент сохраняет смысл изображения, а не просто пиксельную статистику.
Два ключевых трюка:
1️⃣ Gaussian Embedding Decoder
Пиксельный декодер заранее учат на признаках с добавленным шумом.
Это делает генерацию устойчивой и не даёт модели «развалиться» при обучении.
2️⃣ Time Shift
Смещение по времени в flow-matching помогает согласовать маленький латент и большое пространство изображений, ускоряя сходимость.
Результат:
- FID 1.29 на ImageNet-256
- обучение в 10 раз быстрее обычных подходов
(80 эпох вместо 800)
Вывод:
Можно получить топовое качество генерации, если сначала научить модель думать в признаках, а не сразу рисовать пиксели.
https://huggingface.co/papers/2512.07829
❤3👍3