Математика Дата саентиста – Telegram
⚡️ DeepSeek, Gemini и GPT-5: кто лучше оценивает решения по математике

Команда исследователей проверила, как современные модели справляются с ролью «машинного экзаменатора» на задачах USAMO-2025. Результаты оказались довольно разнообразными.

Основные выводы:

- DeepSeek-Math V2 показала самую высокую точность и лучше всего совпала с оценками людей, когда в решении практически нет осмысленного прогресса.
- Gemini-3-Pro оказался лидером там, где в ответе есть частичное, но нетривиальное продвижение.
- GPT-5 продемонстрировал ровно сильное поведение в обоих сценариях.

Дополнительные результаты:

- DeepSeek-Math-V2 заняла первое место по точности и среднему абсолютному отклонению.
- GPT-5 стал лучшим по коэффициенту корреляции Пирсона.
- Gemini-3-Pro стабильно входит в топ-3 по трём метрикам.

Подробнее:
Блогhttps://gaussmath.ai/eval.html
Отчётhttps://gaussmath.ai/assets/eval.pdf
GitHubhttps://github.com/Gauss-Math/GAUSS-Eval
2👍1🥰1
This media is not supported in your browser
VIEW IN TELEGRAM
Паттерны, образованные Юпитером и Землей
🔥112
Forwarded from Machinelearning
⚡️ ChatGPT 5.2 "Code Red" выйдет 9 декабря.

The Verge пишет, что по информации инсайдеров, OpenAI планирует представить обновление уже в начале следующей недели, ориентировочно 9 декабря.

Ожидается, что GPT-5.2 вернет компании доминирующие позиции в сегменте больших языковых моделей.


@ai_machinelearning_big_data

#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
3👍1👎1
🇨🇳 Китай официально начал продавать первый в мире квантовый компьютер на атомной базе — момент, когда квантовое железо выходит из лабораторий в коммерческий рынок.

В отличие от сверхпроводниковых или ионных систем, эта машина использует отдельные атомы, расположенные в оптических решётках. Такие атомы работают как стабильные кубиты с намного более длительным временем когерентности — меньше ошибок, значит можно выполнять глубже и сложнее вычисления.

Первые демонстрации показали работу над молекулярными симуляциями, взломом криптографии и оптимизационными задачами, которые доводят классические суперкомпьютеры до предела. Управляя атомами с помощью ультра-точных лазеров, разработчики добились уровня контроля, при котором атомные кубиты становятся особенно надёжными для реальных научных и промышленных задач.

Впервые университеты, корпорации и исследцентры могут купить полноценный атомный квантовый компьютер, а не пользоваться им через облако. Это открывает путь к частному квантовому поиску лекарств, разработке новых материалов, ускорению ИИ и тестированию будущей кибербезопасности.

Аналитики предупреждают: это может резко ускорить глобальную квантовую гонку и изменить баланс технологической мощи в ближайшие десятилетия.

#QuantumComputing

https://x.com/ShiningScience/status/1997633207957926118
👍136🔥4
Находка для тех, кто хочет сразу попасть в сердце R&D в ML:
🧠 Weekend Offer ML в Яндексе 13-14 декабря

Мероприятие даст возможность DL- и инфраструктурным инженерам с опытом в NLP, CV, ASR, TTS, RecSys получить офер всего за два дня 🖇

Ищут спецов в команды:
Alice AI LLM (YandexGPT)
Компьютерного зрения
Яндекс Переводчика и Клавиатуры
Яндекс Клавиатуры
Технологий голосового ввода
Рекомендательных технологий
Синтеза речи

Самое крутое – в этот раз достаточно пройти всего две технические секции вместо обычных трех 💻

Суббота — секция по Classic ML & Programming и узкоспециализированная секция по вашему домену
Воскресенье — финалы с командами

Чтобы лучше подготовиться к секциям, можно заранее прорешать задачи уровня medium из Яндекс Контеста и LeetCode.

Регистрация закрывается 9 декабря в 12:00 мск.
Все подробности и регистрация по ссылке
2👍1
🐍 Математический совет для новичков в Python:

Когда нужно считать суммы, средние или агрегаты по большим спискам, не пиши циклы вручную — используй встроенные функции и из модуля math / statistics: они быстрее, точнее и читаются лучше.

Например, вместо:


total = 0
for x in data:
total += x

пиши:

sum(data)


То же с средним: statistics.mean(data) даёт correct rounding и устойчивость к ошибкам.

Это мелочь, но она ускоряет код и делает его математически корректнее.
😁10🤓7🔥6💯2
⚡️ Google DeepMind представила FACTS Benchmark - новый набор тестов для оценки фактической точности LLM.

Коротко:
- DeepMind и Kaggle запустили FACTS Benchmark Suite для системного измерения фактической точности моделей в разных режимах.
- В набор входят 4 направления:
• Parametric - проверка внутреннего знания модели
• Search - ответы с использованием веб-поиска
• Multimodal - вопросы на основе изображений
• Grounding v2 - ответы на основе предоставленного контекста

- Всего 3 513 примеров; часть данных скрыта и используется только для официальной оценки и лидерборда.
- Топовые модели прошли тестирование: Gemini 3 Pro показывает лучший общий результат - 68.8% FACTS Score, значительно опередив Gemini 2.5 Pro, особенно в задачах Search и Parametric.
- Самой сложной областью остаётся мультимодальная фактуальность - ни одна модель не превысила порог в 70%, что показывает, насколько далеко ещё можно улучшать точность.

Новый бенчмарк даёт более реалистичную картину того, как модели справляются с фактами в разных режимах и насколько они надёжны в реальном использовании.

https://deepmind.google/blog/facts-benchmark-suite-systematically-evaluating-the-factuality-of-large-language-models
1👍1🔥1
🧠 Новая работа Anthropic: как «локализовать» опасные знания внутри небольшого участка модели, а не размазывать их по всем весам.

Проблема:
LLM легко впитывают рискованные навыки из грязных датасетов - вредный контент может проскочить фильтры, попасть в обучение, а затем его почти невозможно полностью удалить. Обычно такие знания распределяются по всей сети.

Идея работы:

Исследователи заранее выделяют крошечную часть модели — небольшой набор нейронов и attention-голов - и обозначают его как «рискованную зону». Именно там должна храниться целевая опасная информация.

Как это работает:
- Во время обучения рискованные примеры обновляют только эту зону, сигналы градиента к остальным весам обнуляются.
- Нормальные примеры наоборот - обучаются с отключённой risky-зоной.
- После обучения исследователи обнуляют веса risky-зоны, удаляя опасные знания, но почти не трогая общие способности модели.

Почему это эффективно:
Ранние размеченные опасные данные «прокладывают путь» - вся дальнейшая утечка вредных знаний из неразмеченного или ошибочно размеченного датасета также направляется в ту же область. В результате вредные навыки не расползаются по всей модели.

Результаты:
- На задачах с билингвальными историями, а также с биологическими и военными темами из Википедии этот метод значительно лучше удаляет целевые знания, чем простая фильтрация данных.
- Модель становится гораздо устойчивее к adversarial fine-tuning, который обычно восстанавливает запрещённые навыки.
- Минус - требуется больше вычислительных ресурсов.

Это первые шаги к практическому и управляемому «удалению способностей» из LLM через локализацию знаний, а не через попытки чистить датасеты или послеобучение.

Paper: arxiv.org/abs/2512.05648
6👍3🔥1
🧠 Инструмент для решения математических задач

Nomos - это интеллектуальная платформа для решения математических задач и написания доказательств на естественном языке. Она использует параллельные рабочие процессы для генерации и оценки решений, обеспечивая высокую эффективность и точность.

🚀Основные моменты:
- Решение задач с помощью модели Nomos-1.
- Параллельная работа для ускорения процесса.
- Финализация результатов через турниры и консолидацию.
- Оценка решений по 7-балльной шкале.

📌 GitHub: https://github.com/NousResearch/nomos

#python
3🔥1
Год подходит к концу, сроки горят, локальное оборудование перегружено?

Переходи в GPU-облако immers.cloud:

💰 Посекундная тарификация: тарифы от 23 руб/час, платите только за время, когда сервер реально работает.
⚡️ Быстрый старт: Виртуальная машина готова к работе за 2–3 минуты.
📈 Гибкость и масштабируемость: 13 моделей видеокарт на выбор


RTX 4090, RTX 3080 и RTX 4090 — для рендеринга, генерации изображений и гейминга;
H100 (80GB) и H200 (141GB) — для обучения и инференса LLM с большой памятью;
RTX 5090 (32GB) — для задач ИИ и тяжелых сцен в Blender, Octane, Redshift.

🔧 Удобство: готовые образы для ваших задач, чтобы не тратить время на настройку.


А также: заморозка (shelve) — не платите за время простоя сервера, resize — смена конфигурации сервера в несколько кликов, бесплатный интернет канал — скорость до 20Гбит/сек без ограничений в объеме трафика.


👉 Ускорить проекты в облаке
👉 Все доступные образы
2👍1👏1🥴1
⚡️ Очень понятная и сильная идея в этой работе

Авторы берут замороженные DINOv2 / SigLIP и превращают их в генеративную модель через Feature Auto-Encoder (FAE) - всего с одним attention-слоем.

Главная мысль:
👉 не пытаться сразу генерировать пиксели.

Сначала модель учится восстанавливать признаки teacher-модели, а уже потом отдельный декодер превращает их в изображение.

Как это делают:
- из изображения получают признаки DINOv2 / SigLIP
- сжимают их в очень маленький латент (всего 32 измерения)
- обучают модель восстанавливать эти признаки, сохраняя их семантику
- только после этого включают пиксельный декодер

Зачем это нужно:
Так 32-мерный латент сохраняет смысл изображения, а не просто пиксельную статистику.

Два ключевых трюка:

1️⃣ Gaussian Embedding Decoder
Пиксельный декодер заранее учат на признаках с добавленным шумом.
Это делает генерацию устойчивой и не даёт модели «развалиться» при обучении.

2️⃣ Time Shift
Смещение по времени в flow-matching помогает согласовать маленький латент и большое пространство изображений, ускоряя сходимость.

Результат:
- FID 1.29 на ImageNet-256
- обучение в 10 раз быстрее обычных подходов
(80 эпох вместо 800)

Вывод:
Можно получить топовое качество генерации, если сначала научить модель думать в признаках, а не сразу рисовать пиксели.

https://huggingface.co/papers/2512.07829
3👍3