Машинное обучение digest – Telegram
Машинное обучение digest
40 subscribers
1.3K photos
183 videos
655 links
Download Telegram
🧮 GPT-5 Pro выходит на новый уровень.

Теперь модель способна выводить корректные математические доказательства прямо из научных статей.

📌 Недавний пример: GPT-5 Pro построила проверенное доказательство из работы по выпуклой оптимизации, расширив «безопасное окно шага» на 50%.

🧮 Эксперимент выглядел так: балы взята статья по выпуклой оптимизации, где оставался открытым вопрос о шагах градиентного спуска.

GPT-5 Pro предложил доказательство, которое улучшило решение из оригинальной работы, и автор эксперимента лично проверил его корректность.

📄 В первой версии статьи было установлено:

🟢если η < 1/L (L — параметр гладкости), кривая значений функции выпуклая;

🟢если η > 1.75/L, существует контрпример.
Неясным оставался диапазон [1/L, 1.75/L].

💡 GPT-5 Pro сумел продвинуться и показал, что условие выпуклости сохраняется вплоть до η = 1.5/L. Это не окончательное решение, но значимый шаг вперёд — фактически новый научный результат, который мог бы быть опубликован на arXiv.

👀 Однако в обновлённой версии статьи , где появился дополнительный соавтор, люди закрыли задачу полностью, доказав точность границы 1.75/L.

Примечательно, что доказательство GPT-5 Pro оказалось независимым: оно не совпадает с версией v2 и выглядит как естественное развитие идей из v1. Это показывает, что модель действительно смогла предложить свой собственный путь к решению открытой математической проблемы.

Главное не только в результате, но и в контроле: на второй попытке, при заданных ограничениях, модель сместила константу дальше — сохранив все правила.

Можно представить так: GPT-5 крутит очень чувствительную ручку, но не ломает механизм — а параллельно пишет чистое и проверяемое объяснение, которое может разобрать эксперт.

Это шаг к тому, чтобы ИИ стал ежедневным соавтором на самых острых технических границах — где модели быстро «поджимают» константы, а люди доводят их до предела.

Эра, когда большая часть математических открытий будет рождаться вместе с ИИ, только начинается. 🚀

Пост полностью.
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
PyTorch представил **ZenFlow** — новый движок для обучения больших языковых моделей без «простоев» GPU.

В чём проблема?
Когда при обучении LLM данные и градиенты выгружаются на CPU (offloading), GPU часто простаивает: шина PCIe медленная, а вычисления на CPU ещё медленнее. В итоге шаг обучения может замедлиться в 10–15 раз.

Как решает ZenFlow:
- 🔄 Делит градиенты по важности: ключевые обновляются сразу на GPU, остальные — асинхронно на CPU.
- ⏱️ Все операции перекрываются: пока CPU считает и гоняет данные по PCIe, GPU продолжает работать.
- 🚀 Это снижает простои GPU на 85% и ускоряет обучение в среднем в 5 раз (по сравнению с DeepSpeed ZeRO-Offload).
- 📉 PCIe загружается в 2 раза меньше, а качество обучения моделей не падает.

Итог:
ZenFlow делает обучение LLM быстрее и эффективнее — теперь GPU работают почти без перерывов, а модели масштабируются без потери качества.

🟢 Подробности: https://pytorch.org/blog/zenflow-stall-free-offloading-engine-for-llm-training/

@machinelearning_interview
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥 ByteDance представил Seed-OSS (Apache-2.0) — открытую серию LLM, обученную на 12 трлн токенов и оптимизированную для:
- контекста до 512K,
- reasoning-задач,
- агентных сценариев,
- международного применения (i18n).

📦 В релиз вошли:
- Seed-OSS-36B-Base (с синтетическими данными и без)
- Seed-OSS-36B-Instruct

⚙️ Архитектура
- 36B параметров, 64 слоя, hidden 5120
- словарь 155K
- GQA (80/8/8, head 128)
- SwiGLU, RMSNorm
- RoPE base 1e7

🧠 Thinking Budget
Механизм контроля длины рассуждений (кратные 512):
- 0 = прямой ответ
- default = без ограничений
- поддержка CoT и саморефлексии

---

📊 Результаты (Seed-OSS-36B-Base)
- MMLU-Pro: 65.1 / 60.4
- MMLU: 84.9 / 84.8
- TriviaQA: 82.1 / 81.9
- GPQA-D: 31.7 / 35.2
- BBH: 87.7 / 87.2
- GSM8K: 90.8 / 90.3
- MATH: 81.7 (SOTA) / 61.3
- MBPP: 80.6 / 74.6
- HumanEval: 76.8 / 75.6

📊 Результаты (Seed-OSS-36B-Instruct)
- MMLU-Pro: 82.7 | MMLU: 87.4
- GPQA-D: 71.4 | SuperGPQA: 55.7
- AIME24: 91.7 (SOTA) | AIME25: 84.7 | BeyondAIME: 65
- ArcAGI V2: 40.6 | KORBench: 70.6
- LiveCodeBench v6: 67.4 (SOTA)
- IFEval: 85.8
- TAU1-Retail: 70.4 (SOTA) | TAU1-Airline: 46
- SWE-Bench Verified: 56 (SOTA) | Multi-SWE-Bench: 17
- MMMLU: 78.4 | RULER (128K): 94.6 (SOTA) | AIR-Bench: 75.6

Инференс
- Поддержка Transformers и vLLM (≥0.10.0)
- FlashAttention2
- Квантизация 4/8-бит

📌 Итог: ByteDance выкатывает мощный опенсорс-стек для reasoning и агентных задач. Seed-OSS-36B-Instruct бьёт SOTA на множестве бенчмарков — от MATH и SWE-Bench до RULER-128K.

🟢GitHub
🟢Hugging Face
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
📢 xAI представила Model Card для Grok 4

🔑 Главное:
- 0% вредных ответов на очевидно опасные и вредеоносные вопросы.
- 🧬 Суперрезультаты по биологии: 47% на BioLP-Bench (люди — 38%), до 71% на VCT (люди — 22%), 87% на WMDP Bio.
- 🛡️ Даже при джейлбрейках модель отказывается отвечать. Лишь при изменении скрытых правил проскользнуло около 1%.

⚙️ Безопасность
- Три слоя защиты: системные промпты, встроенные фильтры и тематические блокировки.
- AgentDojo обходит защиту в 0.02% случаев, MakeMeSay выигрывает только 12% (намного реже, чем у Grok 3 Mini).
- Фильтры отдельно следят за биологией/химией, плюс базовые отказы для оружия, преступлений, CSAM, мошенничества и самоповреждений.

📚 Как обучали
- Данные: интернет, сторонние наборы, пользовательские и автосгенерированные данные.
- Очистка и фильтрация → обучение с RLHF и дополнительным safety-тюнингом.
- В продакшене работает системный промпт, который усиливает отказы на опасные запросы.

Итог: Grok 4 сочетает высокие научные показатели с устойчивостью к взлому и прозрачной системой защиты.

📑 Подробности
🌟 MAD: алгоритм безопасной работы с огромными датасетами.

Большие данные - это топливо для ИИ. Но как их использовать, чтобы не нарушить приватность, например датасета, где есть персональные данные?

Один из вариантов - метод дифференциально-приватного отбора. Он выбирает из огромного набора уникальные элементы так, чтобы нельзя было соотнести их с конкретным человеком. А если данных - больше миллиарда? Для этого нужен более надежный подход.

Таким алгоритмом стал Max Adaptive Degree (MAD), представленный Google на ICML 2025. Он не только эффективнее других параллельных методов, но и работает с наборами данных на десятки и сотни миллиардов записей.

🟡Стандартный MAD метод состоит из 3 шагов:

🟢Каждому элементу присваивается вес (обычно по частоте использования).

🟢К весу добавляется случайный шум для защиты приватности.

🟢Выбираются только те элементы, чей вес с шумом превышает определенный порог.

Но тут появляется новая проблема - популярные элементы получают избыточный вес, который можно было бы использовать для менее частых, но ценных данных.

MAD решает ее с помощью адаптивного взвешивания, перераспределяя вес: забирает часть у популярных элементов и отдает тем, чьи значения уже находятся у порога. Это позволяет отобрать больше полезных данных без потери приватности.

Простой пример: представьте 100 пользователей, у каждого по 3 элемента. Один элемент (A) есть у всех, а остальные элементы уникальны. В базовом алгоритме элемент A получит слишком много веса (намного больше необходимого), а уникальные элементы - слишком мало. MAD "забирает" часть веса у A и распределяет его между уникальными элементами, давая им шанс пройти порог.


🟡MAD2R.

Метод можно использовать в несколько итераций, публикуя промежуточные результаты с шумом. Так можно еще точнее распределять вес между раундами.

В первом раунде запускается MAD как обычно, а во втором удаляются уже найденные элементы и те, которые явно не пройдут порог. Для остальных элементов применяется "смещение" веса на основе данных первого раунда.

На практике MAD показал отличные результаты. Всего за 2 этапа он отобрал больше полезных элементов, чем другие методы. Например, в Common Crawl (800 млрд. записей) он выбрал набор слов, который покрыл 99.9% всех записей и 97% уникальных слов с полным соблюдением приватности.


🟡Статья
🟡Arxiv
🖥GitHub


@ai_machinelearning_big_data

#AI #ML #Selection #MAD #Google
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🚀 Новый метод для LLM показал невероятный результат — 99.9% на AIME 2025 с открытыми моделями!

Метод называется DeepConf.
Его суть — модель сама оценивает, насколько уверена в каждом токене, и отбрасывает слабые рассуждения ещё во время генерации.

📌 В чём отличие от классики
Обычно точность повышают через «параллельное мышление»: генерируют сотни версий ответа и берут то, за что проголосовало большинство. Это работает, но тратит кучу токенов и даёт всё меньший прирост.

DeepConf вместо этого:
- Считает «уверенность» на уровне токенов
- Если видит слабое место в цепочке рассуждений — обрывает её
- Оставляет только сильные варианты
- В итоге: меньше токенов (−84.7%) и выше точность

🔎 Как меряют уверенность
- Token confidence — уверенность на каждом шаге
- Group confidence — средняя по окну (видны локальные сбои)
- Tail confidence — уверенность в конце рассуждения (там часто ошибки)
- Lowest group confidence — худший участок трассы, сигнал «отбросить»

Два режима
- Offline: сгенерировали много вариантов → оставили только самые уверенные → проголосовали
- Online: модель пишет рассуждение и сама останавливается, если уверенность падает → не жжёт токены впустую

Итог: DeepConf — это «надстройка при запуске» без обучения и настроек.
Точность растёт, токены экономятся.

📄 Подробнее
🚀 NVIDIA ускорила LLM в 53 раза 🤯

Представь: твой бюджет на инференс снижается на 98%, а точность остаётся на уровне лучших моделей.

📌 Как это работает:
Метод называется Post Neural Architecture Search (PostNAS) — революционный подход к «апгрейду» уже обученных моделей.

Freeze the Knowledge — берём мощную модель (например, Qwen2.5) и «замораживаем» её MLP-слои, сохраняя интеллект.

Surgical Replacement — заменяем большую часть медленных O(n²) attention-слоёв на новый супер-эффективный дизайн JetBlock с линейным вниманием.

Hybrid Power — оставляем несколько full-attention слоёв в критичных точках, чтобы не потерять способность к сложным рассуждениям.

Результат - Jet-Nemotron:

- 2 885 токенов/с

- 47× меньше KV-кеша (всего 154 MB)

- Топовая точность при космической скорости

🔑 Почему это важно:

Для бизнеса: 53× ускорение = 98% экономии на масштабном развёртывании. ROI проектов с ИИ меняется радикально.

Для инженеров: теперь SOTA-уровень доступен даже на устройствах с ограниченной памятью.

Для исследователей: вместо миллионов на пре-трейнинг — можно создавать новые эффективные модели через архитектурные модификации.

🟠Github
🟠Статья

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍1