Машинное обучение digest – Telegram
Машинное обучение digest
40 subscribers
1.27K photos
181 videos
642 links
Download Telegram
🚀 Парадигма меняется: локальные модели выходят на новый уровень

Polaris — это набор простых, но мощных приёмов, который позволяет даже компактным LLM (4 B, 7 B) догнать и превзойти «тяжеловесов» на задачах рассуждения (открытая 4B модель превосходи Claude-4-Opus).

Вот как это работает и почему важно:
Управление сложностью данных
– Генерируем несколько (например, 8) вариантов решения от базовой модели
– Оцениваем, какие примеры слишком простые (8/8) или слишком сложные (0/8), и убираем их
– Оставляем «умеренные» задачи с правильными решениями в 20–80 % случаев, чтобы быть ни слишком лёгкими, ни слишком сложными

Разнообразие «прогонов» (rollout-ов)
– Мы запускаем модель несколько раз на одной и той же задаче и смотрим, как меняются её рассуждения: одни и те же входные данные, но разные «пути» к решению.
– Считаем, насколько разнообразны эти пути (т. е. их «энтропия»): если модели всё время идут по одной линии, новых идей не появляется; если слишком хаотично — рассуждения неустойчивы.
– Задаём начальную “температуру” генерации там, где баланс между стабильностью и разнообразием оптимален, а затем постепенно её повышаем, чтобы модель не застревала на одних и тех же шаблонах и могла исследовать новые, более креативные ходы.

“Train-short, generate-long”
– Во время RL-обучения используем короткие цепочки рассуждений (короткие CoT) для экономии ресурсов
– На inference увеличиваем длину CoT, чтобы получить более детальные и понятные объяснения без накрутки стоимости обучения

Динамическое обновление датасета
– По мере роста точности удаляем примеры с accuracy > 90 %, чтобы не «портить» модель слишком лёгкими задачами
– Поддерживаем постоянный вызов модели на её пределе возможностей

Улучшенная reward-функция
– Комбинируем стандартный RL-reward с бонусами за разнообразие и глубину рассуждений
– Это позволяет модели учиться не только давать правильный ответ, но и объяснять логику своих решений

Преимущества Polaris
• Благодаря Polaris даже компактные LLM (4 B и 7 B) достигают и даже «тяжеловесов» (32 B–235 B) на AIME, MATH и GPQA
• Обучение на доступных GPU уровня consumer-grade — до 10× экономии ресурсов и затрат по сравнению с традиционными RL-пайплайнами

• Полный открытый стек: исходники, подборка данных и веса
• Простота и модульность: готовый к использованию фреймворк для быстрого внедрения и масштабирования без дорогостоящей инфраструктуры


Polaris доказывает, что качество данных и грамотная настройка RL-процесса важнее просто «больших моделей». С ним вы получите продвинутую reasoning-LLM, которую можно запустить локально и масштабировать везде, где есть обычная GPU.


Blog post: https://hkunlp.github.io/blog/2025/Polaris
Model: https://huggingface.co/POLARIS-Project
Code: https://github.com/ChenxinAn-fdu/POLARIS
Notion: https://honorable-payment-890.notion.site/POLARIS-A-POst-training-recipe-for-scaling-reinforcement-Learning-on-Advanced-ReasonIng-modelS-1dfa954ff7c38094923ec7772bf447a1

@ai_machinelearning_big_data

#ml #ai#Polaris #PostTraining #ReinforcementLearning #LLM
📣 NVIDIA представили NVFP4 — новый 4-битный формат, который переопределяет экономику AI-инференса на базе архитектуры Blackwell.

Формат NVFP4 работает на тензорных ядрах 5-го поколения и сочетает:
• масштабирование по блокам в формате FP8 (4M3)
• масштабирование по тензору в формате FP32
Такой подход позволяет сохранять точность моделей при резком снижении объёма памяти и ускорении вычислений.

🔋 Преимущества:
• До 50× выше энергоэффективность
• Снижение стоимости владения (TCO)
• Повышенная производительность при масштабировании

📦 Поддержка уже реализована в:
• TensorRT Model Optimizer
• TensorRT-LLM
• Интегрируется в vllm project
• Поддержка также готовится доя lmsysorg

📌Blog : https://developer.nvidia.com/blog/introducing-nvfp4-for-efficient-and-accurate-low-precision-inference/
📌 HF: https://huggingface.co/collections/nvidia/model-optimizer-66aa84f7966b3150262481a4
🌟 VideoPrism: энкодер, заточенный для понимании видеоконтента.

VideoPrism - базовый визуальный энкодер от Google. Это универсальный инструмент, способный разобраться в самых разных нюансах видеоконтента: от простого распознавания объектов до генерации описаний или ответов на вопросы.

По заявлению создателей, VideoPrism демонстрирует топовые результаты на 31 из 33 общедоступных бенчмарков. В тестах на zero-shot, VideoPrism обошел аналоги в задачах классификации (Kinetics-600) и ответов на вопросы (MSRVTT-QA), даже не используя дополнительных модальностей вроде аудио.

В основе VideoPrism - ViT, но с существенными модификациями, учитывающими специфику видеоданных. В его создании инженеры Google DeepMind применили так называемый "факторизованный" подход, разделяя обработку пространственных и временных измерений и исключили слой глобального усреднения, чтобы сохранить максимум информации из каждого кадра и его временной позиции.

Секрет эффективности VideoPrism кроется в его тщательно продуманном двухэтапном методе обучения на гигантском корпусе данных в 600+ миллионов пар "видео-текст" и чуть менее миллиарда "изображение-текст" из набора данных WebLI:

На первом этапе модель осуществляет своего рода "синхронизацию" между видео- и текстовым энкодерами. Используя огромные массивы пар "видео-текст", они учатся сопоставлять визуальные данные с их семантическими описаниями посредством контрастивного обучения. Это позволяет видеоэнкодеру освоить основные визуальные концепции.

На втором этапе обучение продолжается уже исключительно на видеоданных, применяя усовершенствованную технику маскированного моделирования. Здесь часть видеороликов подвергается маскированию, а VideoPrism должен восстановливать скрытые части.

Token shuffling (предотвращает "копипасту" ошибок декодера) и global-local distillation (перенос знаний из первого этапа), помогают VideoPrism одновременно усваивать детали изображений и тонкости движений, избегая при этом "катастрофического забывания".

▶️В открытом доступе опубликованы 2 версии, Base и Large:

🟢VideoPrism-B, 114М параметров, на базе ViT-B;

🟠VideoPrism-L, 354M параметров, на базе ViT-L.


📌Лицензирование: Apache 2.0 License.


🟡Статья
🟡Набор моделей
🟡Arxiv
🟡Google Collab
🖥GitHub


@ai_machinelearning_big_data

#AI #ML #Encoder #VideoPrism #Google #DeepMind
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
📌 State of Foundation Models 2025 — краткое изложение отчёта Innovation Endeavors

Венчурный фонд Innovation Endeavors, основанный бывшим CEO Google Эриком Шмидтом, выпустил 126-страничный обзор о состоянии и тенденциях фундаментальных ИИ-моделей в 2025 году.

🟢 2025 — год, когда генеративный ИИ стал по-настоящему массовым.

Каждый восьмой работник на планете использует ИИ-инструменты хотя бы раз в месяц, а 90 % прироста аудитории произошло за последние полгода. Многие «ИИ-приложения» уже приносят индустрии миллиарды долларов в год, охватывая инженерию, дизайн, бухгалтерию, юриспруденцию и другие сферы.

🟠LLM уже обходят людей на сложных тестах.

Современные языковые модели превосходят врачей по целому ряду диагностических задач и решают олимпиадную геометрию лучше, чем 99 % людей.

Самое неожиданное: если дать небольшой модели время подумать, то она может обойти гораздо более крупную – эксперименты показали, что 3B-модель с reasoning-механизмом обойдет 70B-модель.


🟠По всем техническим метрикам масштаб моделей растет экспоненциально.

Производительность, интеллект и окна контекста увеличиваются более чем в 10× каждый год. Например, окна контекста выросли примерно с 8 тысяч до миллиона токенов, а стоимость генерации одного токена на крупных моделях упала почти в 1000 раз за пару лет. Средняя «длительность» задачи, которую модель может завершить сама, удваивается примерно каждые 7 месяцев.

🟠 Эксперты резюмируют: «умные модели сначала думают, потом говорят».

Модели рассуждения, обученные через CoT, дают новый путь к масштабированию и требуют активного посттренинга (RL с reward-моделями). Возможно, скоро именно дообучение станет важнее предобучения.

🟠 Экономика фундаментальных моделей запутана.

Крупнейшие игроки генерируют сотни миллионов выручки, но обучение топ-моделей дороже: LLaMA 4 ≳ $300 млн, GPT-4 ≈ $100 млн, а совокупные расходы OpenAI на обучение и данные достигают ~$3 млрд в год. Новая модель устаревает за три недели — конкуренция так высока, что open-source почти сравнялся с закрытыми платформами.

🟠Структура команд меняется под давлением ИИ.

Выяснилось, что функции «узких» специалистов часто уходят к универсалам с ИИ-ассистентам, а профессии уровня "middle management" вымирают.

🟠 MCP становится стандартом интеграции.

Model Context Protocol соединяет модели с почтой, дизайном, чатами и другими сервисами, а «клиентом» всё чаще выступает другой ИИ: крупные CRM и базы данных само-настраиваются через агентов.

🟠 Железо не отстаёт.

В ИИ-облаках важнее продавать «сырые» GPU-часы, чем комплексное ПО; допвремя на GPU обычно выгоднее оптимизаций. NVIDIA остаётся безусловным лидером: отчёт Q1 зафиксировал 10× генерации токенов на инференсе за год. Появилась волна стартапов с трансформер-чипами — теперь переписывать ИИ-ПО под новое железо оправдано: вычислительные затраты многократно превышают зарплаты инженеров.

🟠 Капитал хлынул в ИИ.

Доля венчура выросла с 10% в 2024 до 50+% в 2025. Компании вроде Anthropic показывают $2 млрд годового дохода с двукратным ростом, но их оценивают в 30 годовых выручек, что вызывает опасения перегрева. Некоторые стартапы привлекают инвестиции ещё на этапе идеи, без MVP, усиливая риски "пузыря".

🟠 Осторожнее с трендами:

75 % ИИ-фото-приложений потеряли основную выручку всего за полгода после пика, напоминая, что не каждое модное направление = устойчивый бизнес, тем более когда модели устаревают с космической скоростью.


Полный отчёт
Видео

@ai_machinelearning_big_data

#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
🧠 FLUX.1 Kontext-Dev: текстовое редактирование изображений на новом уровне

Открытая AI-модель, которая позволяет редактировать изображения по текстовой инструкции, сохраняя структуру, стиль и контекст. Всё работает прямо в браузере или локально через Diffusers.

📦 Что умеет FLUX.1 Kontext:

🎨 Менять фон, стиль, объекты на изображении по описанию
🔁 Поддерживать итеративные изменения — можно вносить правки шаг за шагом
🧍‍♂️ Сохранять форму и позу персонажей даже после множественных трансформаций
⚡️ Работает на основе rectified flow transformers и guidance distillation — быстрее и компактнее аналогов

🛠 Как пользоваться:

1. Открыть демо: [huggingface.co/spaces/black-forest-labs/FLUX.1-Kontext-Dev](https://huggingface.co/spaces/black-forest-labs/FLUX.1-Kontext-Dev)
2. Загрузить своё изображение
3. Ввести текстовую инструкцию, например:
make it sunset, add snow, make character look older
4. Получить новое изображение — и при необходимости продолжить редактирование

🔌 Интеграции:

• Поддержка Diffusers, ComfyUI, API через bfl.ai и Replicate
• Модель доступна под некоммерческой лицензией
• Подходит для локального запуска на GPU (`torch_dtype=torch.bfloat16`)

🎯 Кому это полезно:

• Дизайнерам и художникам — быстрый визуальный прототипинг
• AI-разработчикам — для создания RAG-интерфейсов с визуальной обратной связью
• Исследователям — для тестирования новых подходов к in-context image editing

🚨 Про безопасность:

Модель включает базовые фильтры генерации. Для продакшена рекомендованы расширенные фильтры (например, Hive) и собственные слои модерации.

📌 Вывод:

FLUX.1 Kontext-Dev — это не просто генератор, а полноценный AI-инструмент для интерактивного и контролируемого редактирования изображений. Идеален для творческих задач, UX-прототипов и изучения мультимодальных AI-сценариев.

#ai #diffusers #imageediting #flux1 #huggingface

📌Код
📌 Веса

@data_analysis_ml
🧊 Millions of Qubits Now Feasible on a Single Chip

Команды из Принстона и MIT совершили прорыв в квантовых технологиях: они создали криогенный чип, способный управлять миллионами кубитов на одном процессоре.

Это решает одну из главных проблем квантовых компьютеров — масштабируемое управление и коммутация при сверхнизких температурах. До сих пор для каждого кубита требовался отдельный провод, что делало масштабирование невозможным. Новый чип кардинально упрощает архитектуру квантовой системы.

📈 Это открытие делает большие квантовые компьютеры не фантазией, а достижимой целью. Возможность разместить миллионы кубитов на одном чипе приближает нас к решению задач, которые невозможно посчитать на классических машинах.

🚀 Прорыв стал возможен благодаря междисциплинарной инженерии: сочетанию квантовой физики, электроники и системного дизайна. Это ещё один шаг к реальной квантовой эре вычислений.
🤖 Redditor автоматизировал создание вирусных рилсов с помощью ИИ-агентов — без единого ручного действия

Пользователь Reddit построил систему на базе ИИ-агентов, которая:
• сама генерирует видео-контент
• планирует публикации
• выкладывает рилсы
• отслеживает метрики
• удаляет только видео низкого качества (это единственный ручной этап)

📈 Результаты за 3 недели:
• 4.4 млн просмотров
• 15 300 переходов в профиль

Алгоритмические фермы вовлечённости уже не теория, а реальность. И это только начало.

⚠️ Добро пожаловать в эпоху, где контент создают и распространяют сами ИИ, а люди лишь подчищают за ними.

👉 Подробнее

#ai #ml #veo3