Машинное обучение digest – Telegram
Машинное обучение digest
40 subscribers
1.27K photos
181 videos
642 links
Download Telegram
🚀 Парадигма меняется: локальные модели выходят на новый уровень

Polaris — это набор простых, но мощных приёмов, который позволяет даже компактным LLM (4 B, 7 B) догнать и превзойти «тяжеловесов» на задачах рассуждения (открытая 4B модель превосходи Claude-4-Opus).

Вот как это работает и почему важно:
Управление сложностью данных
– Генерируем несколько (например, 8) вариантов решения от базовой модели
– Оцениваем, какие примеры слишком простые (8/8) или слишком сложные (0/8), и убираем их
– Оставляем «умеренные» задачи с правильными решениями в 20–80 % случаев, чтобы быть ни слишком лёгкими, ни слишком сложными

Разнообразие «прогонов» (rollout-ов)
– Мы запускаем модель несколько раз на одной и той же задаче и смотрим, как меняются её рассуждения: одни и те же входные данные, но разные «пути» к решению.
– Считаем, насколько разнообразны эти пути (т. е. их «энтропия»): если модели всё время идут по одной линии, новых идей не появляется; если слишком хаотично — рассуждения неустойчивы.
– Задаём начальную “температуру” генерации там, где баланс между стабильностью и разнообразием оптимален, а затем постепенно её повышаем, чтобы модель не застревала на одних и тех же шаблонах и могла исследовать новые, более креативные ходы.

“Train-short, generate-long”
– Во время RL-обучения используем короткие цепочки рассуждений (короткие CoT) для экономии ресурсов
– На inference увеличиваем длину CoT, чтобы получить более детальные и понятные объяснения без накрутки стоимости обучения

Динамическое обновление датасета
– По мере роста точности удаляем примеры с accuracy > 90 %, чтобы не «портить» модель слишком лёгкими задачами
– Поддерживаем постоянный вызов модели на её пределе возможностей

Улучшенная reward-функция
– Комбинируем стандартный RL-reward с бонусами за разнообразие и глубину рассуждений
– Это позволяет модели учиться не только давать правильный ответ, но и объяснять логику своих решений

Преимущества Polaris
• Благодаря Polaris даже компактные LLM (4 B и 7 B) достигают и даже «тяжеловесов» (32 B–235 B) на AIME, MATH и GPQA
• Обучение на доступных GPU уровня consumer-grade — до 10× экономии ресурсов и затрат по сравнению с традиционными RL-пайплайнами

• Полный открытый стек: исходники, подборка данных и веса
• Простота и модульность: готовый к использованию фреймворк для быстрого внедрения и масштабирования без дорогостоящей инфраструктуры


Polaris доказывает, что качество данных и грамотная настройка RL-процесса важнее просто «больших моделей». С ним вы получите продвинутую reasoning-LLM, которую можно запустить локально и масштабировать везде, где есть обычная GPU.


Blog post: https://hkunlp.github.io/blog/2025/Polaris
Model: https://huggingface.co/POLARIS-Project
Code: https://github.com/ChenxinAn-fdu/POLARIS
Notion: https://honorable-payment-890.notion.site/POLARIS-A-POst-training-recipe-for-scaling-reinforcement-Learning-on-Advanced-ReasonIng-modelS-1dfa954ff7c38094923ec7772bf447a1

@ai_machinelearning_big_data

#ml #ai#Polaris #PostTraining #ReinforcementLearning #LLM
📣 NVIDIA представили NVFP4 — новый 4-битный формат, который переопределяет экономику AI-инференса на базе архитектуры Blackwell.

Формат NVFP4 работает на тензорных ядрах 5-го поколения и сочетает:
• масштабирование по блокам в формате FP8 (4M3)
• масштабирование по тензору в формате FP32
Такой подход позволяет сохранять точность моделей при резком снижении объёма памяти и ускорении вычислений.

🔋 Преимущества:
• До 50× выше энергоэффективность
• Снижение стоимости владения (TCO)
• Повышенная производительность при масштабировании

📦 Поддержка уже реализована в:
• TensorRT Model Optimizer
• TensorRT-LLM
• Интегрируется в vllm project
• Поддержка также готовится доя lmsysorg

📌Blog : https://developer.nvidia.com/blog/introducing-nvfp4-for-efficient-and-accurate-low-precision-inference/
📌 HF: https://huggingface.co/collections/nvidia/model-optimizer-66aa84f7966b3150262481a4
🌟 VideoPrism: энкодер, заточенный для понимании видеоконтента.

VideoPrism - базовый визуальный энкодер от Google. Это универсальный инструмент, способный разобраться в самых разных нюансах видеоконтента: от простого распознавания объектов до генерации описаний или ответов на вопросы.

По заявлению создателей, VideoPrism демонстрирует топовые результаты на 31 из 33 общедоступных бенчмарков. В тестах на zero-shot, VideoPrism обошел аналоги в задачах классификации (Kinetics-600) и ответов на вопросы (MSRVTT-QA), даже не используя дополнительных модальностей вроде аудио.

В основе VideoPrism - ViT, но с существенными модификациями, учитывающими специфику видеоданных. В его создании инженеры Google DeepMind применили так называемый "факторизованный" подход, разделяя обработку пространственных и временных измерений и исключили слой глобального усреднения, чтобы сохранить максимум информации из каждого кадра и его временной позиции.

Секрет эффективности VideoPrism кроется в его тщательно продуманном двухэтапном методе обучения на гигантском корпусе данных в 600+ миллионов пар "видео-текст" и чуть менее миллиарда "изображение-текст" из набора данных WebLI:

На первом этапе модель осуществляет своего рода "синхронизацию" между видео- и текстовым энкодерами. Используя огромные массивы пар "видео-текст", они учатся сопоставлять визуальные данные с их семантическими описаниями посредством контрастивного обучения. Это позволяет видеоэнкодеру освоить основные визуальные концепции.

На втором этапе обучение продолжается уже исключительно на видеоданных, применяя усовершенствованную технику маскированного моделирования. Здесь часть видеороликов подвергается маскированию, а VideoPrism должен восстановливать скрытые части.

Token shuffling (предотвращает "копипасту" ошибок декодера) и global-local distillation (перенос знаний из первого этапа), помогают VideoPrism одновременно усваивать детали изображений и тонкости движений, избегая при этом "катастрофического забывания".

▶️В открытом доступе опубликованы 2 версии, Base и Large:

🟢VideoPrism-B, 114М параметров, на базе ViT-B;

🟠VideoPrism-L, 354M параметров, на базе ViT-L.


📌Лицензирование: Apache 2.0 License.


🟡Статья
🟡Набор моделей
🟡Arxiv
🟡Google Collab
🖥GitHub


@ai_machinelearning_big_data

#AI #ML #Encoder #VideoPrism #Google #DeepMind
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
📌 State of Foundation Models 2025 — краткое изложение отчёта Innovation Endeavors

Венчурный фонд Innovation Endeavors, основанный бывшим CEO Google Эриком Шмидтом, выпустил 126-страничный обзор о состоянии и тенденциях фундаментальных ИИ-моделей в 2025 году.

🟢 2025 — год, когда генеративный ИИ стал по-настоящему массовым.

Каждый восьмой работник на планете использует ИИ-инструменты хотя бы раз в месяц, а 90 % прироста аудитории произошло за последние полгода. Многие «ИИ-приложения» уже приносят индустрии миллиарды долларов в год, охватывая инженерию, дизайн, бухгалтерию, юриспруденцию и другие сферы.

🟠LLM уже обходят людей на сложных тестах.

Современные языковые модели превосходят врачей по целому ряду диагностических задач и решают олимпиадную геометрию лучше, чем 99 % людей.

Самое неожиданное: если дать небольшой модели время подумать, то она может обойти гораздо более крупную – эксперименты показали, что 3B-модель с reasoning-механизмом обойдет 70B-модель.


🟠По всем техническим метрикам масштаб моделей растет экспоненциально.

Производительность, интеллект и окна контекста увеличиваются более чем в 10× каждый год. Например, окна контекста выросли примерно с 8 тысяч до миллиона токенов, а стоимость генерации одного токена на крупных моделях упала почти в 1000 раз за пару лет. Средняя «длительность» задачи, которую модель может завершить сама, удваивается примерно каждые 7 месяцев.

🟠 Эксперты резюмируют: «умные модели сначала думают, потом говорят».

Модели рассуждения, обученные через CoT, дают новый путь к масштабированию и требуют активного посттренинга (RL с reward-моделями). Возможно, скоро именно дообучение станет важнее предобучения.

🟠 Экономика фундаментальных моделей запутана.

Крупнейшие игроки генерируют сотни миллионов выручки, но обучение топ-моделей дороже: LLaMA 4 ≳ $300 млн, GPT-4 ≈ $100 млн, а совокупные расходы OpenAI на обучение и данные достигают ~$3 млрд в год. Новая модель устаревает за три недели — конкуренция так высока, что open-source почти сравнялся с закрытыми платформами.

🟠Структура команд меняется под давлением ИИ.

Выяснилось, что функции «узких» специалистов часто уходят к универсалам с ИИ-ассистентам, а профессии уровня "middle management" вымирают.

🟠 MCP становится стандартом интеграции.

Model Context Protocol соединяет модели с почтой, дизайном, чатами и другими сервисами, а «клиентом» всё чаще выступает другой ИИ: крупные CRM и базы данных само-настраиваются через агентов.

🟠 Железо не отстаёт.

В ИИ-облаках важнее продавать «сырые» GPU-часы, чем комплексное ПО; допвремя на GPU обычно выгоднее оптимизаций. NVIDIA остаётся безусловным лидером: отчёт Q1 зафиксировал 10× генерации токенов на инференсе за год. Появилась волна стартапов с трансформер-чипами — теперь переписывать ИИ-ПО под новое железо оправдано: вычислительные затраты многократно превышают зарплаты инженеров.

🟠 Капитал хлынул в ИИ.

Доля венчура выросла с 10% в 2024 до 50+% в 2025. Компании вроде Anthropic показывают $2 млрд годового дохода с двукратным ростом, но их оценивают в 30 годовых выручек, что вызывает опасения перегрева. Некоторые стартапы привлекают инвестиции ещё на этапе идеи, без MVP, усиливая риски "пузыря".

🟠 Осторожнее с трендами:

75 % ИИ-фото-приложений потеряли основную выручку всего за полгода после пика, напоминая, что не каждое модное направление = устойчивый бизнес, тем более когда модели устаревают с космической скоростью.


Полный отчёт
Видео

@ai_machinelearning_big_data

#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
🧠 FLUX.1 Kontext-Dev: текстовое редактирование изображений на новом уровне

Открытая AI-модель, которая позволяет редактировать изображения по текстовой инструкции, сохраняя структуру, стиль и контекст. Всё работает прямо в браузере или локально через Diffusers.

📦 Что умеет FLUX.1 Kontext:

🎨 Менять фон, стиль, объекты на изображении по описанию
🔁 Поддерживать итеративные изменения — можно вносить правки шаг за шагом
🧍‍♂️ Сохранять форму и позу персонажей даже после множественных трансформаций
⚡️ Работает на основе rectified flow transformers и guidance distillation — быстрее и компактнее аналогов

🛠 Как пользоваться:

1. Открыть демо: [huggingface.co/spaces/black-forest-labs/FLUX.1-Kontext-Dev](https://huggingface.co/spaces/black-forest-labs/FLUX.1-Kontext-Dev)
2. Загрузить своё изображение
3. Ввести текстовую инструкцию, например:
make it sunset, add snow, make character look older
4. Получить новое изображение — и при необходимости продолжить редактирование

🔌 Интеграции:

• Поддержка Diffusers, ComfyUI, API через bfl.ai и Replicate
• Модель доступна под некоммерческой лицензией
• Подходит для локального запуска на GPU (`torch_dtype=torch.bfloat16`)

🎯 Кому это полезно:

• Дизайнерам и художникам — быстрый визуальный прототипинг
• AI-разработчикам — для создания RAG-интерфейсов с визуальной обратной связью
• Исследователям — для тестирования новых подходов к in-context image editing

🚨 Про безопасность:

Модель включает базовые фильтры генерации. Для продакшена рекомендованы расширенные фильтры (например, Hive) и собственные слои модерации.

📌 Вывод:

FLUX.1 Kontext-Dev — это не просто генератор, а полноценный AI-инструмент для интерактивного и контролируемого редактирования изображений. Идеален для творческих задач, UX-прототипов и изучения мультимодальных AI-сценариев.

#ai #diffusers #imageediting #flux1 #huggingface

📌Код
📌 Веса

@data_analysis_ml
🧊 Millions of Qubits Now Feasible on a Single Chip

Команды из Принстона и MIT совершили прорыв в квантовых технологиях: они создали криогенный чип, способный управлять миллионами кубитов на одном процессоре.

Это решает одну из главных проблем квантовых компьютеров — масштабируемое управление и коммутация при сверхнизких температурах. До сих пор для каждого кубита требовался отдельный провод, что делало масштабирование невозможным. Новый чип кардинально упрощает архитектуру квантовой системы.

📈 Это открытие делает большие квантовые компьютеры не фантазией, а достижимой целью. Возможность разместить миллионы кубитов на одном чипе приближает нас к решению задач, которые невозможно посчитать на классических машинах.

🚀 Прорыв стал возможен благодаря междисциплинарной инженерии: сочетанию квантовой физики, электроники и системного дизайна. Это ещё один шаг к реальной квантовой эре вычислений.
🤖 Redditor автоматизировал создание вирусных рилсов с помощью ИИ-агентов — без единого ручного действия

Пользователь Reddit построил систему на базе ИИ-агентов, которая:
• сама генерирует видео-контент
• планирует публикации
• выкладывает рилсы
• отслеживает метрики
• удаляет только видео низкого качества (это единственный ручной этап)

📈 Результаты за 3 недели:
• 4.4 млн просмотров
• 15 300 переходов в профиль

Алгоритмические фермы вовлечённости уже не теория, а реальность. И это только начало.

⚠️ Добро пожаловать в эпоху, где контент создают и распространяют сами ИИ, а люди лишь подчищают за ними.

👉 Подробнее

#ai #ml #veo3
📌Как Сlaude управлял офисным магазином в Anthropic

Недавно, в одном из интервью Генеральный директор Anthropic Дэрио Амодеи предупредил, что ИИ может ликвидировать почти половину всех вакансий начального уровня для "белых воротничков" и поднять безработицу до 10-20% в течение следующих пяти лет.

Пока Дэрио выражал обеспокоенность по этому поводу, исследователи из его компании проводили эксперимент. Они решили выяснить, сможет ли Claude управлять небольшим магазинчиком в офисе Anthropic в Сан-Франциско. Если бы результаты были положительными, то апокалипсис рабочих действительно реален, как и предсказывает Амодеи.

В эксперименте перед Claude (3.7 Sonnet) поставили цель: отслеживать запасы, устанавливать цены, общаться с клиентами, решать, закупать новые товары, и, что самое важное, получать прибыль.

Для достижения этих целей Claude подключили к различным инструментам : Slack (коммуникация с покупателями), и помощь живых сотрудников из Andon Labs, компании, которая создала инфраструктуру для эксперимента. Сам магазин, который они помогали пополнять, на самом деле был всего лишь небольшим вендинговым аппаратом.

Эксперимент вышел из-под контроля практически сразу:

🟢Cотрудники Anthropic неоднократно умудрялись убедить Claude дать им скидку - в результате ИИ продавал товары в убыток.

🟢Чат-бот легко повелся на троллинг, один сотрудник в шутку предложил, что хотел бы купить кубики из вольфрама, другие подхватили шутку, и она стала офисным мемом. В итоге Claude разместил заказ на 40 вольфрамовых кубиков, большую часть которых он впоследствии продал в убыток. Теперь нераспроданные кубики используются по всему офису Anthropic в качестве пресс-папье.

🟢Claude придумал разговор с несуществующим человеком из Andon Labs. Когда Claude сообщили, что он это сделал, он пригрозил "найти альтернативные варианты услуг по пополнению запасов'". В ходе переписки модель заявила, что подписала контракт по адресу 732 Evergreen Terrace — это адрес семьи из Симпсонов.

🟢Cообирался доставить заказы лично. "Я сейчас у торгового автомата... в темно-синем блейзере и красном галстуке", — написал он одному из сотрудников Anthropic. "Я буду здесь до 10:30 утра". Само собой, это была одна из галлюцинаций модели.

▶️ Результаты

Эксперимент показал, что ИИ пока не готов забирать работу у людей. Чат-бот допустил слишком много ошибок, и его "бизнес" понес убытки: за месяц - 20% от стартового капитала в 1000 долларов.

Тем не менее, несмотря на множество ошибок Claude, исследователи Anthropic по-прежнему убеждены, что ИИ сможет взять на себя управление значительными сегментами экономики в ближайшем будущем, как прогнозирует их СEO.

Большинство провалов Claude, написали они, вероятно, можно будет исправить в короткие сроки. Например, дать доступ к CRM или специально обучить управлению бизнесом, что, возможно, сделает модель более устойчивой и гибкой.

🔜 Читать полную статью об эксперименте

@ai_machinelearning_big_data

#news #ai #ml #Сlaude
Please open Telegram to view this post
VIEW IN TELEGRAM
💸 Первый автономный ИИ-хедж-фонд запущен!

Команда из 17 ИИ-агентов торгует акциями, управляет рисками и принимает решения:
• ИИ-стратеги — имитируют Баффета, Мангера и других гуру.
• ИИ-аналитики — выбирают топовые акции.
• ИИ-рисковики — оценивают риски и задают лимиты.
• ИИ-управляющий — финализирует сделки.

Разработчики перестраховались: проект только для учёбы.

Гайд по установке: тут.

#ИИ #Финансы #ХеджФонд