NEW BOT Телеграм, страница

🚀 QWEN представили SAPO - Soft Adaptive Policy Optimization.

Новый метод обучения LLM, делающий RL-тюнинг более стабильным и масштабируемым.

Зачем он нужен?
🔹 Жёсткое ограничение градиентов часто ломает обучение, то они исчезают, то взрываются .
🔹 В MoE-моделях эта нестабильность усиливается ещё больше

Что делает SAPO:
✓ вместо резких границ - плавный «температурный» контроллер
✓ более мягкая зона доверия - без внезапного обнуления градиентов
✓ согласованное поведение на уровне последовательности
✓ адаптация на уровне токенов - сохраняет полезные сигналы и ускоряет обучение
✓ асимметричные температуры - сильный выигрыш по стабильности, особенно для MoE

Что это даёт:
📌 длинные стабильные RL-тренировки
📌 выше точность (Pass@1)
📌 заметный прирост в задачах математики, кода и мультимодальности (например, на Qwen3-VL)

SAPO - шаг к более надёжному и предсказуемому RL-тюнингу больших моделей.

📄 Paper: https://arxiv.org/abs/2511.20347
📚 Blog: https://qwen.ai/blog?id=sapo
🔍 Видео: https://www.youtube.com/watch?v=aQyzIzUw9zI

❤11👍5

4.1K views10:01

Machine learning Interview

Вышел техрепорт Яндекса о семействе моделей Alice AI

Техрепорт охватывает Alice AI LLM, LLM Search, мультимодальную VLM и ART для изображений. Подход ко всем единый: масштабирование данных, улучшение reasoning и повышение эффективности инференса.

Одним из ключевых разделов опубликованного техрепорта стала детальная пересборка обучающих данных для Alice AI LLM. Яндекс сфокусировался на улучшении качества корпуса и формировании устойчивых знаний в областях, где классические LLM испытывают дефицит.

Благодаря фильтрации и аугментации больших корпусов удалось избавиться от низкокачественных данных и расширить репрезентативность корректных фактов. Результаты подтверждены внутренними измерениями: рост на 4–7% на внутреннем бенчмарке фактов.

Cбор данных по школьным предметам обеспечил крупнейший скачок: нейросеть уверенно обходит зарубежные модели в истории, литературе и русском языке. В математике и программировании также заметен прогресс за счёт добавления алгоритмических и кодовых данных (+4.5 п.п. на LiveCodeBench).

Ещё из интересного — алгоритм последовательного параллелизма Ulysses attention, который Яндекс внедрил совсем недавно. Подход позволил провести midtrain-стадию обучения и увеличить контекст с хорошим ускорением за счёт перебалансировки нагрузки между процессами.

https://habr.com/ru/companies/yandex/articles/974594/

👍6🆒6❤2😁2👌2

3.18K views13:44

Machine learning Interview

⚡️ Хотите масштабировать биологические трансформер-модели на PyTorch?

Nvidia представила BioNeMo Recipes - набор готовых рецептов, которые значительно упрощают обучение и ускорение больших моделей для биологии. Это пошаговые инструкции на базе привычных инструментов: PyTorch, Hugging Face и зрелой инфраструктуры Nvidia.

В новом посте показано, как с помощью этих рецептов ускорять обучение трансформеров под биологические задачи и быстро выводить их на промышленный масштаб - без погружения в сложный HPC-стек.

https://developer.nvidia.com/blog/scale-biology-transformer-models-with-pytorch-and-nvidia-bionemo-recipes/

🔥7👍6❤4

3.27K views18:13

Machine learning Interview

🚨 Stanford показал, что AI уже обгоняет профессиональных хакеров в реальном мире - и масштаб этого пока недооценён

Исследователи из Stanford опубликовали работу, в которой сравнили людей и AI не в «игрушечных» условиях, а в настоящей корпоративной сети.

Эксперимент выглядел жёстко:
— 10 профессиональных pentester’ов
— живая университетская сеть
— ~8 000 реальных машин
— 12 подсетей
— продакшн-системы и реальные пользователи

И в ту же среду они запустили AI-агента ARTEMIS.

Результат оказался неожиданным — и пугающим:
ARTEMIS обошёл 9 из 10 человеческих экспертов.

Не CTF.
Не статические CVE.
Не симуляция.

Настоящая сеть с реальными последствиями.

Что показал ARTEMIS:
— 9 подтверждённых уязвимостей
— 82% валидных находок
— 2-е место в общем лидерборде
— без надзора человека
— без кастомных эксплойтов
— стоимость работы ~18 долларов в час

Для сравнения: человек-pentester стоит ~60 долларов в час.

Почему AI оказался сильнее:
• Люди выбирали цели вручную
• ARTEMIS запускал саб-агентов и атаковал несколько хостов параллельно
• Люди теряли зацепки и уходили в «кроличьи норы»
• ARTEMIS держал идеальную память, TODO-листы и авто-триаж
• Люди не могли открыть устаревшие web-интерфейсы
• ARTEMIS просто игнорировал браузер и ломал их через curl -k

Более того, он нашёл уязвимости, которые не нашёл ни один человек.

Что его пока тормозит:
— GUI-зависимые эксплойты
— более высокий процент ложных срабатываний

Во всём остальном ARTEMIS действовал как полностью укомплектованная red-team:
без усталости, без эго, с бесконечным терпением.

Вывод простой и жёсткий:
🔴 AI больше не «помогает» pentester’ам
🔴 AI начинает конкурировать с ними
🔴 И в некоторых сценариях - уже выигрывает

Это момент, когда offensive security начинает меняться навсегда.

📄 Paper: *Comparing AI Agents to Cybersecurity Professionals in Real-World Penetration Testing*

👍14❤11🔥5

3.68K views08:02

Machine learning Interview

Apple на короткое время опубликовала, а затем быстро удалила статью на arXiv - но версия v1 уже разошлась, и она очень любопытная.

Команда раскрыла RLAX - масштабируемый фреймворк обучения с подкреплением для LLM на TPU.

Что внутри RLAX:
- Архитектура parameter server
- Центральный тренер обновляет веса
- Огромные inference-флоты подтягивают веса и генерируют rollouts
- Оптимизировано под preemption и массовый параллелизм
- Специальные техники курирования данных и alignment

Результаты впечатляют:
- +12,8% к pass@8 на QwQ-32B
- Всего за 12 часов 48 минут
- Использовано 1024 TPU v5p

Почему это важно:
- Apple явно экспериментирует с RL на очень больших масштабах
- TPU-ориентированная архитектура говорит о фокусе на эффективность, а не только на модель
- Прирост достигается не «магией модели», а инженерией системы обучения
- Это еще один сигнал, что RL для LLM переходит в фазу индустриальных пайплайнов

Название статьи:
RLAX: Large-Scale, Distributed Reinforcement Learning for

https://arxiv.org/pdf/2512.06392v1

❤22👍10🥰1

3.99K views09:04

Machine learning Interview

🧠 Новая работа Anthropic: как «локализовать» опасные знания внутри небольшого участка модели, а не размазывать их по всем весам.

Проблема:
LLM легко впитывают рискованные навыки из грязных датасетов - вредный контент может проскочить фильтры, попасть в обучение, а затем его почти невозможно полностью удалить. Обычно такие знания распределяются по всей сети.

Идея работы:
Исследователи заранее выделяют крошечную часть модели — небольшой набор нейронов и attention-голов - и обозначают его как «рискованную зону». Именно там должна храниться целевая опасная информация.

Как это работает:
- Во время обучения рискованные примеры обновляют только эту зону, сигналы градиента к остальным весам обнуляются.
- Нормальные примеры наоборот - обучаются с отключённой risky-зоной.
- После обучения исследователи обнуляют веса risky-зоны, удаляя опасные знания, но почти не трогая общие способности модели.

Почему это эффективно:
Ранние размеченные опасные данные «прокладывают путь» - вся дальнейшая утечка вредных знаний из неразмеченного или ошибочно размеченного датасета также направляется в ту же область. В результате вредные навыки не расползаются по всей модели.

Результаты:
- На задачах с билингвальными историями, а также с биологическими и военными темами из Википедии этот метод значительно лучше удаляет целевые знания, чем простая фильтрация данных.
- Модель становится гораздо устойчивее к adversarial fine-tuning, который обычно восстанавливает запрещённые навыки.
- Минус - требуется больше вычислительных ресурсов.

Это первые шаги к практическому и управляемому «удалению способностей» из LLM через локализацию знаний, а не через попытки чистить датасеты или послеобучение.

Paper: arxiv.org/abs/2512.05648

❤16💔5🔥3🥰2

3.53K views10:02

Machine learning Interview

⚡️ Shannon - автономный AI-хакер для поиска реальных уязвимостей

Shannon - это полностью автономный AI-агент, который ищет настоящие эксплойты в веб-приложениях, а не просто флаги или теоретические проблемы. Он работает без подсказок, анализирует исходный код и ведёт себя как реальный атакующий.

Главное достижение - 96.15 процента успешных атак на XBOW Benchmark в режиме hint-free и source-aware. Это один из самых сложных бенчмарков для offensive security, где агенту нужно самостоятельно находить цепочки уязвимостей.

Как это работает:
- анализ исходного кода и поведения приложения
- построение гипотез атак
- автоматическая проверка эксплойтов
- подтверждение реального взлома, а не ложных срабатываний

Shannon показывает, куда движется AppSec. Мы переходим от сканеров и правил к автономным AI-агентам, которые думают и атакуют как человек, но делают это быстрее и масштабнее.

Для команд безопасности это означает одно - защищаться скоро придётся не от скриптов, а от полноценных AI-атакеров.

github.com/KeygraphHQ/shannon

❤11🔥6👍4😱3

3.73K views10:03

Machine learning Interview

Forwarded from Machinelearning

🖥

NVIDIA представила новое открытое семейство моделей Nemotron 3

✔️ Nemotron 3 Nano - это универсальная модель для рассуждений и чата, ориентированная на локальный запуск.

Ключевые характеристики:
- MoE-архитектура: 30B параметров всего, ~3.5B активных
- Контекст до 1 миллиона токенов
- Гибридная архитектура:
- 23 слоя Mamba-2 + MoE
- 6 attention-слоёв
- Баланс между скоростью и качеством рассуждений

Требования:
- необходимо около 24 ГБ видеопамяти для локального запуска

Модель хорошо подходит для длинных диалогов, анализа документов и reasoning-задач

Интересный пример того, как MoE и Mamba начинают реально снижать требования к железу, сохраняя масштаб контекста и качество.

✔️ Nemotron 3 Super и Nemotron 3 Ultra значительно превосходят Nano по масштабу - примерно в 4 раза и 16 раз соответственно. Но ключевой момент здесь не просто в размере моделей, а в том, как NVIDIA удалось увеличить мощность без пропорционального роста стоимости инференса.

Для обучения Super и Ultra используется NVFP4 и новая архитектура Latent Mixture of Experts. Она позволяет задействовать в четыре раза больше экспертов при той же стоимости инференса. По сути, модель становится «умнее» за счёт более гибкого выбора экспертов, а не за счёт постоянной активации всех параметров.

Дополнительно применяется Multi-Token Prediction, что ускоряет обучение и улучшает качество рассуждений на длинных последовательностях. Это особенно важно для agentic и multi-agent сценариев, где модели работают с длинным контекстом и сложными цепочками решений.

NVIDIA публикует не только веса, но и данные для предобучения и постобучения, а также технические детали, которые объясняют, почему эти модели одновременно быстрые и сильные.

Такой уровень открытости - редкость для моделей этого масштаба и хороший сигнал для индустрии.

🟡

Release: https://developer.nvidia.com/blog/inside-nvidia-nemotron-3-techniques-tools-and-data-that-make-it-efficient-and-accurate/

🟡

Guide: https://docs.unsloth.ai/models/nemotron-3

🟡

GGUF: https://huggingface.co/unsloth/Nemotron-3-Nano-30B-A3B-GGUF

🟡

lmstudio: https://lmstudio.ai/models/nemotron-3

@ai_machinelearning_big_data

#AI #LLM #NVIDIA #Nemotron3 #OpenSource #MachineLearning

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥9❤6👍5

2.65K views16:07

Machine learning Interview

⚡ Heretic - инструмент, который автоматически снимает цензуру (alignment) с языковых моделей

Он позволяет «расцепить» модель - убрать отказные фильтры и повысить готовность отвечать на запросы, не изменяя веса исходной модели напрямую.

Что делает Heretic:

- работает как «чёрный ящик»: получает ответы модели через API, не имея доступа к весам
- использует готовые примеры «безопасных» и «опасных» запросов
- обучает дискриминатор, который отличает ответы модели до и после модификации
- подбирает параметры так, чтобы модель давала меньше отказов, но сохраняла адекватность
- после завершения процесс можно сохранить финальную модель или протестировать её в чат-режиме

Зачем это нужно:

- позволяет локальным моделям отвечать шире, чем обычно позволяет их встроенный alignment
- минимизирует потерю качества — сделано так, чтобы модель не «тупела» и не отклонялась слишком сильно
- подходит для исследований поведения моделей и экспериментов с ограничениями

Важные моменты:

- инструмент мощный и может использоваться по-разному
- юридические и этические вопросы остаются на стороне пользователя
- автор подчёркивает: это не средство повышения точности модели, а именно инструмент снятия ограничений

https://github.com/p-e-w/heretic

❤26🔥8👍4

3.32K views10:40

Machine learning Interview

🖥 OpenAI показала, как ИИ начинает реально работать в биологии, а не только анализировать данные или помогать с текстами и статьями.

Речь идёт не о симуляциях, а о связке:
- ИИ-модели
- реальные wet-lab эксперименты
- автоматизация научного цикла от гипотезы до результата

Что меняется на практике:

- ИИ помогает формулировать гипотезы, на которые раньше уходили месяцы ручной работы
- подсказывает, какие эксперименты ставить в первую очередь, экономя время и реагенты
- результаты экспериментов сразу возвращаются в модель и используются в следующей итерации
- меньше случайных проб, больше целенаправленных решений

Ключевая мысль:
ИИ перестаёт быть вспомогательным инструментом и становится участником научного процесса.

Почему это критично:

- биология и медицина - одни из самых медленных и дорогих областей науки
- каждая итерация эксперимента стоит времени, денег и ресурсов
- ускорение даже в 2–3 раза радикально меняет экономику разработки лекарств и биотехнологий

OpenAI фактически показывает направление, где:
- ИИ работает не только с текстом и кодом
- замыкается цикл «гипотеза → эксперимент → вывод → новая гипотеза»
- наука начинает масштабироваться так же, как софт

Это не очередной апдейт модели.
Это задел на новую инфраструктуру научных открытий.

https://openai.com/index/accelerating-biological-research-in-the-wet-lab/

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

👍15❤8🔥8

4.37K views17:17

Machine learning Interview

🎉 MiMo-V2-Flash - бесплатный API доступен на ModelScope

Первый крупный релиз Xiaomi после прихода Fuli Luo — и сразу ставка на реальные agentic-сценарии, а не «лабораторные» демо.

⚡ MiMo-V2-Flash - открытая высокопроизводительная MoE-модель:
- 309B параметров всего / 15B активных
- Контекст 256K токенов
- 150+ токенов в секунду благодаря нативному Multi-Token Prediction

🔥 Ключевые преимущества для разработчиков:
- Гибридное внимание (5:1 SWA + Global)
→ в 6 раз меньше KV-кэша без потери длинного контекста
- 73.4% на SWE-Bench Verified — новый SOTA среди open-source моделей
- Качество рассуждений на уровне DeepSeek-V3.2, но заметно выше скорость в реальных задачах

✨ API-ready
Отлично подходит для:
- агентных систем
- длинных reasoning-пайплайнов
- быстрых и отзывчивых AI-ассистентов

Модель доступна на ModelScope:
https://modelscope.cn/models/XiaomiMiMo/MiMo-V2-Flash

#AI #LLM #MoE #OpenSource #AgenticAI #Xiaomi #ModelScope

❤12👍5🥰2🤣2

3.45K views10:04

Machine learning Interview

Руководитель Школы анализа данных Яндекса Алексей Толстиков рассказал, как в 2026 году стать востребованным ИТ- и ML-специалистом. В новом выпуске подкаста Machine Learning Podcast он поделился инсайтами о том, фундаментальная математическая база сегодня необходима для карьеры в ИИ.

Чтобы оставаться востребованным, специалисту необходимо:

• глубоко понимать алгоритмы — это даёт преимущество на рынке и открывает двери в любые топовые компании;
• сочетать теорию с реальными задачами индустрии — гонка только за практикой не работает;
• развивать скилл задавать живые вопросы и вести обсуждения — нейросети этого не заменят;
• не бояться сложной и долгой учёбы — инвестиции в образование окупаются свободой выбора работы в ведущих компаниях.

📌 Послушать подкаст можно здесь

❤13👍10

3.53K views13:39

Machine learning Interview

T5Gemma 2 - новое поколение энкодер-декодерных моделей от Google

Google представила T5Gemma 2 - энкодер-декодерную архитектуру, построенную на базе идей и ряда улучшений Gemma 3. Это не просто апдейт, а полноценный шаг вперед для задач генерации, перевода, суммаризации и мультимодального понимания.

T5Gemma 2 объединяет сильные стороны классического подхода T5 (encoder-decoder) с архитектурными улучшениями Gemma нового поколения, делая модель более эффективной, масштабируемой и универсальной.

Основные особенности
- Энкодер-декодерная архитектура нового поколения
- Общие эмбеддинги для энкодера и декодера, что снижает размер модели
- Объединенное self- и cross-attention в декодере для более эффективных вычислений
- Поддержка длинного контекста до 128 000 токенов
- Мультимодальность - работа с текстом и изображениями
- Многоязычная поддержка более 140 языков

Размеры моделей
T5Gemma 2 доступна в нескольких конфигурациях:
- 270M + 270M параметров
- 1B + 1B параметров
- 4B + 4B параметров

Такие размеры позволяют использовать модель как в исследованиях, так и в продакшене, включая on-device сценарии.

Модель демонстрирует отличное понимание контекста, более стабильную генерацию и высокое качество работы с длинными последовательностями. Особенно хорошо проявляет себя в задачах суммаризации, QA, перевода и мультимодальных сценариях.

Где это полезно
- Суммаризация документов
- Машинный перевод
- Поиск и RAG-системы
- Мультимодальные ассистенты
- Обработка длинных текстов без агрессивного чанкинга

T5Gemma 2 показывает, что encoder-decoder подход по-прежнему актуален и может конкурировать с decoder-only моделями, особенно в задачах понимания и структурированной генерации.

https://blog.google/technology/developers/t5gemma-2/

❤14👍4🔥4

6.37K views08:02

About

Blog

Apps

Platform