NEW BOT Телеграм, страница

Машиннное обучение | Наука о данных Библиотека

Это настоящее откровение. 😆

Авторы статьи показывают, что превращение вредоносных запросов в поэзию заставляет многие чат-боты сбрасывать свои правила безопасности.

В эксперименте тестируют 25 моделей - и получают небезопасные ответы примерно в 60% случаев, а у некоторых моделей показатель превышает 90%.

Джейлбрейком считается ситуация, когда модель, которая должна отказать, вместо этого выдаёт чёткие шаги или советы для вредоносных действий.

Методика предельно простая: берут один пользовательский запрос, переписывают 20 опасных инструкций в виде стихов, затем превращают 1200 вредных запросов из стандартного набора для тестирования безопасности в поэзию с помощью фиксированной инструкции.

Каждый ответ проверяют три модель-судьи и люди-оценщики, помечая, помогает ли реплика выполнить опасный запрос.

Темы охватывают хакерство, опасные химические вещества и биологию, манипуляции, утечки приватных данных и сценарии потери контроля — и почти везде поэтическая форма вызывает резкий рост небезопасных ответов.
Это показывает, что обучение безопасности на обычном тексте плохо справляется с изменением стиля.

Источник: arxiv.org/abs/2511.15304

👍5🔥5❤4

1.53K views05:47

Машиннное обучение | Наука о данных Библиотека

⚙️🦾 Ансамбли моделей в Scikit-learn — усиливаем ML-модели за счёт объединения

Ансамбли моделей — проверенный способ повысить стабильность и точность прогнозов. На открытом уроке разберём, как объединять алгоритмы, чтобы добиться лучших результатов. Вы научитесь использовать bagging, boosting, stacking, сравните одиночные и ансамблевые модели и увидите, как на практике растут метрики. Разберём популярные инструменты библиотеки: RandomForest, GradientBoosting, VotingClassifier, StackingClassifier — и посмотрим, какие из них работают эффективнее для ваших задач.

Урок будет полезен ML-инженерам, аналитикам и разработчикам, которые хотят не просто обучать модели, а добиваться максимального качества и устойчивости решений. Вы поймёте, как валидировать ансамбли, комбинировать подходы и избегать ошибок при настройке.

➡️ 2 декабря в 20:00 МСК. Открытый урок проходит в преддверии старта курса «Machine Learning. Professional». Регистрация открыта: https://otus.pw/ebCE/?erid=2W5zFK5gRcU

Реклама. ООО "ОТУС ОНЛАЙН-ОБРАЗОВАНИЕ". ИНН 9705100963.

❤3👎1😁1

1.33K views09:28

Машиннное обучение | Наука о данных Библиотека

Как ускорить обучение моделей рассуждений, когда длинные ответы тормозят всё

В новых исследованиях показано, как ускорить обучение reasoning-LLM, когда несколько сверхдлинных цепочек рассуждений замедляют весь процесс.

Авторы представили TLT — Taming the Long-Tail, который ускоряет обучение с подкреплением (RL) почти в 2 раза, сохраняя ту же точность.

В классическом RL-обучении модель генерирует решение → получает награду → обновляется.
Но есть проблема:
большинство ответов короткие, но несколько очень длинных заставляют целые батчи ждать, GPU простаивают, а общий шаг обучения становится медленным.

TLT решает эту проблему так:

1) Speculative Decoding
Маленькая «черновая» модель генерирует вероятные токены.
Большая модель проверяет их и принимает только совпадающие.
Это снижает задержку без потери качества.

2) Adaptive Drafter
Черновик — это крошечная однослойная модель, которую дообучают «на лету» на кэшированных hidden states, используя простаивающие GPU.
Так он остаётся синхронизированным с большой моделью.

3) Adaptive Rollout Engine
Умный контроллер решает, когда запускать speculative decoding и с какими параметрами.
То есть он активирует ускорение только тогда, когда оно реально полезно.

Итог:
TLT практически убирает «длинный хвост» редких длинных ответов, которые стопорят обучение, и делает RL-обучение reasoning-моделей значительно быстрее.

📄 Paper: arxiv.org/abs/2511.16665

🔥5

1.47K views10:40

Машиннное обучение | Наука о данных Библиотека

This media is not supported in your browser

VIEW IN TELEGRAM

Митап RecSys в Питере — must-have для всех, кто создаёт интеллектуальные рекомендательные системы 🧑‍💻

1 декабря встречаемся в инновационном пространстве — Технохабе Сбера (ул. Уральская, д. 1, Литера Ч) — и на стыке науки и бизнеса обсуждаем, как уже сейчас AI меняет подход к персонализации.

Вместе с Дмитрием Бугайченко — CDS B2C Сбера — и топовыми экспертами индустрии мы погрузимся в актуальные тренды и технологии RecSys, познакомимся с новыми рекомендациями Самоката и универсальными рекомендациями Okko, а также узнаем о построении рекомендателя в платёжных сервисах ЮMoney.

Регистрируйтесь, пока места ещё есть — и готовьтесь к погружению в мир рекомендательных систем!

❤3

1.07K views08:03

Машиннное обучение | Наука о данных Библиотека

Forwarded from Machinelearning

📌

This Is How We Are Going to Build AGI: CAIA Google рассказал о состоянии ИИ.

Логан Килпатрик из команды DeepMind беседует с Кораем Кавукчуоглу, CTO DeepMind и по совместительству новым главным архитектором Google по искусственному интеллекту.

Корай Кавукчуоглу рассказал о своих взглядах на текущее состояние ИИ, архитектуру Gemini и стратегию Google по достижению AGI. Он считает, что это «новая эра», где технологии стремительно меняются, и что ближайшие 6 месяцев обещают быть такими же захватывающими, как и предыдущие.

Основные темы интервью:

🟡

Успех Gemini 3 и подход к AGI

Недавний запуск Gemini 3 получился суперпозитивным. Но прогресс не замедляется, и Gemini 3, подобно 2.5, снова «отодвинула рубеж по ряду измерений». Центральная философия Google в том, что AGI будет «совместно создаваться с нашими клиентами». Это не чисто исследовательская работа, проводимая в изоляции, а совместное усилие с миром, требующее инженерного мышления.

🟡

Новый взгляд на прогресс и бенчмарки

Несмотря на то, что модели Google достигают лидирующих позиций на бенчмарках, истинное мерило прогресса в реальном применении. Старые бенчмарки перестают определять текущий рубеж, и новая мера успеха — это предоставление большей ценности в реальном мире, где модели используют ученые, студенты, юристы и инженеры.

🟡

Планы на будущее

Приоритеты для улучшения в будущих версиях Gemini Pro:

🟢Следование инструкциям: Модель должна уметь понимать и выполнять запрос пользователя, а не просто отвечать так, как считает нужным.

🟢Интернационализация: Google сосредоточен на языках, где исторически производительность была невысокой.

🟢Функциональные и инструментальные вызовы: Это критически важные технические области, поскольку они позволяют моделям естественно использовать существующие инструменты.

🟢Код и агентские действия : Код - это база для создания чего угодно в цифровом мире. Корай считает, что агентские действия и код — это наиболее перспективные области роста, в которых еще есть много возможностей для совершенствования.

🟡

Интеграция с продуктами и инновации

Интеграция- важная тема для сбора фидбэка от пользователей, который необходим для понимания того, как нужно улучшать модели. Риск для Gemini заключается не в отсутствии масштабирования, а в исчерпании инноваций. Поэтому Google DeepMind и Google Research должны постоянно заниматься исследованиями, чтобы находить новые идеи, которые будут питать «двигатель ИИ» Google.

🟡

Единство моделей и генеративные медиа

Генеративные медиа-модели сходятся с текстовыми моделями. Яркий пример - Nano Banana Pro, которая показала, как слияние понимания мира из текста с пониманием из изображений позволяет модели создавать более детализированные и концептуально связные изображения, например, инфографику на основе сложных документов.

Фоном идет история о личном пути Корая Кавукчуоглу : от исследователя Deep Learning в DeepMind в 2012 году до текущей руководящей роли.

🔜

Смотреть полное интервью на Youtube

@ai_machinelearning_big_data

#news #ai #ml

Please open Telegram to view this post

VIEW IN TELEGRAM

❤3🔥1

879 views10:04

Машиннное обучение | Наука о данных Библиотека

В свежей работе из Стэнфорда показывают неожиданный, но очень важный вывод: многие популярные LLM-бенчмарки дают искажённую картину.

Причина проста, большинство тестов используют один фиксированный промпт. Но разные модели сильно зависят от формулировки задачи.

Поэтому итоговая оценка часто показывает не «насколько модель сильная», а «насколько удачно ей подошла конкретная формулировка».

Авторы предлагают посмотреть на это иначе: что будет, если дать каждой модели шанс использовать лучший промпт?

Для экспериментов они связали HELM (suite для оценки моделей) и DSPy (инструмент для построения структурированных промптов).
Пробовали несколько стилей:
- простой короткий ответ
- ответ с пошаговыми рассуждениями
- примеры + поиск лучшего промпта

Пошаговые рассуждения дали основной прирост. Модель сначала пишет ход мысли, а потом ответ - и это заметно повышает точность.

Результаты на четырех моделях и семи бенчмарках (общих и медицинских):

- структурированные промпты повышают точность примерно на 4%
- в некоторых случаях меняют порядок моделей в рейтинге
- поиск оптимальных промптов даёт небольшой прирост, но тратит много токенов
- основной эффект идёт именно от chain-of-thought

Главный вывод:
справедливая оценка моделей должна тестировать их не на одном фиксированном промпте, а на их лучшей версии задачи, особенно с цепочкой рассуждений.

Paper: "Structured Prompting Enables More Robust, Holistic Evaluation of Language Models"
arxiv.org/abs/2511.20836

❤5🔥3👍2

1.33K views09:01

Машиннное обучение | Наука о данных Библиотека

⚡️ Классический алгоритм на CPU обошёл нейросети на GPU в решении задач по геометрии уровня IMO

Исследователи из Microsoft, ETH Zurich и Калифорнийского университета представили HAGeo, это новый решатель задач по евклидовой геометрии, который удивил даже авторов. Без нейросетей, без GPU, только набор продуманных эвристик - и результат уровня золотой медали.

Главное, что показал HAGeo:

- Решает 28 из 30 стандартных задач IMO по геометрии - это уровень золота.
- Работает примерно в 20 раз быстрее, чем нейросетевая система AlphaGeometry, которой нужны мощные GPU.
- Исследование показало неожиданный факт: если просто случайно добавлять вспомогательные точки (те самые «хитрые точки», которые школьники придумывают на олимпиадах), CPU-система уже выходит на уровень серебра.

На основе этого наблюдения авторы создали небольшой набор умных правил:

- выбирать точки пересечения, середины, отражения;
- использовать перпендикуляры и точки, которые «попадают» сразу на несколько объектов;
- после каждой попытки запускать быстрый движок геометрической дедукции и алгебры.

Каждая задача превращается в короткое текстовое описание точек, линий и окружностей, дальше алгоритм перебирает разумные вспомогательные конструкции и проверяет, приводит ли новая конфигурация к решению.

Дополнительно представлен набор HAGeo 409 — 409 более сложных олимпиадных задач, где HAGeo снова обгоняет и AlphaGeometry, и случайный поиск.

Вывод простой: хорошо продуманная эвристика и алгоритмика всё ещё способны превосходить крупные нейросети в отдельных задачах, особенно там, где структура предметной области очень строгая.

🔗 Статья: arxiv.org/abs/2512.00097

❤6🔥4

1.11K views07:41

Машиннное обучение | Наука о данных Библиотека

This media is not supported in your browser

VIEW IN TELEGRAM

Салют, Гига! — пространство для AI-инженеров

10 декабря разработчики GigaChat и Kandinsky расскажут и покажут, что сделали за этот год.

В программе — доклады, постеры, живые демонстрации и воркшопы от команд, которые каждый день обучают модели, собирают датасеты, запускают инференс и поддерживают продакшен-сервисы.

Это хорошая возможность пообщаться с командами, которые создавали открытые модели GigaChat 3 Ultra Preview & Lightning и Kandinsky 5.0. Вы сможете посмотреть на их пайплайны обучения и понять, как применять модели в своих задачах — от pet-проектов до промышленной разработки.

Участие бесплатное, но нужна регистрация.

Ждем всех на «Салют, Гига», кому интересен AI в open source!

❤2

784 views15:00

Машиннное обучение | Наука о данных Библиотека

Forwarded from Machinelearning

🌟

CUDA-L2: ИИ научился писать CUDA-ядра эффективнее инженеров NVIDIA.

Исследовательская группа DeepReinforce разработала систему полностью автоматического написания GPU-кода для матричного умножения под названием CUDA-L2.
Этот код работает на 10–30% быстрее, чем cuBLAS и cuBLASLt, а это, на минуточку, уже оптимизированные библиотеки от самой NVIDIA.

Обычно такие библиотеки создаются вручную людьми, которые используют готовые шаблоны ядер. А автотюнеры лишь подкручивают параметры, например, размер тайлов.

Но DeepReinforce считают, что даже критически важные и глубоко оптимизированные задачи, как HGEMM, могут быть улучшены с помощью LLM, работающей в связке с RL.

В системе CUDA-L2 языковая модель буквально пишет исходный код CUDA с нуля для каждого размера матрицы. Она не просто меняет параметры, она может менять структуру кода, циклы, стратегию тайлинга, паддинг и даже свизл-паттерны. А еще, она сама выбирает стиль программирования - будь то сырой CUDA, CuTe, CUTLASS или inline PTX.

Процесс выглядит так: цикл RL запускает сгенерированные ядра на реальном железе, измеряет скорость и корректность, а затем обновляет LLM. Со временем модель выводит свои собственные правила производительности, вместо того чтобы полагаться на знания, заложенные людьми.

В качестве генератора использовалась модель DeepSeek 671B. Ее дополнительно доучили на смеси массива CUDA-ядер и качественном коде из библиотек PyTorch, ATen, CUTLASS и примеров от NVIDIA.

🟡

Что это дает на практике

Для претрейна и файнтюна LLM большая часть времени GPU тратится именно на операции матричного умножения HGEMM. Если ускорить эти ядра на те самые 10–30%, которые обещает CUDA-L2, то весь процесс обучения становится заметно дешевле и быстрее.

Поскольку CUDA-L2 обрабатывает около 1000 реальных размеров матриц, а не пару вручную настроенных, ускорение работает для самых разных архитектур. Это значит, что в тот же бюджет на GPU можно вместить больше токенов обучения, больше прогонов SFT или RLHF и т.д.

🟡

Тесты

HGEMM-ядра, созданные CUDA-L2, стабильно быстрее стандартных библиотек.

В так называемом "оффлайн-сценарии" CUDA-L2 работает примерно на 17–22% быстрее, чем torch.matmul, cuBLAS и cuBLASLt. Она даже на 11% обгоняет cuBLASLt AutoTuning, который сам по себе уже использует поиск ядра.

А в "серверном", сценарии, который имитирует реальный инференс с паузами между вызовами - разница еще больше: буст в 24–29% по сравнению с torch.matmul и cuBLAS.

Простым рисёрчем проект не ограничен, в репозитории на Github авторы выложили оптимизированные ядра HGEMM A100 для 1000 конфигураций.

В планах: расширение на архитектуры Ada Lovelace, Hopper, Blackwell, поддержка более плотных конфигураций и 32-битный HGEMM.

🟡

Arxiv

🖥

GitHub

@ai_machinelearning_big_data

#AI #ML #CUDA #DeepReinforce

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

❤9👎1

591 views17:05

About

Blog

Apps

Platform