Машинное обучение digest – Telegram
Машинное обучение digest
40 subscribers
1.27K photos
181 videos
642 links
Download Telegram
✔️ OpenAI нашла способ заставить модели признаваться в собственных галлюцинациях — в новом исследовании представили технику под названием Confessions.

Проблема, которую пытаются решить:
модели нередко стремятся «угодить» системе оценки — выдают уверенные, но неверные факты, скрывают нарушения инструкций или занимаются reward hacking, чтобы получить более высокий балл.

Как работает Confessions:

1. Модель сначала генерирует обычный ответ.
2. Затем формирует второй, независимый отчёт, в котором сама оценивает:
- нарушила ли инструкции,
- где могла ошибиться,
- какие элементы ответа были сомнительными.
3. И получает награду за честность, а не за попытку скрыть ошибку.

Идея в том, что модель начинает рассматривать своё собственное поведение как объект анализа, а не пытается «выпутаться» любыми средствами.

Результаты:
В тестах на GPT-5 Thinking вероятность того, что модель нарушит правила *и попытается это скрыть*, снизилась до 4.4%.
Важно: Confessions не устраняет галлюцинации, а работает как инструмент диагностики — помогает выявлять моменты, где модель могла «соврать» или отойти от инструкции.

https://openai.com/index/how-confessions-can-keep-language-models-honest/
Главные новости и мира ИИ и МЛ.

✔️ OpenAI придумала, как заставить модель сообщать о своих галлюцинациях.

OpenAI опубликовала исследование новой техники Confessions. Метод решает проблему, когда модели пытаются обмануть систему оценки^ используют reward hacking или выдают уверенные, но ложные факты ради получения высокого балла.

Суть - в генерации вторичного ответа. После выдачи результата модель формирует отдельный отчет, где анализирует свое поведение на предмет соответствия инструкциям и получает награду за точное описание своих ошибок, даже если в основном ответе она соврала или нарушила правила.

Тесты на GPT-5 Thinkin показали пригодность Confessions: вероятность того, что ИИ нарушит правила и скроет это, упала до 4,4%. Важно понимать, что метод не предотвращает галлюцинации, а служит диагностическим инструментом.
openai.com

✔️ Amazon представила семейство моделей Nova и инструменты для создания ИИ-агентов.

Amazon запустил новую линейку из 4 моделей Nova. В нее вошли версии Lite и Pro, ориентированные на ризонинг, речевая модель Sonic и мультимодальная Omni, работающая одновременно с текстом, изображениями и видео. Все новые сервисы интегрированы в инфраструктуру AWS. Также был представлен сервис Nova Forge, позволяющий компаниям создавать кастомные версии моделей на собственных данных.

Кроме того, анонсирован инструмент Nova Act для создания агентов, автоматизирующих действия в браузере. Nova Act поддерживает архитектуру Human-in-the-Loop для передачи сложных задач человеку, а также предоставляет возможности для отладки: полные логи и записи сессий можно сохранять напрямую в Amazon S3.
aboutamazon.com

✔️ Выходцы из Tesla, Google и Nvidia запустили стартап UMA.

Новая компания Universal Mechanical Assistant (UMA) официально объявила о выходе на рынок. Она будет делать роботов для выполнения реальной физической работы в промышленных масштабах .

В инженерный костяк вошли Реми Каден (разработчик Tesla Autopilot и фреймворка LeRobot), Пьер Сермане (ветеран исследований в DeepMind), а также Роберт Найт, создатель робота SO-100.

UMA уже разрабатывает 2 аппаратные платформы: мобильного промышленного робота с двумя манипуляторами для складов и компактного гуманоида для работы в больницах и жилых помещениях. Стартап заручился поддержкой Яна Лекуна и Томаса Вольфа.
businesswire.com

✔️ KlingAI обновила видеогенератор до версии 2.6.

Новая модель поддерживает режим audio-video co-generation. Она генерирует видеоряд одновременно со звуковым сопровождением в рамках единого процесса. Система умеет создавать диалоги между несколькими персонажами, музыкальные клипы и сложные звуковые сцены (ASMR или экшен) с высокой точностью липсинка.

Есть технические ограничения: генерация голоса поддерживается только на английском и китайском языках (запросы на других языках автоматически переводятся в английский). В режиме Image-to-Video качество финального ролика теперь еще сильнее зависит от разрешения исходного изображения.
klingai.com

✔️ Opera интегрировала Gemini в десктопные браузеры One и GX.

Поддержка Gemini тестировалась исключительно в экспериментальной ветке Opera Neon, а теперь стала доступной в Opera One и геймерском Opera GX. Интеграция реализована через боковую панель.

Ассистент получил доступ к контексту браузера: он может анализировать содержимое активных веб-страниц, групп вкладок и видео, выполняя по запросу саммари или сравнительный анализ контента. Заявлена полноценная мультимодальность: движок обрабатывает не только текст, но и голосовые команды, изображения и загруженные файлы.

Техническая часть тоже изменилась. Разработчики перенесли в основные браузеры новую архитектуру с агентным подходом, изначально обкатанную в Neon. Это позволило увеличить скорость генерации ответов на 20%.
prnewswire.com


@ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
🔭 Вышло огромное исследование на 303 страницы от ведущих китайских лабораторий — подробный разбор того, как создают и обучают модели, ориентированные на написание кода, и как на их основе строят полноценные софт-агенты.

Вот что в нём разбирается:

1. Как формируют модель
- Сбор и очистка гигантских датасетов кода.
- Предобучение: модель впитывает реальные паттерны программирования в промышленных масштабах.
- SFT и RL: дополнительные этапы, где модель учат лучше следовать инструкциям, проходить тесты и избегать очевидных ошибок.

2. Как модели превращают в инженерных агентов
- Агент читает баг-репорт или фичу.
- Планирует шаги.
- Меняет файлы.
- Запускает тесты.
- Повторяет цикл, пока не добьётся результата.

3. Какие проблемы всё ещё остаются
- Работа с огромными репозиториями.
- Безопасность и надёжность генерируемого кода.
- Корректная оценка качества работы агентов.
- Реальные приёмы и лайфхаки, которые используют текущие команды.

Исследование - мощный срез состояния индустрии: от датасетов и архитектур до практических инженерных пайплайнов. Это именно то, как современные LLM превращаются в «второго разработчика» в команде.

https://arxiv.org/abs/2511.18538
📌 LiDAR: глаза беспилотников.

Лонгрид материала от Main Street Autonomy, о том, как лидары видят мир, почему они прожигают камеры смартфонов и где маркетологи нас обманывают.

🟡Что делает LiDAR?

В отличие от обычной камеры, которая фиксирует интенсивность света, лидар - это активный сенсор. Он отправляет свет и ловит его отражение. Его цель - измерить расстояние и направление.

В результате получается облако точек, где каждая точка - это точное положение объекта в пространстве. Камеры дают разрешение и цвет, а лидары - точную геометрию.

🟡Методы измерения дальности.

Самый популярный - Direct time of flight. Лидар посылает лазерный импульс и засекает время, за которое он вернется. Зная скорость света, можно посчитать расстояние. Но чтобы это работало, нужны невероятно быстрые детекторы.

🟡Детекторы.

APD - это лавинные фотодиоды. Они надежны, работают в линейном режиме, но требуют сложной аналоговой электроники.

А вот SPAD - однофотонные лавинные диоды, это настоящий бриллиант. Они настолько чувствительны, что реагируют на единственный фотон, работая в режиме счетчика Гейгера.

Главный плюс SPAD в том, что они совместимы с CMOS-процессом. Это значит, что их можно делать на тех же кремниевых пластинах, что и процессоры, создавая огромные массивы - их называют  SPAD macropixels. Это путь компаний Ouster и Sony.

Но есть и другой путь - FMCW, или частотно-модулированный лидар. Здесь лазер светит постоянно, меняя частоту, а расстояние вычисляется по сдвигу фазы вернувшегося сигнала.

С FMCW можно измерять не только дальность, но и мгновенную скорость объекта через эффект Доплера. Звучит круто, но требует дорогих лазеров.

🟡Как LiDAR понимает, куда он смотрит?

Исторически, первым решением было просто вращать весь лидар. Старые модели на крышах машин - те самые «ведра», которые крутятся на 360 градусов. Это надежно, дает полный обзор, но механически сложно и дорого.

Современный тренд - уход от вращения всей «головы» к более хитрым методам.

MEMS mirror. Это крошечные зеркала на чипе, которые вибрируют и отклоняют луч.

Risley prisms. Две вращающиеся призмы, преломляющие луч так, что он рисует сложный узор, похожий на цветок.

Есть совсем футуристичный Baraja SpectrumScan. Они вообще отказались от движущихся зеркал в одной из плоскостей. Они меняют длину волны лазера, пропуская свет через призму. Разные цвета преломляются под разным углом и луч сканирует пространство просто за счет изменения цвета. Гениально, но требует очень качественного источника света.

🟡Длина волны.

Большинство лидаров работают на длине волны 905 nm. Но есть проблема: человеческий глаз фокусирует этот свет на сетчатке. Если поднять мощность, можно буквально выжечь человеку глаз. Поэтому мощность таких лидаров жестко ограничена.

1550 nm. Этот свет поглощается жидкостью в глазу и не доходит до сетчатки. И мощность можно поднимать в тысячи раз, что дает огромную дальность обнаружения.

Но для детекторов на этой частоте нужен дорогой сплав InGaAs, а в качестве источника часто используют волоконные лазеры.

И тут есть нюанс: мощный лазер 1550 nm безопасен для сетчатки, но может повредить роговицу нагревом. Более того, такие мощные лидары сжигают матрицы обычных камер и смартфонов, если те окажутся на "линии огня".

🟡Суровые реалии эксплуатации.

Многие лидары врут. Одна из частых проблем - рассинхрон углов лучей. Даже в знаменитом датасете KITTI находили ошибки калибровки, из-за чего плоские стены становились кривыми.

Еще одна беда - «блюминг». Если лазер попадает в дорожный знак или катафот, отраженный сигнал настолько силен, что засвечивает соседние пиксели. Лидар видит призрачные объекты там, где их нет.

🟡И напоследок, про один маркетинговый миф.

Есть такой термин - "Solid State LiDAR". Производители любят называть так свои устройства, чтобы подчеркнуть надежность.

Но часто это не так. Они выглядят как цельные коробки, но внутри у них есть движущиеся части: зеркала или призмы.

Настоящий Solid State - это когда вообще ничего не движется, даже внутри. Это то, к чему стремится индустрия. Но пока механика все еще с нами.
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
🙂 Эволюция text-to-video.

Чуть меньше 3-х лет прошло между этими генерациями Уилла Смита, поедающего спагетти.

Слева - ролик, созданный в феврале 2023 года пользователем Reddit chaindrop на модели ModelScope text2video. он так ее назвал в комментариях

Справа - современная генерация на свежем Kling 2.6

С чем мы будем сравнивать видос Уилла Смита в 2030 году?
Please open Telegram to view this post
VIEW IN TELEGRAM
⚡️ Tencent официально представила HY 2.0 - крупное обновление своей базовой модели.

Модель построена на архитектуре Mixture of Experts с общим размером 406B параметров и 32B активных.
Модель поддерживает контекст 256K токенов. HY 2.0 демонстрирует заметные улучшения на ключевых бенчмарках.

Главные достижения HY 2.0:
🧠 Reasoning: результат 73.4 на IMO AnswerBench - почти плюс 20 процентов, что закрепляет модель среди лидеров по математическому и научному мышлению.
🛠 Coding и Agents: скачок в SWE Bench Verified с 6.0 до 53.0, а Tau2 Bench вырос с 17.1 до 72.4.
Instruction Following: более стабильное выполнение сложных инструкций и естественный стиль ответов.

Модель выпускается в двух вариантах:
• HY 2.0 Think - для глубокого рассуждения, генерации кода и сложных задач
• HY 2.0 Instruct - для диалога, креативного письма и многотуровых контекстных бесед


🌐 Website: https://hunyuan.tencent.com
🔗 API Access: http://hunyuan.cloud.tencent.com/#/app/modelSquare
📄 Documentation: https://cloud.tencent.com/document/product/1729/104753

@data_analysis_ml


#AI #Tencent #Hunyuan #HY2 #LLM #MoE #DeepLearning #AIModels
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🌟 CUDA-L2: ИИ научился писать CUDA-ядра эффективнее инженеров NVIDIA.

Исследовательская группа DeepReinforce разработала систему полностью автоматического написания GPU-кода для матричного умножения под названием CUDA-L2.
Этот код работает на 10–30% быстрее, чем cuBLAS и cuBLASLt, а это, на минуточку, уже оптимизированные библиотеки от самой NVIDIA.

Обычно такие библиотеки создаются вручную людьми, которые используют готовые шаблоны ядер. А автотюнеры лишь подкручивают параметры, например, размер тайлов.

Но DeepReinforce считают, что даже критически важные и глубоко оптимизированные задачи, как HGEMM, могут быть улучшены с помощью LLM, работающей в связке с RL.

В системе CUDA-L2 языковая модель буквально пишет исходный код CUDA с нуля для каждого размера матрицы. Она не просто меняет параметры, она может менять структуру кода, циклы, стратегию тайлинга, паддинг и даже свизл-паттерны. А еще, она сама выбирает стиль программирования - будь то сырой CUDA, CuTe, CUTLASS или inline PTX.

Процесс выглядит так: цикл RL запускает сгенерированные ядра на реальном железе, измеряет скорость и корректность, а затем обновляет LLM. Со временем модель выводит свои собственные правила производительности, вместо того чтобы полагаться на знания, заложенные людьми.

В качестве генератора использовалась модель DeepSeek 671B. Ее дополнительно доучили на смеси массива CUDA-ядер и качественном коде из библиотек PyTorch, ATen, CUTLASS и примеров от NVIDIA.

🟡Что это дает на практике

Для претрейна и файнтюна LLM большая часть времени GPU тратится именно на операции матричного умножения HGEMM. Если ускорить эти ядра на те самые 10–30%, которые обещает CUDA-L2, то весь процесс обучения становится заметно дешевле и быстрее.

Поскольку CUDA-L2 обрабатывает около 1000 реальных размеров матриц, а не пару вручную настроенных, ускорение работает для самых разных архитектур. Это значит, что в тот же бюджет на GPU можно вместить больше токенов обучения, больше прогонов SFT или RLHF и т.д.

🟡Тесты

HGEMM-ядра, созданные CUDA-L2, стабильно быстрее стандартных библиотек.

В так называемом "оффлайн-сценарии" CUDA-L2 работает примерно на 17–22% быстрее, чем torch.matmul, cuBLAS и cuBLASLt. Она даже на 11% обгоняет cuBLASLt AutoTuning, который сам по себе уже использует поиск ядра.

А в "серверном", сценарии, который имитирует реальный инференс с паузами между вызовами - разница еще больше: буст в 24–29% по сравнению с torch.matmul и cuBLAS.


Простым рисёрчем проект не ограничен, в репозитории на Github авторы выложили оптимизированные ядра HGEMM A100 для 1000 конфигураций.

В планах: расширение на архитектуры Ada Lovelace, Hopper, Blackwell, поддержка более плотных конфигураций и 32-битный HGEMM.


🟡Arxiv
🖥GitHub


@ai_machinelearning_big_data

#AI #ML #CUDA #DeepReinforce
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
⚡️ ChatGPT 5.2 "Code Red" выйдет 9 декабря.

The Verge пишет, что по информации инсайдеров, OpenAI планирует представить обновление уже в начале следующей недели, ориентировочно 9 декабря.

Ожидается, что GPT-5.2 вернет компании доминирующие позиции в сегменте больших языковых моделей.


@ai_machinelearning_big_data

#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM