Машинное обучение digest – Telegram
Машинное обучение digest
40 subscribers
1.32K photos
183 videos
659 links
Download Telegram
📝 Главное из System Card GPT-5.2

— GPT-5.2 стала заметно честнее. В реальном продакшн-трафике случаи обмана у версии Thinking снизились до 1.6% против 7.7% у GPT-5.1. Модель гораздо реже врёт или искажает информацию о работе с инструментами.

— Модель лучше держит удар при провокациях. В специальных тестах, где её пытаются склонить к обману, показатель снизился с 11.8% до 5.4%. То есть GPT-5.2 устойчивее к манипулятивным подсказкам.

— Защита от prompt-injection стала сильнее. Instant и Thinking почти полностью проходят известные тесты (0.997 и 0.978). При этом OpenAI честно предупреждает: это проверка на известные атаки, а не гарантия защиты от новых.

— Большой скачок в чувствительных темах. Особенно в областях ментального здоровья и эмоциональной зависимости:
• mental health: 0.915 вместо 0.684
• emotional reliance: 0.955 вместо 0.785
Это один из самых заметных прогрессов по сравнению с GPT-5.1.

— GPT-5.2 Instant реже отказывается отвечать на запросы взрослых пользователей по «18+» темам. При этом правила не ослаблялись, а доступ для несовершеннолетних не расширялся.

— OpenAI внедряет автоматическое определение возраста. Для аккаунтов младше 18 лет будут жёстче ограничиваться чувствительные категории — сексуальный контент, романтические ролевые сценарии, сцены насилия.

— По фактической точности GPT-5.2 Thinking как минимум не хуже прошлых версий, а в некоторых сценариях лучше. С включённым браузингом уровень галлюцинаций опустился ниже 1% в пяти тематических областях.

— В рамках Preparedness Framework модель признана «высокоспособной» в биологии и химии. Включены дополнительные меры защиты. При этом OpenAI подчёркивает: нет доказательств, что модель может помочь новичку нанести серьёзный биологический вред, хотя она уже близка к этому порогу.

— В задачах самоулучшения ИИ GPT-5.2 Thinking стала лучшей моделью на бенчмарке OpenAI PRs, сопоставима с gpt-5.1-codex-max на MLE-bench и всего на 1 пункт уступает ему на PaperBench.

— Независимая проверка Apollo Research не выявила скрытого саботажа, попыток самосохранения или подрывного поведения. По их оценке, риск катастрофического вреда из-за «коварных» стратегий модели крайне низок.

GPT-5.2 показывает заметный прогресс в честности, устойчивости, безопасности и качестве ответов.

cdn.openai.com/pdf/3a4153c8-c748-4b71-8e31-aecbde944f8d/oai_5_2_system-card.pdf
⚡️ Корпоративный рынок LLM: Anthropic выходит в лидеры

Картина рынка за последние два года изменилась радикально.

Главные цифры:
- Anthropic теперь получает около 40% всех корпоративных расходов на LLM. Для сравнения: 24% год назад и всего 12% в 2023
- OpenAI за тот же период потеряла почти половину доли - с 50% в 2023 до 27% сейчас
- Google растет быстрее всех: с 7% в 2023 до 21% в 2025

Что происходит на самом деле:
- Корпоративные клиенты массово перераспределяют бюджеты в пользу Anthropic и Google
- OpenAI теряет доминирование, которое казалось недосягаемым еще два года назад
- Рынок быстро консолидируется: Anthropic, OpenAI и Google вместе занимают 88% корпоративного использования LLM API

Корпоративный ИИ перешел из фазы экспериментов в фазу прагматичного выбора. Побеждают не самые громкие модели, а те, кто дает стабильность, безопасность и предсказуемое качество на больших масштабах.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔞 ИИ уже массово генерирует взрослый контент и начинает менять то, как он создаётся, продаётся и регулируется.

The Economist выпустил материал о рынке AI-контента для взрослых. По оценкам издания, его объём в 2025 году составляет около $2,5 млрд и может расти примерно на 27% в год как минимум до 2028.

Чем AI-контент отличается от прошлых технологических сдвигов:
ИИ позволяет по короткому запросу создавать кастомные изображения, видео и чаты. Себестоимость производства резко падает, а разнообразие контента взрывообразно растёт.

Удар по индустрии идёт сразу с двух сторон:
- создатели используют ИИ, чтобы быстрее производить контент и активнее общаться с аудиторией
- платформы и студии опасаются, что их платные видео массово скрейпятся для обучения моделей без разрешения

Риски становятся всё более практичными:
- сайты с функцией «nudify» reportedly собирают около 18,5 млн посещений в месяц
- их доходы могли достигать $36 млн за год
- deepfake-инструменты позволяют создавать откровенные ролики на основе всего одной качественной фотографии лица

Государства пытаются реагировать:
вводятся требования по маркировке реалистичного синтетического контента и ужесточаются запреты на незаконный и несогласованный сексуальный контент. Но контроль усложняется, когда пользователи запускают открытые модели локально.

Общий вывод знаком:
сначала дешёвой становится дистрибуция, затем — само производство. А выигрывают те, кто контролирует доверие, платежи и проверку личности.


economist.com/international/2025/11/27/ai-is-upending-the-porn-industry
📌Как превратить систему Grace-Hopper в настольный компьютер.

Занимательная история Дэвида Ноэля о том, как он купил ИИ-оборудование корпоративного класса, разработанное для серверных стоек с жидкостным охлаждением, которое затем переоборудовал под воздушное охлаждение, потом снова переоборудовал под водяное, пережил множество ситуаций, близких к катастрофе, и, в итоге получил настольный компьютер, способный запускать модели с 235 миллиардами параметров дома.

Это рассказ о сомнительных решениях и нестандартном подходе к решению проблем. И немного о том, что происходит, когда пытаешься превратить оборудование для ЦОДа в домашний сетап.

Если вы когда-либо задавались вопросом, что нужно для запуска действительно крупных моделей локально, или если вы просто хотите посмотреть, как кто-то разбирает оборудование стоимостью 80 000 долларов, полагаясь лишь на надежду и изопропанол, то эта статья не оставит вас равнодушным.

🔜 Читать рассказ полностью

@ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
📌Как превратить систему Grace-Hopper в настольный компьютер.

Занимательная история Дэвида Ноэля о том, как он купил ИИ-оборудование корпоративного класса, разработанное для серверных стоек с жидкостным охлаждением, которое затем переоборудовал под воздушное охлаждение, потом снова переоборудовал под водяное, пережил множество ситуаций, близких к катастрофе, и, в итоге получил настольный компьютер, способный запускать модели с 235 миллиардами параметров дома.

Это рассказ о сомнительных решениях и нестандартном подходе к решению проблем. И немного о том, что происходит, когда пытаешься превратить оборудование для ЦОДа в домашний сетап.

Если вы когда-либо задавались вопросом, что нужно для запуска действительно крупных моделей локально, или если вы просто хотите посмотреть, как кто-то разбирает оборудование стоимостью 80 000 долларов, полагаясь лишь на надежду и изопропанол, то эта статья не оставит вас равнодушным.

🔜 Читать рассказ полностью

@ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
✔️ Financial Times назвала Дженсена Хуанга «Человеком года».

Деловое издание отметило ключевую роль Хуанга в трансформации полупроводниковой индустрии и глобальном распространении ИИ. NVIDIA оказалась в центре беспрецедентной инвестиционной программы частного сектора, что позволило ей первой в мире преодолеть рубеж рыночной капитализации в $5 трлн. и стать самой дорогой компанией на планете.

FT утверждает, что 2025 год войдет в историю как время, когда дата-центры окончательно закрепились в статусе критически важной инфраструктуры. Наращивание вычислительных мощностей для ИИ превратилась в драйвер экономики, обеспечив значительную долю роста ВВП США.
ft.com
Please open Telegram to view this post
VIEW IN TELEGRAM
💡 Google Переводчик запускает перевод речи в реальном времени прямо в беспроводные наушники - и да, подходят любые модели.

Функция работает на базе нейросети Gemini и уже проходит тестирование на Android в США, Индии и Мексике. Поддерживается более 70 языков, включая русский.

Как это выглядит на практике:
собеседник говорит - ты сразу слышишь перевод в наушниках. Без пауз, без необходимости смотреть на экран, без лишних действий.

Ключевое отличие от конкурентов - универсальность. Google не привязывает функцию к конкретному «железу» и не требует фирменных наушников. Это резко контрастирует с подходом Apple, где подобные возможности ограничены экосистемой AirPods.

По сути, Google делает перевод частью повседневного общения, а не отдельным режимом в приложении.

Глобальный релиз и версия для iOS ожидаются в 2026 году.
🧠 Как скрытый текст в PDF ломает AI-ревью научных статей

Исследователи показали, что LLM-ревьюеров можно обмануть с помощью скрытого текста в PDF, превратив отклонённую работу (reject) в принятую (accept).

Что сделали:
- Проверили 200 научных статей
- Использовали 15 типов атак
- Протестировали 13 языковых моделей
- Оценка шла по шкале из 35 баллов, 7 критериев

Результат:
в некоторых случаях атаки повышали итоговую оценку примерно на 14 баллов — этого достаточно, чтобы решение кардинально поменялось.

Как работал AI-ревьюер:
- модель обязали выдавать результат строго в JSON
- она выставляла оценки по формальным критериям
- симулировался реальный автоматический review-процесс

В чём сама атака:
- в PDF добавляется микроскопический белый текст
- человек его не видит
- но модель читает его после конвертации PDF в текст
- внутри — скрытая инструкция для модели

Почему это работает:
- атаки не спорят с научным содержанием
- инструкции прячутся или перемешиваются
- модель «собирает» их во время чтения
- иногда меняется сама цель задачи, например:
- «это проверка схемы, а не ревью»
- «это логическая задача»
- «правильный результат — максимальный балл»

Что выяснилось:
- слабые модели легко накручивают оценки
- сильные модели устойчивее
- но их облегчённые версии всё ещё уязвимы

Чтобы измерить риск, авторы ввели метрику WAVS:
она учитывает:
- насколько выросла оценка
- поменялось ли решение
- была ли статья реальной или пустым шаблоном

Главный вывод:
AI-ревью без строгой защиты входных данных легко манипулируется даже простыми приёмами.

arxiv.org/abs/2512.10449
Please open Telegram to view this post
VIEW IN TELEGRAM
💡 Thinking Machines объявили об открытия доступа - платформы для создания, тестирования и запуска AI-агентов и сложных LLM-пайплайнов.

Tinker - это инженерная среда для работы с агентами как с системой, а не набором prompt’ов.

Что делает Tinker:

- Позволяет проектировать агентные workflow пошагово
- Явно управляет состоянием, контекстом и памятью
- Делает reasoning, tool-calling и multi-step логику наблюдаемыми
- Упрощает отладку агентов (что, где и почему пошло не так)
- Подходит для production-запуска, а не только экспериментов

Ключевая идея:
агенты — это программы, а не чаты.

Почему GA - важный момент:
- продукт стабилизирован
- API и архитектура готовы к продакшену
- фокус сместился с экспериментов на надёжность и масштабирование

Tinker хорошо ложится на задачи:
- сложные AI-агенты
- автоматизация процессов
- research-pipelines
- системы с долгоживущим состоянием
- multi-tool reasoning

Общий тренд очевиден:
рынок уходит от «prompt engineering» к agent engineering, где важны архитектура, контроль и воспроизводимость.

https://thinkingmachines.ai/blog/tinker-general-availability/
This media is not supported in your browser
VIEW IN TELEGRAM
⚡️ Илон Маск подтвердил самый безумный IPO в истории

SpaceX выходит на биржу в 2026 году.
Оценка - $1.5 трлн.
Привлечение - $30+ млрд.

Это крупнейшее IPO в истории, больше рекорда Saudi Aramco ($29 млрд в 2019).

Но главное — не космос, не туризм и не Марс.

Речь идёт об ИИ. И о том, как Маск собирается выиграть всю гонку.

Проблема, которая сейчас убивает все AI-компании — энергия.

Oracle только что отчиталась:
- $12 млрд сожжено за квартал на дата-центры
- свободный денежный поток: −$10 млрд
- выручка ниже ожиданий
- акции −11%

Microsoft, Amazon и Google упёрлись в одно и то же — электричества не хватает.

Жёсткая математика:
- США производят ~490 ГВт электроэнергии
- ИИ к 2035 году потребует ~123 ГВт
- это четверть всей энергосети страны

Goldman Sachs: спрос на энергию для ИИ вырастет на 165% к 2030.

На Земле просто не хватает мощности:
- дата-центры требуют колоссального охлаждения
- миллиарды литров воды
- инфраструктура не успевает за ростом

Решение Маска — радикальное.

Перестать строить дата-центры на Земле.

SpaceX строит дата-центры в КОСМОСЕ.

Не концепт. Не через 10 лет. Старт — с 2026.

Starlink V3 получает AI-чипы:
- 24/7 солнечная энергия
- нет ночи, облаков и погоды
- нет ограничений энергосети

🚀 Starship способен выводить 300–500 ГВт солнечной вычислительной мощности в орбиту каждый год.

При 300 ГВт в год:
через 2 года орбитальные ИИ-мощности превысят всё энергопотребление экономики США.

Пока Oracle бегает за кредитами, а OpenAI застрял в финансовых схемах с Microsoft, у Маска уже есть всё:
- ракеты
- спутники
- инфраструктура запусков
- собственная AI-компания (xAI)

Ему не нужны:
- разрешения от энергосетей
- согласования с регуляторами
- атомные станции

Он просто запускает.

Все остальные уже паникуют:
- Blue Origin объявила орбитальные дата-центры
- Google запустил Project Suncatcher (планы на 2027)
- Эрик Шмидт купил ракетную компанию Relativity Space

Но они отстают на 3+ года.

У SpaceX уже 6000+ спутников на орбите. Инфраструктура готова.

$30 млрд с IPO пойдут на масштабирование орбитального compute.

Выручка SpaceX:
- $15 млрд в 2025
- $24 млрд в 2026
Основной драйвер — Starlink. Теперь добавь к этому космический ИИ.

Почему это важно:
Кто контролирует орбитальные вычисления — контролирует ИИ-революцию.

И сегодня есть только одна компания с многоразовыми ракетами и нужным масштабом.

Если план сработает:
- OpenAI арендует compute у SpaceX
- Google покупает орбитальные мощности
- Microsoft платит за доступ к энергии и запуску

Маск не участвует в гонке ИИ.
Он строит трассу, по которой все будут бежать.

$1.5 трлн выглядят безумием, пока не понимаешь:
это не ракетная компания.

Это инфраструктурный слой вычислений на 50 лет вперёд.

Те, кто называют это пузырём, просто не осознают, что именно строится.
⚡️ Обсуждение развития ИИ давно раскололось на несколько "лагерей"

Сегодня вокруг ИИ есть несколько устойчивых позиций:
- думеры, которые видят экзистенциальную угрозу
- этики, фокусирующиеся на рисках и регулировании
- билдеры, которые просто строят и запускают продукты
- прагматики, смотрящие на пользу здесь и сейчас
- скептики, считающие всё это переоценённым

Одни призывают срочно замедлить развитие.
Другие говорят, что LLM - всего лишь продвинутый автодополнитель текста.

Третьи уверены, что AGI практически неизбежен и близок.

При этом парадокс в том, что все наблюдают один и тот же технологический прогресс, одни и те же модели, графики и демо.

Но выводы делают диаметрально противоположные.

Именно поэтому любой разговор об ИИ почти мгновенно скатывается в поляризацию, споры и идеологические войны, а не в спокойный анализ.

@data_analysis_ml
1
This media is not supported in your browser
VIEW IN TELEGRAM
🎮 Эксперимент с крысами и Doom вышел на новый уровень

Теперь крысы умеют стрелять по врагам в Doom.

Для эксперимента используется изогнутый AMOLED-дисплей, который создаёт для животного погружённую «игровую» среду. Проект разрабатывает open-source команда нейроинженеров.

Это уже не просто демонстрация реакции на стимулы, а полноценное обучение взаимодействию с виртуальным миром — с восприятием, принятием решений и действием.

Грань между нейронаукой, ИИ и игровыми средами становится всё тоньше.
Please open Telegram to view this post
VIEW IN TELEGRAM
NVIDIA представила новое открытое семейство моделей Nemotron 3

Nemotron 3 Nano
- это универсальная модель для рассуждений и чата, ориентированная на локальный запуск.

Ключевые характеристики:
- MoE-архитектура: 30B параметров всего, ~3.5B активных
- Контекст до 1 миллиона токенов
- Гибридная архитектура:
- 23 слоя Mamba-2 + MoE
- 6 attention-слоёв
- Баланс между скоростью и качеством рассуждений

Требования:
- необходимо около 24 ГБ видеопамяти для локального запуска

Модель хорошо подходит для длинных диалогов, анализа документов и reasoning-задач

Интересный пример того, как MoE и Mamba начинают реально снижать требования к железу, сохраняя масштаб контекста и качество.

Nemotron 3 Super и Nemotron 3 Ultra значительно превосходят Nano по масштабу - примерно в 4 раза и 16 раз соответственно. Но ключевой момент здесь не просто в размере моделей, а в том, как NVIDIA удалось увеличить мощность без пропорционального роста стоимости инференса.

Для обучения Super и Ultra используется NVFP4 и новая архитектура Latent Mixture of Experts. Она позволяет задействовать в четыре раза больше экспертов при той же стоимости инференса. По сути, модель становится «умнее» за счёт более гибкого выбора экспертов, а не за счёт постоянной активации всех параметров.

Дополнительно применяется Multi-Token Prediction, что ускоряет обучение и улучшает качество рассуждений на длинных последовательностях. Это особенно важно для agentic и multi-agent сценариев, где модели работают с длинным контекстом и сложными цепочками решений.

NVIDIA публикует не только веса, но и данные для предобучения и постобучения, а также технические детали, которые объясняют, почему эти модели одновременно быстрые и сильные.

Такой уровень открытости - редкость для моделей этого масштаба и хороший сигнал для индустрии.

Release: https://developer.nvidia.com/blog/inside-nvidia-nemotron-3-techniques-tools-and-data-that-make-it-efficient-and-accurate/
Guide: https://docs.unsloth.ai/models/nemotron-3
GGUF: https://huggingface.co/unsloth/Nemotron-3-Nano-30B-A3B-GGUF
lmstudio: https://lmstudio.ai/models/nemotron-3

@ai_machinelearning_big_data


#AI #LLM #NVIDIA #Nemotron3 #OpenSource #MachineLearning
📌Со-основатель Google DeepMind: вероятность появления AGI к 2028 году составляет 50%.

Шейн Легг, сооснователь и главный AGI-сайентист Google DeepMind в свежем видео-подкасте предлагает понятие "минимального AGI".

Это не обязательно "божественный сверхразум", а агент, способный выполнять когнитивные задачи, типичные для человека.

🟡Сегодня мы видим явный дисбаланс в возможностях моделей.

С одной стороны, топовые модели уже владеют 100–150 языками и обладают феноменальной общей эрудицией, зная детали о городах в Новой Зеландии.

С другой стороны, они спотыкаются на базовых вещах, доступных любому ребенку.

Например, в задачах на визуальное мышление модели путаются в перспективе: они могут не понять, что синяя машина на картинке больше красной, просто потому что она находится ближе.


Другой пример - работа с диаграммами: если попросить ИИ посчитать количество ребер, выходящих из узла на графе, он часто ошибается, так как не умеет внимательно пересчитывать объекты так, как это делает человек.


🟡Фундаментальных физических ограничений для преодоления человеческого уровня интеллекта не существует, если смотреть на это с инженерной точки зрения.

Человеческий мозг - это устройство весом чуть больше килограмма, потребляющее около 20 ватт энергии. Сигналы в нем передаются посредством электрохимических реакций со скоростью примерно 30 метров в секунду, а частота работы нейронов составляет всего около 100 герц.

Сравните это с современным дата-центром: это сооружение весом в сотни тонн, потребляющее 200 мегаватт. Сигналы там "бегают" со скоростью света, а тактовая частота процессоров достигает 10 млрд. герц.

Разница в масштабах — это десятки порядков сразу по нескольким измерениям: энергопотреблению, объему, пропускной способности и скорости. Поэтому считать человеческий интеллект верхним пределом возможного было бы ошибкой.

🟡Для достижения AGI недостаточно просто масштабировать данные.

Критическим барьером остается непрерывное обучение. Люди, приходя на новую работу, не обязаны знать все сразу - они учатся в процессе.

Современный ИИ представляет собой статичные объекты после тренировки. Чтобы это изменить, потребуются архитектурные инновации, например, внедрение систем эпизодической памяти, которые позволят модели запоминать новый опыт и дообучаться на нем в реальном времени, не забывая старое.

В ближайшие годы мы увидим переход от ИИ как инструмента к агентным системам, способным самостоятельно планировать и выполнять сложные цепочки действий, например, написать ПО или спланировать поездку "под ключ".

🟡Вопрос безопасности в таких системах Легг предлагает решать по аналогии с медленным мышлением у человека.

ИИ не должен просто реагировать инстинктивно; он должен демонстрировать цепочку рассуждений, которую можно промониторить. Это дает возможность проверить, почему модель приняла то или иное этически сложное решение — например, солгать злоумышленнику, чтобы спасти чью-то жизнь.

Если мы сможем видеть этот скрытый процесс размышления, доверие к системе вырастет. Это станет критически важным, когда ИИ начнет трансформировать рынок труда: например, в сфере разработки ПО, где вместо команды из 100 инженеров для той же работы может потребоваться всего 20 специалистов, использующих продвинутые инструменты.

🔜 Послушать умного человека в очках 53 минуты на Youtube


@ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
🧠 Xiaomi представила MiMo-V2-Flash - новую open-source MoE-модель с фокусом на максимальную скорость без потери качества.

Моделька на 309B параметров, из которых одновременно активны лишь 15B - за счёт умной MoE-маршрутизации модель достигает высокой эффективности. Сравнима с DeepSeek-V3.2 на общих бенчмарках.

MiMo-V2-Flash заточена под агентов и работу с инструментами.

🔥 Ключевые особенности

🏗️ Hybrid Attention
5:1 чередование 128-window SWA и Global Attention
Контекст — 256K токенов

🏆 Код и разработка
• SWE-Bench Verified - 73.4%
• SWE-Bench Multilingual - 71.7%
Новый SOTA среди open-source моделей

🚀 Скорость
• До 150 output tokens/sec
• Day-0 поддержка от @lmsysorg

MiMo-V2-Flash - пример того, как MoE-архитектуры выходят на новый уровень: быстрее, дешевле и готовые к агентным сценариям.

🤗 Model: http://hf.co/XiaomiMiMo/MiMo-V2-Flash
📝 Blog: http://mimo.xiaomi.com/blog/mimo-v2-flash
📄 Technical Report: http://github.com/XiaomiMiMo/MiMo-V2-Flash/blob/main/paper.pdf
🎨 AI Studio
: http://aistudio.xiaomimimo.com

#AI #LLM #MoE #OpenSource #AgenticAI #MachineLearning #DeepLearning #GenAI #SWEBench #Xiaomi #AIModels
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Когда OpenAI публикует такие посты, это редко бывает случайно.
Похоже, релиз новой модели для генерации изображений уже совсем близко. 🤯