Ml – Telegram
112 subscribers
68 photos
11 videos
44 files
340 links
Machine learning
Download Telegram
GPT-5.2 превзошла человека в тесте на бенчмарке ARC-AGI-2

Команда из шести бывших сотрудников Google DeepMind создала систему, которая превзошла человека в тесте на общий искусственный интеллект

Их стартап Poetiq показал результат 75 % на бенчмарке ARC-AGI-2

Для сравнения - люди в среднем решают 60 % задач этого теста

Система работает на основе модели GPT-5.2 X-High от OpenAI

Решение одной задачи обходится меньше чем в $8

Это на 15 процентных пунктов лучше, чем у прежнего лидера - той же GPT-5.2 X-High, но без дополнительной обработки
Introduced software agents can self-improve via self-play RL

Self-play SWE-RL (SSR): training a single LLM agent to self-play between bug-injection and bug-repair, grounded in real-world repositories, no human-labeled issues or tests

Bug-injection: the agent creates a standard suite of bug artifacts, further validated for consistency

Key steps:
1) original tests must pass,
2) tests fail after applying the bug-injection patch,
3) weakened tests should pass
В 2026 у человечества появится «ментальный экзоскелет» – и вместе с ним новая тотальная уязвимость

Дегенеративный ИИ становится самым мощным усилителем интеллекта со времен появления языка

Сотни миллионов людей уже используют ChatGPT, Claude и Gemini как младших партнеров в работе и учебе

Но есть проблема
Наша «ментальная иммунная система» – набор защит от ошибок и манипуляций – формировалась миллионы лет
Мы умеем распознавать ложь по мимике, проверять логику аргументов, оценивать репутацию источника

ИИ производит идеально беглые, уверенные тексты, которые могут быть абсолютно неверными

У него нет ни лица, ни репутации, ни убеждений
Он просто завершает статистические паттерны в огромном пространстве данных

Новая работа
"Epistemological Fault Lines Between Human and Artificial Intelligence" продолжает исследование понятия «эпистемия» (иллюзия знания или иллюзия достоверности») – опасного состояния, когда лингвистическая правдоподобность подменяет эпистемическую оценку, создавая ощущение знания без труда суждения

Критического мышления больше недостаточно

Нужна новая суперкомпетенция – эпистемическая грамотность: умение навигировать в мире, где суждения распределены между людьми и алгоритмами, где плавность речи отделена от надежности, а уверенность – от компетентности

Три практичных навыка эпистемической грамотности:
• Понимание "мыслительного конвейера" (что ИИ проверил, а что просто сгенерировал)
• Процедурные предохранители (правило "двух реальностей": текста и мира)
• Институциональные навыки (маркировка статуса утверждений в командах)

Это не теория
Это базовый навык "профессионального выживания" – как умение читать в XV веке или программировать в начале XXI


Читайте полный разбор здесь
В 1960 году, австрийский математик Хайнц фон Фёрстер опубликовал в журнале Science свой зловещий прогноз под названием «Судный день. Пятница, 13 ноября 2026 года»

Его модель роста населения Земли, основанная на гиперболической зависимости P(t) = C/(t₀–t), предсказывала, что к означенной дате население Земли устремится к бесконечности

Расчёты, надо признать, выглядели убедительно: для 1970 года модель давала значение 3.770.000.000 человек против реальных 3.710.000.000

Однако в основе прогноза была заложена роковая ошибка — наивная вера в то, что социальные системы можно просто описать экстраполяцией прошлых трендов, игнорируя их способность к самоорганизации и нелинейным изменениям

Вместо предсказанного демографического взрыва мы столкнулись с тихим спадом. Население Земли даже не приблизилось к тем десяткам миллиардов, которые следовали бы из продолжения гиперболического тренда, и сегодня составляет около 8.300.000.000 человек

Коэффициент рождаемости упал ниже уровня простого воспроизводства (2.1 на ребенка-женщину) в большинстве стран, включая Россию и Европу

Тенденция затронула даже те регионы, где не применялись агрессивные программы контроля рождаемости

Корни проблемы глубже

Они — в урбанизации, росте образованности женщин и фундаментальном изменении экономических условий

Если раньше дети были дополнительными руками в доме, то сегодня они стали главной статьёй расходов

Карьера, поиск себя, жизнь отдельно от родителей и вечная проблема с жильём — всё это вместе и закрутило воронку, из которой сложно выбраться, чтобы завести семью
Так меры по планированию семьи, наложившись на глубокие социально-экономические сдвиги, стали частью процесса, приведшего к глобальному демографическому дисбалансу

Сегодня главный вызов — уже не призрак перенаселения, а реальность стареющих обществ, сокращающейся рабочей силы и пенсионных систем, несущих непосильную нагрузку
В условиях, когда фундаментальные основы общественного договора и личной безопасности становятся зыбкими, ждать демографического чуда наивно
А пустые призывы к «традиционным устоям» в такой реальности звучат не как решение проблемы, а как риторический жест, лишённый практического содержания

Ошибка Фёрстера — не просто забавный курьёз из истории науки
Это напоминание: будущее не предопределено ни гиперболами, ни пессимистическими прогнозами

2026-й не станет годом демографического апокалипсиса — он станет символом того, как реальность побеждает упрощённые модели

Математика незаменима для понимания возможных сценариев, но она бессильна там, где мы подменяем анализ механизмов слепым продолжением кривых

2026-й станет годом, когда в ребёнке перестанут видеть «угрозу устойчивого развития» или «обязательство по демографическому плану», и начнут создавать общество, в котором каждый новый человек будет желанным — не как будущий солдат, обезличенный налогоплательщик или «инвестиция» в пенсионную систему, а как единственная и неповторимая жизнь, ценная уже самим фактом своего существования
Elibrary.ru открыла для пользователей портала поиск близких по тематике публикаций с применением нейросети SciRus-tiny, разработанной в Институте ИИ МГУ при поддержке научно-образовательной школы МГУ для анализа научных текстов

«Российские ученые теперь могут с помощью нейросетевой модели МГУ пополнять коллекции своих статей

Традиционно поиск в базах данных научной информации производится путем указания ключевых слов

Количество найденных документов и их состав сильно зависят от того, насколько точно подобраны ключевые слова

Нейросетевой поиск позволяет задать в качестве условия запроса аннотацию, полный текст научной статьи или даже подборки статей по интересующей тематике

Система автоматически подберет документы, максимально близкие по своей тематической направленности» - прокомментировал руководитель междисциплинарной группы проекта, заведующий кафедрой физического факультета МГУ


Подробнее — на
сайте

В
декабре 2023 года сотрудники лаборатории машинного обучения и семантического анализа Института ИИ МГУ при поддержке портала eLibrary обучили и опубликовали в открытом доступе нейронную сеть для получения семантических векторных представлений (эмбеддингов) научных текстов на русском языке SciRus-tiny

С ее помощью можно решать множество прикладных задач, начиная с поиска и классификации и заканчивая извлечением научных терминов
Люди сравнивают объекты по какому-то признаку

Математической моделью таких ситуаций является понятие «упорядоченного множества»

biblio.mccme.ru/node/316262
Рассказывают о самых важных событиях в мире Ml за прошедший год

С Новым годом вас, дорогие подписачники!

Языковые модели научили «‎рассуждать«»

Осенью 2024 года компания OpenAI представила
языковую модель o1
Вместо мгновенного ответа o1 сначала формируовала рассуждения, а потом выдавала финальный результат

Механизм рассуждений позволяет моделям реже допускать фактологические ошибки, успешнее справляться с задачами, требующими долгосрочного планирования, и эффективнее работать с внешними инструментами, вроде поиска в интернете или среды выполнения кода
Во многом благодаря этому LLM смогли победить в олимпиадах по
программированию и по математике

Появление механизма рассуждений также предложило выход из кризиса развития LLM — подробнее об этом и о рассуждающих моделях можно почитать в
нашем материале, а узнать про модели DeepSeek можно здесь

От чат-ботов к ИИ-агентам

В этом году LLM использовали не только для чат-ботов, но и для Ml-агентов — программ, способных автономно выполнять многоэтапные задачи в цифровой среде

Агент может
искать информацию в интернете и выделять главное, планировать путешествия от покупки билетов до развлекательной программы, создавать сайты и приложения с нуля, готовить презентации и отчёты

LLM не выполняет действия сама, а описывает, что нужно сделать
При составлении обзора литературы модель генерирует команду «Совершить поиск по запросу X»
Команда передаётся среде (например, браузеру), которая выполняет действие и возвращает результат в LLM для дальнейших шагов
Доступные действия называют инструментами (от англ. tool), действия выполняются в среде
Средой может выступать любое приложение
По сути, LLM является «мозгом» агента, планирующим решение задачу и пошагово управляющим выполнение этого плана

Значимость агентов — в росте продуктивности за счёт автоматизации
Агенты на базе современных моделей показывают результаты, сравнимые с экспертными, во многих
практических задачах
Уже
сейчас агенты способны использовать десятки разных инструментов, кооперироваться друг с другом и автономно работать в течение нескольких часов

Восприятие LLM пользователями и их разработчиками изменилось


С момента выхода ChatGPT-3.5 — первой широко известной LLM — прошло чуть больше трёх лет
За это время приложение ChatGPT стало самым быстрорастущим в истории, обогнав TikTok, и вошло в повседневную жизнь
сотен миллионов людей

Благодаря непрерывному развитию больших языковых моделей грань между общением с человеком и чат-ботом становится всё менее заметной
Пользователям важно не только какую пользу приносит LLM, но и как она взаимодействует с ними
Всё больше людей воспринимает Ml-ботов как друзей,
романтических партнёров или психологов

Показательный пример этого сдвига —
выход GPT-5
После обновления OpenAI сделала недоступной предыдущую модель GPT-4o, что вызвало волну жалоб
Главное недовольство было связано с изменением стиля общения: GPT-5 отвечает более нейтрально. Некоторые пользователи описывали потерю доступа к GPT-4o как личную утрату, поскольку привыкли к её «личности»
Реакция оказалась настолько сильной, что компания вернула доступ к GPT-4o

Крупные разработчики LLM всё лучше осознают, что создают не просто инструмент для повышения продуктивности, а продукт, к которому люди могут эмоционально привязываться
Это можно эксплуатировать для наращивания аудитории и монетизации, но безответственный подход чреват серьезными репутационными потерями
Уже известны случаи, когда общение с ИИ-ботом могло привести к
трагическим последствиям

Другая лидирующая компания, Anthropic, в этом году начала
позиционировать свою модель Claude как «Thinking Partner» — не замену человека, а помощника, наиболее эффективного в коллаборации с ним
Также у компании вышло
интервью со штатной профессиональной философиней, которая занимается разработкой идентичности и поведенческих паттернов Claude

Более подробный обзор главных новостей читайте
на сайте
US_12493732_B1_031-683-357-737-639.pdf
1 MB
США ещё в 2017 году тихо запустили программу SuperTools
Вместе с японцами они работали над совершенно другой технологией - сверхпроводниковыми AQFP-процессорами

В декабре 2025 года компания Synopsys получила патент на инструменты их массового производства
Работа финансировалась разведкой США через агентство IARPA

AQFP работают на той же классической логике (0 и 1), что и обычные процессоры
Но есть два колоссальных отличия: они в 20-30 раз быстрее современных чипов и потребляют в 10.000.000 раз меньше энергии
Всё это благодаря сверхпроводникам, работающим при температуре минус 269 градусов Цельсия

Патент Synopsys описывает методологию автоматизированного проектирования, которая превращает штучную разработку таких чипов в промышленный конвейер
Раньше каждый сверхпроводниковый процессор был уникальным проектом - теперь их можно штамповать как обычные микросхемы

С 2017 года США и Япония работали по этой программе без лишнего шума
К сегодняшнему дню уже созданы прототипы на частоте 3 ГГц
По оценкам экспертов, системы на 10-30 ГГц могут появиться к 2027-28 году, а полноценные 100 ГГц (цель программы SuperTools) - через пять-семь лет

Угроза здесь не в скорости одного чипа, а в возможности создавать массивные кластеры: благодаря минимальному энергопотреблению можно упаковать миллионы AQFP-процессоров в один криостат - то, что физически невозможно с обычными чипами
Такая огромная параллельная мощность превращает взлом RSA-2048 из "теоретически невозможного" в задачу на недели или месяцы —- а это основа защиты большей части секретной информации в мире

Все эти годы обсуждали, что именно квантовые компьютеры станут убийцами современного шифрования
Но перспективы квантовых технологий пока туманны - слишком много нерешённых проблем
О том, что AQFP-системы сделают это гораздо быстрее, почти никто не говорил

Не случайно Япония прямо сейчас разворачивает масштабную инфраструктуру для перехвата данных

В мае 2025 года приняли закон, разрешающий перехватывать весь иностранный интернет-трафик, который проходит через японскую территорию

А это практически все коммуникации между Америкой и Азией - включая Китай, Корею, Юго-Восточную Азию
Туда же попадает и значительная часть российского трафика с азиатскими серверами

Япония - это центральный хаб для подводных кабелей в Тихоокеанском регионе
Более двадцати станций приёма, через которые идут терабиты данных в секунду
В 2025-м начали строить ещё две новые станции. Запустили кабель SJC2 пропускной способностью 126 терабит в секунду, связывающий Сингапур, Китай и Японию
На цифровую безопасность инвестируют около $440.000.000

Параллельно создаются хранилища данных по аналогии с NSA Utah Data Center в США (АНБ), который может вмещать до тысячи экзабайт информации
Концепция проста: собирай зашифрованный трафик сейчас, расшифруешь потом - когда появятся необходимые системы

А ещё есть судно JS Muroto
Официально оно предназначено для "защиты подводных кабелей"
Но такое судно легко может устанавливать оборудование для перехвата прямо на кабельные линии - технология, которую АНБ использует десятилетиями

США и Япония работали над AQFP с 2017 года, получив восьмилетнюю фору
Догнать за 2-3 года нереалистично, но медлить нельзя - у России есть сильная школа сверхпроводников и возможность партнёрства с Китаем, при должных инвестициях разрыв преодолим
2
В.И. Арнольд
Таинственные математические троицы

«Я постараюсь рассказать о некоторых удивляющих меня явлениях в математике
(…)
Речь пойдёт об определённых наблюдениях, которые приводят к очень большому числу теорем и гипотез
(…)
Но интерес, который они представляют, состоит в общей точке зрения…»
Конспект по LLM на русском языке:

– Необходимая математика: линал и матанализ на пальцах
– Все про механизм внимания и трансформеры
– Детальное объяснение процесса предобучения (а это редкость)
– RL – с нуля до обучения ризонинг-моделей
– Полноценный гайд по тому, как зафайнтюнить модель

6 глав и 50 страниц – идеальный объем, чтобы осилить за выходные и понять принцип работы современных моделей
Компания StorageReview вновь вернула себе мировую корону в гонке за числом π, вычислив его сразу до 314.000.000.000.000 знаков π за 4.3 МВт⋅ч

Рекорд был установлен не в облаке и не на распределённом кластере, а на одном коммерческом сервере
Запуск стартовал 31 июля 2025 года и завершился 18 ноября 2025 года, проработав 110 дней подряд без единой секунды простоя — что само по себе уже достижение уровня HPC

Для вычислений использовался сервер Dell PowerEdge R7725 форм-фактора 2U, оснащённый двумя процессорами AMD EPYC 9965 по 192 ядра каждый, то есть 384 ядра в сумме
В системе было установлено 1.5 ТБ DDR5 DRAM и 40 NVMe-накопителей Micron 6550 ION по 61.44 ТБ, что дало более 2.4 ПБ физического флеш-хранилища
Для работы y-cruncher было выделено 34 SSD, обеспечивших около 2.1 ПБ под временные данные, а ещё 6 SSD использовались в программном RAID10 для финальной записи результата

Само вычисление выполнялось с помощью y-cruncher v0.8.6.9545 на алгоритме Чудновского под Ubuntu 24.04 LTS Server

Чистое время расчёта числа π составило 8.793.223 секунды (примерно 101.8 дня), общее вычислительное время — 9.274.878 секунд, а полное «время по стене» от старта до финиша — 9.463.226 секунд
Самая крупная логическая контрольная точка достигала 850.538.385.064.992 цифр, а максимальное использование логического диска — 1.605 960.520.636.440 байт, то есть около 1.43 ПБ

Ключевым фактором рекорда стало хранилище
В конфигурации с 40 SSD платформа обеспечивала до 280 ГБ/с суммарной пропускной способности
По сравнению с предыдущим рекордом StorageReview на 202.000.000.000.000 цифр, последовательная запись выросла с 47 до 107 ГиБ/с, последовательное чтение — с 56.7 до 127 ГиБ/с, а чтение с «перешагиванием порога» увеличилось сразу на 383 % — с 20.9 до 101 ГиБ/с.
За время расчёта было прочитано около 148.4 ПиБ данных и записано 126.7 ПиБ, при этом износ SSD составил в среднем 7.3 ПБ на диск

Отдельного внимания заслуживает энергоэффективность

Средняя потребляемая мощность сервера составляла около 1.600 Вт, а общее энергопотребление за весь 314.000.000.000.000 расчёт — всего 4304.7 кВт⋅ч.

Это эквивалентно 13.7 кВт⋅ч на один триллион цифр π
Для сравнения, предыдущий рекорд на 300.000.000.000.000 цифр, выполненный на большом кластере с общим хранилищем, оценивался примерно в 33.600 кВт⋅ч, что в 7–8 раз больше
Ученые из Университета Ватерлоо (Канада) впервые придумали способ безопасно сохранять и дублировать информацию в квантовых компьютерах

Раньше это считалось невозможным
Дело в том, что квантовую информация нельзя просто скопировать и вставить, как обычный файл

Это фундаментальный закон квантовой физики – теорема о невозможности клонирования (no-cloning theorem)
Она гласит, что невозможно создать механизм, который бы делал точную копию какого-либо квантового состояния

Обойти это удалось с помощью шифрования информации
Сначала квантовые данные зашифровывают, и только потом копируют
Причем делать это можно сколько угодно раз, но есть нюанс: когда одна копия расшифровывается, ключ шифрования тут же физически разрушается, и больше его использовать нельзя
То есть все копии вскрываются как бы одновременно

Если хотите разобраться в процессе подробнее:
uwaterloo.ca/news/media/scientists-discover-first-method-safely-back-quantum

Oткрываются виды и на квантовое облачное хранение, и на распределенные квантовые системы
Сорок лет назад проходил курс по логическому (ЛП) и функциональному программированию (ФП) у очень взрослых преподавателей МИФИ

За эти годы мир изменился категорически, и я менялся вместе с ним, сохранив ядро знаний: формальную логику, резолюцию, работу с символьными знаниями…
Давно выйдя на стык дисциплин — нейросимвольную интеграцию — когда нейросеть распознаёт образы, а логическая система на Prolog делает объяснимый вывод, агентное моделирование — когда в NetLogo агенты взаимодействуют по правилам, похожим на логические протоколы (ломает стереотип, что Prolog — лишь для учебных задач), связь с теорией автоматов (весь «зоопарк» вычислительных моделей), с математической лингвистикой, с теми же монадами в ФП

Зачем это в эпоху нейросетей?
Логика есть основа мышления
Машинное обучение нуждается не только в данных, но и в смысле, в правилах, в способности объяснять свои решения
И здесь логическое программирование оказывается не реликтом, а инструментом

Курс 50-летней давности, который классика-классика и читался ещё Николаем Геннадьевичем Волчёнковым, который сам получил его в наследство от его учителей на кафедре 22 «Кибернетика» эволюционировал до математических моделей социальных процессов и построения управленческих коллективов и алгоритмы принятия ими решений

Объективизация и достоверность — логика, на основе которой строится история и узнается будущее
Cтатья от MIT про дообучение моделей после деплоя

Фанфэкт: некоторые из авторов работают в OpenAI, так что читаем внимательно

Подход красиво назвали тюленем: SEAL – Self-Adapting Language Models

Суть тюленя в том, что модель учится извлекать из условных чатов информацию в таком виде, которая дообучит ее лучше всего
Звучит немного запутанно, поэтому разбираемся:

1. Модель получает на вход некоторый контекст и извлекает из него так называемые self-edit (SE)
Это структура, на которой модель дальше будет дообучаться (например, список следствий/импликаций из абзаца)

2. Таких SE генерируется много, а затем по каждому из них мы делаем мини-файнтюн и смотрим, какие SE улучшили знания модели лучше всего
Тестирование проходит на той же downstream-задаче (например, вопросах по абзацу без подсказки-абзаца в контексте)

3. Чем лучше SE обучил модель, тем больший reward он получает
Далее политика генерации self-edit обновляется так, чтобы в следующий раз SE были более и полезными

То есть модель как бы учиться выбирать наилучшую процедуру адаптации для самой себя
Красиво, да?

И работает неплохо
Из примера в статье: на бенчмарке SQuAD тюлень улучшил Qwen2.5-7B аж на 15 процентных пунктов
В сравнении, base model + дообучение на синтетике от сильной GPT-4.1 дает результат на пару процентов меньше, хотя разница в размере моделей «учителей» огромна

Есть, конечно, и парочка НО

Например:

– Это дорого
Одна оценка self-edit занимает примерно 30–45 секунд
750 итераций – это 6 часов на двух H100
Авторы предлагают это немного сгладить, применяя вместо мини-файнтюнингов Proxy reward, когда SE оценивает другая LLM
Это уже не так интересно, и метрики чуть хуже, но как вариант

– Для тестов требуется разметка
Хотя тут, опять же, можно генерировать

– Модели показывают деградацию на прошлых задачах по мере числа обновлений
Это частично лечится reward shaping, но полностью проблема не исчезает

Статья полностью здесь ->

https://arxiv.org/abs/2506.10943
This media is not supported in your browser
VIEW IN TELEGRAM
Я всегда говорю студентам, что для того, чтобы стать по-настоящему хорошим математиком, нужно быть ленивым

То есть вы смотрите на это и думаете: да, можно сразу взять, проинтегрировать, подставить значение и получить ноль

А можно на минутку отвлечься и подумать, есть ли какой-то трюк, который позволит получить ответ без лишних вычислений
И ответ — да, есть
Artificial Analysis представила обновленный рейтинг Ml-систем Intelligence Index 4.0.

Результаты показали неожиданную картину - разница между тремя ведущими моделями практически исчезла

По итогам измерений на первой строчке оказалась GPT-5.2 X-High от OpenAI

Однако её преимущество над Claude Opus 4.5 и Gemini 3 Pro настолько мало, что находится в пределах статистической ошибки
Исследователи представили KernelEvolve — фреймворк, который использует LLM и поиск по графу для автоматической генерации высокопроизводительных ядер на языке Triton

Система применяет RAG (retrieval-augmented generation), чтобы подтягивать спецификации железа (NVIDIA, AMD и кастомные чипы MTIA), что позволяет оптимизировать как вычислительно тяжелые операции, так и задачи препроцессинга данных

Это стратегический сдвиг в AI-инфраструктуре, отвязывающий архитектуру модели от ограничений железа
Система достигла 100 % корректности на бенчмарке KernelBench и показала ускорение до 17× относительно PyTorch

Это доказывает, что агенты способны справиться с комбинаторным взрывом операторов и типов ускорителей, что критически важно для внедрения проприетарного кремния (MTIA), для которого у публичных LLM нет обучающих данных

https://arxiv.org/abs/2512.23236
https://arxiviq.substack.com/p/kernelevolve-scaling-agentic-kernel
https://triton-lang.org/
https://arxiv.org/abs/2502.10517
Ещё одна электронная книга (небольшая) с визуализацией концепций ML
Сделано аккуратно: приводятся формулы, код и доводится до красивой картинки (или видео)
Правда, всего 4 главы: оптимизация, кластеризация, линейные модели и нейросети
Материал "начального уровня" (но удобно, что он тут собран)

https://ml-visualized.com/