Ml – Telegram
112 subscribers
68 photos
11 videos
44 files
342 links
Machine learning
Download Telegram
Elibrary.ru открыла для пользователей портала поиск близких по тематике публикаций с применением нейросети SciRus-tiny, разработанной в Институте ИИ МГУ при поддержке научно-образовательной школы МГУ для анализа научных текстов

«Российские ученые теперь могут с помощью нейросетевой модели МГУ пополнять коллекции своих статей

Традиционно поиск в базах данных научной информации производится путем указания ключевых слов

Количество найденных документов и их состав сильно зависят от того, насколько точно подобраны ключевые слова

Нейросетевой поиск позволяет задать в качестве условия запроса аннотацию, полный текст научной статьи или даже подборки статей по интересующей тематике

Система автоматически подберет документы, максимально близкие по своей тематической направленности» - прокомментировал руководитель междисциплинарной группы проекта, заведующий кафедрой физического факультета МГУ


Подробнее — на
сайте

В
декабре 2023 года сотрудники лаборатории машинного обучения и семантического анализа Института ИИ МГУ при поддержке портала eLibrary обучили и опубликовали в открытом доступе нейронную сеть для получения семантических векторных представлений (эмбеддингов) научных текстов на русском языке SciRus-tiny

С ее помощью можно решать множество прикладных задач, начиная с поиска и классификации и заканчивая извлечением научных терминов
Люди сравнивают объекты по какому-то признаку

Математической моделью таких ситуаций является понятие «упорядоченного множества»

biblio.mccme.ru/node/316262
Рассказывают о самых важных событиях в мире Ml за прошедший год

С Новым годом вас, дорогие подписачники!

Языковые модели научили «‎рассуждать«»

Осенью 2024 года компания OpenAI представила
языковую модель o1
Вместо мгновенного ответа o1 сначала формируовала рассуждения, а потом выдавала финальный результат

Механизм рассуждений позволяет моделям реже допускать фактологические ошибки, успешнее справляться с задачами, требующими долгосрочного планирования, и эффективнее работать с внешними инструментами, вроде поиска в интернете или среды выполнения кода
Во многом благодаря этому LLM смогли победить в олимпиадах по
программированию и по математике

Появление механизма рассуждений также предложило выход из кризиса развития LLM — подробнее об этом и о рассуждающих моделях можно почитать в
нашем материале, а узнать про модели DeepSeek можно здесь

От чат-ботов к ИИ-агентам

В этом году LLM использовали не только для чат-ботов, но и для Ml-агентов — программ, способных автономно выполнять многоэтапные задачи в цифровой среде

Агент может
искать информацию в интернете и выделять главное, планировать путешествия от покупки билетов до развлекательной программы, создавать сайты и приложения с нуля, готовить презентации и отчёты

LLM не выполняет действия сама, а описывает, что нужно сделать
При составлении обзора литературы модель генерирует команду «Совершить поиск по запросу X»
Команда передаётся среде (например, браузеру), которая выполняет действие и возвращает результат в LLM для дальнейших шагов
Доступные действия называют инструментами (от англ. tool), действия выполняются в среде
Средой может выступать любое приложение
По сути, LLM является «мозгом» агента, планирующим решение задачу и пошагово управляющим выполнение этого плана

Значимость агентов — в росте продуктивности за счёт автоматизации
Агенты на базе современных моделей показывают результаты, сравнимые с экспертными, во многих
практических задачах
Уже
сейчас агенты способны использовать десятки разных инструментов, кооперироваться друг с другом и автономно работать в течение нескольких часов

Восприятие LLM пользователями и их разработчиками изменилось


С момента выхода ChatGPT-3.5 — первой широко известной LLM — прошло чуть больше трёх лет
За это время приложение ChatGPT стало самым быстрорастущим в истории, обогнав TikTok, и вошло в повседневную жизнь
сотен миллионов людей

Благодаря непрерывному развитию больших языковых моделей грань между общением с человеком и чат-ботом становится всё менее заметной
Пользователям важно не только какую пользу приносит LLM, но и как она взаимодействует с ними
Всё больше людей воспринимает Ml-ботов как друзей,
романтических партнёров или психологов

Показательный пример этого сдвига —
выход GPT-5
После обновления OpenAI сделала недоступной предыдущую модель GPT-4o, что вызвало волну жалоб
Главное недовольство было связано с изменением стиля общения: GPT-5 отвечает более нейтрально. Некоторые пользователи описывали потерю доступа к GPT-4o как личную утрату, поскольку привыкли к её «личности»
Реакция оказалась настолько сильной, что компания вернула доступ к GPT-4o

Крупные разработчики LLM всё лучше осознают, что создают не просто инструмент для повышения продуктивности, а продукт, к которому люди могут эмоционально привязываться
Это можно эксплуатировать для наращивания аудитории и монетизации, но безответственный подход чреват серьезными репутационными потерями
Уже известны случаи, когда общение с ИИ-ботом могло привести к
трагическим последствиям

Другая лидирующая компания, Anthropic, в этом году начала
позиционировать свою модель Claude как «Thinking Partner» — не замену человека, а помощника, наиболее эффективного в коллаборации с ним
Также у компании вышло
интервью со штатной профессиональной философиней, которая занимается разработкой идентичности и поведенческих паттернов Claude

Более подробный обзор главных новостей читайте
на сайте
US_12493732_B1_031-683-357-737-639.pdf
1 MB
США ещё в 2017 году тихо запустили программу SuperTools
Вместе с японцами они работали над совершенно другой технологией - сверхпроводниковыми AQFP-процессорами

В декабре 2025 года компания Synopsys получила патент на инструменты их массового производства
Работа финансировалась разведкой США через агентство IARPA

AQFP работают на той же классической логике (0 и 1), что и обычные процессоры
Но есть два колоссальных отличия: они в 20-30 раз быстрее современных чипов и потребляют в 10.000.000 раз меньше энергии
Всё это благодаря сверхпроводникам, работающим при температуре минус 269 градусов Цельсия

Патент Synopsys описывает методологию автоматизированного проектирования, которая превращает штучную разработку таких чипов в промышленный конвейер
Раньше каждый сверхпроводниковый процессор был уникальным проектом - теперь их можно штамповать как обычные микросхемы

С 2017 года США и Япония работали по этой программе без лишнего шума
К сегодняшнему дню уже созданы прототипы на частоте 3 ГГц
По оценкам экспертов, системы на 10-30 ГГц могут появиться к 2027-28 году, а полноценные 100 ГГц (цель программы SuperTools) - через пять-семь лет

Угроза здесь не в скорости одного чипа, а в возможности создавать массивные кластеры: благодаря минимальному энергопотреблению можно упаковать миллионы AQFP-процессоров в один криостат - то, что физически невозможно с обычными чипами
Такая огромная параллельная мощность превращает взлом RSA-2048 из "теоретически невозможного" в задачу на недели или месяцы —- а это основа защиты большей части секретной информации в мире

Все эти годы обсуждали, что именно квантовые компьютеры станут убийцами современного шифрования
Но перспективы квантовых технологий пока туманны - слишком много нерешённых проблем
О том, что AQFP-системы сделают это гораздо быстрее, почти никто не говорил

Не случайно Япония прямо сейчас разворачивает масштабную инфраструктуру для перехвата данных

В мае 2025 года приняли закон, разрешающий перехватывать весь иностранный интернет-трафик, который проходит через японскую территорию

А это практически все коммуникации между Америкой и Азией - включая Китай, Корею, Юго-Восточную Азию
Туда же попадает и значительная часть российского трафика с азиатскими серверами

Япония - это центральный хаб для подводных кабелей в Тихоокеанском регионе
Более двадцати станций приёма, через которые идут терабиты данных в секунду
В 2025-м начали строить ещё две новые станции. Запустили кабель SJC2 пропускной способностью 126 терабит в секунду, связывающий Сингапур, Китай и Японию
На цифровую безопасность инвестируют около $440.000.000

Параллельно создаются хранилища данных по аналогии с NSA Utah Data Center в США (АНБ), который может вмещать до тысячи экзабайт информации
Концепция проста: собирай зашифрованный трафик сейчас, расшифруешь потом - когда появятся необходимые системы

А ещё есть судно JS Muroto
Официально оно предназначено для "защиты подводных кабелей"
Но такое судно легко может устанавливать оборудование для перехвата прямо на кабельные линии - технология, которую АНБ использует десятилетиями

США и Япония работали над AQFP с 2017 года, получив восьмилетнюю фору
Догнать за 2-3 года нереалистично, но медлить нельзя - у России есть сильная школа сверхпроводников и возможность партнёрства с Китаем, при должных инвестициях разрыв преодолим
2
В.И. Арнольд
Таинственные математические троицы

«Я постараюсь рассказать о некоторых удивляющих меня явлениях в математике
(…)
Речь пойдёт об определённых наблюдениях, которые приводят к очень большому числу теорем и гипотез
(…)
Но интерес, который они представляют, состоит в общей точке зрения…»
Конспект по LLM на русском языке:

– Необходимая математика: линал и матанализ на пальцах
– Все про механизм внимания и трансформеры
– Детальное объяснение процесса предобучения (а это редкость)
– RL – с нуля до обучения ризонинг-моделей
– Полноценный гайд по тому, как зафайнтюнить модель

6 глав и 50 страниц – идеальный объем, чтобы осилить за выходные и понять принцип работы современных моделей
Компания StorageReview вновь вернула себе мировую корону в гонке за числом π, вычислив его сразу до 314.000.000.000.000 знаков π за 4.3 МВт⋅ч

Рекорд был установлен не в облаке и не на распределённом кластере, а на одном коммерческом сервере
Запуск стартовал 31 июля 2025 года и завершился 18 ноября 2025 года, проработав 110 дней подряд без единой секунды простоя — что само по себе уже достижение уровня HPC

Для вычислений использовался сервер Dell PowerEdge R7725 форм-фактора 2U, оснащённый двумя процессорами AMD EPYC 9965 по 192 ядра каждый, то есть 384 ядра в сумме
В системе было установлено 1.5 ТБ DDR5 DRAM и 40 NVMe-накопителей Micron 6550 ION по 61.44 ТБ, что дало более 2.4 ПБ физического флеш-хранилища
Для работы y-cruncher было выделено 34 SSD, обеспечивших около 2.1 ПБ под временные данные, а ещё 6 SSD использовались в программном RAID10 для финальной записи результата

Само вычисление выполнялось с помощью y-cruncher v0.8.6.9545 на алгоритме Чудновского под Ubuntu 24.04 LTS Server

Чистое время расчёта числа π составило 8.793.223 секунды (примерно 101.8 дня), общее вычислительное время — 9.274.878 секунд, а полное «время по стене» от старта до финиша — 9.463.226 секунд
Самая крупная логическая контрольная точка достигала 850.538.385.064.992 цифр, а максимальное использование логического диска — 1.605 960.520.636.440 байт, то есть около 1.43 ПБ

Ключевым фактором рекорда стало хранилище
В конфигурации с 40 SSD платформа обеспечивала до 280 ГБ/с суммарной пропускной способности
По сравнению с предыдущим рекордом StorageReview на 202.000.000.000.000 цифр, последовательная запись выросла с 47 до 107 ГиБ/с, последовательное чтение — с 56.7 до 127 ГиБ/с, а чтение с «перешагиванием порога» увеличилось сразу на 383 % — с 20.9 до 101 ГиБ/с.
За время расчёта было прочитано около 148.4 ПиБ данных и записано 126.7 ПиБ, при этом износ SSD составил в среднем 7.3 ПБ на диск

Отдельного внимания заслуживает энергоэффективность

Средняя потребляемая мощность сервера составляла около 1.600 Вт, а общее энергопотребление за весь 314.000.000.000.000 расчёт — всего 4304.7 кВт⋅ч.

Это эквивалентно 13.7 кВт⋅ч на один триллион цифр π
Для сравнения, предыдущий рекорд на 300.000.000.000.000 цифр, выполненный на большом кластере с общим хранилищем, оценивался примерно в 33.600 кВт⋅ч, что в 7–8 раз больше
Ученые из Университета Ватерлоо (Канада) впервые придумали способ безопасно сохранять и дублировать информацию в квантовых компьютерах

Раньше это считалось невозможным
Дело в том, что квантовую информация нельзя просто скопировать и вставить, как обычный файл

Это фундаментальный закон квантовой физики – теорема о невозможности клонирования (no-cloning theorem)
Она гласит, что невозможно создать механизм, который бы делал точную копию какого-либо квантового состояния

Обойти это удалось с помощью шифрования информации
Сначала квантовые данные зашифровывают, и только потом копируют
Причем делать это можно сколько угодно раз, но есть нюанс: когда одна копия расшифровывается, ключ шифрования тут же физически разрушается, и больше его использовать нельзя
То есть все копии вскрываются как бы одновременно

Если хотите разобраться в процессе подробнее:
uwaterloo.ca/news/media/scientists-discover-first-method-safely-back-quantum

Oткрываются виды и на квантовое облачное хранение, и на распределенные квантовые системы
Сорок лет назад проходил курс по логическому (ЛП) и функциональному программированию (ФП) у очень взрослых преподавателей МИФИ

За эти годы мир изменился категорически, и я менялся вместе с ним, сохранив ядро знаний: формальную логику, резолюцию, работу с символьными знаниями…
Давно выйдя на стык дисциплин — нейросимвольную интеграцию — когда нейросеть распознаёт образы, а логическая система на Prolog делает объяснимый вывод, агентное моделирование — когда в NetLogo агенты взаимодействуют по правилам, похожим на логические протоколы (ломает стереотип, что Prolog — лишь для учебных задач), связь с теорией автоматов (весь «зоопарк» вычислительных моделей), с математической лингвистикой, с теми же монадами в ФП

Зачем это в эпоху нейросетей?
Логика есть основа мышления
Машинное обучение нуждается не только в данных, но и в смысле, в правилах, в способности объяснять свои решения
И здесь логическое программирование оказывается не реликтом, а инструментом

Курс 50-летней давности, который классика-классика и читался ещё Николаем Геннадьевичем Волчёнковым, который сам получил его в наследство от его учителей на кафедре 22 «Кибернетика» эволюционировал до математических моделей социальных процессов и построения управленческих коллективов и алгоритмы принятия ими решений

Объективизация и достоверность — логика, на основе которой строится история и узнается будущее
Cтатья от MIT про дообучение моделей после деплоя

Фанфэкт: некоторые из авторов работают в OpenAI, так что читаем внимательно

Подход красиво назвали тюленем: SEAL – Self-Adapting Language Models

Суть тюленя в том, что модель учится извлекать из условных чатов информацию в таком виде, которая дообучит ее лучше всего
Звучит немного запутанно, поэтому разбираемся:

1. Модель получает на вход некоторый контекст и извлекает из него так называемые self-edit (SE)
Это структура, на которой модель дальше будет дообучаться (например, список следствий/импликаций из абзаца)

2. Таких SE генерируется много, а затем по каждому из них мы делаем мини-файнтюн и смотрим, какие SE улучшили знания модели лучше всего
Тестирование проходит на той же downstream-задаче (например, вопросах по абзацу без подсказки-абзаца в контексте)

3. Чем лучше SE обучил модель, тем больший reward он получает
Далее политика генерации self-edit обновляется так, чтобы в следующий раз SE были более и полезными

То есть модель как бы учиться выбирать наилучшую процедуру адаптации для самой себя
Красиво, да?

И работает неплохо
Из примера в статье: на бенчмарке SQuAD тюлень улучшил Qwen2.5-7B аж на 15 процентных пунктов
В сравнении, base model + дообучение на синтетике от сильной GPT-4.1 дает результат на пару процентов меньше, хотя разница в размере моделей «учителей» огромна

Есть, конечно, и парочка НО

Например:

– Это дорого
Одна оценка self-edit занимает примерно 30–45 секунд
750 итераций – это 6 часов на двух H100
Авторы предлагают это немного сгладить, применяя вместо мини-файнтюнингов Proxy reward, когда SE оценивает другая LLM
Это уже не так интересно, и метрики чуть хуже, но как вариант

– Для тестов требуется разметка
Хотя тут, опять же, можно генерировать

– Модели показывают деградацию на прошлых задачах по мере числа обновлений
Это частично лечится reward shaping, но полностью проблема не исчезает

Статья полностью здесь ->

https://arxiv.org/abs/2506.10943
This media is not supported in your browser
VIEW IN TELEGRAM
Я всегда говорю студентам, что для того, чтобы стать по-настоящему хорошим математиком, нужно быть ленивым

То есть вы смотрите на это и думаете: да, можно сразу взять, проинтегрировать, подставить значение и получить ноль

А можно на минутку отвлечься и подумать, есть ли какой-то трюк, который позволит получить ответ без лишних вычислений
И ответ — да, есть
Artificial Analysis представила обновленный рейтинг Ml-систем Intelligence Index 4.0.

Результаты показали неожиданную картину - разница между тремя ведущими моделями практически исчезла

По итогам измерений на первой строчке оказалась GPT-5.2 X-High от OpenAI

Однако её преимущество над Claude Opus 4.5 и Gemini 3 Pro настолько мало, что находится в пределах статистической ошибки
Исследователи представили KernelEvolve — фреймворк, который использует LLM и поиск по графу для автоматической генерации высокопроизводительных ядер на языке Triton

Система применяет RAG (retrieval-augmented generation), чтобы подтягивать спецификации железа (NVIDIA, AMD и кастомные чипы MTIA), что позволяет оптимизировать как вычислительно тяжелые операции, так и задачи препроцессинга данных

Это стратегический сдвиг в AI-инфраструктуре, отвязывающий архитектуру модели от ограничений железа
Система достигла 100 % корректности на бенчмарке KernelBench и показала ускорение до 17× относительно PyTorch

Это доказывает, что агенты способны справиться с комбинаторным взрывом операторов и типов ускорителей, что критически важно для внедрения проприетарного кремния (MTIA), для которого у публичных LLM нет обучающих данных

https://arxiv.org/abs/2512.23236
https://arxiviq.substack.com/p/kernelevolve-scaling-agentic-kernel
https://triton-lang.org/
https://arxiv.org/abs/2502.10517
Ещё одна электронная книга (небольшая) с визуализацией концепций ML
Сделано аккуратно: приводятся формулы, код и доводится до красивой картинки (или видео)
Правда, всего 4 главы: оптимизация, кластеризация, линейные модели и нейросети
Материал "начального уровня" (но удобно, что он тут собран)

https://ml-visualized.com/
"Тебе что, все по три раза повторять надо?!" - DA

Метод строгих училок снова в строю
Простым, не рассуждающим AI-моделям надо
повторить задачу три раза (не меняя) для существенного повышения качества ответа

Особено если запрос длинный - модель успевает забыть его начало когда дочитывает до конца

Не благодарите
Не благодарите
Не благодарите
Подходят к концу каникулы, продолжают работу математические кружки МЦНМО — присоединяйтесь или умрёте

по вторникам с 13 января — 4 и 5 кл. (Т.В. Казицына)
по четвергам с 15 января — 7 кл. (Д.А. Калинин)
по субботам с 17 января — 6 кл. (рук. В.В. Миронов)
по понедельникам с 19 января — 8 кл. (Н.А. Солодовников)

Как обычно: для всех желающих заниматься (бесплатно, без вступительных экзаменов, без предварительной регистрации и смс); кружки очные, в МЦНМО

mccme.ru/ru/math-circles/circles-mccme/20252026/
Forwarded from COLUMNA
Ml-новое: ииизм (почему не просто "иизм", если "шиизм"?), слоптимизм (как совпало с поптимизмом то) и (в шутку) иишница

Слова такие свежие (
прелогизмы), что даже определения давать лишнее, они сами за себя говорят достаточно
Я наверное, иист, но не считаю себя слоптимистом, даже имея
специфиичные-вкусы-вы-не-поймете
Потому
что это не слоп!

P. S. Можно сократить до "и3зм", как
нумероним W3C
На этой неделе GPT-5.2 Pro решила уже две открытые математические задачи, которые люди не могли решить на протяжении многих лет

Речь снова пойдет про список Эрдеша
И тут сразу оговорка для тех, кто помнит октябрьскую историю (GPT-5 просто откопала ответ на задачку в старых статьях, а в OpenAI заявили, что она «нашла решение»): на этот раз все честно, автономность решения в обоих случаях подтвердил сам Теренс Тао

Итак:
1. Первая задачка – под номером 728
Ее отдал GPT-5.2 сам Теренс
Прикол с этой задачкой в том, что исходная формулировка Эрдеша была неверной, и корректная постановка была получена только несколько месяцев назад, так что предшествующей литературы по ней вообще не было

Задача была решена более или менее автономно (после получения обратной связи по результатам первоначальной попытки), и результат (насколько нам известно) не был воспроизведен в литературе (хотя были найдены результаты, доказанные аналогичными методами)


Обратите внимание на последнее предложение: это не умаляет результат, НО модель все еще воспроизводит известные доказательства, а не придумывает что-то нечеловеческое

2. Вторая – № 397. Ее
засабмитил Нил Сомани, а проверил Теренс

Доказательство было сгенерировано GPT 5.2 Pro и оформлено с помощью Harmonic

Много открытых проблем просто сидят и ждут, когда кто-нибудь предложит ChatGPT решить их