NEW BOT Телеграм, страница

В.И. Арнольд
Таинственные математические троицы

«Я постараюсь рассказать о некоторых удивляющих меня явлениях в математике
(…)
Речь пойдёт об определённых наблюдениях, которые приводят к очень большому числу теорем и гипотез
(…)
Но интерес, который они представляют, состоит в общей точке зрения…»

63 views11:45

MLA

Конспект по LLM на русском языке:

– Необходимая математика: линал и матанализ на пальцах
– Все про механизм внимания и трансформеры
– Детальное объяснение процесса предобучения (а это редкость)
– RL – с нуля до обучения ризонинг-моделей
– Полноценный гайд по тому, как зафайнтюнить модель

6 глав и 50 страниц – идеальный объем, чтобы осилить за выходные и понять принцип работы современных моделей

Data Secrets

Главный по машинному обучению

Сотрудничество: @veron_28

РКН: clck.ru/3FY3GN

65 views13:20

MLA

Компания StorageReview вновь вернула себе мировую корону в гонке за числом π, вычислив его сразу до 314.000.000.000.000 знаков π за 4.3 МВт⋅ч

Рекорд был установлен не в облаке и не на распределённом кластере, а на одном коммерческом сервере
Запуск стартовал 31 июля 2025 года и завершился 18 ноября 2025 года, проработав 110 дней подряд без единой секунды простоя — что само по себе уже достижение уровня HPC

Для вычислений использовался сервер Dell PowerEdge R7725 форм-фактора 2U, оснащённый двумя процессорами AMD EPYC 9965 по 192 ядра каждый, то есть 384 ядра в сумме
В системе было установлено 1.5 ТБ DDR5 DRAM и 40 NVMe-накопителей Micron 6550 ION по 61.44 ТБ, что дало более 2.4 ПБ физического флеш-хранилища
Для работы y-cruncher было выделено 34 SSD, обеспечивших около 2.1 ПБ под временные данные, а ещё 6 SSD использовались в программном RAID10 для финальной записи результата

Само вычисление выполнялось с помощью y-cruncher v0.8.6.9545 на алгоритме Чудновского под Ubuntu 24.04 LTS Server

Чистое время расчёта числа π составило 8.793.223 секунды (примерно 101.8 дня), общее вычислительное время — 9.274.878 секунд, а полное «время по стене» от старта до финиша — 9.463.226 секунд
Самая крупная логическая контрольная точка достигала 850.538.385.064.992 цифр, а максимальное использование логического диска — 1.605 960.520.636.440 байт, то есть около 1.43 ПБ

Ключевым фактором рекорда стало хранилище
В конфигурации с 40 SSD платформа обеспечивала до 280 ГБ/с суммарной пропускной способности
По сравнению с предыдущим рекордом StorageReview на 202.000.000.000.000 цифр, последовательная запись выросла с 47 до 107 ГиБ/с, последовательное чтение — с 56.7 до 127 ГиБ/с, а чтение с «перешагиванием порога» увеличилось сразу на 383 % — с 20.9 до 101 ГиБ/с.
За время расчёта было прочитано около 148.4 ПиБ данных и записано 126.7 ПиБ, при этом износ SSD составил в среднем 7.3 ПБ на диск

Отдельного внимания заслуживает энергоэффективность

Средняя потребляемая мощность сервера составляла около 1.600 Вт, а общее энергопотребление за весь 314.000.000.000.000 расчёт — всего 4304.7 кВт⋅ч.

Это эквивалентно 13.7 кВт⋅ч на один триллион цифр π
Для сравнения, предыдущий рекорд на 300.000.000.000.000 цифр, выполненный на большом кластере с общим хранилищем, оценивался примерно в 33.600 кВт⋅ч, что в 7–8 раз больше

48 views14:58

MLA

Ученые из Университета Ватерлоо (Канада) впервые придумали способ безопасно сохранять и дублировать информацию в квантовых компьютерах

Раньше это считалось невозможным
Дело в том, что квантовую информация нельзя просто скопировать и вставить, как обычный файл

Это фундаментальный закон квантовой физики – теорема о невозможности клонирования (no-cloning theorem)
Она гласит, что невозможно создать механизм, который бы делал точную копию какого-либо квантового состояния

Обойти это удалось с помощью шифрования информации
Сначала квантовые данные зашифровывают, и только потом копируют
Причем делать это можно сколько угодно раз, но есть нюанс: когда одна копия расшифровывается, ключ шифрования тут же физически разрушается, и больше его использовать нельзя
То есть все копии вскрываются как бы одновременно

Если хотите разобраться в процессе подробнее: uwaterloo.ca/news/media/scientists-discover-first-method-safely-back-quantum

Oткрываются виды и на квантовое облачное хранение, и на распределенные квантовые системы

University of Waterloo

Scientists discover first method to safely back up quantum information

A team of researchers at the University of Waterloo have made a breakthrough in quantum computing that elegantly bypasses the fundamental “no cloning” problem.  Quantum computing is an exciting

387 views11:09

MLA

Сорок лет назад проходил курс по логическому (ЛП) и функциональному программированию (ФП) у очень взрослых преподавателей МИФИ

За эти годы мир изменился категорически, и я менялся вместе с ним, сохранив ядро знаний: формальную логику, резолюцию, работу с символьными знаниями…
Давно выйдя на стык дисциплин — нейросимвольную интеграцию — когда нейросеть распознаёт образы, а логическая система на Prolog делает объяснимый вывод, агентное моделирование — когда в NetLogo агенты взаимодействуют по правилам, похожим на логические протоколы (ломает стереотип, что Prolog — лишь для учебных задач), связь с теорией автоматов (весь «зоопарк» вычислительных моделей), с математической лингвистикой, с теми же монадами в ФП

Зачем это в эпоху нейросетей?
Логика есть основа мышления
Машинное обучение нуждается не только в данных, но и в смысле, в правилах, в способности объяснять свои решения
И здесь логическое программирование оказывается не реликтом, а инструментом

Курс 50-летней давности, который классика-классика и читался ещё Николаем Геннадьевичем Волчёнковым, который сам получил его в наследство от его учителей на кафедре 22 «Кибернетика» эволюционировал до математических моделей социальных процессов и построения управленческих коллективов и алгоритмы принятия ими решений

Объективизация и достоверность — логика, на основе которой строится история и узнается будущее

404 views08:43

MLA

Cтатья от MIT про дообучение моделей после деплоя

Фанфэкт: некоторые из авторов работают в OpenAI, так что читаем внимательно

Подход красиво назвали тюленем: SEAL – Self-Adapting Language Models

Суть тюленя в том, что модель учится извлекать из условных чатов информацию в таком виде, которая дообучит ее лучше всего
Звучит немного запутанно, поэтому разбираемся:

1. Модель получает на вход некоторый контекст и извлекает из него так называемые self-edit (SE)
Это структура, на которой модель дальше будет дообучаться (например, список следствий/импликаций из абзаца)

2. Таких SE генерируется много, а затем по каждому из них мы делаем мини-файнтюн и смотрим, какие SE улучшили знания модели лучше всего
Тестирование проходит на той же downstream-задаче (например, вопросах по абзацу без подсказки-абзаца в контексте)

3. Чем лучше SE обучил модель, тем больший reward он получает
Далее политика генерации self-edit обновляется так, чтобы в следующий раз SE были более и полезными

То есть модель как бы учиться выбирать наилучшую процедуру адаптации для самой себя
Красиво, да?

И работает неплохо
Из примера в статье: на бенчмарке SQuAD тюлень улучшил Qwen2.5-7B аж на 15 процентных пунктов
В сравнении, base model + дообучение на синтетике от сильной GPT-4.1 дает результат на пару процентов меньше, хотя разница в размере моделей «учителей» огромна

Есть, конечно, и парочка НО

Например:
– Это дорого
Одна оценка self-edit занимает примерно 30–45 секунд
750 итераций – это 6 часов на двух H100
Авторы предлагают это немного сгладить, применяя вместо мини-файнтюнингов Proxy reward, когда SE оценивает другая LLM
Это уже не так интересно, и метрики чуть хуже, но как вариант

– Для тестов требуется разметка
Хотя тут, опять же, можно генерировать

– Модели показывают деградацию на прошлых задачах по мере числа обновлений
Это частично лечится reward shaping, но полностью проблема не исчезает

Статья полностью здесь ->

https://arxiv.org/abs/2506.10943

arXiv.org

Self-Adapting Language Models

Large language models (LLMs) are powerful but static; they lack mechanisms to adapt their weights in response to new tasks, knowledge, or examples. We introduce Self-Adapting LLMs (SEAL), a...

359 views12:18

MLA

А_Н_Крылов,_"Прикладная_математика_и_техника".pdf

86.5 KB

348 views15:27

MLA

0:22

This media is not supported in your browser

VIEW IN TELEGRAM

Я всегда говорю студентам, что для того, чтобы стать по-настоящему хорошим математиком, нужно быть ленивым

То есть вы смотрите на это и думаете: да, можно сразу взять, проинтегрировать, подставить значение и получить ноль

А можно на минутку отвлечься и подумать, есть ли какой-то трюк, который позволит получить ответ без лишних вычислений
И ответ — да, есть

51 views17:26

MLA

52 views02:54

MLA

Artificial Analysis представила обновленный рейтинг Ml-систем Intelligence Index 4.0.

Результаты показали неожиданную картину - разница между тремя ведущими моделями практически исчезла

По итогам измерений на первой строчке оказалась GPT-5.2 X-High от OpenAI

Однако её преимущество над Claude Opus 4.5 и Gemini 3 Pro настолько мало, что находится в пределах статистической ошибки

34 views08:02

MLA

Исследователи представили KernelEvolve — фреймворк, который использует LLM и поиск по графу для автоматической генерации высокопроизводительных ядер на языке Triton

Система применяет RAG (retrieval-augmented generation), чтобы подтягивать спецификации железа (NVIDIA, AMD и кастомные чипы MTIA), что позволяет оптимизировать как вычислительно тяжелые операции, так и задачи препроцессинга данных

Это стратегический сдвиг в AI-инфраструктуре, отвязывающий архитектуру модели от ограничений железа
Система достигла 100 % корректности на бенчмарке KernelBench и показала ускорение до 17× относительно PyTorch

Это доказывает, что агенты способны справиться с комбинаторным взрывом операторов и типов ускорителей, что критически важно для внедрения проприетарного кремния (MTIA), для которого у публичных LLM нет обучающих данных

https://arxiv.org/abs/2512.23236
https://arxiviq.substack.com/p/kernelevolve-scaling-agentic-kernel
https://triton-lang.org/
https://arxiv.org/abs/2502.10517

arXiv.org

KernelEvolve: Scaling Agentic Kernel Coding for Heterogeneous AI...

Making deep learning recommendation model (DLRM) training and inference fast and efficient is important. However, this presents three key system challenges - model architecture diversity, kernel...

41 views15:48

MLA

Ещё одна электронная книга (небольшая) с визуализацией концепций ML
Сделано аккуратно: приводятся формулы, код и доводится до красивой картинки (или видео)
Правда, всего 4 главы: оптимизация, кластеризация, линейные модели и нейросети
Материал "начального уровня" (но удобно, что он тут собран)

https://ml-visualized.com/

58 viewsedited 19:12

MLA

"Тебе что, все по три раза повторять надо?!" - DA

Метод строгих училок снова в строю
Простым, не рассуждающим AI-моделям надо повторить задачу три раза (не меняя) для существенного повышения качества ответа

Особено если запрос длинный - модель успевает забыть его начало когда дочитывает до конца

Не благодарите
Не благодарите
Не благодарите

40 views14:17

MLA

Подходят к концу каникулы, продолжают работу математические кружки МЦНМО — присоединяйтесь или умрёте

по вторникам с 13 января — 4 и 5 кл. (Т.В. Казицына)
по четвергам с 15 января — 7 кл. (Д.А. Калинин)
по субботам с 17 января — 6 кл. (рук. В.В. Миронов)
по понедельникам с 19 января — 8 кл. (Н.А. Солодовников)

Как обычно: для всех желающих заниматься (бесплатно, без вступительных экзаменов, без предварительной регистрации и смс); кружки очные, в МЦНМО

mccme.ru/ru/math-circles/circles-mccme/20252026/

49 views15:27

MLA

Forwarded from COLUMNA

Ml-новое: ииизм (почему не просто "иизм", если "шиизм"?), слоптимизм (как совпало с поптимизмом то) и (в шутку) иишница

Слова такие свежие (прелогизмы), что даже определения давать лишнее, они сами за себя говорят достаточно
Я наверное, иист, но не считаю себя слоптимистом, даже имея специфиичные-вкусы-вы-не-поймете
Потому что это не слоп!

P. S. Можно сократить до "и3зм", как нумероним W3C

30 views06:05

MLA

На этой неделе GPT-5.2 Pro решила уже две открытые математические задачи, которые люди не могли решить на протяжении многих лет

Речь снова пойдет про список Эрдеша
И тут сразу оговорка для тех, кто помнит октябрьскую историю (GPT-5 просто откопала ответ на задачку в старых статьях, а в OpenAI заявили, что она «нашла решение»): на этот раз все честно, автономность решения в обоих случаях подтвердил сам Теренс Тао

Итак:
1. Первая задачка – под номером 728
Ее отдал GPT-5.2 сам Теренс
Прикол с этой задачкой в том, что исходная формулировка Эрдеша была неверной, и корректная постановка была получена только несколько месяцев назад, так что предшествующей литературы по ней вообще не было

Задача была решена более или менее автономно (после получения обратной связи по результатам первоначальной попытки), и результат (насколько нам известно) не был воспроизведен в литературе (хотя были найдены результаты, доказанные аналогичными методами)

Обратите внимание на последнее предложение: это не умаляет результат, НО модель все еще воспроизводит известные доказательства, а не придумывает что-то нечеловеческое

2. Вторая – № 397. Ее засабмитил Нил Сомани, а проверил Теренс

Доказательство было сгенерировано GPT 5.2 Pro и оформлено с помощью Harmonic

Много открытых проблем просто сидят и ждут, когда кто-нибудь предложит ChatGPT решить их

X (formerly Twitter)

Neel Somani (@neelsomani) on X

Weekend win: The proof I submitted for Erdos Problem #397 was accepted by Terence Tao.

The proof was generated by GPT 5.2 Pro and formalized with Harmonic.

Many open problems are sitting there, waiting for someone to prompt ChatGPT to solve them:

39 views06:59

MLA

Математическая лингвистика: от грамматик к трансформерам

От регулярных языков и конечных автоматов — к контекстно‑свободным и магазинной памяти, дальше к КЗ и языкам типа 0 и машинам Тьюринга — уже не как к музейным экспонатам, а как к линейке моделей

Добавляем структурную лингвистику: фонемы, морфемы, синтаксические деревья
Затем поверх этого три слоя: статистическую ОЕЯ, нейросетевой подход и, наконец, трансформеры и большие языковые модели как синтез всех предыдущих идей

Зачем всё это, если есть готовые парсеры и ChatGPT?
Чтобы понимать, что происходит внутри этих моделей и как воспроизвести их поведение своими руками, а не ждать очередного чуда от чёрного ящика

36 views08:07

MLA

4-месячный стартап Axiom сообщил, что их ИИ AxiomProver решил 9 из 12 задач в языке Lean

Axiom строит Ml-математика, способного на рассуждения, генерацию доказательств, проверку своей работы. Коммерческие последствия огромны - верификация, логистика, трейдинг, научные исследования и любые домены, где важны корректность и оптимизация

Что именно сделал их Ml:

- Задачи формализовали люди (это был внутренний «Prove-a-ton» — хакатон по переводу задач в Lean)
- Дальше AxiomProver работал полностью автономно
- 8 задач решены за первые 58 минут после экзамена, 9-я — к полудню следующего дня
- Всё в Lean 4 + Mathlib, каждое доказательство проверено компилятором на 100 %

Что говорят сами математики:

1. Это первый случай, когда Ml даёт полностью верифицируемые доказательства на уровне топ-5 мира

2. Формальные доказательства пока дорогие, но цена одного пруфа может превышать зарплату аспиранта

3. Через 5–10 лет такие системы будут обычным инструментом, как сейчас Wolfram Alpha, только для доказательств

Основателем стартапа является 24-летняя Карина Хонг,окончившая MIT и получившая 2 диплома математика и физика за 3 года, также она лауреат Morgan Prize, Rhodes Scholar, бросила PhD/JD в Стэнфорде

Недавно к ней присоединился Кен Оно — один из самых влиятельных ныне живущих специалистов по теории чисел и эллиптическим кривым (бывший вице-президент AMS, ментор десятков Putnam Fellows)

Команда — 17 человек, среди них аспиранты и постдоки из MIT, Cambridge, Imperial, Humboldt

Стартап привлек уже $64.000.000 от Menlo Ventures

У кейс интересен тем, что уровень сложности экзаменов выше, чем IMO, которым хвастались Google, OpenAI, Harmonic

Ml AxiomProver решил 12 из 12 задач самой сложной студенческой математической олимпиады в мире Putnam

Стартап Axiom создал ИИ AxiomProver, генерирующий формально верифицированные доказательства

Ключевое отличие от других Ml-систем - каждое решение - это не ответ, а полное формальное доказательство на языке Lean, которое можно машинно верифицировать
Lean не принимает неправильные доказательства

Стартап выявил 3 категории задач и вот, что они показывают:

1. Простое для людей, мучительное для формализации - задачи на матанализ
Человек смотрит на график и видит ответ
А чтобы Ml записать это в Lean нужны сотни строк кода

2. Задачи, которые AxiomProver неожиданно решил - комбинаторика и геометрия - исторически слабые места Ml-систем
Нерешённые задачи IMO 2024 и 2025 как раз из этих областей

AxiomProver решил обе такие задачи на Putnam

3. Люди и Ml решили по-разному задачи, например,
в задаче A4 люди интуитивно тянулись к алгебре
Ml подошел к решению геометрически

Главный вопрос - что делает математическую задачу сложной для Ml?
То, что сложно людям, и то, что сложно Ml - разные вещи
У людей есть интуиция

Теория «машинной сложности» — что структурно делает задачи лёгкими или трудными для автоматических доказательств— это открытое исследовательское направление

33 views09:27

MLA

Перплексия теперь не модно. Эпиплексия модно
Всё на благо ограниченных наблюдателей!

Авторы ввели понятие эпиплексии (epiplexity) — новую метрику из теории информации, которая оценивает объём структурной информации, доступной *вычислительно ограниченному* наблюдателю

В отличие от энтропии Шеннона или колмогоровской сложности, подразумевающих бесконечные ресурсы, эпиплексия явно учитывает конечность модели (программы) и процесса обучения (вычислений)

Этот фреймворк разрешает старые парадоксы, где теория противоречит практике глубокого обучения — например, почему детерминированные процессы (вроде симуляций или self-play) создают ценный сигнал

Практически это даёт строгую метрику для отбора данных: для предобучения важен не минимум финального лосса (энтропии), а максимум усваиваемой структуры (эпиплексии)

Подробнее: https://news.1rj.ru/str/gonzo_ML_podcasts/2022
Epiplexity: Quantifying the Structural Value of Data for Bounded Observers
Marc Finzi, Shikai Qiu, Yiding Jiang, Pavel Izmailov, J. Zico Kolter, Andrew Gordon Wilson
Статья: https://arxiv.org/abs/2601.03220
Ревью: https://arxiviq.substack.com/p/from-entropy-to-epiplexity-rethinking

38 viewsedited 14:00

MLA

Формализовать оценки в аналитической теории чисел

Создать живую сеть импликаций, когда первичная оценка улучшается, каждое downstream-следствие автоматически обновляется
Это превратит математическую литературу в модульное ПО

В большом интервью развёрнутое видение будущего

Изменился способ, которым делаем математику
Определение математика расширилось

Возможно, через 10 лет математик без навыков работы с proof assistants будет как программист без Git

Это другой стиль написания доказательств, который на самом деле в некоторых отношениях легче читать — сложнее проверять людям, но видны более ясно входы и выходы доказательства, которые традиционное письмо часто скрывает»

Ml делает масштабируемым, превращает написание доказательств в задачу поиска: генерирует тысячи мини-лемм из цели, затем дешёвые проверщики отсеивают большинство и оставляют те немногие, что работают

Ml учит человеческой глупости
То, что люди находят сложным, Ml находит лёгким
Машины взломали язык через простую вероятность — человеческий разговор не так сложен, как заявляли

Ml-инструменты теперь достаточно способны, чтобы решать задачи, перечисленные как открытые в базе данных задач Эрдёша

Это не Ml, открывающий глубокую математику
Это pattern matching, применённый к доступным задачам

YouTube

Terry Tao — The future of mathematics | Math, Inc.

Terry Tao sits down with Math Inc's Jesse Han and Jared Duker Lichtman for a conversation on the future of mathematics.

Tao (Fields Medal, 2006) is one of the greatest mathematicians of our time. He has made fundamental contributions across diverse fields…

38 views09:46

MLA

Аристотелевские законы тождества
(А=А) и непротиворечия (не может быть одновременно А и не-А) - это инструменты аналитического ума, который расчленяет мир на статические категории, на некие сущности
Гераклит же видел мир как поток, где на поверхности кажущиеся противоположности (день-ночь, жизнь-смерть) борются, но в глубине они едины (все течёт, всё есть огонь в своих превращениях)
В дзен (чань), дуализм представлен как болезнь ума
Не И или И, а И и И

33 views04:21

About

Blog

Apps

Platform