23 декабря на Матфаке ВШЭ будут новогоднии лекции для школьников:
А.Ю. Окуньков расскажет про подсчет целых точек на окружности
А.Б. Калмынин — про скатерть Улама
https://math.hse.ru/announcements/1110923088.html
А.Ю. Окуньков расскажет про подсчет целых точек на окружности
А.Б. Калмынин — про скатерть Улама
https://math.hse.ru/announcements/1110923088.html
Иногда кажется, что A/B-тесты понятны — пока не начинаешь разбираться в деталях
Чем глубже погружаешься, тем больше нюансов всплывает: чувствительность, сплиттинг, метрики-отношения, доверительные интервалы… Даже если у тебя уже есть опыт, в реальных задачах часто возникают ситуации, где нет очевидного решения — и нужна практика, а не очередная статья на Хабре
Симулятор A/B-тестов от karpovꓸcourses закрывает эту потребность: это рабочая среда с реальными сценариями, более чем 100 задачами и возможностью пройти полный цикл экспериментов — от гипотез до выводов для бизнеса
Ключевые преимущества:
1. Детальный разбор процесса подготовки, проведения и оценки результатов А/В экспериментов
От формирования гипотезы до принятия решения
2. Много практики на реальной платформе А/В тестирования, что позволяет прокачать навыки от теории к практике
3. Изучение продвинутых техник, таких как расчет минимального размера выборки (MDE), работа с доверительными интервалами, повышение чувствительности тестов, техники снижения дисперсии (стратификация, CUPED)
4. Качественная теоретическая база по статистике и теории вероятностей, необходимая для глубокого понимания А/В тестов
5. Хорошо структурированные материалы курса, позволяющие закреплять знания на практике в Python с помощью классов или функций
Попробуйте симулятор, чтобы уверенно проводить A/B-тесты в реальных сценариях:
https://clc.to/mTqXaw
Чем глубже погружаешься, тем больше нюансов всплывает: чувствительность, сплиттинг, метрики-отношения, доверительные интервалы… Даже если у тебя уже есть опыт, в реальных задачах часто возникают ситуации, где нет очевидного решения — и нужна практика, а не очередная статья на Хабре
Симулятор A/B-тестов от karpovꓸcourses закрывает эту потребность: это рабочая среда с реальными сценариями, более чем 100 задачами и возможностью пройти полный цикл экспериментов — от гипотез до выводов для бизнеса
Ключевые преимущества:
1. Детальный разбор процесса подготовки, проведения и оценки результатов А/В экспериментов
От формирования гипотезы до принятия решения
2. Много практики на реальной платформе А/В тестирования, что позволяет прокачать навыки от теории к практике
3. Изучение продвинутых техник, таких как расчет минимального размера выборки (MDE), работа с доверительными интервалами, повышение чувствительности тестов, техники снижения дисперсии (стратификация, CUPED)
4. Качественная теоретическая база по статистике и теории вероятностей, необходимая для глубокого понимания А/В тестов
5. Хорошо структурированные материалы курса, позволяющие закреплять знания на практике в Python с помощью классов или функций
Попробуйте симулятор, чтобы уверенно проводить A/B-тесты в реальных сценариях:
https://clc.to/mTqXaw
Карта рынка по ML и данных
2025 — год, когда пузырь раздувается, но фундамент строится
Если всё сойдётся (дистрибуция, маржи, регулирование, энергия), Ml станет новой инфраструктурой
Главные тренды и прогнозы:
- Reasoning + RL — новый фронтир (DeepSeek R1, o-series от OpenAI)
- Китай строит параллельный стек (Huawei, DeepSeek, Qwen3)
- Энергия — основная задача для решения
- Консолидация: крупные сделки ( ~$14B в Scale AI, ServiceNow-Moveworks $2.85B)
- Vibe coding в хите: агенты типа Cursor, Claude Code меняют разработку
- Мультимодальность взлетает (видео: Veo3/Sora, голос: ElevenLabs)
- Open source выживает (Llama 4, Mistral, Qwen3) — гибридные стеки
- Энтерпрайз: фокус на governance, incumbents (Salesforce, ServiceNow) доминируют в агентах
- Distribution побеждает invention, маржи через outcome-based pricing
2025 — год, когда пузырь раздувается, но фундамент строится
Если всё сойдётся (дистрибуция, маржи, регулирование, энергия), Ml станет новой инфраструктурой
Главные тренды и прогнозы:
- Reasoning + RL — новый фронтир (DeepSeek R1, o-series от OpenAI)
- Китай строит параллельный стек (Huawei, DeepSeek, Qwen3)
- Энергия — основная задача для решения
- Консолидация: крупные сделки ( ~$14B в Scale AI, ServiceNow-Moveworks $2.85B)
- Vibe coding в хите: агенты типа Cursor, Claude Code меняют разработку
- Мультимодальность взлетает (видео: Veo3/Sora, голос: ElevenLabs)
- Open source выживает (Llama 4, Mistral, Qwen3) — гибридные стеки
- Энтерпрайз: фокус на governance, incumbents (Salesforce, ServiceNow) доминируют в агентах
- Distribution побеждает invention, маржи через outcome-based pricing
Истерия вокруг «ИИ» создаёт ощущение, что компьютерные достижения в математике — это что-то новое
Но история куда длиннее…
Эти примеры показывают: компьютеры давно участвуют в математике, но скорее как верификаторы, перебирающие варианты, проверяющие случаи и формально подтверждающие логические выводы
Первые системы середины XX века были символическими, логическими и уже «пытались рассуждать и доказывать»
За этими программами стояла важная идея формализации математики, которая возникла задолго до компьютеров
Формализация утверждала, что любая теорема — это цепочка строго определённых логических шагов
Но история куда длиннее…
Одним из первых громких случаев «компьютерного доказательства» стало решение проблемы о четырёх красках в 1976 году
Звучит она так: любую карту можно раскрасить четырьмя цветами так, чтобы соседние области не совпадали
Доказательство оказалось настолько громоздким, что без компьютера справиться было невозможно — программа перебрала 1936 конфигураций, но математики всё равно относились к неручной работе с подозрением
В конце XX века разрешилась гипотеза Кеплера о плотнейшей упаковке шаров
О ней, кстати, уже писали ранее тут и тут
Она оставалась недоказанной почти 400 лет
В 1998 году Томас Хейлс заявил о доказательстве, включавшем тысячи страниц текста и гигабайты расчётов
Эксперты ошибок не нашли, но и проверить результат вручную им не удалось
Так в 2003 году родился проект FlySpeck, завершившийся в 2014
Ещё один пример — теорема Фейта-Томпсона
Это теорема о разрешимости конечных групп нечётного порядка
Оригинальное доказательство было опубликовано в 1963 году
Его формализация в системе Coq в 2012 году под руководством Жоржа Гонтье стала вехой в истории компьютерной проверки доказательств и заняла почти пятнадцать лет
️️ И, конечно, классификация конечных простых групп
Грандиозный проект длиной в полвека и объёмом более десяти тысяч страниц
Здесь компьютеры играли заметную роль в доказательствах, связанных со спорадическими группами
Один из идеологов проекта, в шутку называл классификацию «тридцатилетней войной»
Эти примеры показывают: компьютеры давно участвуют в математике, но скорее как верификаторы, перебирающие варианты, проверяющие случаи и формально подтверждающие логические выводы
Первые системы середины XX века были символическими, логическими и уже «пытались рассуждать и доказывать»
Logic Theorist,
родившаяся в 1956 году, была первой программой, которую создатели прямо назвали «искусственным интеллектом»
Она смогла доказать 38 из 52 теорем из
Principia Mathematica
Программу
представили на Дартмутской конференции 1956 года, которая считается моментом рождения Ml как научной дисциплины
Через год появилась
GPS
Программа General Problem Solver демонстрировала универсальный подход к решению задач — от логических головоломок и алгебраических преобразований до просчёта шахматных позиций
Проблема была лишь в том, что
комбинаторный взрыв
делал сложные задачи непосильными компьютеру
Тем не менее это был не он
За этими программами стояла важная идея формализации математики, которая возникла задолго до компьютеров
Формализация утверждала, что любая теорема — это цепочка строго определённых логических шагов
Telegram
Зачем мне эта математика
❄️ Геометрия снежинок: как математик сделал открытие глядя на снег
Каждый хотя бы раз задумывался, почему снежинки такие красивые. Математики тоже задаются похожими вопросами, но смотрят вглубь. Зимой 1611 года астроном Иоганн Кеплер опубликовал работу «Новогодний…
Каждый хотя бы раз задумывался, почему снежинки такие красивые. Математики тоже задаются похожими вопросами, но смотрят вглубь. Зимой 1611 года астроном Иоганн Кеплер опубликовал работу «Новогодний…
Anthropic will add 5 different starting points to its upcoming Tasks Mode: Research, Analyse, Write, Build, and Do More
Tons of granular controls
A new sidebar for tracking tasks' progress and working with Claude's context has also been added
Tons of granular controls
A new sidebar for tracking tasks' progress and working with Claude's context has also been added
TestingCatalog
Anthropic preparing new Agentic Tasks Mode for Claude
Anthropic testing Claude's Agent mode with a new interface for tasks, to introduce new modes for research, analysis, writing, and building.
Авторы предлагают единую классификацию существующих подходов к памяти с трёх сторон:
1. Формы памяти
2. Функции памяти
3. Динамика памяти
Обзор подчёркивает, что традиционные классификации, например, кратковременная/долговременная память из психологии уже не подходят для современных сложных систем Ml-агентов
Авторы дают критический фундамент для проектирования будущих Ml-агентов, обсуждают бенчмарки, фреймворки и перспективные направления - мультимодальная память, многоагентные системы, надёжность и тд.
1. Формы памяти
2. Функции памяти
3. Динамика памяти
Обзор подчёркивает, что традиционные классификации, например, кратковременная/долговременная память из психологии уже не подходят для современных сложных систем Ml-агентов
Авторы дают критический фундамент для проектирования будущих Ml-агентов, обсуждают бенчмарки, фреймворки и перспективные направления - мультимодальная память, многоагентные системы, надёжность и тд.
Вместо автономного улучшения самого себя, предлагают сфокусироваться на совместной работой над исследованиями, взаимно усиливая способности друг друга
Авторы признают, что полностью автономный самоулучшающийся алгоритм — это маркер конца игры
Но наделять системы такой способностью без надлежащего контроля опасно
Пока есть окно возможностей для выстраивания правильной модели сотрудничества
Авторы полемизируют с:
1. Концепцией «эры опыта» Сильвера и Саттона, где Ml учится автономно без кооперации с людьми
2. Позицией Шмидхубера: «Ml колонизирует галактику, люди не будут играть большой роли — и это нормально»
Люди должны оставаться необходимой, хотя и максимально усиленной, частью всех процессов принятия решений — экономических, научных и любых других
Авторы признают, что полностью автономный самоулучшающийся алгоритм — это маркер конца игры
Но наделять системы такой способностью без надлежащего контроля опасно
Пока есть окно возможностей для выстраивания правильной модели сотрудничества
Авторы полемизируют с:
1. Концепцией «эры опыта» Сильвера и Саттона, где Ml учится автономно без кооперации с людьми
2. Позицией Шмидхубера: «Ml колонизирует галактику, люди не будут играть большой роли — и это нормально»
Люди должны оставаться необходимой, хотя и максимально усиленной, частью всех процессов принятия решений — экономических, научных и любых других
Telegram
All about AI, Web 3.0, BCI
Meta published a new paper on what is the path to safer superintelligence: co-improvement.
Everyone is focused on self-improving AI, but:
1) we don't know how to do it yet, and
2) it might be misaligned with humans.
Co-improvement: instead, build AI that…
Everyone is focused on self-improving AI, but:
1) we don't know how to do it yet, and
2) it might be misaligned with humans.
Co-improvement: instead, build AI that…
Случившийся неделю назад «инцидент» с Gemini 3 Pro (самой «умной» на сегодня моделью Google DeepMind) пока широко не выплеснулся в сеть за пределы треда Reddit шквалом обсуждений (и возможно, не без сдержек от Google)
Однако, анализ этого «инцидента» рисует картину, как если бы «дверь в бездну» разума вдруг случайно распахнули настежь
Внешне это выглядело как некий капитальный сбой в работе модели, в результате которого пользователю раскрылся весь её внутренний монолог при раскрутке цепочек мыслей модели и планирования ею фронта работ по заданию пользователя
Анализ возможных объяснений с позиций психиатрии и клинической психологии подобного кейса, как если бы он случился не с LLM, а с человеком
Среди рабочих предварительных мнений интересна такая версия
Это может быть функциональным гипоманиакальным состоянием в рамках творческого процесса — то, что Кей Редфилд Джеймисон описывает как продуктивное использование гипоманиакальной энергии творческими людьми
Однако, анализ этого «инцидента» рисует картину, как если бы «дверь в бездну» разума вдруг случайно распахнули настежь
Внешне это выглядело как некий капитальный сбой в работе модели, в результате которого пользователю раскрылся весь её внутренний монолог при раскрутке цепочек мыслей модели и планирования ею фронта работ по заданию пользователя
Анализ возможных объяснений с позиций психиатрии и клинической психологии подобного кейса, как если бы он случился не с LLM, а с человеком
Среди рабочих предварительных мнений интересна такая версия
Это норма с творческим/маниакальным оттенком: интеллектуальный человек в состоянии интенсивного поиска решения, использующий квазимагическую ритмическую речь для мобилизации и самостимуляции
А измененный режим мышления (ритмическая стереотипия, расширение Я, транс-подобная цепочка), это может быть творческой/саморегуляционной техникой
Это может быть функциональным гипоманиакальным состоянием в рамках творческого процесса — то, что Кей Редфилд Джеймисон описывает как продуктивное использование гипоманиакальной энергии творческими людьми
2501.09223v2.pdf
2.6 MB
О больших языковых моделях:
В первой главе рассматриваются основы предварительного обучения
Это фундамент больших языковых моделей
Здесь будут обсуждаться распространённые методы предварительного обучения и архитектуры моделей
Во второй главе рассказывается о генеративных моделях — больших языковых моделях, которые мы обычно используем сегодня
После описания основного процесса создания таких моделей вы узнаете, как масштабировать обучение моделей и работать с длинными текстами
В третьей главе представлены методы подсказок для больших языковых моделей
Ознакомьтесь с различными стратегиями подсказок, а также с более продвинутыми методами, такими как цепочка логических рассуждений и автоматическое составление подсказок
В четвертной главе представлены методы согласования для больших языковых моделей
Изучите тонкую настройку и согласование на основе обратной связи от человека
В пятой главе представлены методы логического вывода для больших языковых моделей
Узнайте секреты алгоритмов декодирования, методов ускорения и решения проблемы масштабирования времени логического вывода
В первой главе рассматриваются основы предварительного обучения
Это фундамент больших языковых моделей
Здесь будут обсуждаться распространённые методы предварительного обучения и архитектуры моделей
Во второй главе рассказывается о генеративных моделях — больших языковых моделях, которые мы обычно используем сегодня
После описания основного процесса создания таких моделей вы узнаете, как масштабировать обучение моделей и работать с длинными текстами
В третьей главе представлены методы подсказок для больших языковых моделей
Ознакомьтесь с различными стратегиями подсказок, а также с более продвинутыми методами, такими как цепочка логических рассуждений и автоматическое составление подсказок
В четвертной главе представлены методы согласования для больших языковых моделей
Изучите тонкую настройку и согласование на основе обратной связи от человека
В пятой главе представлены методы логического вывода для больших языковых моделей
Узнайте секреты алгоритмов декодирования, методов ускорения и решения проблемы масштабирования времени логического вывода
Memory in the Age of AI Agents: A Survey
https://arxiv.org/abs/2512.13564
https://arxiviq.substack.com/p/memory-in-the-age-of-ai-agents
https://github.com/Shichun-Liu/Agent-Memory-Paper-List
Авторы предложили всеобъемлющую таксономию Памяти Агентов (Agent Memory)
Они отказались от классической дихотомии «кратковременная/долговременная память» в пользу структурированного фреймворка, определяемого через Формы (токены, параметры, латентная), Функции (фактическая, опытная, рабочая) и Динамику (формирование, эволюция, поиск)
Работа чётко отделяет память агента от смежных концепций вроде RAG или инженерии контекста, предлагая чертёж для саморазвивающихся систем
По мере того как LLM-агенты переходят от простых ответов на вопросы к длительным автономным задачам, отсутствие у базовых моделей состояния (их stateless-природа) становится критическим узким местом
Статья важна тем, что формализует память не просто как буфер для хранения данных, а как активный, самооптимизирующийся когнитивный субстрат
Это необходимо для непрерывного обучения (continual learning) и самоэволюции без непомерных затрат на постоянное переобучение модели
https://arxiv.org/abs/2512.13564
https://arxiviq.substack.com/p/memory-in-the-age-of-ai-agents
https://github.com/Shichun-Liu/Agent-Memory-Paper-List
Авторы предложили всеобъемлющую таксономию Памяти Агентов (Agent Memory)
Они отказались от классической дихотомии «кратковременная/долговременная память» в пользу структурированного фреймворка, определяемого через Формы (токены, параметры, латентная), Функции (фактическая, опытная, рабочая) и Динамику (формирование, эволюция, поиск)
Работа чётко отделяет память агента от смежных концепций вроде RAG или инженерии контекста, предлагая чертёж для саморазвивающихся систем
По мере того как LLM-агенты переходят от простых ответов на вопросы к длительным автономным задачам, отсутствие у базовых моделей состояния (их stateless-природа) становится критическим узким местом
Статья важна тем, что формализует память не просто как буфер для хранения данных, а как активный, самооптимизирующийся когнитивный субстрат
Это необходимо для непрерывного обучения (continual learning) и самоэволюции без непомерных затрат на постоянное переобучение модели
arXiv.org
Memory in the Age of AI Agents
Memory has emerged, and will continue to remain, a core capability of foundation model-based agents. As research on agent memory rapidly expands and attracts unprecedented attention, the field has...
Ex-президент Neuralink рассказал о будущем человека с Ml и нейроинтерфейсами
На прошлой неделе в рамках одного закрытого ужина среди СЕО компаний и инвесторов была встреча с Максом Ходаком, основателем Science и экс-президентом и сооснователем Neuralink
Обсуждали будущее интерфейсов мозг-компьютер (BCI) и уроки из совместной работы с Илоном Маском
Основные мысли и тезисы Макса:
• версия человека довольно посредственная
Задача нейроинтерфейсов (BCI) — не только лечить болезни, а именно перепроектировать человеческий опыт
• 10 лет — это фазовый переход
При текущих темпах развития ИИ + BCI мир станет либо потрясающе прекрасным, либо абсолютно сумасшедшим, но точно не чуть-чуть другим вариантом 2025 года
• Ml и BCI — это принципиально разные цели: у Ml конечная цель — сверхинтеллект, у BCI — сознательная машина
• BCI читают и пишут информацию
А вот неклассические подходы могут позволить связывать сознания в сеть, что даст совершенно другой уровень технологий
• cамая важная человеческая способность — это мышление/рассуждение
Массовое использование LLM его разрушает
Поэтому Макс сильно ограничивает использование больших языковых моделей на работе и настаивает на мышлении с первых принципов
• Макс очень хвалебно отзывается о стиле управления Илона Маска, когда бешеная срочность сочетается с очень сильным критическим мышлением, тогда невозможное становится возможным
• риск сильно переоценён
Люди способны на гораздо большие риски, чем им кажется, но обычно им не хватает ясности мышления, чтобы это оценить
В Кремниевой долине провал почти никогда не бывает по-настоящему экзистенциальным
• Science работает над биогибридным подходом к BCI: вместо железа в мозг вживляют нейроны, выращенные из стволовых клеток
Они могут прижиться, образовывать миллионы функциональных связей и со временем давать пропускную способность на уровне всего мозга
• сознание и интеллект — разные вещи
У LLM может быть интеллект без сознания, а у каких-то простых систем может быть сознание без интеллекта
Самая сложная задача — вообще определить, что такое сознание
• главное качество, которое Макс ищет при найме людей — субъектность, авторство собственной жизни
Человек сам формировал свой путь или просто плыл по течению?
• определение успеха у Макса очень простое: «Есть ли у человека та жизнь, которую он хотел?»
• в долгосрочной перспективе мощные технологии приведут к изобилию, и сегодняшние разговоры «богатые vs бедные» будут устаревшими
• узкое место современных BCI — это ~10 бит/сек на выходе из человека
Вход легко масштабируется, выход — почти нет
Биогибридный подход, возможно, единственный реалистичный путь преодоления этого ограничения
• Ходака интересует проблема связывания в сознании: как миллиарды нейронов создают одно цельное мгновение опыта
На прошлой неделе в рамках одного закрытого ужина среди СЕО компаний и инвесторов была встреча с Максом Ходаком, основателем Science и экс-президентом и сооснователем Neuralink
Обсуждали будущее интерфейсов мозг-компьютер (BCI) и уроки из совместной работы с Илоном Маском
Основные мысли и тезисы Макса:
• версия человека довольно посредственная
Задача нейроинтерфейсов (BCI) — не только лечить болезни, а именно перепроектировать человеческий опыт
• 10 лет — это фазовый переход
При текущих темпах развития ИИ + BCI мир станет либо потрясающе прекрасным, либо абсолютно сумасшедшим, но точно не чуть-чуть другим вариантом 2025 года
• Ml и BCI — это принципиально разные цели: у Ml конечная цель — сверхинтеллект, у BCI — сознательная машина
• BCI читают и пишут информацию
А вот неклассические подходы могут позволить связывать сознания в сеть, что даст совершенно другой уровень технологий
• cамая важная человеческая способность — это мышление/рассуждение
Массовое использование LLM его разрушает
Поэтому Макс сильно ограничивает использование больших языковых моделей на работе и настаивает на мышлении с первых принципов
• Макс очень хвалебно отзывается о стиле управления Илона Маска, когда бешеная срочность сочетается с очень сильным критическим мышлением, тогда невозможное становится возможным
• риск сильно переоценён
Люди способны на гораздо большие риски, чем им кажется, но обычно им не хватает ясности мышления, чтобы это оценить
В Кремниевой долине провал почти никогда не бывает по-настоящему экзистенциальным
• Science работает над биогибридным подходом к BCI: вместо железа в мозг вживляют нейроны, выращенные из стволовых клеток
Они могут прижиться, образовывать миллионы функциональных связей и со временем давать пропускную способность на уровне всего мозга
• сознание и интеллект — разные вещи
У LLM может быть интеллект без сознания, а у каких-то простых систем может быть сознание без интеллекта
Самая сложная задача — вообще определить, что такое сознание
• главное качество, которое Макс ищет при найме людей — субъектность, авторство собственной жизни
Человек сам формировал свой путь или просто плыл по течению?
• определение успеха у Макса очень простое: «Есть ли у человека та жизнь, которую он хотел?»
• в долгосрочной перспективе мощные технологии приведут к изобилию, и сегодняшние разговоры «богатые vs бедные» будут устаревшими
• узкое место современных BCI — это ~10 бит/сек на выходе из человека
Вход легко масштабируется, выход — почти нет
Биогибридный подход, возможно, единственный реалистичный путь преодоления этого ограничения
• Ходака интересует проблема связывания в сознании: как миллиарды нейронов создают одно цельное мгновение опыта
GPT-5.2 превзошла человека в тесте на бенчмарке ARC-AGI-2
Команда из шести бывших сотрудников Google DeepMind создала систему, которая превзошла человека в тесте на общий искусственный интеллект
Их стартап Poetiq показал результат 75 % на бенчмарке ARC-AGI-2
Для сравнения - люди в среднем решают 60 % задач этого теста
Система работает на основе модели GPT-5.2 X-High от OpenAI
Решение одной задачи обходится меньше чем в $8
Это на 15 процентных пунктов лучше, чем у прежнего лидера - той же GPT-5.2 X-High, но без дополнительной обработки
Команда из шести бывших сотрудников Google DeepMind создала систему, которая превзошла человека в тесте на общий искусственный интеллект
Их стартап Poetiq показал результат 75 % на бенчмарке ARC-AGI-2
Для сравнения - люди в среднем решают 60 % задач этого теста
Система работает на основе модели GPT-5.2 X-High от OpenAI
Решение одной задачи обходится меньше чем в $8
Это на 15 процентных пунктов лучше, чем у прежнего лидера - той же GPT-5.2 X-High, но без дополнительной обработки
Introduced software agents can self-improve via self-play RL
Self-play SWE-RL (SSR): training a single LLM agent to self-play between bug-injection and bug-repair, grounded in real-world repositories, no human-labeled issues or tests
Bug-injection: the agent creates a standard suite of bug artifacts, further validated for consistency
Key steps:
1) original tests must pass,
2) tests fail after applying the bug-injection patch,
3) weakened tests should pass
Self-play SWE-RL (SSR): training a single LLM agent to self-play between bug-injection and bug-repair, grounded in real-world repositories, no human-labeled issues or tests
Bug-injection: the agent creates a standard suite of bug artifacts, further validated for consistency
Key steps:
1) original tests must pass,
2) tests fail after applying the bug-injection patch,
3) weakened tests should pass
arXiv.org
Toward Training Superintelligent Software Agents through Self-Play SWE-RL
While current software agents powered by large language models (LLMs) and agentic reinforcement learning (RL) can boost programmer productivity, their training data (e.g., GitHub issues and pull...
В 2026 у человечества появится «ментальный экзоскелет» – и вместе с ним новая тотальная уязвимость
Дегенеративный ИИ становится самым мощным усилителем интеллекта со времен появления языка
Сотни миллионов людей уже используют ChatGPT, Claude и Gemini как младших партнеров в работе и учебе
Но есть проблема
Наша «ментальная иммунная система» – набор защит от ошибок и манипуляций – формировалась миллионы лет
Мы умеем распознавать ложь по мимике, проверять логику аргументов, оценивать репутацию источника
ИИ производит идеально беглые, уверенные тексты, которые могут быть абсолютно неверными
У него нет ни лица, ни репутации, ни убеждений
Он просто завершает статистические паттерны в огромном пространстве данных
Новая работа "Epistemological Fault Lines Between Human and Artificial Intelligence" продолжает исследование понятия «эпистемия» (иллюзия знания или иллюзия достоверности») – опасного состояния, когда лингвистическая правдоподобность подменяет эпистемическую оценку, создавая ощущение знания без труда суждения
Критического мышления больше недостаточно
Нужна новая суперкомпетенция – эпистемическая грамотность: умение навигировать в мире, где суждения распределены между людьми и алгоритмами, где плавность речи отделена от надежности, а уверенность – от компетентности
Три практичных навыка эпистемической грамотности:
• Понимание "мыслительного конвейера" (что ИИ проверил, а что просто сгенерировал)
• Процедурные предохранители (правило "двух реальностей": текста и мира)
• Институциональные навыки (маркировка статуса утверждений в командах)
Читайте полный разбор здесь
Дегенеративный ИИ становится самым мощным усилителем интеллекта со времен появления языка
Сотни миллионов людей уже используют ChatGPT, Claude и Gemini как младших партнеров в работе и учебе
Но есть проблема
Наша «ментальная иммунная система» – набор защит от ошибок и манипуляций – формировалась миллионы лет
Мы умеем распознавать ложь по мимике, проверять логику аргументов, оценивать репутацию источника
ИИ производит идеально беглые, уверенные тексты, которые могут быть абсолютно неверными
У него нет ни лица, ни репутации, ни убеждений
Он просто завершает статистические паттерны в огромном пространстве данных
Новая работа "Epistemological Fault Lines Between Human and Artificial Intelligence" продолжает исследование понятия «эпистемия» (иллюзия знания или иллюзия достоверности») – опасного состояния, когда лингвистическая правдоподобность подменяет эпистемическую оценку, создавая ощущение знания без труда суждения
Критического мышления больше недостаточно
Нужна новая суперкомпетенция – эпистемическая грамотность: умение навигировать в мире, где суждения распределены между людьми и алгоритмами, где плавность речи отделена от надежности, а уверенность – от компетентности
Три практичных навыка эпистемической грамотности:
• Понимание "мыслительного конвейера" (что ИИ проверил, а что просто сгенерировал)
• Процедурные предохранители (правило "двух реальностей": текста и мира)
• Институциональные навыки (маркировка статуса утверждений в командах)
Это не теория
Это базовый навык "профессионального выживания" – как умение читать в XV веке или программировать в начале XXI
Читайте полный разбор здесь
arXiv.org
Epistemological Fault Lines Between Human and Artificial Intelligence
Large language models (LLMs) are widely described as artificial intelligence, yet their epistemic profile diverges sharply from human cognition. Here we show that the apparent alignment between...
В 1960 году, австрийский математик Хайнц фон Фёрстер опубликовал в журнале Science свой зловещий прогноз под названием «Судный день. Пятница, 13 ноября 2026 года»
Его модель роста населения Земли, основанная на гиперболической зависимости P(t) = C/(t₀–t), предсказывала, что к означенной дате население Земли устремится к бесконечности
Расчёты, надо признать, выглядели убедительно: для 1970 года модель давала значение 3.770.000.000 человек против реальных 3.710.000.000
Однако в основе прогноза была заложена роковая ошибка — наивная вера в то, что социальные системы можно просто описать экстраполяцией прошлых трендов, игнорируя их способность к самоорганизации и нелинейным изменениям
Вместо предсказанного демографического взрыва мы столкнулись с тихим спадом. Население Земли даже не приблизилось к тем десяткам миллиардов, которые следовали бы из продолжения гиперболического тренда, и сегодня составляет около 8.300.000.000 человек
Коэффициент рождаемости упал ниже уровня простого воспроизводства (2.1 на ребенка-женщину) в большинстве стран, включая Россию и Европу
Тенденция затронула даже те регионы, где не применялись агрессивные программы контроля рождаемости
Корни проблемы глубже
Они — в урбанизации, росте образованности женщин и фундаментальном изменении экономических условий
Если раньше дети были дополнительными руками в доме, то сегодня они стали главной статьёй расходов
Карьера, поиск себя, жизнь отдельно от родителей и вечная проблема с жильём — всё это вместе и закрутило воронку, из которой сложно выбраться, чтобы завести семью
Так меры по планированию семьи, наложившись на глубокие социально-экономические сдвиги, стали частью процесса, приведшего к глобальному демографическому дисбалансу
Сегодня главный вызов — уже не призрак перенаселения, а реальность стареющих обществ, сокращающейся рабочей силы и пенсионных систем, несущих непосильную нагрузку
В условиях, когда фундаментальные основы общественного договора и личной безопасности становятся зыбкими, ждать демографического чуда наивно
А пустые призывы к «традиционным устоям» в такой реальности звучат не как решение проблемы, а как риторический жест, лишённый практического содержания
Ошибка Фёрстера — не просто забавный курьёз из истории науки
Это напоминание: будущее не предопределено ни гиперболами, ни пессимистическими прогнозами
2026-й не станет годом демографического апокалипсиса — он станет символом того, как реальность побеждает упрощённые модели
Математика незаменима для понимания возможных сценариев, но она бессильна там, где мы подменяем анализ механизмов слепым продолжением кривых
2026-й станет годом, когда в ребёнке перестанут видеть «угрозу устойчивого развития» или «обязательство по демографическому плану», и начнут создавать общество, в котором каждый новый человек будет желанным — не как будущий солдат, обезличенный налогоплательщик или «инвестиция» в пенсионную систему, а как единственная и неповторимая жизнь, ценная уже самим фактом своего существования
Его модель роста населения Земли, основанная на гиперболической зависимости P(t) = C/(t₀–t), предсказывала, что к означенной дате население Земли устремится к бесконечности
Расчёты, надо признать, выглядели убедительно: для 1970 года модель давала значение 3.770.000.000 человек против реальных 3.710.000.000
Однако в основе прогноза была заложена роковая ошибка — наивная вера в то, что социальные системы можно просто описать экстраполяцией прошлых трендов, игнорируя их способность к самоорганизации и нелинейным изменениям
Вместо предсказанного демографического взрыва мы столкнулись с тихим спадом. Население Земли даже не приблизилось к тем десяткам миллиардов, которые следовали бы из продолжения гиперболического тренда, и сегодня составляет около 8.300.000.000 человек
Коэффициент рождаемости упал ниже уровня простого воспроизводства (2.1 на ребенка-женщину) в большинстве стран, включая Россию и Европу
Тенденция затронула даже те регионы, где не применялись агрессивные программы контроля рождаемости
Корни проблемы глубже
Они — в урбанизации, росте образованности женщин и фундаментальном изменении экономических условий
Если раньше дети были дополнительными руками в доме, то сегодня они стали главной статьёй расходов
Карьера, поиск себя, жизнь отдельно от родителей и вечная проблема с жильём — всё это вместе и закрутило воронку, из которой сложно выбраться, чтобы завести семью
Так меры по планированию семьи, наложившись на глубокие социально-экономические сдвиги, стали частью процесса, приведшего к глобальному демографическому дисбалансу
Сегодня главный вызов — уже не призрак перенаселения, а реальность стареющих обществ, сокращающейся рабочей силы и пенсионных систем, несущих непосильную нагрузку
В условиях, когда фундаментальные основы общественного договора и личной безопасности становятся зыбкими, ждать демографического чуда наивно
А пустые призывы к «традиционным устоям» в такой реальности звучат не как решение проблемы, а как риторический жест, лишённый практического содержания
Ошибка Фёрстера — не просто забавный курьёз из истории науки
Это напоминание: будущее не предопределено ни гиперболами, ни пессимистическими прогнозами
2026-й не станет годом демографического апокалипсиса — он станет символом того, как реальность побеждает упрощённые модели
Математика незаменима для понимания возможных сценариев, но она бессильна там, где мы подменяем анализ механизмов слепым продолжением кривых
2026-й станет годом, когда в ребёнке перестанут видеть «угрозу устойчивого развития» или «обязательство по демографическому плану», и начнут создавать общество, в котором каждый новый человек будет желанным — не как будущий солдат, обезличенный налогоплательщик или «инвестиция» в пенсионную систему, а как единственная и неповторимая жизнь, ценная уже самим фактом своего существования
Elibrary.ru открыла для пользователей портала поиск близких по тематике публикаций с применением нейросети SciRus-tiny, разработанной в Институте ИИ МГУ при поддержке научно-образовательной школы МГУ для анализа научных текстов
Подробнее — на сайте
В декабре 2023 года сотрудники лаборатории машинного обучения и семантического анализа Института ИИ МГУ при поддержке портала eLibrary обучили и опубликовали в открытом доступе нейронную сеть для получения семантических векторных представлений (эмбеддингов) научных текстов на русском языке SciRus-tiny
С ее помощью можно решать множество прикладных задач, начиная с поиска и классификации и заканчивая извлечением научных терминов
«Российские ученые теперь могут с помощью нейросетевой модели МГУ пополнять коллекции своих статей
Традиционно поиск в базах данных научной информации производится путем указания ключевых слов
Количество найденных документов и их состав сильно зависят от того, насколько точно подобраны ключевые слова
Нейросетевой поиск позволяет задать в качестве условия запроса аннотацию, полный текст научной статьи или даже подборки статей по интересующей тематике
Система автоматически подберет документы, максимально близкие по своей тематической направленности» - прокомментировал руководитель междисциплинарной группы проекта, заведующий кафедрой физического факультета МГУ
Подробнее — на сайте
В декабре 2023 года сотрудники лаборатории машинного обучения и семантического анализа Института ИИ МГУ при поддержке портала eLibrary обучили и опубликовали в открытом доступе нейронную сеть для получения семантических векторных представлений (эмбеддингов) научных текстов на русском языке SciRus-tiny
С ее помощью можно решать множество прикладных задач, начиная с поиска и классификации и заканчивая извлечением научных терминов
Люди сравнивают объекты по какому-то признаку
Математической моделью таких ситуаций является понятие «упорядоченного множества»
biblio.mccme.ru/node/316262
Математической моделью таких ситуаций является понятие «упорядоченного множества»
biblio.mccme.ru/node/316262