Как ИИ-агенты научились рефакторить код: что получается хорошо, а что не очень
ИИ-агенты берут на себя задачи по улучшению кода, исправлению ошибок и даже автоматической отправке pull request’ов. Эти агенты также обещают значительно ускорить рефакторинг.
Недавнее исследование показало, что современные ИИ-агенты хорошо исправляют код с типовыми улучшениями, но почти не трогают код, требующий улучшения архитектуры или исправления сложного технического долга. Также выяснилось, что ИИ мало дать большое количество данных и простые инструкции для существенного улучшения производительности, ему также нужны механизмы рассуждений и встроенные инструменты.
В этом обзоре мы обсудим текущие возможности ИИ-агентов для рефакторинга, как их подход отличается от человеческого, и что может привести к следующему скачку производительности. Всё это повлияет на то, как мы будем работать с кодом и распределять задачи между людьми и машинами.
📜 Полный обзор
ИИ-агенты берут на себя задачи по улучшению кода, исправлению ошибок и даже автоматической отправке pull request’ов. Эти агенты также обещают значительно ускорить рефакторинг.
Недавнее исследование показало, что современные ИИ-агенты хорошо исправляют код с типовыми улучшениями, но почти не трогают код, требующий улучшения архитектуры или исправления сложного технического долга. Также выяснилось, что ИИ мало дать большое количество данных и простые инструкции для существенного улучшения производительности, ему также нужны механизмы рассуждений и встроенные инструменты.
В этом обзоре мы обсудим текущие возможности ИИ-агентов для рефакторинга, как их подход отличается от человеческого, и что может привести к следующему скачку производительности. Всё это повлияет на то, как мы будем работать с кодом и распределять задачи между людьми и машинами.
📜 Полный обзор
Telegraph
Как ИИ-агенты научились рефакторить код: что получается хорошо, а что не очень
Когда ИИ-агенты пишут код, они берут на себя всё больше сугубо человеческих задач - планирование, прогон тестов, да и даже последовательный рефакторинг. Авторы статьи Agentic Refactoring: An Empirical Study of AI Coding Agents впервые широко и глубоко посмотрели…
❤2🔥1
Как сделать интернет удобным для ИИ-агентов
ИИ-агенты впечатляюще развиваются, однако их потенциал работы с вебом остается ограниченным: агенты кликают на элементы пользовательского интерфейса, но они все еще подвержены сбоям из-за изменения положения кнопки или ее внешнего вида. Это заставляет разработчиков тратить значительное время на поддержку использования веба агентами.
Фреймворк VOIX предлагает простой, но радикальный шаг: что если бы сайты сообщали агентам, что они могут сделать? Это требует всего двух дополнительных html-тегов и делает взаимодействие агентов прозрачным как для пользователя, так и для разработчика.
Сегодня вы узнаете, почему теперь ИИ-агенты будут бродить по просторам интернета быстрее, точнее, а главное — безопаснее.
📜 Полный обзор
ИИ-агенты впечатляюще развиваются, однако их потенциал работы с вебом остается ограниченным: агенты кликают на элементы пользовательского интерфейса, но они все еще подвержены сбоям из-за изменения положения кнопки или ее внешнего вида. Это заставляет разработчиков тратить значительное время на поддержку использования веба агентами.
Фреймворк VOIX предлагает простой, но радикальный шаг: что если бы сайты сообщали агентам, что они могут сделать? Это требует всего двух дополнительных html-тегов и делает взаимодействие агентов прозрачным как для пользователя, так и для разработчика.
Сегодня вы узнаете, почему теперь ИИ-агенты будут бродить по просторам интернета быстрее, точнее, а главное — безопаснее.
📜 Полный обзор
Telegraph
Как сделать интернет удобным для ИИ-агентов
Веб-агенты сегодня ведут себя в чужих интерфейсах как нежданные гости: смотрят на скриншоты интерфейса и догадываются, на какие кнопки можно нажимать. Малейшее обновление интерфейса ломает всю логику, повышает цену поддержки пайплайнов, а приватность пользователей…
👍2
Matrix: распределенный мультиагентный фреймворк для генерации синтетических данных
Не секрет, что ИИ-агентов часто используют для генерации синтетических данных. Но когда агентам дают одновременно более двух тысяч заданий, агенты сталкиваются с пределом производительности.
Почему это происходит? Новое исследование предполагает парадоксальный ответ. Проблема не в вычислениях и не в размере моделей. Фактический потолок производительности определяется архитектурой — в частности, централизованным диспетчером, который координирует работу агентов. Как только мы убираем этот диспетчер, узкое место исчезает. И это довольно неожиданно, что запредельную масштабируемость агентных систем можно получить с помощью одного простого изменения.
Давайте поговорим о том, как замена централизованной архитектуры на одноранговую сеть агентов снимает ограничение масштабируемости и почему это важно.
📜 Полный обзор
Не секрет, что ИИ-агентов часто используют для генерации синтетических данных. Но когда агентам дают одновременно более двух тысяч заданий, агенты сталкиваются с пределом производительности.
Почему это происходит? Новое исследование предполагает парадоксальный ответ. Проблема не в вычислениях и не в размере моделей. Фактический потолок производительности определяется архитектурой — в частности, централизованным диспетчером, который координирует работу агентов. Как только мы убираем этот диспетчер, узкое место исчезает. И это довольно неожиданно, что запредельную масштабируемость агентных систем можно получить с помощью одного простого изменения.
Давайте поговорим о том, как замена централизованной архитектуры на одноранговую сеть агентов снимает ограничение масштабируемости и почему это важно.
📜 Полный обзор
Telegraph
Matrix: распределенный мультиагентный фреймворк для генерации синтетических данных
Сегодня генерацию синтетических данных делают с помощью нескольких агентов для генерации текста, оценки, использования инструментов и выбора лучшего кандидата. Генерация данных высокого качества требует агентов, которые могут взаимодействовать друг с другом…
⚡1
Когда команда ИИ-агентов помогает, а когда делает только хуже
Это вроде как интуитивно понятно: если один ИИ-агент способен решить проблему, то пятеро должны решать её в пять раз лучше и быстрее. Именно так сейчас многие и строят всё большее число мультиагентных систем. Само по себе это неплохо, но на практике именно что такая система часто превращается в неразбериху: расходуются бюджеты на токены, не сохраняется контекст и накапливаются ошибки.
И если честно, разница бывает не в процентах, а вот прям в разы: на одних задачах координация даёт огромный буст качества, а на других уверенно утаскивает результат вниз . При этом точно нельзя сказать что в одних задачах координация выстрелит, а в других нет. Но интересно и то что общий уровень ещё кое-как можно уловить: иногда координация всегда в нулях, или наоборот примерно удваивает результат.
Давайте разберём исследование, где мультиагентные системы сравнили честно на одинаковых ресурсах и условиях, по одним и тем же задачам: какие именно архитектуры рабочие, где возникает «налог на координацию» и по каким признакам можно заранее предотвратить напрасные попытки сделать команду из агентов.
📜 Полный обзор
Это вроде как интуитивно понятно: если один ИИ-агент способен решить проблему, то пятеро должны решать её в пять раз лучше и быстрее. Именно так сейчас многие и строят всё большее число мультиагентных систем. Само по себе это неплохо, но на практике именно что такая система часто превращается в неразбериху: расходуются бюджеты на токены, не сохраняется контекст и накапливаются ошибки.
И если честно, разница бывает не в процентах, а вот прям в разы: на одних задачах координация даёт огромный буст качества, а на других уверенно утаскивает результат вниз . При этом точно нельзя сказать что в одних задачах координация выстрелит, а в других нет. Но интересно и то что общий уровень ещё кое-как можно уловить: иногда координация всегда в нулях, или наоборот примерно удваивает результат.
Давайте разберём исследование, где мультиагентные системы сравнили честно на одинаковых ресурсах и условиях, по одним и тем же задачам: какие именно архитектуры рабочие, где возникает «налог на координацию» и по каким признакам можно заранее предотвратить напрасные попытки сделать команду из агентов.
📜 Полный обзор
Telegraph
Когда команда ИИ-агентов помогает, а когда делает только хуже
Идея на первый взгляд кажется банальной, но мультиагентные системы ещё не стали стандартом для многих приложений. Если конкретнее, то если один агент на базе LLM может выполнять задачи, то несколько агентов должны решать задачи лучше. Можно разделить работу…
👍5❤1
DeepCode: как ИИ научился собирать репозиторий по статье
Кодогенераторы стали значительно мощнее, но как только вы просите их сделать репозиторий по научной публикации из одной статьи — они не справляются. В статье много разрозненных деталей. Половина шагов может быть понята только между строк. Файлов много и все они зависят друг от друга. Да, на выходе можно получить сгенерированный репозиторий, который выглядит правдоподобно, но он не будет работать.
DeepCode рассматривает эту проблему как задачу внимания: что держать в контексте и как не потерять контракты между модулями. Работает старый добрый инженерный подход с правильной организацией архитектуры промтов, памятью и проверками.
В полном обзоре мы рассмотрим то, как DeepCode делает из статьи один общий репозиторий с кодом, как в этом помогает память кода (Code Memory) и почему замкнутый цикл тестирования ошибок внезапно решает то, где не справаляются даже платные агенты.
📜 Полный обзор
Кодогенераторы стали значительно мощнее, но как только вы просите их сделать репозиторий по научной публикации из одной статьи — они не справляются. В статье много разрозненных деталей. Половина шагов может быть понята только между строк. Файлов много и все они зависят друг от друга. Да, на выходе можно получить сгенерированный репозиторий, который выглядит правдоподобно, но он не будет работать.
DeepCode рассматривает эту проблему как задачу внимания: что держать в контексте и как не потерять контракты между модулями. Работает старый добрый инженерный подход с правильной организацией архитектуры промтов, памятью и проверками.
В полном обзоре мы рассмотрим то, как DeepCode делает из статьи один общий репозиторий с кодом, как в этом помогает память кода (Code Memory) и почему замкнутый цикл тестирования ошибок внезапно решает то, где не справаляются даже платные агенты.
📜 Полный обзор
Telegraph
DeepCode: как ИИ научился собирать репозиторий по статье
За последний год LLM-агенты для программирования действительно научились кое-чему новому: они теперь справляются с тестами, запуском команд и относительно длинными сценариями. Но как только вы усложните задачу, предлагая агенту «запилить репозиторий к статье»…
🔥2👍1
ИИ-агент против людей-безопасников: кто кого в реальном пентесте?
В кибербезопасности многие уже используют ИИ для поиска известных уязвимостей в средах, где все понятно и предсказуемо. Но в большой промышленной среде все работает совсем не так.
Вот тут и пригодится ИИ, который способен cоставить настоящий план атаки и найти уязвимости. Но встает вопрос: если такому агенту дать реальную боевую среду, способен ли он найти в ней уязвимости? Исследователи из Оксфорда построили инфраструктуру из 8000 машин, посадили десять живых пентестеров, ИИ-агента и стали сравнивать…
В обзоре разберем, как именно ученые устроили безопасный эксперимент и пора ли специалистам по безопасности искать новую работу?
📜 Полный обзор
В кибербезопасности многие уже используют ИИ для поиска известных уязвимостей в средах, где все понятно и предсказуемо. Но в большой промышленной среде все работает совсем не так.
Вот тут и пригодится ИИ, который способен cоставить настоящий план атаки и найти уязвимости. Но встает вопрос: если такому агенту дать реальную боевую среду, способен ли он найти в ней уязвимости? Исследователи из Оксфорда построили инфраструктуру из 8000 машин, посадили десять живых пентестеров, ИИ-агента и стали сравнивать…
В обзоре разберем, как именно ученые устроили безопасный эксперимент и пора ли специалистам по безопасности искать новую работу?
📜 Полный обзор
Telegraph
ИИ-агент против людей-безопасников: кто кого в реальном пентесте?
Уже давно ведется жаркая дискуссия на тему того, насколько ИИ-агенты в сфере кибербезопасности хороши в работе. Обычно спор базируется на задаче по поиску известных уязвимостей. Но правда в том, что настоящий пентест работает не так. Это большая корпоративная…
👍1
Когда тесты молчат: как ИИ-агент чинит баги
LLM уже умеют чинить баги: прочитала задачу, внесла правку, прогнала тесты и… всё зелёное. Проблема в том, что в настоящих репозиториях тестов часто нет, они слабые или вообще не проверяют нужный юзкейс. И тогда модель не делает фикс и баг остается.
Логично, что если тесты пропускают баги, нужно делать их больше и качественней. Причём делать это динамически— так, чтобы тесты и патч как будто играли друг против друга. Тесты ищут, где нужно исправление, патч пытается закрыть дыры, а затем появляется ещё один слой — отбор, который помогает не принять первую удачную заплатку за верное решение.
В полном обзоре разберём, как устроен этот подход из трёх агентов и за счёт чего InfCode вырывается в лидеры на бенчмарке SWE-bench.
📜 Полный обзор
LLM уже умеют чинить баги: прочитала задачу, внесла правку, прогнала тесты и… всё зелёное. Проблема в том, что в настоящих репозиториях тестов часто нет, они слабые или вообще не проверяют нужный юзкейс. И тогда модель не делает фикс и баг остается.
Логично, что если тесты пропускают баги, нужно делать их больше и качественней. Причём делать это динамически— так, чтобы тесты и патч как будто играли друг против друга. Тесты ищут, где нужно исправление, патч пытается закрыть дыры, а затем появляется ещё один слой — отбор, который помогает не принять первую удачную заплатку за верное решение.
В полном обзоре разберём, как устроен этот подход из трёх агентов и за счёт чего InfCode вырывается в лидеры на бенчмарке SWE-bench.
📜 Полный обзор
Telegraph
Когда тесты молчат: как ИИ-агент чинит баги
Автоматическое исправление багов силами LLM давно перестало быть экзотикой: модель умеет читать код, предлагать правки и даже запускать тесты. Но в реальных репозиториях всё ломается о неприятную деталь — проверять «починилось или нет» часто нечем. Если тестов…
👍2👏1😱1
Когда цифр недостаточно: язык как скрытый сигнал в экономических ИИ-моделях
Экономика в реальности работает не только на цифрах. Новости, заявления чиновников, слухи и ожидания. Но для ИИ это проблема: обычное обучение с подкреплением любит чёткие сигналы, а язык слишком размытый источник данных. А если просто отдать управление большой языковой модели, она может убедительно рассуждать, но вести систему нестабильно, особенно на длинной дистанции.
Авторы нового исследования предлагают не выбирать между цифрами и текстом, а заставить их работать вместе. ИИ получает новости, учится извлекать из них смысл, общаться с другими агентами и при этом не теряет жёсткую оптимизацию поведения. Причём в экспериментах выигрывает и у чистого мультиагентного обучения с подкреплением (MARL), и у различных LLM-подходов вроде ReAct и Reflection.
В обзоре разберём фреймворк LAMP: как устроен цикл Think–Speak–Decide, зачем агенту память успешных рассуждений, и что показали тесты в экономическом симуляторе TaxAI.
📜 Полный обзор
Экономика в реальности работает не только на цифрах. Новости, заявления чиновников, слухи и ожидания. Но для ИИ это проблема: обычное обучение с подкреплением любит чёткие сигналы, а язык слишком размытый источник данных. А если просто отдать управление большой языковой модели, она может убедительно рассуждать, но вести систему нестабильно, особенно на длинной дистанции.
Авторы нового исследования предлагают не выбирать между цифрами и текстом, а заставить их работать вместе. ИИ получает новости, учится извлекать из них смысл, общаться с другими агентами и при этом не теряет жёсткую оптимизацию поведения. Причём в экспериментах выигрывает и у чистого мультиагентного обучения с подкреплением (MARL), и у различных LLM-подходов вроде ReAct и Reflection.
В обзоре разберём фреймворк LAMP: как устроен цикл Think–Speak–Decide, зачем агенту память успешных рассуждений, и что показали тесты в экономическом симуляторе TaxAI.
📜 Полный обзор
Telegraph
Когда цифр недостаточно: язык как скрытый сигнал в экономических ИИ-моделях
В учебниках экономики всё понятно: цены, налоги, ставки, полезность. Но в реальной жизни решения людей и государства постоянно «подкручиваются» словами — новостями, разговорами, ожиданиями, слухами и публичными заявлениями. Один и тот же набор чисел может…
🔥2👍1
DataFlow: PyTorch для дата инженеров в эпоху LLM
Качество работы нейросети напрямую зависит от того, на каких данных она обучена. Обычно при обучении нейросетей мы имеем кучу запутанных скриптов, в которых, например, сломалась фильтрация выборки и поплыли все метрики, а в каком месте и почему это произошло — мы уже не сыщем. В случаях, когда генерация данных делается самой LLM, — бардак становится особенно дорогим.
У инженеров появилась идея: а давайте напишем аналог PyTorch’а для дата-инженеров — для всего цикла работы с данными для обучения нейросетей.
Разбираемся, из чего состоит фреймворк DataFlow, как работает DataFlow-агент и почему сегодня это особенно актуально.
📜 Полный обзор
Качество работы нейросети напрямую зависит от того, на каких данных она обучена. Обычно при обучении нейросетей мы имеем кучу запутанных скриптов, в которых, например, сломалась фильтрация выборки и поплыли все метрики, а в каком месте и почему это произошло — мы уже не сыщем. В случаях, когда генерация данных делается самой LLM, — бардак становится особенно дорогим.
У инженеров появилась идея: а давайте напишем аналог PyTorch’а для дата-инженеров — для всего цикла работы с данными для обучения нейросетей.
Разбираемся, из чего состоит фреймворк DataFlow, как работает DataFlow-агент и почему сегодня это особенно актуально.
📜 Полный обзор
Telegraph
DataFlow: PyTorch для дата инженеров в эпоху LLM
Сложность обучения языковых моделей сейчас не столько в новых архитектурах, сколько в качестве данных. Их не всегда можно просто собрать, почистить и обучить нейросеть — нужно придумывать процессы, где данные можно синтезировать, валидировать, улучшать, выбрасывать…
👍3
Как ИИ-агенты живут в "Станции" и делают научные открытия
Сегодня ИИ для науки работает как понятный пайплайн: модель делает маленькое улучшение, прогоняет тест, получает цифру и повторяет. Это эффективно, но почти не похоже на реальную науку, где есть память о прошлых попытках, обмен идеями, споры и неожиданные переносы методов между разными задачами.
В новом исследовании ученые предлагают новый подход: поселить сразу несколько ИИ-агентов в «Станцию» — среду, похожую на мини-лабораторию. Они читают заметки друг друга, ведут личные записи, публикуют результаты, запускают эксперименты и сами выбирают, чем заняться дальше. И иногда из этой «жизни» рождаются идеи, которые трудно выжать из коротких исследовательских циклов.
В обзоре разберём, как устроена «Станция», какие конкретно открытия сделали ИИ-агенты и что будет, если им не задать цель исследования.
📜 Полный обзор
Сегодня ИИ для науки работает как понятный пайплайн: модель делает маленькое улучшение, прогоняет тест, получает цифру и повторяет. Это эффективно, но почти не похоже на реальную науку, где есть память о прошлых попытках, обмен идеями, споры и неожиданные переносы методов между разными задачами.
В новом исследовании ученые предлагают новый подход: поселить сразу несколько ИИ-агентов в «Станцию» — среду, похожую на мини-лабораторию. Они читают заметки друг друга, ведут личные записи, публикуют результаты, запускают эксперименты и сами выбирают, чем заняться дальше. И иногда из этой «жизни» рождаются идеи, которые трудно выжать из коротких исследовательских циклов.
В обзоре разберём, как устроена «Станция», какие конкретно открытия сделали ИИ-агенты и что будет, если им не задать цель исследования.
📜 Полный обзор
Telegraph
Как ИИ-агенты живут в "Станции" и делают научные открытия
Большинство сегодняшних подходов к «научному ИИ» выглядят как понятный пайплайн. Есть центральный управляющий алгоритм, есть метрика, есть короткий цикл: сгенерируй улучшение, запусти тест, выбери лучшее, повтори. В целом это работает, но одновременно убирает…
👍3
Как писать README-файлы для ИИ-агентов
Ещё недавно мы просили ИИ дописать кусок кода. А теперь всё чаще отдаём ему задачу целиком: спланируй шаги, внеси правки, прогони тесты, доведи до рабочего состояния. Проблема в том, что агенту нужно быстро понять правила игры в конкретном репозитории: как тут запускают сборку, что считается нормой, какие решения трогать нельзя и где проходят красные линии.
И вот в проектах появляется новый артефакт: README не для людей, а для ИИ. Он становится «долговременной памятью» для агентов и одновременно точкой контроля над тем, как агент будет менять код. Самое интересное: исследователи посмотрели на тысячи таких файлов и обнаружили, что они живут как конфиг или даже как код — быстро разрастаются, усложняются и накапливают контекстный долг. При этом про безопасность и производительность там подозрительно часто молчат.
Давайте разберём, что именно нашли авторы на выборке из 2 303 файлов: какие темы встречаются чаще всего, как их реально редактируют со временем и можно ли автоматически проверять такие инструкции, как мы проверяем обычный код.
📜 Полный обзор
Ещё недавно мы просили ИИ дописать кусок кода. А теперь всё чаще отдаём ему задачу целиком: спланируй шаги, внеси правки, прогони тесты, доведи до рабочего состояния. Проблема в том, что агенту нужно быстро понять правила игры в конкретном репозитории: как тут запускают сборку, что считается нормой, какие решения трогать нельзя и где проходят красные линии.
И вот в проектах появляется новый артефакт: README не для людей, а для ИИ. Он становится «долговременной памятью» для агентов и одновременно точкой контроля над тем, как агент будет менять код. Самое интересное: исследователи посмотрели на тысячи таких файлов и обнаружили, что они живут как конфиг или даже как код — быстро разрастаются, усложняются и накапливают контекстный долг. При этом про безопасность и производительность там подозрительно часто молчат.
Давайте разберём, что именно нашли авторы на выборке из 2 303 файлов: какие темы встречаются чаще всего, как их реально редактируют со временем и можно ли автоматически проверять такие инструкции, как мы проверяем обычный код.
📜 Полный обзор
Telegraph
Как писать README-файлы для ИИ-агентов
Сегодня, когда мы пишем код с помощью ИИ, мы формулируем задачу на естественном языке, и агент в IDE сам планирует шаги, пишет изменения, запускает тесты и пытается довести дело до результата. Такой подход называют агентное программирование. Но у него есть…
👍1
Как ИИ-агенты решают задачи международной олимпиады по математике
Олимпиадная математика не по зубам даже сильным рассуждающим моделям потому что они быстро теряют суть ключевой идеи. В олимпиадах решения редко бывают тривиальными: нужно пробовать подходы, откатываться, сохранять удачные находки и собирать доказательство по кусочкам. А контекст, даже огромный, забивается шумом — и полезные идеи просто исчезают.
Но что если перестать хранить километры текста и вместо этого вести аккуратную память как у математика — не все попытки подряд, а только проверенные промежуточные факты. Причём так, чтобы модель могла работать итеративно, возвращаться к своей библиотеке лемм и двигаться дальше, не начиная каждый раз с нуля.
Давайте разберёмся, как устроен агент Intern-S1-MO: кто в нём генерирует идеи, кто сжимает их в леммы, кто проверяет, чтобы в память не попала ошибка, и почему такой подход неожиданно помогает ИИ успешно решать олимпиадные задачи международного уровня.
📜 Полный обзор
Олимпиадная математика не по зубам даже сильным рассуждающим моделям потому что они быстро теряют суть ключевой идеи. В олимпиадах решения редко бывают тривиальными: нужно пробовать подходы, откатываться, сохранять удачные находки и собирать доказательство по кусочкам. А контекст, даже огромный, забивается шумом — и полезные идеи просто исчезают.
Но что если перестать хранить километры текста и вместо этого вести аккуратную память как у математика — не все попытки подряд, а только проверенные промежуточные факты. Причём так, чтобы модель могла работать итеративно, возвращаться к своей библиотеке лемм и двигаться дальше, не начиная каждый раз с нуля.
Давайте разберёмся, как устроен агент Intern-S1-MO: кто в нём генерирует идеи, кто сжимает их в леммы, кто проверяет, чтобы в память не попала ошибка, и почему такой подход неожиданно помогает ИИ успешно решать олимпиадные задачи международного уровня.
📜 Полный обзор
Telegraph
Как ИИ-агенты решают задачи международной олимпиады по математике
В последние пару лет большие рассуждающие модели (LRM) заметно подтянулись в олимпиадной математике. На задачах уровня AIME (Американский Инновационный Математический Экзамен) им часто хватает одного длинного «прогона» рассуждений: модель пишет цепочку мыслей…
👍3🔥1🎉1
Как измерить «общий научный интеллект» у LLM
LLM умеют объяснять сложные вещи и писать код, но в науке этого мало. Там важен полный исследовательский цикл: найти и понять источники, придумать гипотезу, спланировать и провести эксперимент, а потом аккуратно разобрать результаты. Проблема в том, что мы долго оценивали ИИ не как «ученого», которому нужно доводить работу до конца и не ошибаться на числах, единицах измерений и самой процедуре исследований.
И вот тут начинается самое интересное: когда моделям дают реальные исследовательские задачи, лучшие из них внезапно набирают около 30 баллов из 100. Они могут выглядеть убедительно в рассуждениях, придумывать свежие идеи и даже писать исполняемый код — но все ломается на последнем шаге, либо агенты путают условия задачи и делают рассуждения слишком линейными.
В обзоре разберем, как устроен SGI-Bench, почему авторы оценивают не ответы, а исследовательский процесс, и какие слабые места он вскрывает у современных ИИ-моделей.
📜 Полный обзор
LLM умеют объяснять сложные вещи и писать код, но в науке этого мало. Там важен полный исследовательский цикл: найти и понять источники, придумать гипотезу, спланировать и провести эксперимент, а потом аккуратно разобрать результаты. Проблема в том, что мы долго оценивали ИИ не как «ученого», которому нужно доводить работу до конца и не ошибаться на числах, единицах измерений и самой процедуре исследований.
И вот тут начинается самое интересное: когда моделям дают реальные исследовательские задачи, лучшие из них внезапно набирают около 30 баллов из 100. Они могут выглядеть убедительно в рассуждениях, придумывать свежие идеи и даже писать исполняемый код — но все ломается на последнем шаге, либо агенты путают условия задачи и делают рассуждения слишком линейными.
В обзоре разберем, как устроен SGI-Bench, почему авторы оценивают не ответы, а исследовательский процесс, и какие слабые места он вскрывает у современных ИИ-моделей.
📜 Полный обзор
Telegraph
Как измерить «общий научный интеллект» у LLM
Сегодня LLM умеют многое: объяснять сложные темы, писать код, держать длинную нить рассуждений. Но наука — это не только вызубрить ответы. Это исследовательский цикл: разобраться в литературе, придумать гипотезу, проверить ее экспериментом, а потом честно…
👍2
Сможет ли ИИ пройти сложный экзамен по финансовому анализу?
Экзамен CFA в финансах — это не тест на эрудицию, там есть расчёты, кейсы с кучей контекста, выбор между похожими вариантами и даже этические дилеммы, где нет идеально правильного ответа. Ещё недавно LLM с таким не справлялись
А теперь рассуждающие модели уверенно проходят все три уровня теста — и на свежем наборе из почти тысячи вопросов. Причём у лидеров точность местами подбирается к уровням, которые обычно ждёшь от топовых аналитиков. И самое интересное — пошаговые рассуждения помогают не всегда: иногда от них точность даже падает.
В обзоре разберём, как устроили этот стресс‑тест, какие модели оказались впереди, где у ИИ до сих пор самые неприятные провалы (спойлер: этика и тонкие формулировки), и почему это не значит, что ИИ уже готов заменить финансового аналитика.
📜 Полный обзор
Экзамен CFA в финансах — это не тест на эрудицию, там есть расчёты, кейсы с кучей контекста, выбор между похожими вариантами и даже этические дилеммы, где нет идеально правильного ответа. Ещё недавно LLM с таким не справлялись
А теперь рассуждающие модели уверенно проходят все три уровня теста — и на свежем наборе из почти тысячи вопросов. Причём у лидеров точность местами подбирается к уровням, которые обычно ждёшь от топовых аналитиков. И самое интересное — пошаговые рассуждения помогают не всегда: иногда от них точность даже падает.
В обзоре разберём, как устроили этот стресс‑тест, какие модели оказались впереди, где у ИИ до сих пор самые неприятные провалы (спойлер: этика и тонкие формулировки), и почему это не значит, что ИИ уже готов заменить финансового аналитика.
📜 Полный обзор
Telegraph
Сможет ли ИИ пройти сложный экзамен по финансовому анализу?
Экзамены CFA (Chartered Financial Analyst) в мире финансов — это марафон с тремя дистанциями. На первом уровне проверяют базовые знания и умение не путаться в терминах. На втором — заставляют разбирать кейсы, где важно применять формулы и логику в контексте.…
👍2❤1🎉1
Почему ИИ не справляется со списком покупок и когда мы сможем доверить ему бытовые задачи
ИИ умеет писать код и решать сложные математические задачи, но стоит попросить его о чем-то житейском — выбрать дрель под ваши стены, найти нормальную замену ингредиенту, подсказать, что купить и где — и внезапно начинаются сюрпризы. Ответ звучит убедительно, только вот цена не та, ссылка не ведёт туда, модель товара перепутана, а совет по ремонту местами небезопасный. В быту ошибка — это не минус балл, а потраченные деньги, время и нервы.
Самое странное, что даже модели с веб-поиском часто проигрывают там, где кажется проще всего. Почему так происходит: они плохо понимают контекст человека, ленятся проверять факты или слишком стараются быть полезными и начинают «додумывать»?
Давайте разберёмся, как исследователи измеряют реальную полезность ИИ в доменах: покупки, еда, игры и «cделай сам», как они ловят правдоподобные выдумки, и почему лидеры всё равно далеки от статуса надёжного персонального помощника на каждый день.
📜 Полный обзор
ИИ умеет писать код и решать сложные математические задачи, но стоит попросить его о чем-то житейском — выбрать дрель под ваши стены, найти нормальную замену ингредиенту, подсказать, что купить и где — и внезапно начинаются сюрпризы. Ответ звучит убедительно, только вот цена не та, ссылка не ведёт туда, модель товара перепутана, а совет по ремонту местами небезопасный. В быту ошибка — это не минус балл, а потраченные деньги, время и нервы.
Самое странное, что даже модели с веб-поиском часто проигрывают там, где кажется проще всего. Почему так происходит: они плохо понимают контекст человека, ленятся проверять факты или слишком стараются быть полезными и начинают «додумывать»?
Давайте разберёмся, как исследователи измеряют реальную полезность ИИ в доменах: покупки, еда, игры и «cделай сам», как они ловят правдоподобные выдумки, и почему лидеры всё равно далеки от статуса надёжного персонального помощника на каждый день.
📜 Полный обзор
Telegraph
Почему ИИ не справляется со списком покупок и когда мы сможем доверить ему бытовые задачи
Пока ИИ уверенно решает задачи на логику и пишет код, в реальной жизни люди всё чаще спрашивают его о более приземлённом: что купить в магазине, чем заменить ингредиент в блюде, как починить протекающий кран или какую сборку выбрать в игре. И здесь внезапно…
👍2🔥1
Как ИИ-агенты проводят эксперименты с помощью лабораторного оборудования
ИИ-агенты умеют придумывать гипотезы, читать статьи и даже запускать эксперименты. Но в реальной науке они чаще всего упираются в хаос вокруг эксперимента: разные приборы, форматы данных, нет нужных доступов и старые скрипты. В итоге чужой эксперимент сложно перенести в лабораторию с другим оборудованием.
Ученые предлагают решать эту проблему не новым суперагентом, а новым протоколом SCP (Science Context Protocol). SCP связывает ИИ-агентов, датасеты, модели и даже физические приборы в один общий научный контекст, где все шаги фиксируются, а запуск можно воспроизвести.
Давайте разберем, как устроен SCP, как в нем работают хабы и серверы, и как исследователям в итоге удалось собрать более 1600+ приборов в единый интерфейс.
📜 Полный обзор
ИИ-агенты умеют придумывать гипотезы, читать статьи и даже запускать эксперименты. Но в реальной науке они чаще всего упираются в хаос вокруг эксперимента: разные приборы, форматы данных, нет нужных доступов и старые скрипты. В итоге чужой эксперимент сложно перенести в лабораторию с другим оборудованием.
Ученые предлагают решать эту проблему не новым суперагентом, а новым протоколом SCP (Science Context Protocol). SCP связывает ИИ-агентов, датасеты, модели и даже физические приборы в один общий научный контекст, где все шаги фиксируются, а запуск можно воспроизвести.
Давайте разберем, как устроен SCP, как в нем работают хабы и серверы, и как исследователям в итоге удалось собрать более 1600+ приборов в единый интерфейс.
📜 Полный обзор
Telegraph
Как ИИ-агенты проводят эксперименты с помощью лабораторного оборудования
Автономные ИИ-ученые уже умеют читать статьи, предлагать гипотезы, запускать расчеты и даже управлять экспериментами. Но в реальной науке их возможности часто «заперты» внутри конкретной лаборатории, набора скриптов и ручных договоренностей о том, где лежат…
👍2
Почему ИИ-агенты хорошо чинят баги, но плохо доводят продукт до релиза
ИИ-агенты неплохо чинят баги и дописывают маленькие фичи. Но в реальной разработке чаще нужно другое — довести продукт или фичу до следующего релиза. Требования размазаны по release notes, изменения цепляют десятки файлов, зависимости обновляются, а любая правка легко ломает соседний модуль.
И вот тут начинается самое интересное: когда агентов проверяют не на задачах уровня исправления issue, а на долгосрочной задаче от release notes до реально работающей новой версии, метрики начинают проседать. Оказывается, проблема не в том, что модель не умеет писать код, а в том, что она часто неправильно понимает, что именно надо изменить, и где это аукнется.
В полном обзоре разберём, что за бенчмарк SWE‑EVO и как он измеряет прогресс в сегодняшних ИИ-агентов для программирования.
📜 Полный обзор
ИИ-агенты неплохо чинят баги и дописывают маленькие фичи. Но в реальной разработке чаще нужно другое — довести продукт или фичу до следующего релиза. Требования размазаны по release notes, изменения цепляют десятки файлов, зависимости обновляются, а любая правка легко ломает соседний модуль.
И вот тут начинается самое интересное: когда агентов проверяют не на задачах уровня исправления issue, а на долгосрочной задаче от release notes до реально работающей новой версии, метрики начинают проседать. Оказывается, проблема не в том, что модель не умеет писать код, а в том, что она часто неправильно понимает, что именно надо изменить, и где это аукнется.
В полном обзоре разберём, что за бенчмарк SWE‑EVO и как он измеряет прогресс в сегодняшних ИИ-агентов для программирования.
📜 Полный обзор
Telegraph
Почему ИИ-агенты хорошо чинят баги, но плохо доводят продукт до релиза
За последний год агенты для программирования заметно прибавили: они умеют находить место поломки, править код и прогонять тесты. Но есть важная оговорка: большинство популярных бенчмарков проверяют точечные достижения — исправление конкретного бага или добавление…
👍2
Почему ИИ-агенты не помнят собственную жизнь — и как агенту Софье дали автобиографию, мотивацию и долгосрочную память
ИИ‑агенты умеют планировать, вызывать инструменты и выполнять цепочки действий. Но стоит поменяться интерфейсу, правилам или цели — и они будут повторять старые ошибки.
В работе про агента Софью ученые предлагают посмотреть на это как на недостающий «психический» уровень. Есть Система-1 с быстрыми навыками и Система-2 с рассуждениями, но нет Системы-3, которая следит за самим мышлением: что агент понял, чему научился, почему провалился и что стоит делать дальше. По сути — то, что делает поведение связным и долгоживущим в открытой среде.
Давайте разберём, что авторы называют Системой-3, из каких блоков она состоит, и как собрать устойчивого агента с памятью, самооценкой, моделью пользователя и внутренней мотивацией.
📜 Полный обзор
ИИ‑агенты умеют планировать, вызывать инструменты и выполнять цепочки действий. Но стоит поменяться интерфейсу, правилам или цели — и они будут повторять старые ошибки.
В работе про агента Софью ученые предлагают посмотреть на это как на недостающий «психический» уровень. Есть Система-1 с быстрыми навыками и Система-2 с рассуждениями, но нет Системы-3, которая следит за самим мышлением: что агент понял, чему научился, почему провалился и что стоит делать дальше. По сути — то, что делает поведение связным и долгоживущим в открытой среде.
Давайте разберём, что авторы называют Системой-3, из каких блоков она состоит, и как собрать устойчивого агента с памятью, самооценкой, моделью пользователя и внутренней мотивацией.
📜 Полный обзор
Telegraph
Почему ИИ-агенты не помнят собственную жизнь — и как агенту Софье дали автобиографию, мотивацию и долгосрочную память
Сегодня ИИ-агенты умеют планировать, вызывать инструменты, выполнять цепочки действий и даже работать в мультиагентной системе. Но у большинства таких решений есть неприятная особенность: они по сути реактивны. Агент может отлично отвечать в моменте но после…
🔥2
Профессиональные разработчики не вайбят с агентами — они их контролируют
Сегодня в моду вошли агенты, которые могут автономно разрабатывать фичи. Но в реальной разработке любая мелкая ошибка может быть угрозой безопасности и качества продукта.
Опытные разработчики не спешат «вайбить» с агентами и отпускать контроль. Вместо этого они используют их совсем иначе — как исполнителя, которого нужно держать в рамках, постоянно проверять и принимать работу по правилам, как у живого коллеги.
В полном обзоре разберем, что показало исследование 2025 года: какие задачи профи реально отдают агентам, а где предпочитают держать контроль.
📜 Полный обзор
Сегодня в моду вошли агенты, которые могут автономно разрабатывать фичи. Но в реальной разработке любая мелкая ошибка может быть угрозой безопасности и качества продукта.
Опытные разработчики не спешат «вайбить» с агентами и отпускать контроль. Вместо этого они используют их совсем иначе — как исполнителя, которого нужно держать в рамках, постоянно проверять и принимать работу по правилам, как у живого коллеги.
В полном обзоре разберем, что показало исследование 2025 года: какие задачи профи реально отдают агентам, а где предпочитают держать контроль.
📜 Полный обзор
Telegraph
Профессиональные разработчики не вайбят с агентами — они их контролируют
Пару лет назад LLM в программировании можно было только доверить автодополнение кода: модели подсказывали строчку, дописывали функции и помогали вспомнить синтаксис. Но к 2025‑му фокус сместился: появились агентные инструменты, которые не просто советуют…
👍3🔥1
LLM — не тупик. Проблема AGI совсем в другом
LLM то поражают логикой, то внезапно не могут выполнить даже простую задачу: путают факты, теряют цель, забывают, что обещали пару абзацев назад. И из‑за этого разговоры про AGI часто скатываются в унылое «LLM просто генерируют следующий токен, поэтому это тупик». Но, похоже, проблема не в том, что у моделей нет истинного “мышления”, а в том, что им часто нечем это мышление организовать.
Ученые из Стэнфорда предлагают посмотреть на это как на пропущенный модуль в архитектуре: между генерацией текста и настоящим решением задач должен быть модуль координации. Он ставит цель, держит план, подбирает опоры, проверяет шаги и не даёт модели скатится в привычные паттерны. И самое интересное — это можно описывать почти как физику: есть якоря, есть их сила, и есть порог, после которого поведение системы резко становится более целевым.
Давайте разберёмся, что такое семантическое якорение, почему лишний контекст иногда ухудшает результат, и как из этого появляется мультиагентная система для координации, которая может сделать LLM намного стабильнее в долгосрочных задачах.
📜 Полный обзор
LLM то поражают логикой, то внезапно не могут выполнить даже простую задачу: путают факты, теряют цель, забывают, что обещали пару абзацев назад. И из‑за этого разговоры про AGI часто скатываются в унылое «LLM просто генерируют следующий токен, поэтому это тупик». Но, похоже, проблема не в том, что у моделей нет истинного “мышления”, а в том, что им часто нечем это мышление организовать.
Ученые из Стэнфорда предлагают посмотреть на это как на пропущенный модуль в архитектуре: между генерацией текста и настоящим решением задач должен быть модуль координации. Он ставит цель, держит план, подбирает опоры, проверяет шаги и не даёт модели скатится в привычные паттерны. И самое интересное — это можно описывать почти как физику: есть якоря, есть их сила, и есть порог, после которого поведение системы резко становится более целевым.
Давайте разберёмся, что такое семантическое якорение, почему лишний контекст иногда ухудшает результат, и как из этого появляется мультиагентная система для координации, которая может сделать LLM намного стабильнее в долгосрочных задачах.
📜 Полный обзор
Telegraph
LLM — не тупик. Проблема AGI совсем в другом
Сегодня звучит много споров вокруг AGI: LLM якобы умеют только с некоторой вероятностью генерировать следующее слово в тексте, и потому на них "общий ИИ" не построишь. Авторы работы The Missing Layer of AGI: From Pattern Alchemy to Coordination Physics из…
👍3❤2