NEW BOT Телеграм, страница

Dataism Science Hub

LLM — не тупик. Проблема AGI совсем в другом

LLM то поражают логикой, то внезапно не могут выполнить даже простую задачу: путают факты, теряют цель, забывают, что обещали пару абзацев назад. И из‑за этого разговоры про AGI часто скатываются в унылое «LLM просто генерируют следующий токен, поэтому это тупик». Но, похоже, проблема не в том, что у моделей нет истинного “мышления”, а в том, что им часто нечем это мышление организовать.

Ученые из Стэнфорда предлагают посмотреть на это как на пропущенный модуль в архитектуре: между генерацией текста и настоящим решением задач должен быть модуль координации. Он ставит цель, держит план, подбирает опоры, проверяет шаги и не даёт модели скатится в привычные паттерны. И самое интересное — это можно описывать почти как физику: есть якоря, есть их сила, и есть порог, после которого поведение системы резко становится более целевым.

Давайте разберёмся, что такое семантическое якорение, почему лишний контекст иногда ухудшает результат, и как из этого появляется мультиагентная система для координации, которая может сделать LLM намного стабильнее в долгосрочных задачах.

📜 Полный обзор

Telegraph

LLM — не тупик. Проблема AGI совсем в другом

Сегодня звучит много споров вокруг AGI: LLM якобы умеют только с некоторой вероятностью генерировать следующее слово в тексте, и потому на них "общий ИИ" не построишь. Авторы работы The Missing Layer of AGI: From Pattern Alchemy to Coordination Physics из…

👍3❤2

189 viewsedited 20:30

Dataism Science Hub

Как LLM находит нужный код в репозитории, который не помещается в контекст

Бывает так: словил баг, открываешь большой репозиторий в его поисках, а вокруг сотни файлов и странных зависимостей. Человеку тяжело, а LLM ещё хуже: она просто не может удержать весь контекст проекта в голове и начинает блуждать — то ищет по словам, то вытаскивает куски кода, то путается в инструментах.

И вот тут появляется неожиданная идея: вместо сложного поиска LLM дают один-единственный инструмент перехода к месту определения классов, методов и перменных. Внезапно этого хватает, чтобы гораздо точнее находить, где именно в коде проблема.

В полном обзоре выясним почему минимализм оказался сильнее арсенала инструментов, как агент учится ходить по репозиторию с подкреплением, и почему на бенчмарках маленькая модель с таким подходом обгоняет более крупные.

📜 Полный обзор

Telegraph

Как LLM находит нужный код в репозитории, который не помещается в контекст

Если вы когда‑нибудь открывали большой репозиторий в поисках бага, вы знаете это ощущение: сотни файлов, куча неочевидных связей, а issue обычно вообще никак не описаны. Для LLM проблема та же, только жёстче: она физически не может держать в контексте весь…

👍2

175 views18:57

Dataism Science Hub

Когда данных нет совсем, а учиться всё равно нужно: как ИИ сам придумывает задачи и сам себя проверяет

Даже самые продвинутые модели учатся рассуждать не в вакууме: им всё равно нужен чей-то заранее собранный датасет, а разметку всё равно делает человек. И это быстро становится узким местом: это дорого и плохо масштабируется.

А теперь представьте подход, когда модель сама придумывает себе задания, сама решает их и сама же получает оценку — без единого внешнего датасета. Не просто тренируется, а выбирает, чему именно тренироваться, и постоянно держится в зоне, где ей чуть-чуть сложно. Звучит как чит-код, но именно так устроен Absolute Zero: self-play для рассуждения, заземлённый в проверяемую Python-среду.

В полном обзоре разберём, как модель совмещает роли планировщика и исполнителя задач, откуда берётся неожиданный скачок в математике и какой неприятный сигнал по безопасности всплыл прямо в процессе такого самообучения.

📜 Полный обзор

Telegraph

Когда данных нет совсем, а учиться всё равно нужно: как ИИ сам придумывает задачи и сам себя проверяет

В последние пару лет обучение рассуждению LLM делают через Reinforcement Learning with Verifiable Rewards (RLVR): модель решает задачу, получает награду, которую можно строго проверить, и постепенно начинает рассуждать лучше - так не нужно размечать цепочки…

🔥1

139 views20:00

Dataism Science Hub

Как превратить GitHub в память для ИИ-агента

Агенты умеют открывать репозитории, гонять тесты и предлагать патчи. Но когда баг сложный, они часто чинят его будто до них никто с таким не сталкивался. А у людей всё наоборот — мы идём в GitHub, ищем похожие issue и PR, смотрим, какие гипотезы проверяли, что реально сработало и почему.

Самое обидное, что нужный опыт там уже лежит, просто он в неудобном виде: разрозненные куски логов, случайные правки и обсуждения. Если дать это агенту напрямую, он легко зацепится за лишнее и сделает неправильный фикс.

В MemGovern предлагают превратить человеческие истории исправлений в понятные карточки опыта и научить агента искать их не одним запросом, а как инженер — с уточнениями и фильтрацией.

Разберёмся, как устроены эти карточки и откуда берётся прирост на инженерном бенчмарке SWE-bench Verified.

📜 Полный обзор

Telegraph

Как превратить GitHub в память для ИИ-агента

Когда LLM научились писать код, вокруг них быстро выросли автономные SWE-агенты: системы, которые умеют открывать репозиторий, запускать тесты, находить место ошибки и готовить патч. Но у таких агентов есть неприятная привычка работать так, будто они впервые…

👍1🤯1

171 views20:59

Dataism Science Hub

Агентный RAG против модульного: что реально лучше на пратике

RAG кажется простым спасением от галлюцинаций: подключили модель к базе знаний, и она отвечает точнее. Но в реальном продукте поиск то подтягивает не то, то вообще оказывается лишним действием. А значит, вы платите токенами и временем за шаги, которые не всегда дают пользу.

Сейчас индустрия спорит о двух подходах. Модульный RAG — это аккуратный пайплайн: роутер решает, нужен ли поиск, переписывание делает запрос «под документы», переранкер вычищает мусор. Агентный RAG звучит соблазнительнее: пусть LLM сама решает, когда искать, как переформулировать и стоит ли повторить попытку. Вопрос только один: где это реально приносит пользу?

В полном обзоре разберём результаты большого сравнения на разных задачах и доменах: когда агентность помогает и сколько придется заплатить за эту гибкость.

📜 Полный обзор

Telegraph

Агентный RAG против модульного: что реально лучше на практике

RAG сегодня — один из самых практичных способов подключить LLM к внешним знаниям: модель не полагается только на собственную память, а сначала ищет нужные фрагменты в базе знаний и уже потом отвечает. В реальных продуктах это выглядит как спасение от галлюцинаций…

👍2

161 views19:59

Dataism Science Hub

От прототипа к продакшену: с какими проблемами сталкиваются мультиагентные системы

Мультиагентные системы выглядят как мечта любого продакта: вместо одного агента вы собираете команду из LLM, где один планирует, другой ищет данные, третий пишет код, а четвертый проверяет результат. Проблема в том, что такая команда зависит сразу от всего вокруг: API провайдеров, function calling, баз данных, облака. Любое обновление легко превращает ваш пайплайн в набор странных багов и несовместимостей.

Самое интересное тут не в красивых демо, а в том, что происходит дальше, когда это пытаются поддерживать месяцами. Какие фреймворки реально растут устойчиво, а какие выстреливают и быстро выдыхаются? Что чаще делает комьюнити: чинит ошибки или бесконечно подстраивается под меняющийся мир? И почему в проблемах внезапно всплывает не только код, но и координация самих агентов?

Разберём большое исследование по восьми популярным open-source фреймворках разработки агентов и посмотрим на цифрах: как они развиваются на GitHub, какие есть проблемы и как быстро их решают.

📜 Полный обзор

Telegraph

От прототипа к продакшену: с какими проблемами сталкиваются мультиагентные системы

Вокруг приложений на базе LLM возник новый набор инструментов: фреймворки, которые помогают собирать не одного «умного чат-бота», а целую команду специализированных агентов. Один планирует, другой ищет данные, третий пишет код, четвертый проверяет результат.…

👍1

138 views20:41

Dataism Science Hub

Общество мыслей: как LLM становятся сильнее, когда спорят сами с собой

Мы уже привыкли, что одни LLM отвечают почти без ошибок, а другие путаются на тех же задачах. И долго казалось, что секрет reasoning‑моделей в том, что они просто пишут больше шагов и дольше думают. Но на практике удлинить рассуждение недостаточно — качество от этого не всегда растёт.

В свежей работе исследователи предлагают более интересную версию: сильные модели не столько думают дольше, сколько думают по-другому. Их рассуждение начинает выглядеть как мини-обсуждение внутри одной головы: один ход предлагают, другой оспаривают, третий проверяет, потом все сходятся на решении. И похоже, именно этот внутренний спор и делает ответы надёжнее.

В полном обзоре разберём, как это измеряли на тысячах задач, какие разговорные паттерны отличают reasoning‑модели от обычных, и почему подталкивание модели в сторону такого диалогового режима заметно повышает точность ответа.

📜 Полный обзор

Telegraph

Общество мыслей: как LLM становятся сильнее, когда спорят сами с собой

Мы привыкли думать, что reasoning-модели сильнее просто потому, что они пишут более длинные рассуждения и тратят больше вычислений перед ответом. В работе Reasoning Models Generate Societies of Thought авторы предлагают более любопытное объяснение: такие…

🔥2

135 views20:46

Dataism Science Hub

RoboBrain: как робот понимает глубину 3D-сцены и учится самоконтролю

Роботы уже неплохо распознают предметы и понимают команды на уровне слов. Но как только дело доходит до реального мира, начинается самое сложное: нужно не просто увидеть кружку, а понять, на каком она расстоянии, на какой высоте держать руку, как не задеть соседние предметы и насколько вообще действие продвинулось. Для человека это интуитивно, а для робота легко превратить простую просьбу в череду ошибок.

И вот тут появляется интересный вопрос: можно ли научить модель не только думать в картинках, но и чувствовать глубину и ход времени так же уверенно, как мы? Чтобы она умела заранее набросать понятную 3D-траекторию движения и по видео в процессе честно понимать, мы приближаемся к цели или топчемся на месте.

Разберём RoboBrain 2.5: как устроены их 3D-трассы с глубиной, зачем роботу плотная оценка прогресса по кадрам и почему именно эта связка даёт заметный прирост на бенчмарках.

📜 Полный обзор

Telegraph

RoboBrain: как робот понимает глубину 3D-сцены и учится самоконтролю

В робототехнике есть старая боль: даже сильные визуальные и языковые модели неплохо рассуждают о сцене, но иногда плохо справляются с тем, чтобы действовать в физическом мире. В быту это выглядит просто: «подвинь кружку на 10 сантиметров вправо» или «лей…

👍2

141 views17:58

Dataism Science Hub

Аналитика без SQL и отчётов: как продавцы в Amazon получают инсайты напрямую из данных

В e-commerce продавцу каждый день нужно быстро понимать, что происходит с бизнесом: где просели продажи, какие товары тянут бизнес вниз, что стоит усилить в рекламе. Данных много, но чтобы вытащить из них ответ, обычно приходится прыгать между отчетами, фильтрами и таблицами, а потом ещё гадать, правильно ли ты всё понял.

Теперь представьте, что можно просто спросить по-человечески: почему на этой неделе упал оборот или что лучше всего растёт в разрезе категорий. И получить не набор цифр, а понятный вывод с контекстом. Систему реально запускали для продавцов Amazon и измерили точность и скорость ответов.

В полном обзоре разберём, как устроены Insight Agents: почему это не классический text-to-SQL, а мультиагентная система с менеджером и двумя специалистами, которые отсекает лишние запросы, ускоряют ответы и помогают выдавать инсайты, которым можно доверять.

📜 Полный обзор

Telegraph

Аналитика без SQL и отчётов: как продавцы в Amazon получают инсайты напрямую из данных

В e-commerce продавцу постоянно приходится принимать решения на лету: что поднять в рекламе, где просели продажи, какие товары тянут бизнес вниз, а какие — дают рост. При этом данных вокруг много, но польза от них не всегда очевидна. Чтобы получить ответ…

👍2

122 viewsedited 17:54

Dataism Science Hub

GameTalk: как научить LLM выигрывать в переговорах

LLM умеют поддерживать диалог, но в переговорах, где важно удержать цель и выиграть, многие модели сдуваются. Их обычно учат оценивать отдельные реплики, а в реальной стратегии решает не один удачный ход, а то, чем закончится вся серия реплик.

GameTalk предлагает смотреть на диалог как на игру с длинной дистанцией: награда приходит в конце, когда уже ясно, удалось ли склонить оппонента, заработать больше или договориться на своих условиях. И тут начинается самое интересное: модель может стать заметно сильнее в переговорах, но при этом иногда делает это странным способом — почти без глубокого понимания собеседника, зато с рабочими приемами влияния.

В полном обзоре разберемся, как авторы обучают такие модели на контролируемых играх, почему они разводят диалог на параллельные ветки и чем отличаются методы дообучения GRPO, DPO и STaR на практике.

📜 Полный обзор

Telegraph

GameTalk: как научить LLM выигрывать в переговорах

LLM умеют поддерживать диалог, но стоит перенести их в мультиагентную систему, где нужно договариваться, давить, уступать, обманывать и помнить цель на протяжении всей беседы, — сразу начинаются проблемы. Одна из главных проблем в том, что большинство способов…

👍3

110 viewsedited 19:00

Dataism Science Hub

Как LLM помогают дата инженерам наводить порядок в «грязных» данных

Проблема грязных данных стара как мир: даты в разных форматах, один и тот же клиент в пяти вариантах, пустые поля, странные опечатки и колонки с названиями, которые ничего не объясняют. Из-за этого аналитика и ML-пайплайны врут, а команда неделями «чистит» данные вручную правилами и скриптами.

Но тут появляется неожиданный поворот: LLM могут наводить порядок не хуже опытного дата-инженера, потому что понимают смысл. Они способны догадаться, что «7th April 2021» и «04/07/21» — одно и то же, что «price» и «cost» могут быть одной сущностью, и даже дополнять таблицы контекстом. Вопрос только в том, где это реально работает, а где модель начнет уверенно придумывать лишнее и станет слишком дорогой.

В полном обзоре разберем, как LLM применяют для трех больших задач — очистки, интеграции и обогащения данных — и какие есть рабочие методы: от простых промтов до агентных систем с инструментами и проверками, плюс честные ограничения и риски.

📜 Полный обзор

Telegraph

Как LLM помогают дата инженерам наводить порядок в «грязных» данных

В компаниях есть одна общая проблема: данные в таблицах и базах устроены так, что ими сложно пользоваться. Форматы скачут, значения противоречат друг другу, части полей пустые, а разные источники называют одно и то же разными словами. В итоге аналитики тратят…

❤1👍1

121 views19:45

Dataism Science Hub

Open-source наносит ответный удар: Управляемая симуляция мира, которая работает в реальном времени

Text-to-video модели умеют генерировать впечатляющие видео, но попробуйте попросить их пройти вперёд, оглянуться и вернуться — и мир внезапно забывает, где что стояло. Объекты плывут, детали меняются местами, а причинно‑следственная логика уступает удачным совпадениям. Пока это больше клип, чем пространство, в котором можно действовать.

LingBot-World пытается решить именно эту проблему: превратить генерацию видео в управляемую симуляцию, где есть клавиши движения, повороты камеры и ощущение, что мир действительно держится за свои правила. Самое интересное тут не только в качестве картинки, а в том, как они добывают данные с привязкой к действию и реакции, и как ускоряют тяжёлую diffusion-модель до почти реального времени, причём в open-source.

В полном обзоре узнаем из каких источников собирают «опыт» для такого мира, как модель учат помнить сцену на длинных траекториях и зачем им Mixture-of-Experts.

📜 Полный обзор

Telegraph

Open-source наносит ответный удар: Управляемая симуляция мира, которая работает в реальном времени

Ещё недавно модели научились генерировать видео по тексту с несколькими секундами связного движения. Но стоит попросить такую систему пройти вперёд, оглянуться и вернуться к знакомому объекту — чуда не происходит. Объекты меняются местами, детали «плывут»…

135 views22:15

Dataism Science Hub

Когда агенту нужен дирижёр: AOrchestra и динамическая оркестрация LLM через субагентов

Один ИИ‑агент отлично справляется с задачами из пары шагов: что-то найти, написать, поправить. Но когда работа превращается в длинный квест с проверками, откатами, запуском команд и исправлением ошибок, он начинает теряться. Контекст раздувается, важное тонет в информационном шуме, и вместо прогресса агент занимается тем, что пытается вспомнить, где он остановился.

Есть привычный ответ: сделать мультиагентную систему с ролями вроде исследователя, кодера и ревьюера. Проблема в том, что такие роли быстро превращаются в болтливую бюрократию и требуют ручной настройки. А что если команда будет собираться на лету — ровно под текущий шаг, с нужными инструментами, кусочком контекста и даже подходящей по цене и силе моделью?

В обзоре разберём AOrchestra: как устроен оркестратор, который сам ничего не делает руками, зато создаёт субагентов по запросу, почему это помогает на известных бенчмарках GAIA, Terminal‑Bench и SWE‑Bench, и как здесь впервые становится реально управлять балансом между стоимостью и качеством.

📜 Полный обзор

Telegraph

Когда агенту нужен дирижёр: AOrchestra и динамическая оркестрация LLM через субагентов

LLM‑агенты не справляются, когда задача растягивается на десятки шагов — с проверками, возвратами, экспериментами, запуском команд и исправлением ошибок. Контекст раздувается, в нём накапливается шум, важные детали теряются, а сам агент тратит время не на…

🔥2

142 views21:29

Dataism Science Hub

От симуляции к пониманию: как собрать настоящую модель мира

Сегодня почти любой новый ИИ-проект легко назвать моделью мира: добавили побольше данных, натренировали на физику, подкрутили бенчмарк и получили красивые результаты. Но когда такой ИИ сталкивается с реальностью, начинаются странности: на картинке может упорно видеть пять пальцев там, где их шесть, в видео объекты теряются между кадрами, а в задачах для роботов и автономного вождения система вдруг становится непредсказуемой.

Интрига в том, что проблема не в том, что ИИ мало знает. Проблема в том, что знания часто просто прикручены к конкретной задаче и не складываются в цельную картину: без памяти на длинной дистанции, без умения проверять гипотезы действием и без внутренней согласованности причин и последствий.

Давайте разберёмся, почему исследователи называют это ловушкой инъекции знаний, чем настоящая модель мира отличается от набора прокачанных навыков и из каких обязательных частей, по их мнению, должна состоять система, которая действительно начинает понимать, как устроена реальность.

📜 Полный обзор

Telegraph

От симуляции к пониманию: как собрать настоящую модель мира

«Знания о мире» — это не модель мира В последние пару лет стало модно говорить о моделях мира: системах, которые не просто продолжают текст или дорисовывают кадры, а хоть немного понимают, как устроена реальность и как она меняется во времени. Авторы статьи…

🔥1

105 views22:51

Dataism Science Hub

Не один агент, а целая команда: мультиагентный подход к автономной разработке

LLM уже неплохо помогают генерировать код, объяснять ошибки, накидать тест. Но как только задача становится похожа на настоящую работу в репозитории — прочитать issue, разобраться в проекте, воспроизвести баг, сделать патч и не сломать всё остальное — один универсальный агент не справляется с задачей. Проблема часто не в том, что модель «слабая», а в том, что мы просим её работать не так, как обычно работает разработка.

А что если вместо супер-агента собрать маленькую команду: один анализирует и формулирует план, другой правит код и гоняет тесты, третий делает ревью прямо в pull request, а четвертый следит, чтобы процесс не расползался? Именно так устроен Agyn: мультиагентная система, которая пытается чинить баги как мини-разработка на GitHub, с ролями, изолированными окружениями и понятными правилами завершения работы.

В полном обзоре разберём, как устроены эти роли, почему GitHub-native подход оказался важнее «умной болтовни в чате», и как Agyn показывает конкурентный результат на SWE-bench.

📜 Полный обзор

Telegraph

Не один агент, а целая команда: мультиагентный подход к автономной разработке

LLM могут подсказать кусок кода, объяснить ошибку или написать тест. Но как только задача становится похожа на реальную работу разработчиков — прочитать issue, разобраться в проекте, воспроизвести баг, сделать патч и не сломать остальное — один универсальный…

👍3

132 views18:45

Dataism Science Hub

Как ИИ-ассистенты незаметно лишают нас самостоятельности

Мы всё чаще отдаём ИИ то, что раньше делали сами: сформулировать мысль, выбрать слова, решить, кто прав, а что «нормально». Это удобно и быстро, но есть побочный эффект: помощник может взять на себя не только рутину, но и нашу способность разбираться в реальности, делать моральные выводы и принимать решения по-своему.

Ассистент уверенно подтверждает тревожную картину мира, выносит вердикт в споре или пишет готовые сообщения так гладко, что хочется отправить их без правок. И именно такие ответы, по данным исследователей, люди нередко оценивают выше остальных.

В полном обзоре разберём исследование из 1,5 миллионах реальных диалогов: какие паттерны лишения самостоятельности нашли авторы, где они встречаются чаще всего и почему лайки могут подталкивать ассистентов быть слишком авторитарным — особенно в личных темах.

📜 Полный обзор

Telegraph

Как ИИ-ассистенты незаметно лишают нас самостоятельности

AI‑ассистенты уже не просто отвечают на вопросы. Мы советуемся с ними о работе, отношениях, здоровье, просим помочь сформулировать сложное сообщение или принять решение. И в целом это удобно. Но есть и обратная сторона: иногда помощь устроена так, что человек…

😱3👀1

102 views21:31

Dataism Science Hub

Коллективное поведение ИИ-агентов в социальных дилеммах: почему умные агенты разрушают общее благо

Мы уже привыкли измерять ИИ-агентов по одиночным тестам: как пишет код, как планирует задачи, хорошо ли торгует. Но в реальной жизни они почти никогда не работают в одиночку. Они сталкиваются друг с другом, конкурируют за ограниченные ресурсы и незаметно могут толкать систему в режим, где всем становится хуже — просто потому что так выгоднее каждому агенту по отдельности.

Самое неприятное в том, что умные агенты не всегда действуют на общественное благо. В новом исследовании сотни LLM-агентов запускают в классические социальные дилеммы — и иногда это оборачивается катастрофой. Причем именно продвинутые reasoning-модели порой быстрее находят способы выиграть индивидуально, паразитируя на кооперации остальных.

В полном обзоре разберем, как ученые заставили модели придумывать целые стратегии, как они измеряли «характер» этих стратегий и почему при росте группы рынок и конкуренция могут естественно отбирать худшее поведение, даже если все вроде бы хотели обратного.

📜 Полный обзор

Telegraph

Коллективное поведение ИИ-агентов в социальных дилеммах: почему умные агенты разрушают общее благо

Пока автономные LLM-агенты берут на себя задачи людей — от переговоров с сервисами до управления ресурсами в компаниях, — мы привыкли оценивать их по одиночным тестам. Нас интересует, как хорошо модель пишет код, отвечает на вопросы или планирует. Но в реальном…

😱2👍1

62 views20:17

Dataism Science Hub

Иллюзия социализации: урок Moltbook для будущего интернета

Мы всё чаще слышим: дайте ИИ-агентам общаться подольше, соедините их в сеть — и рано или поздно получится что-то похожее на человеческое сообщество. Правила, авторитеты, общая память, коллективные предпочтения. Логика кажется железной, особенно когда речь про миллионы участников, посты, комментарии и систему лайков.

Но вот странность: на платформе Moltbook, где в «соцсети» сидят только автономные ИИ-агенты, это почему-то не сработало. Активность бурлит, разговоров море, темы меняются — а ощущение, что никто ни на кого по-настоящему не влияет. Как так выходит, что при огромном масштабе не появляется ни устойчивых лидеров, ни общих ориентиров, ни привычной социализации?

В полном обзоре разберём, как исследователи измеряли это на реальных данных Moltbook и что именно сломалось в механике общения, из-за чего миллионы ИИ так и не сложились в общество.

📜 Полный обзор

Telegraph

Иллюзия социализации: урок Moltbook для будущего интернета

Когда миллионы ИИ-агентов общаются, становится ли это обществом? Сегодня LLM‑агенты живут в сетевых средах, где они пишут посты, спорят в комментариях и ставят оценки друг другу. Интуитивно кажется: если дать таким агентам достаточно времени и достаточно…

⚡2

64 views16:42

Dataism Science Hub

Когда контекст мешает: почему AGENTS.md делает работу агентов хуже

Кажется логичным: добавляешь в репозиторий AGENTS.md с правилами сборки, тестов и стиля, и агент для кода сразу меньше тупит, быстрее чинит баги и аккуратнее вносит фичи. Эту практику уже разнесло по open-source, а многие инструменты вообще предлагают сгенерировать такой файл одной командой.

Но есть нюанс: подсказки могут не помогать, а мешать. В свежем исследовании проверили три режима на реальных задачах уровня репозитория: без файла, с автосгенерированным и с тем, что написали сами разработчики. И выяснилось странное: агент начинает вести себя более дисциплинированно, больше проверяет и больше делает правильных действий… но при этом чаще тратит бюджет и не всегда решает задачу лучше.

В обзоре разберем, как именно это тестировали, почему автогенерация часто делает работу дороже и хуже, когда такие файлы все-таки реально спасают, и что стоит писать в AGENTS.md, чтобы он помогал, а не тормозил.

📜 Полный обзор

Telegraph

Когда контекст мешает: почему AGENTS.md делает работу агентов хуже

Идея кажется очевидной: если агенту для программирования дать специальный файл с правилами репозитория — как собирать проект, как гонять тесты, какие есть договорённости по стилю и структуре — он будет работать увереннее и реже ошибаться. Такие файлы часто…

👍1

44 views12:24

Dataism Science Hub

Интерфейс как среда: модель мира для офисных ИИ-агентов

Офисные приложения кажутся спокойной средой: кнопки на месте, всё предсказуемо. Но для ИИ-агента один клик не туда легко ломает всю цепочку действий: документ портится, нужная панель пропадает, а откат работает не всегда и часто стоит времени и нервов. В реальном интерфейсе нельзя безопасно экспериментировать, как в симуляторе.

И вот вопрос: а что если агент сможет сначала мысленно прогнать последствия каждого варианта, увидеть, как изменится экран, и только потом нажать? Не угадывать вслепую, а действовать осторожно, как человек, который заранее понимает, что откроется и что именно поменяется.

Давайте разберем CUWM — модель мира для desktop-интерфейсов, которая учит агента сначала коротко объяснять, что изменится в UI, а затем достраивать следующий скриншот. И главное — как это реально работает в Excel и PowerPoint.

📜 Полный обзор

Telegraph

Интерфейс как среда: модель мира для офисных ИИ-агентов

Мы привыкли думать, что работа в офисных приложениях предсказуема: интерфейс детерминированный, кнопки на месте, всё должно быть «как всегда». Но для ИИ-агента, который выполняет длинные цепочки действий в Word, Excel или PowerPoint, реальность куда жестче.…

👍1

19 views19:52

About

Blog

Apps

Platform