NEW BOT Телеграм, страница

Dataism Science Hub

Как ИИ-агенты учатся параллелить задачи с помощью графа размышлений

Часто ИИ-агенты не справляются даже с самыми простыми прикладными задачами: не могут забронировать отель на нужную дату или сделать коммит в нужную ветку в гите. В чем же дело и почему столь умные системы не работают там, где человеу понадобится всего пара минут?

Исследователи утверждают: всё дело в том, как модель организует своё мышление. Оказывается, если вместо классического пошагового подхода построить нечто вроде графа размышлений, на которые нужно разбить задачу, то получается гораздо лучше и быстрее.

В этом обзоре мы разберём, как агенты учатся думать над задачами и почему будущее ИИ лежит в умении строить правильную структуру размышлений.

📜 Полный обзор

Telegraph

Как ИИ-агенты учатся параллелить задачи с помощью графа размышлений

Автономные агенты всегда используют вызовы других инструментов. Однако, почти все популярные агентные фреймворки делают это в строгой последовательности. Агент думает и на каждый шаг вызывает нужный инструмент, ждёт результат и смотрит, что делать дальше.…

134 views18:07

Dataism Science Hub

Будущее программирования — мультимодальное: как JanusCoder научился видеть интерфейс, который сам создает

ИИ уже давно умеет генерировать код. Однако если попросить его построить интерактивный график или сгенерировать анимацию, он часто не справляется с задачей.
По большому счёту, он игнорирует то, как будет визуализироваться код, и в итоге результат приходится дорабатывать вручную.

Почему ИИ-модели для генерации кода плохо справляются с этим?

Свежее исследование показывает, что ключ к решению заключается в создании модели, которая умеет и изучить задачу, и написать код, и посмотреть на результат как на картинку, чтобы доработать его.

Сегодня мы рассмотрим, как обучали такую модель и почему её появление может изменить то, как разработчики создают интерфейсы, аналитики визуализируют данные, а ИИ-агенты начинают по-настоящему понимать, что именно они программируют.

📜 Полный обзор

Telegraph

Будущее программирования — мультимодальное: как JanusCoder научился видеть интерфейс, который сам создает

Научные графики, интерактивные интерфейсы, а также анимации различных теорем – всё это, по сути, визуальное представление кода. Однако сегодня системы искусственного интеллекта учитывают только текстовую модальность и не принимают во внимание, как код будет…

126 views18:33

Dataism Science Hub

ИИ в белом халате: как он учится ставить диагнозы в виртуальной клинике

ИИ уже достаточно давно научился искать симптомы, отвечать на вопросы из учебников и угадывать диагнозы на тестах, кажется, что следующий рубеж уже совсем близко и они смогут заменить врачей-диагностов. Однако, на более сложных и приближённых к реальности задачах, когда нужно самому принимать решения по ходу, многие из существующих ИИ-моделей почему-то оказываются не способны рассуждать на уровне врача-эксперта: они часто не могут понять, когда стоит остановиться, не знают какие анализы назначить или попросту действуют по шаблону.

Новое исследование, наоборот, утверждает, что всё о чём мы думали раньше вообще не важно — и размер модели и количество данных — всё это практически не влияет на итог, а самое главное это то, как именно ИИ учится рассуждать и стратегически мыслить. Авторы помещают ИИ в виртуальную клинику, где каждое действие имеет значение, а решение о неправильном выборе будущего анализа повлияет на конечный диагноз. При этом, ИИ получает обратную связь не только за финальный точный диагноз, но и за всю цепочку принятых решений.

Давайте разберёмся, почему для успеха ИИ недостаточно просто «знать правильный ответ» из учебника и почему обучение на реалистичных медицинских сценариях позволяет делать рассуждения ИИ похожими на врачебные. Всё это меняет не только подход к диагностике, но и то, как вообще следует использовать ИИ в медицине.

📜 Полный обзор

Telegraph

ИИ в белом халате: как он учится ставить диагнозы в виртуальной клинике

В медицине клинический диагноз часто требует от врача нескольких действий: построения разумной гипотезы на основании симптомов пациента, проведения соответствующих тестов для подтверждения или исключения этой гипотезы, а также окончательного решения о том…

229 views20:33

Dataism Science Hub

Децентрализованный ИИ: как рой нейросетей побеждает большие модели

ИИ становятся все умнее, но когда дело доходит до практического применения, энтузиасты и ученые обнаруживают, что некоторые ИИ-модели не справляются с отдельными задачами.

Казалось бы, мы все время увеличиваем размеры моделей; посмотрите только на LLM которые сжигают все больше энергии, чтобы получить крошечное улучшение производительности на некоторых задачах, сохраняя при этом уязвимость ко всем видам атак. Однако по мере того, как растет стоимость, растут и требования к их надежности и стабильности.

Вот неожиданный поворот: недавние исследования показывают, что успех ИИ-систем часто определяется не размерами моделей, а тем, как различные модели объединяются или, что еще более важно, как они приходят к консенсусу или «договариваются» между собой. Фактически, небольшой рой разнородных ИИ-моделей, который умеет сравнивать решения между собой, часто может превзойти отдельную большую модель и, как правило, гораздо более устойчив к промт-инъекциям и другим видам атак.

Итак, как устроена эта коллективная мыслительная система и почему организации, стремящиеся создать децентрализованный ИИ, могут обратить на нее внимание?

📜 Полный обзор

Telegraph

Децентрализованный ИИ: как рой нейросетей побеждает большие модели

Сегодня большие языковые модели добрались до уровня продвинутого эксперта в разных задачах. Чтобы повысить качество и надежность при децентрализованном использовании есть лишь вариант существенно увеличить их размер, но это затратно и не экономически эффективно.…

🔥3

145 views22:43

Dataism Science Hub

Как ИИ-браузер ChatGPT Atlas разгадал судоку за пару минут, но проиграл в Flappy Bird

ИИ умеет пользоваться браузером: видеть веб-страницы и решать на какую клавишу нажать. Но может ли ИИ играть в браузерные игры?

ChatGPT Atlas прошёл это испытание. Он быстро справился с судоку, не делая ни одной ошибки. Зато во Flappy Bird он также быстро проиграл, не набрав ни одного очка.

Что мешает браузерным агентам полноценно играть в игры? Разбираемся в новом обзоре.

📜 Полный обзор

Telegraph

Как ИИ-браузер ChatGPT Atlas разгадал судоку за пару минут, но проиграл в Flappy Bird

Что если мы дадим агенту глаза и руки в браузере, и он получит не только контекст на странице, но и намерение, и сможет выполнять целенаправленные клики и нажатия клавиш? Исследователи решили проверить как поведет себя агент на нескольких веб-играх. Думаю…

119 views15:06

Dataism Science Hub

От пикселей к смыслу: как SVG помогает ИИ понимать мир

ИИ становится всё лучше в обработке текстов и решении задач, требующих обширных размышлений. Но когда речь заходит об изображениях, он начинает страдать. Модели видят тысячи пикселей и могут распознавать объекты, но если попросить их объяснить, что изображено на картинке или почему что-то было нарисовано определённым образом, их ответы часто звучат неубедительно.

В недавнем исследовании эксперты высказали предположение, что мы предоставляем изображения ИИ не в том виде. Они показывают, что формирование изображений на естественных языках, вероятно, не оптимально для обобщающих рассуждений. Вместо этого изображение следует сначала преобразовать в компактный, но осмысленный SVG-код, а уже затем передавать его для рассуждений на естественном языке. Интересно, что такой подход улучшает обобщающую рассуждения способность модели.

Давайте разберёмся, почему так происходит и как преобразование изображения из пикселей в символьный код может помочь моделям лучше рассуждать, используя изображения.

📜 Полный обзор

Telegraph

От пикселей к смыслу: как SVG помогает ИИ понимать мир

Современные визуально-языковые модели видят картинку как массив пикселей. Но чтобы по-настоящему понимать картинку, им нужно работать не с пикселями, а с символами — как с кодом. Это хорошо работает с распознаванием изображений, но плохо — для использования…

137 views17:02

Dataism Science Hub

Как ИИ-ученый пишет научные статьи о машинном обучении на уровне джуна

Заголовки статей, да и бенчмарки говорят о том, что ИИ становится всё умнее. Но когда дело доходит до реальных научных исследований, на практике многие автономные «ИИ-учёные» всё ещё не справляются с задачей. Их проблемы и решения выглядят расплывчатыми, а эффективность часто ниже, чем у студентов. Но почему?

Новое исследование из Японии предполагает интересный подход: вместо того, чтобы давать волю машине заниматься исследованием отдельной области, авторы попробовали сфокусировать её на одном исследовании - и получили заметный результат. Казалось бы, небольшой сдвиг, но результаты получаются лучше.

Что это значит для будущего ИИ-исследователей? Как машины учатся ориентироваться в реальных задачах и почему им всё ещё нужен человеческий надзор.

📜 Полный обзор

Telegraph

Как ИИ-ученый пишет научные статьи о машинном обучении на уровне джуна

В последнее время автономные агенты позиционировались как системы, которые умеют генерировать идеи и код на их основе, самостоятельно проводить эксперименты и писать научные статьи. Однако на практике такие системы часто оказывались неэффективными: генерируемые…

👍1

142 views22:02

Dataism Science Hub

Почему мышление через видео может быть следующим шагом в развитии ИИ

Кажется, что для развития ИИ нам нужно только увеличить объем данных и количество слоев нейросетей, чтобы достичь новых рекордов. Однако часто современные модели все еще сбиваются с толку из-за вещей, которые кажутся нам простыми. Почему это так?

В недавней работе исследователи предложили совершенно новый взгляд на этот вопрос. Они предполагают, что ключ может крыться не только в тексте или изображениях, а в видео. Они показывают, что обучение модели рассуждению с помощью видео помогает увязать вместе язык, логику и геометрию. Некоторые задачи выглядят иначе, когда гипотезы проверяются, а формулы пишутся в реальном времени.

Речь не о генерации привлекательных видеороликов, а об обучении модели рассуждать, действовать и учиться на своем опыте. В этой статье объясняю, почему видеогенератор может стать универсальной моделью мира для ИИ.

📜 Полная статья

Telegraph

Почему мышление через видео может быть следующим шагом в развитии ИИ

Когда мы просим модель рассуждать, она делает это с помощью слов в случае текста или с помощью статичной сцены в случае картинки. Однако окружающий мир не является статичным: объекты могут перемещаться, а правила часто складываются только по их поведению…

👍2❤1💯1

149 views06:04

Dataism Science Hub

Как обучить ИИ работать за компьютером

ИИ-агенты всё лучше справляются с решением тестов на общее развитие, поиском информации, рисованием картинок и даже программированием, но вот с интерфейсами на рабочем столе они пока не очень. Оказывается, реальные пользовательские интерфейсы с сотнями мелких элементов, шумом и похожими иконками – всё ещё сложное испытание. Количество опций на экране слишком велико для тривиального перебора, так что агенту надо понимать, что происходит на экране и где именно тот элемент, который нужен по инструкции пользователя.

Как ни странно, но не большие обезличенные датасеты делают агента умнее, а много человеческой и плотной разметки. Вместо миллионов сгенерированных картинок откуда‑то взятые десятки тысяч реальных сценариев использования с ручным выделением и подписью каждого элемента. Почему это важно и что это меняет для разработки агентов – давайте разбираться на примере нового исследования.

📜 Полный обзор

Telegraph

Как обучить ИИ работать за компьютером

Агенты, которые умеют управлять компьютером, часто не справляются с, казалось бы, простым шагом: найти на экране элемент, описанный в человеческой инструкции. Сделать такую привязку особенно трудно на интерфейсах с обилием мелких элементов, похожих панелей…

130 viewsedited 09:25

Dataism Science Hub

Как универсальный ИИ-агент учится жить в открытом мире

ИИ уже давно обыгрывает людей в сложные игры вроде шахмат и Dota 2. Однако, стоит поместить их в менее структурированные неигровые или даже игровые цифровые миры, как их работоспособность резко снижается. Например, одна и та же модель, которая эффективно работает на фиксированных целях, может казаться совершенно беспомощной, если цели меняются и агенты должны сами понимать, как их достичь.

Недавние исследования показывают, что агенты все еще далеки от идеального поведения в открытых средах, при этом размер модели и архитектурные ухищрения играют меньшую роль, чем считалось ранее. Все большее значение приобретает способность агентов использовать мышление. В этой статье мы рассмотрим Lumine — агента, который способен выживать в большом мире, продуманно выбирая действия и обучаясь на своем опыте.

В обзоре расскажу, почему для агентного ИИ важно не только копировать действия игроков, но и осваивать особое гибридное планирование и обучение, а также размышлять только тогда, когда это необходимо.

📜 Полный обзор

Telegraph

Как универсальный ИИ-агент учится жить в открытом мире

Проблема универсальных агентов снова вышла на передний план. Разработчики Lumine предлагают конкретный путь, как собрать агента, который будет устойчиво проходить сложные задачи с 3D навигацией, головоломками и диалогами в открытом мире Genshin Impact в течение…

👍1

130 viewsedited 20:17

Dataism Science Hub

Как ИИ-агенты научились рефакторить код: что получается хорошо, а что не очень

ИИ-агенты берут на себя задачи по улучшению кода, исправлению ошибок и даже автоматической отправке pull request’ов. Эти агенты также обещают значительно ускорить рефакторинг.

Недавнее исследование показало, что современные ИИ-агенты хорошо исправляют код с типовыми улучшениями, но почти не трогают код, требующий улучшения архитектуры или исправления сложного технического долга. Также выяснилось, что ИИ мало дать большое количество данных и простые инструкции для существенного улучшения производительности, ему также нужны механизмы рассуждений и встроенные инструменты.

В этом обзоре мы обсудим текущие возможности ИИ-агентов для рефакторинга, как их подход отличается от человеческого, и что может привести к следующему скачку производительности. Всё это повлияет на то, как мы будем работать с кодом и распределять задачи между людьми и машинами.

📜 Полный обзор

Telegraph

Как ИИ-агенты научились рефакторить код: что получается хорошо, а что не очень

Когда ИИ-агенты пишут код, они берут на себя всё больше сугубо человеческих задач - планирование, прогон тестов, да и даже последовательный рефакторинг. Авторы статьи Agentic Refactoring: An Empirical Study of AI Coding Agents впервые широко и глубоко посмотрели…

❤2🔥1

159 views18:09

Dataism Science Hub

Как сделать интернет удобным для ИИ-агентов

ИИ-агенты впечатляюще развиваются, однако их потенциал работы с вебом остается ограниченным: агенты кликают на элементы пользовательского интерфейса, но они все еще подвержены сбоям из-за изменения положения кнопки или ее внешнего вида. Это заставляет разработчиков тратить значительное время на поддержку использования веба агентами.

Фреймворк VOIX предлагает простой, но радикальный шаг: что если бы сайты сообщали агентам, что они могут сделать? Это требует всего двух дополнительных html-тегов и делает взаимодействие агентов прозрачным как для пользователя, так и для разработчика.

Сегодня вы узнаете, почему теперь ИИ-агенты будут бродить по просторам интернета быстрее, точнее, а главное — безопаснее.

📜 Полный обзор

Telegraph

Как сделать интернет удобным для ИИ-агентов

Веб-агенты сегодня ведут себя в чужих интерфейсах как нежданные гости: смотрят на скриншоты интерфейса и догадываются, на какие кнопки можно нажимать. Малейшее обновление интерфейса ломает всю логику, повышает цену поддержки пайплайнов, а приватность пользователей…

👍2

192 views21:01

Dataism Science Hub

Matrix: распределенный мультиагентный фреймворк для генерации синтетических данных

Не секрет, что ИИ-агентов часто используют для генерации синтетических данных. Но когда агентам дают одновременно более двух тысяч заданий, агенты сталкиваются с пределом производительности.

Почему это происходит? Новое исследование предполагает парадоксальный ответ. Проблема не в вычислениях и не в размере моделей. Фактический потолок производительности определяется архитектурой — в частности, централизованным диспетчером, который координирует работу агентов. Как только мы убираем этот диспетчер, узкое место исчезает. И это довольно неожиданно, что запредельную масштабируемость агентных систем можно получить с помощью одного простого изменения.

Давайте поговорим о том, как замена централизованной архитектуры на одноранговую сеть агентов снимает ограничение масштабируемости и почему это важно.

📜 Полный обзор

Telegraph

Matrix: распределенный мультиагентный фреймворк для генерации синтетических данных

Сегодня генерацию синтетических данных делают с помощью нескольких агентов для генерации текста, оценки, использования инструментов и выбора лучшего кандидата. Генерация данных высокого качества требует агентов, которые могут взаимодействовать друг с другом…

⚡1

167 views16:22

Dataism Science Hub

Когда команда ИИ-агентов помогает, а когда делает только хуже

Это вроде как интуитивно понятно: если один ИИ-агент способен решить проблему, то пятеро должны решать её в пять раз лучше и быстрее. Именно так сейчас многие и строят всё большее число мультиагентных систем. Само по себе это неплохо, но на практике именно что такая система часто превращается в неразбериху: расходуются бюджеты на токены, не сохраняется контекст и накапливаются ошибки.

И если честно, разница бывает не в процентах, а вот прям в разы: на одних задачах координация даёт огромный буст качества, а на других уверенно утаскивает результат вниз . При этом точно нельзя сказать что в одних задачах координация выстрелит, а в других нет. Но интересно и то что общий уровень ещё кое-как можно уловить: иногда координация всегда в нулях, или наоборот примерно удваивает результат.

Давайте разберём исследование, где мультиагентные системы сравнили честно на одинаковых ресурсах и условиях, по одним и тем же задачам: какие именно архитектуры рабочие, где возникает «налог на координацию» и по каким признакам можно заранее предотвратить напрасные попытки сделать команду из агентов.

📜 Полный обзор

Telegraph

Когда команда ИИ-агентов помогает, а когда делает только хуже

Идея на первый взгляд кажется банальной, но мультиагентные системы ещё не стали стандартом для многих приложений. Если конкретнее, то если один агент на базе LLM может выполнять задачи, то несколько агентов должны решать задачи лучше. Можно разделить работу…

👍5❤1

134 viewsedited 11:51

Dataism Science Hub

DeepCode: как ИИ научился собирать репозиторий по статье

Кодогенераторы стали значительно мощнее, но как только вы просите их сделать репозиторий по научной публикации из одной статьи — они не справляются. В статье много разрозненных деталей. Половина шагов может быть понята только между строк. Файлов много и все они зависят друг от друга. Да, на выходе можно получить сгенерированный репозиторий, который выглядит правдоподобно, но он не будет работать.

DeepCode рассматривает эту проблему как задачу внимания: что держать в контексте и как не потерять контракты между модулями. Работает старый добрый инженерный подход с правильной организацией архитектуры промтов, памятью и проверками.

В полном обзоре мы рассмотрим то, как DeepCode делает из статьи один общий репозиторий с кодом, как в этом помогает память кода (Code Memory) и почему замкнутый цикл тестирования ошибок внезапно решает то, где не справаляются даже платные агенты.

📜 Полный обзор

Telegraph

DeepCode: как ИИ научился собирать репозиторий по статье

За последний год LLM-агенты для программирования действительно научились кое-чему новому: они теперь справляются с тестами, запуском команд и относительно длинными сценариями. Но как только вы усложните задачу, предлагая агенту «запилить репозиторий к статье»…

🔥2👍1

166 views17:27

Dataism Science Hub

ИИ-агент против людей-безопасников: кто кого в реальном пентесте?

В кибербезопасности многие уже используют ИИ для поиска известных уязвимостей в средах, где все понятно и предсказуемо. Но в большой промышленной среде все работает совсем не так.

Вот тут и пригодится ИИ, который способен cоставить настоящий план атаки и найти уязвимости. Но встает вопрос: если такому агенту дать реальную боевую среду, способен ли он найти в ней уязвимости? Исследователи из Оксфорда построили инфраструктуру из 8000 машин, посадили десять живых пентестеров, ИИ-агента и стали сравнивать…

В обзоре разберем, как именно ученые устроили безопасный эксперимент и пора ли специалистам по безопасности искать новую работу?

📜 Полный обзор

Telegraph

ИИ-агент против людей-безопасников: кто кого в реальном пентесте?

Уже давно ведется жаркая дискуссия на тему того, насколько ИИ-агенты в сфере кибербезопасности хороши в работе. Обычно спор базируется на задаче по поиску известных уязвимостей. Но правда в том, что настоящий пентест работает не так. Это большая корпоративная…

👍1

147 viewsedited 16:20

Dataism Science Hub

Когда тесты молчат: как ИИ-агент чинит баги

LLM уже умеют чинить баги: прочитала задачу, внесла правку, прогнала тесты и… всё зелёное. Проблема в том, что в настоящих репозиториях тестов часто нет, они слабые или вообще не проверяют нужный юзкейс. И тогда модель не делает фикс и баг остается.

Логично, что если тесты пропускают баги, нужно делать их больше и качественней. Причём делать это динамически— так, чтобы тесты и патч как будто играли друг против друга. Тесты ищут, где нужно исправление, патч пытается закрыть дыры, а затем появляется ещё один слой — отбор, который помогает не принять первую удачную заплатку за верное решение.

В полном обзоре разберём, как устроен этот подход из трёх агентов и за счёт чего InfCode вырывается в лидеры на бенчмарке SWE-bench.

📜 Полный обзор

Telegraph

Когда тесты молчат: как ИИ-агент чинит баги

Автоматическое исправление багов силами LLM давно перестало быть экзотикой: модель умеет читать код, предлагать правки и даже запускать тесты. Но в реальных репозиториях всё ломается о неприятную деталь — проверять «починилось или нет» часто нечем. Если тестов…

👍2👏1😱1

139 views19:59

Dataism Science Hub

Когда цифр недостаточно: язык как скрытый сигнал в экономических ИИ-моделях

Экономика в реальности работает не только на цифрах. Новости, заявления чиновников, слухи и ожидания. Но для ИИ это проблема: обычное обучение с подкреплением любит чёткие сигналы, а язык слишком размытый источник данных. А если просто отдать управление большой языковой модели, она может убедительно рассуждать, но вести систему нестабильно, особенно на длинной дистанции.

Авторы нового исследования предлагают не выбирать между цифрами и текстом, а заставить их работать вместе. ИИ получает новости, учится извлекать из них смысл, общаться с другими агентами и при этом не теряет жёсткую оптимизацию поведения. Причём в экспериментах выигрывает и у чистого мультиагентного обучения с подкреплением (MARL), и у различных LLM-подходов вроде ReAct и Reflection.

В обзоре разберём фреймворк LAMP: как устроен цикл Think–Speak–Decide, зачем агенту память успешных рассуждений, и что показали тесты в экономическом симуляторе TaxAI.

📜 Полный обзор

Telegraph

Когда цифр недостаточно: язык как скрытый сигнал в экономических ИИ-моделях

В учебниках экономики всё понятно: цены, налоги, ставки, полезность. Но в реальной жизни решения людей и государства постоянно «подкручиваются» словами — новостями, разговорами, ожиданиями, слухами и публичными заявлениями. Один и тот же набор чисел может…

🔥2👍1

145 views18:56

Dataism Science Hub

DataFlow: PyTorch для дата инженеров в эпоху LLM

Качество работы нейросети напрямую зависит от того, на каких данных она обучена. Обычно при обучении нейросетей мы имеем кучу запутанных скриптов, в которых, например, сломалась фильтрация выборки и поплыли все метрики, а в каком месте и почему это произошло — мы уже не сыщем. В случаях, когда генерация данных делается самой LLM, — бардак становится особенно дорогим.

У инженеров появилась идея: а давайте напишем аналог PyTorch’а для дата-инженеров — для всего цикла работы с данными для обучения нейросетей.

Разбираемся, из чего состоит фреймворк DataFlow, как работает DataFlow-агент и почему сегодня это особенно актуально.

📜 Полный обзор

Telegraph

DataFlow: PyTorch для дата инженеров в эпоху LLM

Сложность обучения языковых моделей сейчас не столько в новых архитектурах, сколько в качестве данных. Их не всегда можно просто собрать, почистить и обучить нейросеть — нужно придумывать процессы, где данные можно синтезировать, валидировать, улучшать, выбрасывать…

👍3

130 views19:47

Dataism Science Hub

Как ИИ-агенты живут в "Станции" и делают научные открытия

Сегодня ИИ для науки работает как понятный пайплайн: модель делает маленькое улучшение, прогоняет тест, получает цифру и повторяет. Это эффективно, но почти не похоже на реальную науку, где есть память о прошлых попытках, обмен идеями, споры и неожиданные переносы методов между разными задачами.

В новом исследовании ученые предлагают новый подход: поселить сразу несколько ИИ-агентов в «Станцию» — среду, похожую на мини-лабораторию. Они читают заметки друг друга, ведут личные записи, публикуют результаты, запускают эксперименты и сами выбирают, чем заняться дальше. И иногда из этой «жизни» рождаются идеи, которые трудно выжать из коротких исследовательских циклов.

В обзоре разберём, как устроена «Станция», какие конкретно открытия сделали ИИ-агенты и что будет, если им не задать цель исследования.

📜 Полный обзор

Telegraph

Как ИИ-агенты живут в "Станции" и делают научные открытия

Большинство сегодняшних подходов к «научному ИИ» выглядят как понятный пайплайн. Есть центральный управляющий алгоритм, есть метрика, есть короткий цикл: сгенерируй улучшение, запусти тест, выбери лучшее, повтори. В целом это работает, но одновременно убирает…

👍3

116 viewsedited 20:48

Dataism Science Hub

Как писать README-файлы для ИИ-агентов

Ещё недавно мы просили ИИ дописать кусок кода. А теперь всё чаще отдаём ему задачу целиком: спланируй шаги, внеси правки, прогони тесты, доведи до рабочего состояния. Проблема в том, что агенту нужно быстро понять правила игры в конкретном репозитории: как тут запускают сборку, что считается нормой, какие решения трогать нельзя и где проходят красные линии.

И вот в проектах появляется новый артефакт: README не для людей, а для ИИ. Он становится «долговременной памятью» для агентов и одновременно точкой контроля над тем, как агент будет менять код. Самое интересное: исследователи посмотрели на тысячи таких файлов и обнаружили, что они живут как конфиг или даже как код — быстро разрастаются, усложняются и накапливают контекстный долг. При этом про безопасность и производительность там подозрительно часто молчат.

Давайте разберём, что именно нашли авторы на выборке из 2 303 файлов: какие темы встречаются чаще всего, как их реально редактируют со временем и можно ли автоматически проверять такие инструкции, как мы проверяем обычный код.

📜 Полный обзор

Telegraph

Как писать README-файлы для ИИ-агентов

Сегодня, когда мы пишем код с помощью ИИ, мы формулируем задачу на естественном языке, и агент в IDE сам планирует шаги, пишет изменения, запускает тесты и пытается довести дело до результата. Такой подход называют агентное программирование. Но у него есть…

👍1

130 views11:07

About

Blog

Apps

Platform