UI-Ins – новая модель от TongyiLab и RUC, предназначенная для работы с графическими интерфейсами мобильных приложений.
🔹 Фокус на намерениях – модель анализирует команду как цепочку целей, а не как одиночное действие. Это позволяет ей корректно выполнять сложные последовательности (например: «открой настройки сети, включи Wi-Fi, подключи к VPN»), даже если интерфейс отличается от ожидаемого.
🔹 Многошаговое планирование – перед выполнением действия модель генерирует несколько вариантов рассуждений, оценивает их и выбирает оптимальный.
🔹 Адаптация к изменениям – если состояние приложения меняется во время выполнения задачи (например, появляется диалог или переключается экран), модель корректирует план без сбоя.
🔹 Результаты – в тестах на AndroidWorld модель достигла 74.1% успешных выполнений. Для сравнения: Gemini 2.5 Computer Use — 69.7%.
🔹 Доступные версии – 7B (для локального тестирования) и 32B (для сложных сценариев).
Модель особенно полезна для разработчиков, тестирующих агентов, которые взаимодействуют с интерфейсами: нажимают кнопки, заполняют формы, переключаются между приложениями.
UI-Ins-7B: https://modelscope.cn/models/Tongyi-MiA/UI-Ins-7B
UI-Ins-32B: https://modelscope.cn/models/Tongyi-MiA/UI-Ins-32B
📄 arXiv: https://modelscope.cn/papers/2510.20286
#GUIагент #UI-Ins #ИИвинтерфейсах #Новости #ИИвтестировании
🔹 Фокус на намерениях – модель анализирует команду как цепочку целей, а не как одиночное действие. Это позволяет ей корректно выполнять сложные последовательности (например: «открой настройки сети, включи Wi-Fi, подключи к VPN»), даже если интерфейс отличается от ожидаемого.
🔹 Многошаговое планирование – перед выполнением действия модель генерирует несколько вариантов рассуждений, оценивает их и выбирает оптимальный.
🔹 Адаптация к изменениям – если состояние приложения меняется во время выполнения задачи (например, появляется диалог или переключается экран), модель корректирует план без сбоя.
🔹 Результаты – в тестах на AndroidWorld модель достигла 74.1% успешных выполнений. Для сравнения: Gemini 2.5 Computer Use — 69.7%.
🔹 Доступные версии – 7B (для локального тестирования) и 32B (для сложных сценариев).
Модель особенно полезна для разработчиков, тестирующих агентов, которые взаимодействуют с интерфейсами: нажимают кнопки, заполняют формы, переключаются между приложениями.
UI-Ins-7B: https://modelscope.cn/models/Tongyi-MiA/UI-Ins-7B
UI-Ins-32B: https://modelscope.cn/models/Tongyi-MiA/UI-Ins-32B
📄 arXiv: https://modelscope.cn/papers/2510.20286
#GUIагент #UI-Ins #ИИвинтерфейсах #Новости #ИИвтестировании
modelscope.cn
UI-Ins-7B
Official model weights of UI-Ins: Enhancing GUI Grounding with Multi-Perspective Instruction-as-Reas
👍5❤1
Huxley-Gödel Machine (HGM) – ИИ-агент, разработанный в Университете KAUST, способный изменять свою собственную инфраструктуру для повышения эффективности.
🔹 Самообновление без изменения ядра – агент не модифицирует саму языковую модель, а переписывает внешние компоненты: управляющую логику, скрипты и инструменты, которые его окружают.
🔹 Фокус на долгосрочной продуктивности – вместо оптимизации под бенчмарки, HGM оценивает успех через показатель Clade Metaproductivity (CMP), который измеряет совокупную эффективность всех последующих версий агента.
🔹 Результаты на SWE-Bench Verified – на базе GPT-5-mini агент решил 61.4% задач, что выше, чем у других агентов, использующих ту же модель.
🔹 Открытый код – реализация доступна на GitHub для повторения экспериментов и дальнейших исследований.
Источники:
— https://github.com/metauto-ai/HGM
— https://arxiv.org/pdf/2510.21614
#AIагенты #Новости #ИИвразработке #OpenSource
🔹 Самообновление без изменения ядра – агент не модифицирует саму языковую модель, а переписывает внешние компоненты: управляющую логику, скрипты и инструменты, которые его окружают.
🔹 Фокус на долгосрочной продуктивности – вместо оптимизации под бенчмарки, HGM оценивает успех через показатель Clade Metaproductivity (CMP), который измеряет совокупную эффективность всех последующих версий агента.
🔹 Результаты на SWE-Bench Verified – на базе GPT-5-mini агент решил 61.4% задач, что выше, чем у других агентов, использующих ту же модель.
🔹 Открытый код – реализация доступна на GitHub для повторения экспериментов и дальнейших исследований.
Источники:
— https://github.com/metauto-ai/HGM
— https://arxiv.org/pdf/2510.21614
#AIагенты #Новости #ИИвразработке #OpenSource
GitHub
GitHub - metauto-ai/HGM: 🧬 The Huxley-Gödel Machine
🧬 The Huxley-Gödel Machine. Contribute to metauto-ai/HGM development by creating an account on GitHub.
👍3❤2🤔2👨💻2
Марта – первый агент Битрикс24, который умеет поддерживать диалог, понимать задачу и действовать внутри корпоративной системы. Подробнее на: https://vc.ru/ai/2336767-homo-agentus-evolyutsiya-truda
vc.ru
Homo Agentus или Человек Делегирующий: эволюция труда от молота до Марты
Вначале человек сделал огонь. Чуть позже — Excel. Между этими событиями прошло двадцать тысяч лет, и всё, что изменилось, — мы начали жечь не дрова, а время на поиски нужной кнопки. Но хорошо, что наконец-то поняли, что жить в мире, где у каждого приложения…
❤13👎2🤣1🤪1
Google опубликовал руководство объемом 50 страниц по созданию AI-агентов для реальных задач.
Документ охватывает:
🔹 Архитектура агента – структура основных компонентов: планировщик, память, инструменты, контроллер.
🔹 Роль LLM – как языковая модель используется как центральный процессор для принятия решений, а не как генератор текста.
🔹 Интеграция инструментов – подключение внешних API, баз данных, MCP-серверов и скриптов для выполнения действий.
🔹 Оркестрация нескольких агентов – координация взаимодействия между агентами с разными ролями (наблюдатель, исполнитель, аналитик).
🔹 Деплой и продакшн – подходы к развертыванию в production: управление состоянием, мониторинг, обработка сбоев.
🔹 Оценка эффективности – метрики для измерения надёжности, точности и устойчивости агентов в реальных сценариях.
🔹 Самообучение и эволюция – методы, позволяющие агентам улучшать свою работу на основе обратной связи и результатов прошлых задач.
🔹 Пример: AlphaEvolve – детальный разбор архитектуры агента, способного адаптироваться и оптимизировать свои действия со временем.
Документ ориентирован на разработчиков и исследователей, работающих с агентными системами.
Доступен для ознакомления https://cloud.google.com/resources/content/building-ai-agents
#AIагенты #Google #Агентные системы #ИИ
Документ охватывает:
🔹 Архитектура агента – структура основных компонентов: планировщик, память, инструменты, контроллер.
🔹 Роль LLM – как языковая модель используется как центральный процессор для принятия решений, а не как генератор текста.
🔹 Интеграция инструментов – подключение внешних API, баз данных, MCP-серверов и скриптов для выполнения действий.
🔹 Оркестрация нескольких агентов – координация взаимодействия между агентами с разными ролями (наблюдатель, исполнитель, аналитик).
🔹 Деплой и продакшн – подходы к развертыванию в production: управление состоянием, мониторинг, обработка сбоев.
🔹 Оценка эффективности – метрики для измерения надёжности, точности и устойчивости агентов в реальных сценариях.
🔹 Самообучение и эволюция – методы, позволяющие агентам улучшать свою работу на основе обратной связи и результатов прошлых задач.
🔹 Пример: AlphaEvolve – детальный разбор архитектуры агента, способного адаптироваться и оптимизировать свои действия со временем.
Документ ориентирован на разработчиков и исследователей, работающих с агентными системами.
Доступен для ознакомления https://cloud.google.com/resources/content/building-ai-agents
#AIагенты #Google #Агентные системы #ИИ
Google Cloud
Startups technical guide: AI agents
Download our guide for startups on building AI agents with Vertex AI, Gemini, & ADK. Learn RAG, multimodal AI, autoML & more on Google Cloud.
🔥9❤3🤪2👍1👎1
API для LLM. Миша Васильев разработчик в команде AI Битрикс24 рассказывает о том, как работает протокол MCP.
🔹 Что такое MCP
MCP (Model Context Provider) – открытый протокол, стандартизирующий способ, которым ИИ-агент получает доступ к инструментам, данным и интерфейсам внешних сервисов.
Это не ИИ. Это мост между моделью и реальным миром – как API, но для агентов.
🔹 Как было раньше
Раньше LLM могла только:
– «Вам нужно зайти в календарь, нажать “Создать событие”, ввести время и пригласить участников» – и ждать, пока человек сделает это сам.
Потом появилась возможность вызывать локальные функции внутри приложения – агент мог сам запустить функцию, если она была встроена в код.
Но это требовало пересборки приложения при добавлении нового сервиса.
🔹 Как работает MCP сейчас
Агент не знает, как устроены календари, CRM или базы данных.
Он знает только:
– «У этого сервера есть инструмент “создать событие” с параметрами: дата, время, участники»
– «У этого сервера есть ресурс “список сотрудников” в формате JSON»
Сервер – это отдельный процесс (локальный или удаленный), который:
– описывает свои возможности (инструменты, ресурсы, промпты)
– исполняет запросы агента
– возвращает структурированный ответ
Клиент – приложение, в котором работает агент (например, Битрикс24, IDE, чат-бот).
Он подключается к серверу, получает список возможностей и передает запросы.
Ключевые компоненты MCP
🔹 Инструменты – действия, которые меняют состояние системы.
🔹 Ресурсы – данные для чтения.
🔹 Промпты – шаблоны для сбора структурированных данных от пользователя.
🔹 Элицитация – агент может запросить уточнение у пользователя.
🔹 Сэмплинг – сервер может попросить клиента запустить запрос к другой LLM (например, для анализа текста).
– Только с явным согласием пользователя.
– Все данные передаются прозрачно.
🔹 Корневые директории – указание, где в файловой системе находятся важные папки. Помогает агенту находить файлы без ручного ввода путей.
Польза для разработчиков и бизнеса
Битрикс24 скоро станет MCP-сервером.
Это значит:
– Сторонние ИИ-агенты смогут:
• добавлять Лидов в CRM
• создавать задачи
• обновлять Сделки
– Без интеграций, без API-ключей, без кастомного кода.
Подробнее
#MCP #ИИагенты #Битрикс24 #ИИинтеграции #ИИразработка
🔹 Что такое MCP
MCP (Model Context Provider) – открытый протокол, стандартизирующий способ, которым ИИ-агент получает доступ к инструментам, данным и интерфейсам внешних сервисов.
Это не ИИ. Это мост между моделью и реальным миром – как API, но для агентов.
🔹 Как было раньше
Раньше LLM могла только:
– «Вам нужно зайти в календарь, нажать “Создать событие”, ввести время и пригласить участников» – и ждать, пока человек сделает это сам.
Потом появилась возможность вызывать локальные функции внутри приложения – агент мог сам запустить функцию, если она была встроена в код.
Но это требовало пересборки приложения при добавлении нового сервиса.
🔹 Как работает MCP сейчас
Агент не знает, как устроены календари, CRM или базы данных.
Он знает только:
– «У этого сервера есть инструмент “создать событие” с параметрами: дата, время, участники»
– «У этого сервера есть ресурс “список сотрудников” в формате JSON»
Сервер – это отдельный процесс (локальный или удаленный), который:
– описывает свои возможности (инструменты, ресурсы, промпты)
– исполняет запросы агента
– возвращает структурированный ответ
Клиент – приложение, в котором работает агент (например, Битрикс24, IDE, чат-бот).
Он подключается к серверу, получает список возможностей и передает запросы.
Ключевые компоненты MCP
🔹 Инструменты – действия, которые меняют состояние системы.
🔹 Ресурсы – данные для чтения.
🔹 Промпты – шаблоны для сбора структурированных данных от пользователя.
🔹 Элицитация – агент может запросить уточнение у пользователя.
🔹 Сэмплинг – сервер может попросить клиента запустить запрос к другой LLM (например, для анализа текста).
– Только с явным согласием пользователя.
– Все данные передаются прозрачно.
🔹 Корневые директории – указание, где в файловой системе находятся важные папки. Помогает агенту находить файлы без ручного ввода путей.
Польза для разработчиков и бизнеса
– Масштабируемость: подключить новый сервис – не переписывать код агента, а добавить сервер.
– Безопасность: доступ к инструментам контролируется отдельно, без прямого доступа к системе.
– Повторное использование: один MCP-сервер может обслуживать десятки агентов.
– Изоляция: ошибка в инструменте не сломает агента.
– Стандартизация: любой агент, поддерживающий MCP, может работать с любым сервером.
Битрикс24 скоро станет MCP-сервером.
Это значит:
– Сторонние ИИ-агенты смогут:
• добавлять Лидов в CRM
• создавать задачи
• обновлять Сделки
– Без интеграций, без API-ключей, без кастомного кода.
Подробнее
#MCP #ИИагенты #Битрикс24 #ИИинтеграции #ИИразработка
Хабр
API для LLM: разбираем по пунктам, как устроен и как работает протокол MCP
Привет! Меня зовут Миша Васильев, я разработчик в команде AI Битрикс24. В последнее время мы часто говорим про МСР и вот, наконец, решили рассказать простыми словами о том, что это такое, как...
👍8🔥6👎1🤣1🤪1
SIMA 2 – ИИ-агент от Google DeepMind, который может взаимодействовать с виртуальными 3D-мирами: перемещаться, воспринимать среду и выполнять задачи на основе инструкций.
🔹 Планирование действий – разбивает сложные задачи на шаги и выполняет их самостоятельно, без пошаговой подсказки.
🔹 Перенос навыков между мирами – применяет знания из одного сценария (например, добыча ресурсов) к другому (сбор урожая), даже если среда новая.
🔹 Адаптация к незнакомым средам – работает в мирах, в которых никогда не была ранее, без дополнительного обучения.
🔹 Обучение через опыт – улучшает поведение на основе обратной связи: пробует, ошибается, корректирует действия.
🔹 Работа в динамических средах – успешно перемещается в мирах, сгенерированных в реальном времени моделью Genie 3, включая невидимые или изменяющиеся ландшафты.
Агент не требует предварительной настройки под каждый мир – работает с любыми интерактивными 3D-средами на основе инструкций.
Смотреть подробнее
#SIMA2 #ИИагенты #3Dсреды #ГенеративныйИИ #DeepMind
🔹 Планирование действий – разбивает сложные задачи на шаги и выполняет их самостоятельно, без пошаговой подсказки.
🔹 Перенос навыков между мирами – применяет знания из одного сценария (например, добыча ресурсов) к другому (сбор урожая), даже если среда новая.
🔹 Адаптация к незнакомым средам – работает в мирах, в которых никогда не была ранее, без дополнительного обучения.
🔹 Обучение через опыт – улучшает поведение на основе обратной связи: пробует, ошибается, корректирует действия.
🔹 Работа в динамических средах – успешно перемещается в мирах, сгенерированных в реальном времени моделью Genie 3, включая невидимые или изменяющиеся ландшафты.
Агент не требует предварительной настройки под каждый мир – работает с любыми интерактивными 3D-средами на основе инструкций.
Смотреть подробнее
#SIMA2 #ИИагенты #3Dсреды #ГенеративныйИИ #DeepMind
Google DeepMind
SIMA 2: A Gemini-Powered AI Agent for 3D Virtual Worlds
Introducing SIMA 2, the next milestone in our research creating general and helpful AI agents. By integrating the advanced capabilities of our Gemini models, SIMA is evolving from an instruction-foll…
🔥5❤1
LangChain представил песочницы для безопасного запуска ИИ-агентов – Sandboxes for DeepAgents.
🔹 Изоляция кода – сгенерированный агентом код выполняется не на локальной машине, а в удаленных, изолированных средах от партнеров: Runloop, Daytona, Modal.
🔹 Защита системы – предотвращает риски: вредоносные команды, доступ к файлам, запуск вредоносных скриптов – все ограничено контейнером.
🔹 Чистые окружения – для каждой задачи создается отдельная среда с нужными библиотеками и зависимостями, без конфликтов с основной системой.
🔹 Параллелизм и долгие задачи – можно запускать несколько агентов одновременно, выполнять длительные операции (например, анализ данных, генерация отчетов) без риска зависания или повреждения системы.
Функция особенно полезна при тестировании агентов, работе с внешними API и сценариях, где код агента непредсказуем.
Источник blog.langchain.com
#LangChain #ИИагенты #Безопасность #Песочницы
🔹 Изоляция кода – сгенерированный агентом код выполняется не на локальной машине, а в удаленных, изолированных средах от партнеров: Runloop, Daytona, Modal.
🔹 Защита системы – предотвращает риски: вредоносные команды, доступ к файлам, запуск вредоносных скриптов – все ограничено контейнером.
🔹 Чистые окружения – для каждой задачи создается отдельная среда с нужными библиотеками и зависимостями, без конфликтов с основной системой.
🔹 Параллелизм и долгие задачи – можно запускать несколько агентов одновременно, выполнять длительные операции (например, анализ данных, генерация отчетов) без риска зависания или повреждения системы.
Функция особенно полезна при тестировании агентов, работе с внешними API и сценариях, где код агента непредсказуем.
Источник blog.langchain.com
#LangChain #ИИагенты #Безопасность #Песочницы
LangChain Blog
Execute Code with Sandboxes for DeepAgents
By Vivek Trivedy
Today we're excited to launch Sandboxes for DeepAgents, a new set of integrations that allow you to safely execute arbitrary DeepAgent code in remote sandboxes. We currently support sandboxes from 3 of our partners: Runloop, Daytona, and…
Today we're excited to launch Sandboxes for DeepAgents, a new set of integrations that allow you to safely execute arbitrary DeepAgent code in remote sandboxes. We currently support sandboxes from 3 of our partners: Runloop, Daytona, and…
❤2🔥1👌1
Forwarded from Битрикс24 печатает…
Просто напишите в чат — Агент Марта подскажет, как работать с инструментами Битрикс24 👩🦰
А еще подскажет, что делать в конкретной ситуации: создаст сделку, поставит задачу и так далее.
Как начать диалог с Агентом Марта AI? 👀
Виджет находится в левом нижнем углу и доступен всем сотрудникам из любого раздела — кликните по нему, чтобы начать переписку. Другой вариант — перейдите в Мессенджер, найдите и откройте чат с Агентом Марта в списке чатов.
👉Подробнее
Все обновления пользователи Битрикс24 получают постепенно. Пожалуйста, подождите, скоро все появится.
🔥 — очень ждем
А еще подскажет, что делать в конкретной ситуации: создаст сделку, поставит задачу и так далее.
С Мартой новые сотрудники освоят Битрикс24 без долгого обучения, а опытные пользователи сэкономят время — им не придется искать информацию и управлять всеми инструментами вручную.
Как начать диалог с Агентом Марта AI? 👀
Виджет находится в левом нижнем углу и доступен всем сотрудникам из любого раздела — кликните по нему, чтобы начать переписку. Другой вариант — перейдите в Мессенджер, найдите и откройте чат с Агентом Марта в списке чатов.
👉Подробнее
🔥 — очень ждем
🔥24❤1
Google представил Antigravity – среду разработки для управления роем ИИ-агентов.
🔹 Manager View – централизованный интерфейс для контроля нескольких агентов, работающих одновременно в изолированных воркспейсах. Позволяет отслеживать статус, логи и результаты каждого агента в реальном времени.
🔹 Поддержка нескольких моделей – агенты работают на базе Gemini 3 Pro, Claude Sonnet 4.5 или GPT-OSS – выбор модели зависит от задачи.
🔹 Прямой доступ к инструментам – каждый агент может использовать редактор кода, терминал и веб-браузер без внешних подключений.
🔹 Память и адаптация – агенты запоминают контекст прошлых действий и учатся на поведении пользователя, улучшая точность выполнения повторяющихся задач.
🔹 Доступность – публичный превью доступен бесплатно для macOS, Windows и Linux. Google заявляет о щедрых лимитах на использование моделей – без жестких ограничений на количество запросов.
Инструмент ориентирован на команды, которым нужно одновременно тестировать, отлаживать и развивать несколько ИИ-агентов в сложных сценариях.
Почитать подробнее
#Antigravity #ИИагенты #Оркестрация #МногоагентныеСистемы
🔹 Manager View – централизованный интерфейс для контроля нескольких агентов, работающих одновременно в изолированных воркспейсах. Позволяет отслеживать статус, логи и результаты каждого агента в реальном времени.
🔹 Поддержка нескольких моделей – агенты работают на базе Gemini 3 Pro, Claude Sonnet 4.5 или GPT-OSS – выбор модели зависит от задачи.
🔹 Прямой доступ к инструментам – каждый агент может использовать редактор кода, терминал и веб-браузер без внешних подключений.
🔹 Память и адаптация – агенты запоминают контекст прошлых действий и учатся на поведении пользователя, улучшая точность выполнения повторяющихся задач.
🔹 Доступность – публичный превью доступен бесплатно для macOS, Windows и Linux. Google заявляет о щедрых лимитах на использование моделей – без жестких ограничений на количество запросов.
Инструмент ориентирован на команды, которым нужно одновременно тестировать, отлаживать и развивать несколько ИИ-агентов в сложных сценариях.
Почитать подробнее
#Antigravity #ИИагенты #Оркестрация #МногоагентныеСистемы
Google Antigravity
Google Antigravity - Build the new way
👍4❤2
Ai2 выпустил Deep Research Tulu (DR Tulu) – открытую модель на 8 млрд параметров для создания агентов глубокого поиска.
🔹 Автономное исследование – модель самостоятельно планирует поиск, использует внешние источники (поисковики, базы данных), собирает информацию из множества сайтов и формирует ответ с точными ссылками.
🔹 Динамическая оценка – обучена на методе RLER (Reinforcement Learning with Evolving Rubrics): критерии качества ответа меняются в процессе обучения, что предотвращает «взлом вознаграждения» и заставляет агента анализировать контекст, а не копировать шаблонные формулировки.
🔹 Производительность – на задачах длинных исследований (long-form research) показывает результаты, сопоставимые с OpenAI и Perplexity.
🔹 Стоимость – выполнение сложного запроса стоит менее 1 цента, в то время как аналогичная задача у OpenAI – до $1.80.
Модель открыта для использования, настройки и дальнейшего развития. Подходит для исследовательских проектов, аналитики, автоматизированного сбора данных.
Подробнее
#DR_Tulu #ИИ_исследования #ОткрытыйИИ #Агенты_поиска
🔹 Автономное исследование – модель самостоятельно планирует поиск, использует внешние источники (поисковики, базы данных), собирает информацию из множества сайтов и формирует ответ с точными ссылками.
🔹 Динамическая оценка – обучена на методе RLER (Reinforcement Learning with Evolving Rubrics): критерии качества ответа меняются в процессе обучения, что предотвращает «взлом вознаграждения» и заставляет агента анализировать контекст, а не копировать шаблонные формулировки.
🔹 Производительность – на задачах длинных исследований (long-form research) показывает результаты, сопоставимые с OpenAI и Perplexity.
🔹 Стоимость – выполнение сложного запроса стоит менее 1 цента, в то время как аналогичная задача у OpenAI – до $1.80.
Модель открыта для использования, настройки и дальнейшего развития. Подходит для исследовательских проектов, аналитики, автоматизированного сбора данных.
Подробнее
#DR_Tulu #ИИ_исследования #ОткрытыйИИ #Агенты_поиска
allenai.org
DR Tulu: An open, end-to-end training recipe for long-form deep research | Ai2
We introduce Deep Research Tulu (DR Tulu), an open post-training recipe and framework for long-form deep research agents.
👍7❤1
AI-агенты и MCP 🔥
Подключайтесь к онлайн-митапу на этой неделе👇
➖ 27 ноября. AI-агенты и MCP: как разгрузить команду и ускорить бизнес
Расскажем, как AI-агенты могут усилить вашу команду и как MCP изменит интеграцию между системами.
Подключайтесь к онлайн-митапу на этой неделе👇
➖ 27 ноября. AI-агенты и MCP: как разгрузить команду и ускорить бизнес
Расскажем, как AI-агенты могут усилить вашу команду и как MCP изменит интеграцию между системами.
meetup.bitrix24.study
AI-агенты и MCP: как разгрузить команду и ускорить бизнес
Онлайн-митап 27 ноября 11:00 МСК
🔥11
MCP Apps Extension: интерактивные интерфейсы для ИИ-агентов
Раньше MCP-серверы передавали только текст или JSON. Теперь – могут отправлять интерактивные интерфейсы через стандартизированный механизм.
🔹 Как это работает
– Шаблоны пользовательского интерфейса – это ресурсы со схемой URI ui://
– Отображаются в изолированном iframe – безопасно и совместимо с браузерами
– Взаимодействие (кнопки, формы, выбор) – через JSON-RPC
– При отсутствии поддержки UI – возвращается текстовая версия (обратная совместимость)
🔹 Польза
– Разработчики: не нужно писать код для отображения графиков, форм, загрузчиков – интерфейс приходит от сервера
– Пользователи: вместо текстовых запросов – календари, кнопки загрузки, фильтры, визуализации – всё сразу и понятно
– Все действия – с согласия пользователя, без скрытых действий
🔹 Суть
ИИ-агенты перестают быть «текстовыми помощниками» – они становятся интерактивными инструментами, которые работают в любом приложении, как расширения, но с пониманием контекста.
Подробнее
#MCP #ИИагенты #ИнтерактивныйИИ #ИнфраструктураИИ #ОткрытыеСтандарты
Раньше MCP-серверы передавали только текст или JSON. Теперь – могут отправлять интерактивные интерфейсы через стандартизированный механизм.
🔹 Как это работает
– Шаблоны пользовательского интерфейса – это ресурсы со схемой URI ui://
– Отображаются в изолированном iframe – безопасно и совместимо с браузерами
– Взаимодействие (кнопки, формы, выбор) – через JSON-RPC
– При отсутствии поддержки UI – возвращается текстовая версия (обратная совместимость)
🔹 Польза
– Разработчики: не нужно писать код для отображения графиков, форм, загрузчиков – интерфейс приходит от сервера
– Пользователи: вместо текстовых запросов – календари, кнопки загрузки, фильтры, визуализации – всё сразу и понятно
– Все действия – с согласия пользователя, без скрытых действий
🔹 Суть
ИИ-агенты перестают быть «текстовыми помощниками» – они становятся интерактивными инструментами, которые работают в любом приложении, как расширения, но с пониманием контекста.
Подробнее
#MCP #ИИагенты #ИнтерактивныйИИ #ИнфраструктураИИ #ОткрытыеСтандарты
Model Context Protocol Blog
MCP Apps: Extending servers with interactive user interfaces
Today we’re introducing the proposal for the MCP Apps Extension (SEP-1865) to standardize support for interactive user interfaces in the Model Context Protocol.
This extension addresses one of the most requested features from the MCP community and builds…
This extension addresses one of the most requested features from the MCP community and builds…
👍1🔥1
Stack Overflow планирует превратить Stack Internal в источник данных для корпоративных ИИ-агентов.
🔹 Суть изменения
– Внутренние знания компаний (документы, решения, инструкции) конвертируются в структурированный формат, доступный через MCP.
– ИИ-агенты получают доступ не к случайным ответам, а к проверенной корпоративной экспертизе.
🔹 Новый слой – рейтинг надежности
– Каждый ответ оценивается по трем параметрам:
• автор (эксперт/новичок)
• актуальность (дата обновления)
• связность (согласованность с другими источниками)
– Агент использует этот рейтинг для выбора наиболее достоверных данных.
🔹 Польза
– Компании: превращают внутренние знания в актив, который используют ИИ-системы.
– ИИ-агенты: получают точные, контекстно-релевантные данные без риска «галлюцинаций» на основе публичных форумов.
– Разработчики: не нужно создавать собственные системы валидации – надежность уже встроена в данные.
🔹 Что в этом нового
Раньше ИИ использовал Stack Overflow как публичный архив. Теперь – это закрытый, управляемый, оцененный источник для бизнес-задач.
Подробнее stackoverflow.blog
#StackOverflow #ИИагенты #MCP #КорпоративныйИИ #ДанныеДляИИ
🔹 Суть изменения
– Внутренние знания компаний (документы, решения, инструкции) конвертируются в структурированный формат, доступный через MCP.
– ИИ-агенты получают доступ не к случайным ответам, а к проверенной корпоративной экспертизе.
🔹 Новый слой – рейтинг надежности
– Каждый ответ оценивается по трем параметрам:
• автор (эксперт/новичок)
• актуальность (дата обновления)
• связность (согласованность с другими источниками)
– Агент использует этот рейтинг для выбора наиболее достоверных данных.
🔹 Польза
– Компании: превращают внутренние знания в актив, который используют ИИ-системы.
– ИИ-агенты: получают точные, контекстно-релевантные данные без риска «галлюцинаций» на основе публичных форумов.
– Разработчики: не нужно создавать собственные системы валидации – надежность уже встроена в данные.
🔹 Что в этом нового
Раньше ИИ использовал Stack Overflow как публичный архив. Теперь – это закрытый, управляемый, оцененный источник для бизнес-задач.
Подробнее stackoverflow.blog
#StackOverflow #ИИагенты #MCP #КорпоративныйИИ #ДанныеДляИИ
stackoverflow.blog
Introducing Stack Internal: Powering the human intelligence layer of enterprise AI - Stack Overflow
👍2❤1
Agent 365 – управление ИИ-агентами как ресурсами организации
🔹 Единый реестр агентов
– Каждый ИИ-агент получает уникальный ID в системе Microsoft Entra.
– Позволяет централизованно отслеживать, кто и как использует агентов внутри компании.
🔹 Контроль доступа
– Права на данные и действия настраиваются по принципу минимальных привилегий.
– Агенты получают доступ только к тем ресурсам, которые им необходимы для задачи.
🔹 Мониторинг эффективности
– Дашборды показывают в реальном времени: сколько задач выполнено, насколько точно, сколько времени заняло.
– Помогает выявлять неэффективные или перегруженные агенты.
🔹 Открытая совместимость
– Работает не только с Copilot Studio, но и с open-source фреймворками, сторонними решениями, интегрированными через стандартные API.
– Не привязан к экосистеме Microsoft – поддерживает гибридные среды.
🔹 Безопасность
– Защита данных обеспечивается через Microsoft Defender и Purview – фильтрация, аудит, обнаружение аномалий.
– Все действия агентов логируются и подлежат проверке.
🔹 Статус
– Доступен в тестовом режиме в админ-панели Microsoft 365.
– Пока не массовый выпуск – только для ранних пользователей.
Подробнее
#Agent365 #ИИагенты #КорпоративныйИИ #УправлениеАгентами
🔹 Единый реестр агентов
– Каждый ИИ-агент получает уникальный ID в системе Microsoft Entra.
– Позволяет централизованно отслеживать, кто и как использует агентов внутри компании.
🔹 Контроль доступа
– Права на данные и действия настраиваются по принципу минимальных привилегий.
– Агенты получают доступ только к тем ресурсам, которые им необходимы для задачи.
🔹 Мониторинг эффективности
– Дашборды показывают в реальном времени: сколько задач выполнено, насколько точно, сколько времени заняло.
– Помогает выявлять неэффективные или перегруженные агенты.
🔹 Открытая совместимость
– Работает не только с Copilot Studio, но и с open-source фреймворками, сторонними решениями, интегрированными через стандартные API.
– Не привязан к экосистеме Microsoft – поддерживает гибридные среды.
🔹 Безопасность
– Защита данных обеспечивается через Microsoft Defender и Purview – фильтрация, аудит, обнаружение аномалий.
– Все действия агентов логируются и подлежат проверке.
🔹 Статус
– Доступен в тестовом режиме в админ-панели Microsoft 365.
– Пока не массовый выпуск – только для ранних пользователей.
Подробнее
#Agent365 #ИИагенты #КорпоративныйИИ #УправлениеАгентами
Microsoft News
Microsoft Agent 365: The control plane for AI agents
Learn how Agent 365 delivers unified observability across your entire agent fleet through telemetry, dashboards, and alerts.
👍2
Salesforce расширила Agentforce 360: контроль и отладка ИИ-агентов
🔹 Полный трейсинг сессий
– Логируются: входные запросы пользователя, внутренние шаги рассуждения агента, вызовы LLM, результаты проверок безопасности.
– Позволяет восстановить полную цепочку действий агента для анализа ошибок или неожиданных результатов.
🔹 Оркестрация через MuleSoft Agent Fabric
– Централизованный хаб для управления всеми активными агентами в инфраструктуре.
– Показывает в реальном времени: кто запущен, какие задачи выполняет, какие системы задействованы.
🔹 Польза для разработчиков и администраторов
– Можно выявлять паттерны сбоев до выхода в продакшен.
– Упрощается отладка: не нужно воссоздавать сценарии вручную – вся история доступна в логах.
– Аудит действий агентов становится системным, а не случайным.
🔹 Что изменилось
Раньше – агенты работали как «черные ящики». Теперь – их поведение прозрачно, измеримо и контролируемо.
Подробнее о Salesforce Agentforce 360
#Agentforce360 #ИИагенты #ОтладкаИИ #Мониторинг #Salesforce
🔹 Полный трейсинг сессий
– Логируются: входные запросы пользователя, внутренние шаги рассуждения агента, вызовы LLM, результаты проверок безопасности.
– Позволяет восстановить полную цепочку действий агента для анализа ошибок или неожиданных результатов.
🔹 Оркестрация через MuleSoft Agent Fabric
– Централизованный хаб для управления всеми активными агентами в инфраструктуре.
– Показывает в реальном времени: кто запущен, какие задачи выполняет, какие системы задействованы.
🔹 Польза для разработчиков и администраторов
– Можно выявлять паттерны сбоев до выхода в продакшен.
– Упрощается отладка: не нужно воссоздавать сценарии вручную – вся история доступна в логах.
– Аудит действий агентов становится системным, а не случайным.
🔹 Что изменилось
Раньше – агенты работали как «черные ящики». Теперь – их поведение прозрачно, измеримо и контролируемо.
Подробнее о Salesforce Agentforce 360
#Agentforce360 #ИИагенты #ОтладкаИИ #Мониторинг #Salesforce
Salesforce
Salesforce Deepens Observability in Agentforce 360, Giving Every Team Continuous AI Performance Insight and Optimization
The agent development lifecycle begins with three phases: build, test, and deploy. While many organizations have overcome the initial hurdle of creating
👍3
Сергей Нотевский – AI Platform Lead в Битрикс24 рассказывает простыми словами о том, что такое ИИ-агент.
Многие путают ИИ-агентов с обычными LLM-запросами или workflow. Разница – в автономности.
🔹 LLM (простой запрос)
– Ты задаешь вопрос → модель отвечает.
– Нет взаимодействия с внешними системами.
– Пример: «Сделай краткое содержание звонка».
🔹 Workflow
– Ты заранее прописываешь цепочку шагов: транскрипция → саммари → заполнение CRM.
– Каждый шаг фиксирован, не меняется в процессе.
– Пример: автоматическое обновление Сделки после звонка.
🔹 Ключевые элементы агента
– LLM (движок)
– Среда (интернет, файлы, CRM и т.д.)
– Инструменты (поиск, парсеры, генераторы)
– Автономное планирование – без жесткого сценария
🔹 Deep Research – пример
– Не просто ищет информацию.
– Ходит по десяткам источников, оценивает их качество, сравнивает, ищет пробелы, перепроверяет.
– Выдает структурированный отчет – как человек-исследователь, но в 10 раз быстрее.
🔹 Когда использовать агента, а когда workflow?
– Workflow – если шаги известны заранее.
– Агент – если путь к цели неочевиден, требует итераций и адаптации.
Подробнее на Хабр
#ИИагенты #MCP #LLM #АгентскаяПетля #DeepResearch
Многие путают ИИ-агентов с обычными LLM-запросами или workflow. Разница – в автономности.
🔹 LLM (простой запрос)
– Ты задаешь вопрос → модель отвечает.
– Нет взаимодействия с внешними системами.
– Пример: «Сделай краткое содержание звонка».
🔹 Workflow
– Ты заранее прописываешь цепочку шагов: транскрипция → саммари → заполнение CRM.
– Каждый шаг фиксирован, не меняется в процессе.
– Пример: автоматическое обновление Сделки после звонка.
🔹 ИИ-агент
– Ты ставишь цель: «Исследуй, какие поисковые движки лучше всего подходят для LLM-ассистента».
– Модель сама:
• разбивает цель на шаги
• выбирает инструменты (поиск, чтение PDF, анализ)
• решает, что делать дальше, исходя из полученных данных
• повторяет цикл, пока цель не достигнута
– Это – агентская петля:
1. Определить следующий шаг
2. Вызвать инструмент
3. Обновить контекст
4. Повторить
🔹 Ключевые элементы агента
– LLM (движок)
– Среда (интернет, файлы, CRM и т.д.)
– Инструменты (поиск, парсеры, генераторы)
– Автономное планирование – без жесткого сценария
🔹 Deep Research – пример
– Не просто ищет информацию.
– Ходит по десяткам источников, оценивает их качество, сравнивает, ищет пробелы, перепроверяет.
– Выдает структурированный отчет – как человек-исследователь, но в 10 раз быстрее.
🔹 Что не обязательно для агента
– 24/7 работа
– Постоянная память (RAG)
– Проактивность
– Обучение в процессе
Эти функции – полезны, но не определяют агентность.
🔹 Когда использовать агента, а когда workflow?
– Workflow – если шаги известны заранее.
– Агент – если путь к цели неочевиден, требует итераций и адаптации.
Подробнее на Хабр
#ИИагенты #MCP #LLM #АгентскаяПетля #DeepResearch
Хабр
ИИ-агенты простым языком: разбираем на примере Deep Research
Привет, Хабр! Меня зовут Сергей Нотевский, я AI Platform Lead в Битрикс24. Моя команда отвечает за модельки под капотом наших AI сервисов. Агенты, агентные системы, agentic AI - эти слова сейчас...
👍6🔥3❤2
ToolOrchestra: координация моделей и инструментов для эффективного решения задач
NVIDIA и Университет Гонконга разработали ToolOrchestra – методику обучения специализированной модели-оркестратора, которая управляет работой других ИИ-агентов и инструментов, и выпустила на ее основе модель Orchestrator-8B.
🔹 Как это работает
– Модель Orchestrator-8B (на базе Qwen3) не решает задачу сама.
– Она чередует:
• рассуждение – анализ задачи и планирование шагов
• вызов внешних инструментов – поиск, код-интерпретатор, другие LLM – Claude, Llama-Nemotron, узкоспециализированные модели
– Выбор инструмента зависит от этапа задачи: математика → специализированная модель, анализ текста → универсальная, поиск → поисковый движок.
🔹 Польза
– Скорость: решение задач на 2,5 раза быстрее, чем при использовании одной флагманской модели.
– Стоимость: расходы на вычисления снижены на 70%.
– Точность: результат 37,1% на бенчмарке Humanity’s Last Exam – выше, чем у GPT-5 на 35,1%.
🔹 Обучение
– Использован метод GRPO – не только за правильный ответ, но и за эффективность: минимальное количество вызовов, оптимальный выбор инструментов.
🔹 Суть
Не нужно «всё в одну модель» – лучше распределить задачи между специализированными инструментами, управляя ими разумно.
Это – переход от монолитных ИИ к гибким, экономичным системам.
Подробнее о проекте
GitHub
#ToolOrchestra #ИИагенты #Оркестрация #LLM #Эффективность
NVIDIA и Университет Гонконга разработали ToolOrchestra – методику обучения специализированной модели-оркестратора, которая управляет работой других ИИ-агентов и инструментов, и выпустила на ее основе модель Orchestrator-8B.
🔹 Как это работает
– Модель Orchestrator-8B (на базе Qwen3) не решает задачу сама.
– Она чередует:
• рассуждение – анализ задачи и планирование шагов
• вызов внешних инструментов – поиск, код-интерпретатор, другие LLM – Claude, Llama-Nemotron, узкоспециализированные модели
– Выбор инструмента зависит от этапа задачи: математика → специализированная модель, анализ текста → универсальная, поиск → поисковый движок.
🔹 Польза
– Скорость: решение задач на 2,5 раза быстрее, чем при использовании одной флагманской модели.
– Стоимость: расходы на вычисления снижены на 70%.
– Точность: результат 37,1% на бенчмарке Humanity’s Last Exam – выше, чем у GPT-5 на 35,1%.
🔹 Обучение
– Использован метод GRPO – не только за правильный ответ, но и за эффективность: минимальное количество вызовов, оптимальный выбор инструментов.
🔹 Суть
Не нужно «всё в одну модель» – лучше распределить задачи между специализированными инструментами, управляя ими разумно.
Это – переход от монолитных ИИ к гибким, экономичным системам.
Подробнее о проекте
GitHub
#ToolOrchestra #ИИагенты #Оркестрация #LLM #Эффективность
GitHub
GitHub - NVlabs/ToolOrchestra: ToolOrchestra is an end-to-end RL training framework for orchestrating tools and agentic workflows.
ToolOrchestra is an end-to-end RL training framework for orchestrating tools and agentic workflows. - NVlabs/ToolOrchestra
🔥4👍3❤2
Сергей Востриков – руководитель направления Маркетплейс и интеграций Битрикс24, объясняет как работает переход от API к MCP. Когда ИИ перестает быть помощником – и становится частью системы
Раньше интеграции – это были мосты: API, коннекторы, скрипты, которые соединяли CRM, 1С, аналитику. Каждый мост – ручная работа. Каждая система – отдельный остров.
MCP меняет это.
🔹 Что такое MCP
– Протокол, по которому приложение само говорит ИИ: «Вот мои данные. Вот какие действия я могу выполнить».
– Нет нужды писать код под каждую систему.
– ИИ получает контекст – не данные, а возможности. Он видит, как работать с системой, не зная ее интерфейса.
🔹 Что меняется для бизнеса
– Не нужно «учить» ИИ, как работать с вашей системой – система сама объясняет.
– Автоматизация перестает быть задачей разработчиков – она становится частью повседневного взаимодействия.
– Управленческие решения начинаются не с запроса отчета, а с вопроса: «Почему продажи упали в Сибири?» – и система сама ищет ответ.
🔹 Состояние сегодня
– MCP уже тестируют крупные российские экосистемы.
– Производители ПО начинают открывать свои сервисы через этот протокол.
– Это не фича. Это – новая основа для корпоративного ИИ.
Подробнее в статье
#MCP #ИИагенты #КорпоративныйИИ #Интеграции #БизнесИИ
Раньше интеграции – это были мосты: API, коннекторы, скрипты, которые соединяли CRM, 1С, аналитику. Каждый мост – ручная работа. Каждая система – отдельный остров.
MCP меняет это.
🔹 Что такое MCP
– Протокол, по которому приложение само говорит ИИ: «Вот мои данные. Вот какие действия я могу выполнить».
– Нет нужды писать код под каждую систему.
– ИИ получает контекст – не данные, а возможности. Он видит, как работать с системой, не зная ее интерфейса.
🔹 Как это работает на практике
– Руководитель пишет в чат: «Сравни продажи по регионам за последний квартал и покажи, где упали».
– ИИ:
• находит CRM – забирает данные о продажах
• обращается к ERP – берет себестоимость
• запрашивает аналитику – добавляет динамику
• формирует отчет – без того, чтобы кто-то вручную настраивал синхронизацию
– Все это – в одном окне. Без переходов, без логинов, без интеграторов.
🔹 Что меняется для бизнеса
– Не нужно «учить» ИИ, как работать с вашей системой – система сама объясняет.
– Автоматизация перестает быть задачей разработчиков – она становится частью повседневного взаимодействия.
– Управленческие решения начинаются не с запроса отчета, а с вопроса: «Почему продажи упали в Сибири?» – и система сама ищет ответ.
🔹 Почему это важно
MCP – не про красивые интерфейсы.
Это про то, чтобы ИИ не был «внешним» – а стал частью цифровой среды компании.
Как электричество: вы не думаете о проводах, когда включаете свет.
Так же – вы не думаете об API, когда спрашиваете: «Какие клиенты не оплатили?»
🔹 Состояние сегодня
– MCP уже тестируют крупные российские экосистемы.
– Производители ПО начинают открывать свои сервисы через этот протокол.
– Это не фича. Это – новая основа для корпоративного ИИ.
Подробнее в статье
#MCP #ИИагенты #КорпоративныйИИ #Интеграции #БизнесИИ
Т-Бизнес секреты
MCP-серверы: как бизнес получает новый тип автоматизации
Как технология помогает преодолеть распад цифровой целостности и становится обязательным элементом зрелых платформ.
👍13❤2🔥1🤩1
GELab-Zero: первый открытый стек для GUI-агентов
Раньше создание ИИ-агентов, которые взаимодействуют с интерфейсами (кнопки, поля, меню), требовало закрытых систем, сложной инфраструктуры и больших моделей. GELab-Zero меняет это.
🔹 Что включено
— Модель 4B – компактная, работает локально, без облачных вызовов.
— Готовая инфраструктура – запуск в один клик, без ADB, Docker или сложных зависимостей.
— AndroidDaily – новый бенчмарк на основе реальных сценариев использования Android-приложений: заполнение форм, навигация, выбор элементов.
🔹 Результаты
— 73.4% точности на AndroidDaily – выше, чем у:
• UI-TARS-1.5 (47%)
• Gemini-2.5-pro-thinking (36.6%)
• GPT-4o (19.6%)
— Обходит крупные модели (например, GUI-Owl-32B) на других тестах: ScreenSpot, OSWorld, AndroidWorld.
🔹Суть
Это не просто модель – это полный стек: от алгоритма до инструментов запуска.
Можно скачать, запустить на своем устройстве, проверить, как агент управляет интерфейсом, и улучшить – без ограничений.
Подробнее
🔗 Hugging Face
🔗 Блог
#GUIагенты #ИИ #OpenSource #GELabZero #АвтоматизацияИнтерфейсов
Раньше создание ИИ-агентов, которые взаимодействуют с интерфейсами (кнопки, поля, меню), требовало закрытых систем, сложной инфраструктуры и больших моделей. GELab-Zero меняет это.
🔹 Что включено
— Модель 4B – компактная, работает локально, без облачных вызовов.
— Готовая инфраструктура – запуск в один клик, без ADB, Docker или сложных зависимостей.
— AndroidDaily – новый бенчмарк на основе реальных сценариев использования Android-приложений: заполнение форм, навигация, выбор элементов.
🔹 Результаты
— 73.4% точности на AndroidDaily – выше, чем у:
• UI-TARS-1.5 (47%)
• Gemini-2.5-pro-thinking (36.6%)
• GPT-4o (19.6%)
— Обходит крупные модели (например, GUI-Owl-32B) на других тестах: ScreenSpot, OSWorld, AndroidWorld.
🔹Суть
Это не просто модель – это полный стек: от алгоритма до инструментов запуска.
Можно скачать, запустить на своем устройстве, проверить, как агент управляет интерфейсом, и улучшить – без ограничений.
🔹 Зачем это нужно
— Разработчики могут тестировать GUI-агентов без доступа к закрытым API.
— Исследователи получают воспроизводимую среду для сравнения методов.
— Компании могут внедрять агентов для автоматизации интерфейсов – без зависимости от вендоров.
Подробнее
🔗 Hugging Face
🔗 Блог
#GUIагенты #ИИ #OpenSource #GELabZero #АвтоматизацияИнтерфейсов
huggingface.co
stepfun-ai/GELab-Zero-4B-preview · Hugging Face
We’re on a journey to advance and democratize artificial intelligence through open source and open science.
🔥5
Китайское исследование: как создают ИИ-агентов для написания кода
Подробный отчет от ведущих китайских лабораторий детально описывает, как строятся и обучают модели, способные генерировать и исправлять код, а затем превращать их в автономных агентов.
🔹 Обучение модели
— Сбор и очистка датасетов из реальных репозиториев (GitHub, GitLab и др.)
— Предобучение на миллионах строк кода – модель учит паттерны, стили, архитектурные решения
— SFT (supervised fine-tuning) – адаптация под инструкции и форматы
— RL (reinforcement learning) – улучшение точности, снижение ошибок, прохождение тестов
🔹 Агент как инженер
— Получает задачу: баг-репорт или требование к фиче
— Декомпозирует задачу: какие файлы изменить, какие тесты запустить
— Вносит правки в код
— Запускает тесты, анализирует результат
— Повторяет цикл, пока не достигнет успеха – без вмешательства человека
🔹 Остающиеся проблемы
— Работа с большими репозиториями: поиск нужных файлов, понимание зависимостей
— Надежность генерируемого кода: отсутствие гарантий корректности
— Отсутствие стандартизированных метрик для оценки качества работы агента
— Практические приемы: как команды обходят ограничения – например, через промежуточные проверки, ручной аудит, фильтрацию выводов
Подробнее
#ИИдлякода #ИИагенты #Программирование #LLM #АвтоматизацияРазработки
Подробный отчет от ведущих китайских лабораторий детально описывает, как строятся и обучают модели, способные генерировать и исправлять код, а затем превращать их в автономных агентов.
🔹 Обучение модели
— Сбор и очистка датасетов из реальных репозиториев (GitHub, GitLab и др.)
— Предобучение на миллионах строк кода – модель учит паттерны, стили, архитектурные решения
— SFT (supervised fine-tuning) – адаптация под инструкции и форматы
— RL (reinforcement learning) – улучшение точности, снижение ошибок, прохождение тестов
🔹 Агент как инженер
— Получает задачу: баг-репорт или требование к фиче
— Декомпозирует задачу: какие файлы изменить, какие тесты запустить
— Вносит правки в код
— Запускает тесты, анализирует результат
— Повторяет цикл, пока не достигнет успеха – без вмешательства человека
🔹 Остающиеся проблемы
— Работа с большими репозиториями: поиск нужных файлов, понимание зависимостей
— Надежность генерируемого кода: отсутствие гарантий корректности
— Отсутствие стандартизированных метрик для оценки качества работы агента
— Практические приемы: как команды обходят ограничения – например, через промежуточные проверки, ручной аудит, фильтрацию выводов
🔹 Суть
Это не просто «ИИ, который пишет код».
Это система, которая действует как второй разработчик – с планированием, отладкой, итерациями и ответственностью за результат.
Подробнее
#ИИдлякода #ИИагенты #Программирование #LLM #АвтоматизацияРазработки
arXiv.org
From Code Foundation Models to Agents and Applications: A...
Large language models (LLMs) have fundamentally transformed automated software development by enabling direct translation of natural language denoscriptions into functional code, driving commercial...
👍3👌1