Forwarded from LLM под капотом
Schema-Guided Reasoning (SGR)
это метод структурированного промптинга, в котором заранее заданные схемы управляют рассуждениями больших языковых моделей, явно кодируя экспертные когнитивные процессы в процессе вывода.
Да, это тот самый SO CoT/Custom CoT, про который мы уже год говорим в нашем комьюнити. Только Custom Chain of Thought, несколько путает людей, а ведь паттерн позволяет паковать довольно сложные нелинейные рассуждения в один промпт.
Если более формально, то подход Schema-Guided Reasoning (SGR) позволяет управлять LLM, задавая явные сценарии рассуждений через типизированные схемы вывода. Constrained decoding вынудит модель последовательно заполнять эти схемы, а значит мы будет контроллировать не только финальную организацию информации, но и весь процесс.
Вместо расплывчатых инструкций (которые модель может игнорировать) вы прямо задаёте, как именно модель должна подходить к решению сложной задачи: от предварительного анализа до промежуточных проверок и сбора доказательств — фактически превращая ментальные чеклисты экспертов в строго заданные структуры.
Используя схемы (Structured Output/Constrained Decoding) вы получаете предсказуемые и контролируемые рассуждения, можете точно оценивать промежуточные результаты (evals), повышать качество и делать ход рассуждений модели - более прозрачным.
В схему можно закладывать не только онтологии (enums), но и ветвления (tagged unions in Pydantic), процедуры (nested objects), циклы (lists) и некоторые дополнительные ограничения (см иллюстрацию)
Почему это полезно:
(1) получаем более стабильные результаты при повторных вызовах, даже на разных моделях
(2) каждый шаг рассуждения становится явным и доступным для анализа.
(3) появляется возможность прямой оценки и улучшения промежуточных шагов (типизированные поля не требуют LLM-as-a-judge). А дальше - см quality is a trajectory.
(4) можно преобразовывать экспертный опыт и чеклисты в исполняемые сценарии. Сюда хорошо ложится DDD метолодогия.
(5) нередко получается прирост точности в 5-10% за счет контроля и возможности видеть цепочку рассуждений
(!) Повышается качество слабых моделей - особенно локальных (без SGR с ними работать почти невозможно)
Технология хорошо поддерживается OpenAI, Mistral, Fireworks AI и современными локальными движками для inference (например, vLLM, ollama, TensorRT). Gemini поддерживает частично.
Ваш, @llm_under_hood 🤗
это метод структурированного промптинга, в котором заранее заданные схемы управляют рассуждениями больших языковых моделей, явно кодируя экспертные когнитивные процессы в процессе вывода.
Да, это тот самый SO CoT/Custom CoT, про который мы уже год говорим в нашем комьюнити. Только Custom Chain of Thought, несколько путает людей, а ведь паттерн позволяет паковать довольно сложные нелинейные рассуждения в один промпт.
Если более формально, то подход Schema-Guided Reasoning (SGR) позволяет управлять LLM, задавая явные сценарии рассуждений через типизированные схемы вывода. Constrained decoding вынудит модель последовательно заполнять эти схемы, а значит мы будет контроллировать не только финальную организацию информации, но и весь процесс.
Вместо расплывчатых инструкций (которые модель может игнорировать) вы прямо задаёте, как именно модель должна подходить к решению сложной задачи: от предварительного анализа до промежуточных проверок и сбора доказательств — фактически превращая ментальные чеклисты экспертов в строго заданные структуры.
Используя схемы (Structured Output/Constrained Decoding) вы получаете предсказуемые и контролируемые рассуждения, можете точно оценивать промежуточные результаты (evals), повышать качество и делать ход рассуждений модели - более прозрачным.
В схему можно закладывать не только онтологии (enums), но и ветвления (tagged unions in Pydantic), процедуры (nested objects), циклы (lists) и некоторые дополнительные ограничения (см иллюстрацию)
Почему это полезно:
(1) получаем более стабильные результаты при повторных вызовах, даже на разных моделях
(2) каждый шаг рассуждения становится явным и доступным для анализа.
(3) появляется возможность прямой оценки и улучшения промежуточных шагов (типизированные поля не требуют LLM-as-a-judge). А дальше - см quality is a trajectory.
(4) можно преобразовывать экспертный опыт и чеклисты в исполняемые сценарии. Сюда хорошо ложится DDD метолодогия.
(5) нередко получается прирост точности в 5-10% за счет контроля и возможности видеть цепочку рассуждений
(!) Повышается качество слабых моделей - особенно локальных (без SGR с ними работать почти невозможно)
Технология хорошо поддерживается OpenAI, Mistral, Fireworks AI и современными локальными движками для inference (например, vLLM, ollama, TensorRT). Gemini поддерживает частично.
Ваш, @llm_under_hood 🤗
❤3👍2🔥1🤔1
Постов до конца года будет меньше.
У меня год устроен так, что в начале года больше R и меньше D, а в конце — наоборот. В начале этого года R было много, теперь много D.
На этот раз поделюсь постами на тему, которая может показаться отвлечённой, хотя, на мой взгляд, она помогает понять, как устроено окружение, что важно при построении систем.
А теперь, собственно, пост про отрицательный отбор - Часть 1/3:
Матрица оценки офицеров фон Хаммерштейн-Экворта — это классификационная система оценки военных кадров, разработанная немецким генералом Куртом фон Хаммерштейн-Эквортом (1878-1943). Эта система стала широко известной в военной теории и менеджменте.
Матрица основана на двух критериях:
- Умственные способности (умный/глупый)
- Трудолюбие (трудолюбивый/ленивый)
Это даёт четыре типа офицеров:
1. Умный и трудолюбивый
- Подходят для штабной работы
- Хорошие исполнители сложных задач
- Надёжные заместители
2. Глупый и ленивый
- Составляют основную массу армии
- Выполняют рутинные задачи
- Не причиняют особого вреда
3. Умный и ленивый
- Лучшие кандидаты на высшие командные должности
- Способны принимать стратегические решения
- Не увязают в мелочах, видят общую картину
4. Глупый и трудолюбивый
- Самый опасный тип
- Необходимо немедленно увольнять
- Их активность в сочетании с глупостью может привести к катастрофе
Хаммерштейн считал, что именно "умные и ленивые" офицеры лучше всего подходят для высшего командования, поскольку они находят эффективные решения, не усложняя процессы излишней активностью.
Эта матрица до сих пор используется в теории менеджмента и военном деле для анализа кадрового потенциала.
У меня год устроен так, что в начале года больше R и меньше D, а в конце — наоборот. В начале этого года R было много, теперь много D.
На этот раз поделюсь постами на тему, которая может показаться отвлечённой, хотя, на мой взгляд, она помогает понять, как устроено окружение, что важно при построении систем.
А теперь, собственно, пост про отрицательный отбор - Часть 1/3:
Матрица оценки офицеров фон Хаммерштейн-Экворта — это классификационная система оценки военных кадров, разработанная немецким генералом Куртом фон Хаммерштейн-Эквортом (1878-1943). Эта система стала широко известной в военной теории и менеджменте.
Матрица основана на двух критериях:
- Умственные способности (умный/глупый)
- Трудолюбие (трудолюбивый/ленивый)
Это даёт четыре типа офицеров:
1. Умный и трудолюбивый
- Подходят для штабной работы
- Хорошие исполнители сложных задач
- Надёжные заместители
2. Глупый и ленивый
- Составляют основную массу армии
- Выполняют рутинные задачи
- Не причиняют особого вреда
3. Умный и ленивый
- Лучшие кандидаты на высшие командные должности
- Способны принимать стратегические решения
- Не увязают в мелочах, видят общую картину
4. Глупый и трудолюбивый
- Самый опасный тип
- Необходимо немедленно увольнять
- Их активность в сочетании с глупостью может привести к катастрофе
Хаммерштейн считал, что именно "умные и ленивые" офицеры лучше всего подходят для высшего командования, поскольку они находят эффективные решения, не усложняя процессы излишней активностью.
Эта матрица до сих пор используется в теории менеджмента и военном деле для анализа кадрового потенциала.
🔥9👍2
Продолжение поста про отрицательный отбор - Часть 2/3:
Матрица Хаммерштейн-Экворта в зрелых (по Адизесу) структурах перестаёт работать и начинает работать Отрицательный отобор, который доминирует в стареющих организациях.
Отрицательный отбор — это механизм, при котором система (организация, государственная структура, армия и т.п.) систематически поощряет не наиболее способных и ценных, а наиболее лояльных, управляемых и безопасных для самой системы людей. При этом более компетентные, самостоятельные и критически мыслящие сотрудники вытесняются или не допускаются к принятию решений.
Основные черты отрицательного отбора:
1. Искажение критериев оценки.
Решающее значение приобретают не профессиональные качества (компетентность, стратегическое мышление, способность брать ответственность), а признаки лояльности, показной активности и подчинённости.
2. Подмена ценности.
Умные, независимые и инициативные воспринимаются как потенциальная угроза и рассматриваются как «неудобные» или «неблагонадёжные». В то же время глупые, но исполнительные и демонстрирующие активность — воспринимаются как надёжные.
3. Иерархическая самозащита.
Руководители, опасаясь конкуренции или критики снизу, стремятся окружить себя менее способными, но покорными подчинёнными. Это создаёт замкнутый контур воспроизводства посредственности.
4. Репрессивная обратная связь.
Попытки инициировать улучшения, предложить нестандартные решения или критически осмыслить статус-кво воспринимаются как опасное поведение. Люди, демонстрирующие такие качества, исключаются, подавляются или маргинализируются.
5. Системное закрепление.
Отрицательный отбор со временем становится встроенным механизмом: система формирует такие правила игры, при которых вероятность продвижения глупого, но лояльного выше, чем умного, но самостоятельного. Это ведёт к постепенной деградации компетентности на всех уровнях.
На мой взгляд, культ показной активности разрушает зрелые корпорации: их деятельность сводится к потогонке, бесконечным презентациям и не несущим никакой пользы результатам.
От себя добавлю: организация с цветовой дифференциацией штанов — это, как правило, стареющая организация.
Матрица Хаммерштейн-Экворта в зрелых (по Адизесу) структурах перестаёт работать и начинает работать Отрицательный отобор, который доминирует в стареющих организациях.
Отрицательный отбор — это механизм, при котором система (организация, государственная структура, армия и т.п.) систематически поощряет не наиболее способных и ценных, а наиболее лояльных, управляемых и безопасных для самой системы людей. При этом более компетентные, самостоятельные и критически мыслящие сотрудники вытесняются или не допускаются к принятию решений.
Основные черты отрицательного отбора:
1. Искажение критериев оценки.
Решающее значение приобретают не профессиональные качества (компетентность, стратегическое мышление, способность брать ответственность), а признаки лояльности, показной активности и подчинённости.
2. Подмена ценности.
Умные, независимые и инициативные воспринимаются как потенциальная угроза и рассматриваются как «неудобные» или «неблагонадёжные». В то же время глупые, но исполнительные и демонстрирующие активность — воспринимаются как надёжные.
3. Иерархическая самозащита.
Руководители, опасаясь конкуренции или критики снизу, стремятся окружить себя менее способными, но покорными подчинёнными. Это создаёт замкнутый контур воспроизводства посредственности.
4. Репрессивная обратная связь.
Попытки инициировать улучшения, предложить нестандартные решения или критически осмыслить статус-кво воспринимаются как опасное поведение. Люди, демонстрирующие такие качества, исключаются, подавляются или маргинализируются.
5. Системное закрепление.
Отрицательный отбор со временем становится встроенным механизмом: система формирует такие правила игры, при которых вероятность продвижения глупого, но лояльного выше, чем умного, но самостоятельного. Это ведёт к постепенной деградации компетентности на всех уровнях.
На мой взгляд, культ показной активности разрушает зрелые корпорации: их деятельность сводится к потогонке, бесконечным презентациям и не несущим никакой пользы результатам.
От себя добавлю: организация с цветовой дифференциацией штанов — это, как правило, стареющая организация.
🔥9👍4
Продолжение поста про отрицательный отбор - Часть 3/3:
То же самое можно наблюдать и в отраслях. На конференциях часто можно услышать доклады, где рассказывается, как изначально всё было сделано неправильно, в ходе работы допущены детские ошибки, все самоотверженно устали — и в конце что-то получилось.
Это называют «кейсами», которые все так любят.
То же самое можно наблюдать и в отраслях. На конференциях часто можно услышать доклады, где рассказывается, как изначально всё было сделано неправильно, в ходе работы допущены детские ошибки, все самоотверженно устали — и в конце что-то получилось.
Это называют «кейсами», которые все так любят.
😁4💯4🤝1
Когда подчинённые приносят ТОП-менеджеру не короткую презентацию из пяти слайдов — чтобы подсветить проблему и предложить варианты решений — а из ста тридцати пяти, это обычно говорит о двух вещах: у них нет чётких идей, как решить проблему, и они пытаются компенсировать это объёмом — показать, как сильно старались и сколько сил потратили.
Что, в общем-то, позволяет их легко классифицировать.
Что, в общем-то, позволяет их легко классифицировать.
💯3👏2🔥1🤝1
ArchiMate- от версии 3.2 к ArchiMate NEXT.md
4.8 KB
ArchiMate переходит на NEXT: что важно знать
В новой версии спецификации ArchiMate происходит значимый сдвиг в сторону унификации и упрощения метамодели.
Главное — переход от традиционного разделения на “слои” (Business, Application, Technology) к доменам, включая Strategy, Motivation и Implementation and Migration.
Новая модульная структура обеспечивает гибкость, сохраняя ключевые аспекты (Behavior, Active Structure, Passive Structure, Motivation) и позволяет использовать элементы кросс-доменно, без строгой иерархии.
Ранее различавшиеся поведенческие элементы — такие как Business Process, Application Function и Technology Process — теперь объединены в четыре универсальные категории Common Domain: process, function, service и event. Это устраняет избыточность и упрощает моделирование.
Из языка исключены элементы, дублирующие базовые сущности: contract, constraint, gap, representation, implementation event, а также все виды interaction. Их заменяют специализированные формы, такие как requirement, business object, assessment, data object, artifact, material, event.
В целом ArchiMate NEXT делает язык компактнее, чище и лучше приспособленным к автоматизации.
В новой версии спецификации ArchiMate происходит значимый сдвиг в сторону унификации и упрощения метамодели.
Главное — переход от традиционного разделения на “слои” (Business, Application, Technology) к доменам, включая Strategy, Motivation и Implementation and Migration.
Новая модульная структура обеспечивает гибкость, сохраняя ключевые аспекты (Behavior, Active Structure, Passive Structure, Motivation) и позволяет использовать элементы кросс-доменно, без строгой иерархии.
Ранее различавшиеся поведенческие элементы — такие как Business Process, Application Function и Technology Process — теперь объединены в четыре универсальные категории Common Domain: process, function, service и event. Это устраняет избыточность и упрощает моделирование.
Из языка исключены элементы, дублирующие базовые сущности: contract, constraint, gap, representation, implementation event, а также все виды interaction. Их заменяют специализированные формы, такие как requirement, business object, assessment, data object, artifact, material, event.
В целом ArchiMate NEXT делает язык компактнее, чище и лучше приспособленным к автоматизации.
👍10❤1
Напомню, ArchiMate — это никакая не нотация, это язык моделирования, причём кастомизируемый, который интегрирует разные аспекты архитектуры, о которых многие разработчики и пользователи C4 даже не догадываются.
И да, визуальная нотация — это лишь часть языка моделирования.
И да, визуальная нотация — это лишь часть языка моделирования.
👍4✍2
Forwarded from LLM под капотом
А вы знаете, что пост про демку бизнес-ассистента с SGR под капотом - это самый тщательно скрываемый секрет нашего коммьюнити?
Если верить статистике Telegram, этот пост люди пересылали в личке разы чаще, чем все остальные посты, но никто не шарил этот пост публично.
Правда секретом это будет оставаться не так долго. Следующий ERC (это наш формат соревнований) точно будет про Enterprise Reasoning Challenge, где командам нужно будет построить агента или мультиагентную систему, которые смогут использовать предоставленные им API, чтобы распутывать корпоративные задачки. Все как в SGR демке, только чуть масштабнее.
Событие планируется осенью/зимой. Точные сроки зависят от того, как быстро раскачаются отделы маркетинга в TimeToAct и IBM. Тестовый прогон будет точно этой осенью.
Формат проведения будет примерно аналогичен прошлому Enterprise RAG Challenge: команды со всего мира, небольшой призовой фонд, максимально открытые исходники и публичный сравнительный анализ результативности различных архитектур.
Возможно, все вместе сможем обнаружить новые паттерны в построении агентских систем для бизнеса.
Ваш, @llm_under_hood 🤗
Если верить статистике Telegram, этот пост люди пересылали в личке разы чаще, чем все остальные посты, но никто не шарил этот пост публично.
Правда секретом это будет оставаться не так долго. Следующий ERC (это наш формат соревнований) точно будет про Enterprise Reasoning Challenge, где командам нужно будет построить агента или мультиагентную систему, которые смогут использовать предоставленные им API, чтобы распутывать корпоративные задачки. Все как в SGR демке, только чуть масштабнее.
Событие планируется осенью/зимой. Точные сроки зависят от того, как быстро раскачаются отделы маркетинга в TimeToAct и IBM. Тестовый прогон будет точно этой осенью.
Формат проведения будет примерно аналогичен прошлому Enterprise RAG Challenge: команды со всего мира, небольшой призовой фонд, максимально открытые исходники и публичный сравнительный анализ результативности различных архитектур.
Возможно, все вместе сможем обнаружить новые паттерны в построении агентских систем для бизнеса.
Ваш, @llm_under_hood 🤗
👍3✍1❤1🔥1
Автор разработал свой подход к промпт-инжинирингу, который назвал Schema-Guided Reasoning (SGR) 👆. В этом подходе он с глубоким пониманием мат части скомпилировал эффективные техники промпт-инжиниринга
Мы тестируем эти техники, интегрируем их в наши наработки и сочетаем с собственными находками. Я закоммитился написать статью по результатам.
В завершение хочу сказать, что отслеживаю посты этого автора (Rinat Abdullin) как одного из немногих, кто действительно хорошо понимает мат часть и нацелен на практические результаты.
Мы тестируем эти техники, интегрируем их в наши наработки и сочетаем с собственными находками. Я закоммитился написать статью по результатам.
В завершение хочу сказать, что отслеживаю посты этого автора (Rinat Abdullin) как одного из немногих, кто действительно хорошо понимает мат часть и нацелен на практические результаты.
👍7🔥1🤝1
Это фрагмент промпта, который задаёт роль агента:
"Вы — ИИ-Системный Аналитик высшей квалификации. Ваша задача — выступить в роли инженера требований, который преобразует хаотичный набор исходных предложений в строго структурированный и логически безупречный набор требований."
«Хаотичный набор предложений» — именно так обычно и выглядят требования, написанные в Agile-культуре.
"Вы — ИИ-Системный Аналитик высшей квалификации. Ваша задача — выступить в роли инженера требований, который преобразует хаотичный набор исходных предложений в строго структурированный и логически безупречный набор требований."
«Хаотичный набор предложений» — именно так обычно и выглядят требования, написанные в Agile-культуре.
👍5
Garbage In, Garbage Out (GIGO)
Если при разработке каких-то ИИ-агентов требуется «выжать результат» из текстов, называемых требованиями, над ними придётся серьёзно поработать с помощью других агентов.
Когда в распоряжении только лужа, приходится очищать воду, чтобы хоть немного утолить жажду.
И это касается многих других текстовых артефактов, которые подаются на вход ИИ-агентам. Над ними придётся серьёзно поработать.
При этом я никого не хочу критиковать.
До ИИ-трансформации профит от написания качественных текстов был не очевиден. А люди, естественно, сопротивляются работе, в которой не видят пользы.
Если при разработке каких-то ИИ-агентов требуется «выжать результат» из текстов, называемых требованиями, над ними придётся серьёзно поработать с помощью других агентов.
Когда в распоряжении только лужа, приходится очищать воду, чтобы хоть немного утолить жажду.
И это касается многих других текстовых артефактов, которые подаются на вход ИИ-агентам. Над ними придётся серьёзно поработать.
При этом я никого не хочу критиковать.
До ИИ-трансформации профит от написания качественных текстов был не очевиден. А люди, естественно, сопротивляются работе, в которой не видят пользы.
👍4
В начале 2010-х, на заре массового внедрения ML, мы активно обсуждали идею разработки модуля СППВР, основанного на данных эпикризов. Однако быстро выяснилось, что врачи пишут эпикризы скорее для прокуратуры, чем для себя или коллег (defensive medicine). Польза от них минимальна, и для ML они практически непригодны.
С текстами в других сферах ситуация похожая: если кто-то полагает, что можно просто загрузить в RAG массивы текстов, накопленных компанией или отраслью, то это, боюсь, большое заблуждение. Мусор остаётся мусором, и место ему — на свалке.
Ну и да, для этого даже термин придумали — «RAG poisoning».
С текстами в других сферах ситуация похожая: если кто-то полагает, что можно просто загрузить в RAG массивы текстов, накопленных компанией или отраслью, то это, боюсь, большое заблуждение. Мусор остаётся мусором, и место ему — на свалке.
Ну и да, для этого даже термин придумали — «RAG poisoning».
1❤6👍3💯2
Сейчас в моду вошло философское течение, осмысляющее роль архитектора.
Выскажусь и я, раз уж всё равно толком ничего не успеваю.
Я отношусь к числу радикалов, считающих, что архитектура — это фикция. И рассматривать роль архитектора стоит через призму роли самой архитектуры.
Разложу по слоям:
- Бизнес-архитектура — это вовсе не архитектура, но при этом крайне важная штука.
- Корпоративная архитектура — это де-факто учет, секретариат при службе завхоза (офиса CTO).
- Архитектура приложений — это чистая инженерия, программная инженерия.
- Архитектура решений - это пересечение множества элементов структуры того, что назвается бизнес-архитектурой и множества элементов структуры приложений
Если напрямую связать, в том числе инструментально, то, что называют бизнес-архитектурой, с инженерией, то учетная функция будет полностью автоматизирована.
А всё, чем я занимался за свою карьеру в должностях со словом «архитектор» в названии, — это либо чистая инженерия, либо сопряжение чего-то важного со стороны бизнеса с чем-то важным со стороны инженерии. И да, без такого сопряжения никакой инженерии и не бывает.
Выскажусь и я, раз уж всё равно толком ничего не успеваю.
Я отношусь к числу радикалов, считающих, что архитектура — это фикция. И рассматривать роль архитектора стоит через призму роли самой архитектуры.
Разложу по слоям:
- Бизнес-архитектура — это вовсе не архитектура, но при этом крайне важная штука.
- Корпоративная архитектура — это де-факто учет, секретариат при службе завхоза (офиса CTO).
- Архитектура приложений — это чистая инженерия, программная инженерия.
- Архитектура решений - это пересечение множества элементов структуры того, что назвается бизнес-архитектурой и множества элементов структуры приложений
Если напрямую связать, в том числе инструментально, то, что называют бизнес-архитектурой, с инженерией, то учетная функция будет полностью автоматизирована.
А всё, чем я занимался за свою карьеру в должностях со словом «архитектор» в названии, — это либо чистая инженерия, либо сопряжение чего-то важного со стороны бизнеса с чем-то важным со стороны инженерии. И да, без такого сопряжения никакой инженерии и не бывает.
1🔥8❤4👍3🤝1
Выскажу дизрапт-гипотезу.
Прирост качества новых версий моделей снижается — возможно, даже экспоненциально. Это не только ощущение практика, ежедневно работающего с передовыми моделями, включая платные, но и подтверждённая исследованиями тенденция убывающей отдачи от традиционных scaling laws.
Исходя из этого, для себя делаю такую ставку:
1. AGI на текущем уровне развития научно-технического прогресса (НТП) крайне маловероятен в ближайшие годы.
2. Характеристики OSS-моделей будут расти и в течение 2-3 лет практически сравняются с передовыми в большинстве задач.
3. Уже в ближайшем будущем промышленные агентные решения будут строиться на множестве моделей, инкапсулированных в агентов — теперь генеративных. Причём на коммодити железе. Архитектура таких решений радикально изменится: вместо монолита «одна большая модель» появится сеть из множества генеративных агентов, гибко комбинируемых под задачу.
4. Если AGI всё же возникнет в результате прорыва в НТП, влияние на п.3 может быть не столь драматическим — агентная архитектура останется актуальной.
Как это влияет конкретно на мою работу? Я учусь управлять когнитивной нагрузкой и выжимать промышленный результат из слабых моделей. И определённый прогресс в этом уже есть.
И да, в задачах сопряжения "бизнес-архитектуры" и инженерии.
Прирост качества новых версий моделей снижается — возможно, даже экспоненциально. Это не только ощущение практика, ежедневно работающего с передовыми моделями, включая платные, но и подтверждённая исследованиями тенденция убывающей отдачи от традиционных scaling laws.
Исходя из этого, для себя делаю такую ставку:
1. AGI на текущем уровне развития научно-технического прогресса (НТП) крайне маловероятен в ближайшие годы.
2. Характеристики OSS-моделей будут расти и в течение 2-3 лет практически сравняются с передовыми в большинстве задач.
3. Уже в ближайшем будущем промышленные агентные решения будут строиться на множестве моделей, инкапсулированных в агентов — теперь генеративных. Причём на коммодити железе. Архитектура таких решений радикально изменится: вместо монолита «одна большая модель» появится сеть из множества генеративных агентов, гибко комбинируемых под задачу.
4. Если AGI всё же возникнет в результате прорыва в НТП, влияние на п.3 может быть не столь драматическим — агентная архитектура останется актуальной.
Как это влияет конкретно на мою работу? Я учусь управлять когнитивной нагрузкой и выжимать промышленный результат из слабых моделей. И определённый прогресс в этом уже есть.
И да, в задачах сопряжения "бизнес-архитектуры" и инженерии.
👍14
Поздравляю всех с Днём знаний!
С этого дня я — доцент в МИРЭА, где начинаю читать курс «Разработка интеллектуальных агентов в инженерии». И да, разумеется, это — параллельно работе и в свободное от работы время.
Отдельная благодарность коллегам и единомышленникам, благодаря которым это стало возможным.
С этого дня я — доцент в МИРЭА, где начинаю читать курс «Разработка интеллектуальных агентов в инженерии». И да, разумеется, это — параллельно работе и в свободное от работы время.
Отдельная благодарность коллегам и единомышленникам, благодаря которым это стало возможным.
🔥31👍7⚡2❤1
Intelligent Systems Architecture
Выражу это более современным языком. Современный взгляд Сегодня мы наблюдаем слияние двух парадигм: нейронных сетей — статистических машин с вероятностным выводом — и символических систем — с логическим выводом. Это напоминает работу двух полушарий мозга:…
В мае я написал, что нейро-символическая интеграция выделилась в самостоятельное научное направление. Сегодня мы видим её в числе восходящих трендов в хайп-цикле Gartner.
Наряду с нейро-символической интеграцией — графы знаний, композитный AI и, что особенно интересно, Causal AI. Ведь мы с коллегами разрабатываем метод концептуализации (онтологического моделирования), позволяющий отражать причинность в структуре графов знаний.
Порой случается так: твои собственные исследования попадают сразу в несколько мировых технологических трендов.
Наряду с нейро-символической интеграцией — графы знаний, композитный AI и, что особенно интересно, Causal AI. Ведь мы с коллегами разрабатываем метод концептуализации (онтологического моделирования), позволяющий отражать причинность в структуре графов знаний.
Порой случается так: твои собственные исследования попадают сразу в несколько мировых технологических трендов.
🔥7👏4
Ваши возможности изменений упираются в потолок вашей ветви эскалации. Если у оппонентов потолок выше — делайте выводы.
👍5✍3
Пытаться подружиться с более сильными оппонентами — всё равно что овце искать дружбы у волков.
💯4🤝4✍3
Jupyter в Cursor даёт буст в продуктивности для R&D. Работать иначе уже почти немыслимо.
И, честно говоря, студентов стоит учить ML сразу в таком окружении. Очень хочется, чтобы подобные среды появлялись и у нас — с адекватными условиями для учащихся.
И, честно говоря, студентов стоит учить ML сразу в таком окружении. Очень хочется, чтобы подобные среды появлялись и у нас — с адекватными условиями для учащихся.
🥰1
Галлюцинации LLM и закат ИИ
После публикации статьи https://arxiv.org/abs/2509.04664 инфлюенсеры заговорили о «закате ИИ». Аргумент прост: если LLM подвержены галлюцинациям, то им нельзя доверять. Но не всё так однозначно.
1. LLM — это не весь ИИ, а крест ставят на всём ИИ.
2. Генеративные LLM типа GPT обучаются предсказывать следующий токен с помощью авторегрессии. Это принцип пошагового построения текста: модель каждый раз достраивает последовательность слов на основе ранее сгенерированной последовательности. Авторегрессивный подход критически важен для масштабирования: он позволяет эффективно обучать модели на огромных объемах текста, поскольку каждое слово в тексте становится и входными данными, и целевым значением для обучения. Без авторегрессии создание действительно больших языковых моделей было бы технически невозможно. Но именно у больших моделей и проявляются эмерджентные свойства — способности, которые не закладывались напрямую при обучении, но возникают при увеличении масштаба модели.
3. Модель всегда что-то генерирует: если нет точного ответа, она создаёт максимально правдоподобную последовательность токенов (отдельных слов, их частей, знаков препинания и т. д.).
В научной литературе термин "галлюцинации" охватывает все виды неточных генераций LLM. Для практического анализа можно выделить:
- Правдоподобные ошибки — логичные, но фактически неверные ответы, часто содержащие смесь правильной и неправильной информации.
- Бессвязные генерации — хаотичный набор токенов, включая переключения между языками или явно нелогичные конструкции.
Современные LLM чаще производят правдоподобные ошибки, чем полностью бессвязный текст. И это не всегда плохо. Способность генерировать правдоподобные, логически связные тексты даже при отсутствии точных данных может быть полезным свойством для творческих задач, генерации идей или работы с неполной информацией. Вспомните продавцов, пиарщиков или маркетологов: умение быстро и убедительно «додумать» недостающую часть информации — для них ключевой профессиональный навык, а не недостаток.
Важно понимать контекст применения: там где нужна фактическая точность, такие генерации проблематичны, но в творческих, коммуникативных и эвристических задачах они могут быть ценны.
Поэтому преждевременно утверждать о «закате ИИ», учитывая, что речь идёт исключительно об LLM.
Да и для LLM не всё потеряно. Уже намечен следующий шаг — калибровка уверенности: научить модели оценивать и выражать степень достоверности своих ответов, чтобы человек понимал, где можно доверять модели, а где — лучше перепроверить. Для этого разрабатываются методы обучения моделей самооценке точности генерации и создаются новые бенчмарки, которые оценивают не только содержательность, но и надёжность ответов.
После публикации статьи https://arxiv.org/abs/2509.04664 инфлюенсеры заговорили о «закате ИИ». Аргумент прост: если LLM подвержены галлюцинациям, то им нельзя доверять. Но не всё так однозначно.
1. LLM — это не весь ИИ, а крест ставят на всём ИИ.
2. Генеративные LLM типа GPT обучаются предсказывать следующий токен с помощью авторегрессии. Это принцип пошагового построения текста: модель каждый раз достраивает последовательность слов на основе ранее сгенерированной последовательности. Авторегрессивный подход критически важен для масштабирования: он позволяет эффективно обучать модели на огромных объемах текста, поскольку каждое слово в тексте становится и входными данными, и целевым значением для обучения. Без авторегрессии создание действительно больших языковых моделей было бы технически невозможно. Но именно у больших моделей и проявляются эмерджентные свойства — способности, которые не закладывались напрямую при обучении, но возникают при увеличении масштаба модели.
3. Модель всегда что-то генерирует: если нет точного ответа, она создаёт максимально правдоподобную последовательность токенов (отдельных слов, их частей, знаков препинания и т. д.).
В научной литературе термин "галлюцинации" охватывает все виды неточных генераций LLM. Для практического анализа можно выделить:
- Правдоподобные ошибки — логичные, но фактически неверные ответы, часто содержащие смесь правильной и неправильной информации.
- Бессвязные генерации — хаотичный набор токенов, включая переключения между языками или явно нелогичные конструкции.
Современные LLM чаще производят правдоподобные ошибки, чем полностью бессвязный текст. И это не всегда плохо. Способность генерировать правдоподобные, логически связные тексты даже при отсутствии точных данных может быть полезным свойством для творческих задач, генерации идей или работы с неполной информацией. Вспомните продавцов, пиарщиков или маркетологов: умение быстро и убедительно «додумать» недостающую часть информации — для них ключевой профессиональный навык, а не недостаток.
Важно понимать контекст применения: там где нужна фактическая точность, такие генерации проблематичны, но в творческих, коммуникативных и эвристических задачах они могут быть ценны.
Поэтому преждевременно утверждать о «закате ИИ», учитывая, что речь идёт исключительно об LLM.
Да и для LLM не всё потеряно. Уже намечен следующий шаг — калибровка уверенности: научить модели оценивать и выражать степень достоверности своих ответов, чтобы человек понимал, где можно доверять модели, а где — лучше перепроверить. Для этого разрабатываются методы обучения моделей самооценке точности генерации и создаются новые бенчмарки, которые оценивают не только содержательность, но и надёжность ответов.
🔥3🤝3❤2✍1