LLM под капотом – Telegram
LLM под капотом
21.1K subscribers
287 photos
7 videos
10 files
552 links
Канал про разработку продуктов на базе LLM/ChatGPT. Выжимка важных новостей и разборы кейсов.
Download Telegram
В OpenAI услышали, что разработчики часто запускают несколько версий одной и той же AI+Coding задачи.

(я про это упоминал в "Как разрабатывать большие проекты с кучей зависимостей")

Поэтому в Codex можно теперь сразу запустить до 4-х версий одной и той же задачи, чтобы потом выбрать наилучший вариант ответа.

С людьми такое бы не прокатило)

Ваш, @llm_under_hood 🤗
🔥10516😁14🤔6
Вышла свежая лекция Andrej Karpathy про Software in the Era of AI

Там много всего интересного - за 40 минут он понятно и образно описывает текущее состояние AI, систем для кодинга и того, куда все это катится. Очень рекомендую к просмотру.

(Это его выступление для той самой школы AI стартапов в Сан-Франциско)

Andrej в том числе проходится по вайб-кодингу, который сам когда-то популяризовал.

"когда я вайб-кожу, то все пучком. Но вот если мне нужно что-то сделать на самом деле..."

("If I'm vibe-coding, it is all nice and great, but if I'm actually trying to get the work done, it's no so great to have an overractive agent doing all this kind of stuff").

В общем, как мы уже обсуждали раньше, вайб-кодинг - вещь прикольная для прототипчиков. Но если нам не играться надо, а работу делать и серьезные проекты пилить, то AI+Coding агентов уже нужно держать на коротком поводке. А для этого - работаем с планами, выдаем им системы для верификации, даем инструкции для использования всего этого.

Cоветую посмотреть: https://www.youtube.com/watch?v=LCEmiRjPEtQ

Ваш, @llm_under_hood 🤗
75🔥36👍16🤩7🙏5🤝4😁3🥰2
Рейтинг AI+Coding агентов

Кто-то догадался, как оценить использование людьми AI+Coding агентов. Они мониторят сгенерированные агентами Pull Requests в открытые Github repositories. На основе этого можно посчитать как объем созданных PRs, так и число тех, которые были приняты. Эти две цифры уже дают примерную оценку успешности работы (Merge success rate).

А если построить график по дням, то получится еще и динамика. Кого используют больше, кто становится точнее, кто самый популярный.

Вот ссылка на интерактивный отчет. Github Repo - тут расписана методика измерения.

Интересны тренды:

(1) OpenAI Codex появился месяц назад, но уже уделывает Devin в 10x раз по объемам использования. Успешность продолжает расти, как и объемы
(2) Сursor - второй по уровню успешности, но он в последнее становится хуже 🥹
(3) Успешность Copilot продолжает расти. Такими темпами они скоро обгонят Devin и догонят Cursor

А какие ресурсы для AI+Coding используете вы?

Ваш, @llm_under_hood 🤗

PS: Спасибо @kuchin, который поделился ссылкой в нашем чате курса.

PPS: как заметил @uberkinder - оценка успешности очень примерная, она зависит от UX продуктов. Надежнее просто смотреть на объем merged PRs.
👍60🔥1811🤔4😱2🤣2😁1🤝1
Продакты и Лиды с опытом - будут самым востребованным ресурсом в ближайшие годы. Особенно, если они умеют гонять в хвост и в гриву AI (но это обучаемо). Так говорят директора компаний вроде OpenAI, Google и Microsoft. А в закрытых группах и чатах начинает наблюдаться некий ажиотаж и спрос на специалистов в этой области.

Вот и мы с вами в чате недавно про это говорили.

В теории - это те самые люди, которые уже обладают опытом, позволяющим получить 5х-10х повышение производительности в продуктах. Причем далеко не обязательно пилить продукты с LLM под капотом, достаточно уметь пользоваться современными инструментами.

А вы относитесь к этой категории людей? Расскажите, что вы думаете по поводу всей ситуации и какие перспективы видите!

Ваш, @llm_under_hood 🤗
52😱21🥰14😁8💯8🔥5👍2🎄1
Посоветуйте 20-летнему молодцу какие софт и хард скиллы качать для нового мира?

Такой вопрос задал Денис в обсуждениях предыдущего поста. Вот мой ответ на него.

Для начала можно набрать опыта делая проекты в какой-нибудь конкретной отрасли (медицина, биотех, law of the business, ecommerce итп). Если проектов нет - искать их на upwork, freelance и нишевых форумах. Если общаться сложно из-за языкового барьера, то в первую очередь качать English.

Если слова вроде понятны, но звучат как белиберда, значит просто не хватает предметного опыта в области. Он нарабатывается общением и практикой.

Дальше по мере работы обращать внимание на прокачку своих скиллов в таких областях:

- постановка задач
- формулировка требований для других
- умение четко доносить свои мысли при помощи текста и иллюстраций
- работа в команде и с командой
- умение работать и выстраивать процессы
- data-driven product development (и вся работа с аналитикой, гипотезами и клиентами)


И еще просто смотреть на то, что говорят про будущее разные люди на текущем AI Startup School:

- Andrew Ng:
PMs Are the Bottleneck Now + Product Sense Matters in Engineering
- Satya Nadella:
Learn how to build teams
- Sam Altman:
one person can now do what teams needed before... Hiring smart, scrappy people with steep growth curves gets you 90% of the way.
- Jared Kaplan:
The next startup wave is shifting from copilots to direct replacements—especially in domains where some error is tolerable
- Dylan Field:
AI is best used to increase iteration speed, not just magic output. Designers and PMs must now contribute to AI evaluations.

А что бы посоветовали вы?

Ваш, @llm_under_hood 🤗
🥰31🔥3013🤣13👍2🙏2
Листы ожидания на мои новые курсы на английском

Причем сразу два.

(1) Building AI Assistants: Patterns and Practices. Это английская версия курса в записи “LLM под капотом: выбираем эффективные технические решения для AI-ассистентов” (подробности тут)

(2) AI+Coding - курс на английском для команд по внедрению паттернов и практик кодинга с современными AI инструментами. Вайб-кодинг там тоже будет упомянут, но основная часть - это системный подход к разработке существующих проектов (не обязательно про AI/LLM).

AI+Coding на английском я уже читаю командам внутри группы компаний. Как раз сегодня запустили вторую когорту, а первой расширили материал до Codex-подобных систем, чтобы люди были заранее готовы к их использованию.

Записаться в лист ожидания можно тут:
- Building AI Assistants in English
- AI+Coding in English

Запуск ориентировочно этой осенью.

Ваш, @llm_under_hood 🤗
🔥40🤣208🤝3🤯1😱1💯1
Почему в последнее время в канале больше постов про AI+Coding, чем про продукты с LLM под капотом?

Потому, что актуальных проблем с AI+Coding сейчас больше, чем с разработкой продуктов. Тут есть две причины.

Во-первых, паттерны самых типовых и удачных проектов для внедрения в бизнес - уже известны. Это: (1) Data Extraction и (2) Search Assistants

Мы их уже обсуждали в канале не раз (см оглавление разборов кейсов). Берется LLM посовременней (лучше сразу VLM, если надо с PDF работать), добавляется туда обязательно Structured Output, а в схему прописывается Custom Chain-of-Thought в виде Checklist. Все!

Этого достаточно для реализации больших и дорого выглядящих проектов вроде “автоматизация поиска ошибок во входящих purchase orders”, “медицинский ассистент для приема больных”, “сопоставление номенклатур компонентов между поставщиками (чтобы следить за рынком и продавать быстрее)” и тому подобное.

Да, есть всякие copilots, RAGs, reasoning workflows, agents, но там требуется куда больше телодвижений, риски больше, а прибыльность меньше.

Так что знакомые мне компании и команды пока скучно копошатся и осваивают открывшийся им объем работ с относительно безрисковыми подходами. Принципиально новых кейсов пока нет, но вот дел очень много. Все упирается в разработку и нехватку специалистов, которые могут комфортно разрабатывать системы с LLM под капотом.

И вот это как раз ведет ко второй причине - AI+Coding - это как раз тот инструмент, который может частично компенсировать нехватку “грубой” рабочей силы и разгрузить специалистов. AI не заменяет разработчиков, просто позволяет занять им место “повыше” - вместо проверки вариантов вручную, исследований, поиска проблем, можно сэкономить время и отдать задачи джунам в виде десятка AI Agents. Это ускоряет итерации и улучшает прибыльность. Примерно получается ускорение 5x-7x (дальше - упираемся в самих специалистов).

Но есть нюанс - тут надо многому учиться, а это - процесс небыстрый. Разработчикам надо учиться как использовать современные AI инструменты эффективно, чтобы они помогали, а не наворачивали дел. А мне самому надо учиться тому, как эти команды разработчиков учить. Ведь мало что-то наглядно показать, надо еще помочь уложить в систему, закрепить полученный материал, отработать на практике и проверить.

Поэтому у меня в последние месяцы голова болит больше про AI+Coding, чем про продукты с LLM под капотом. Реализация единичных AI продуктов в компаниях сейчас уже не такая большая проблема, как масштабирование всего этого процесса вширь.

И что-то говорит, что дальше будет еще веселее.

Ваш, @llm_under_hood 🤗
72👍50🔥17💯5🤗2
История про 1.3 EUR за анализ legacy кода и пользу от отсутствия векторов

На прошлой неделе мне нужно было выступить с докладом у IBM. И пока я сидел на конференции, в чате одного проекта всплыл вопрос от CTO компании:

а как вообще устроены права и разрешения в этом дремучем монолите, который мы собираемся переписывать? Какие есть роли и как они привязаны к экранам с доступами? Что там с отделами?


Времени читать и копаться в коде, естественно, не было (в проекте 2843 файлов). Поэтому я просто подрядил OpenAI Codex, скопировав ему во вход вопрос CTO. Плюс дописал “помести ответ в report.md, размером менее 3000 символов”, чтобы не верифицировать кучу текста.

Спустя пять минут появился детальный ответ, который я переслал обратно в чат со словами “перепроверьте вот эти факты в этих файлах” и благополучно забыл.

Кстати, здорово, что костыль в виде векторных RAG-и используют все меньше не только в бизнесе, но и в современных AI+Coding агентах. Представьте, сколько времени бы ушло на разбивание на чанки такого проекта, подсчет embeddings, а потом и векторный поиск с соответствующими галлюцинациями на выходе.

Вместо этого агенты используют инструменты и разбираются в коде по ходу. Поэтому можно просто открыть проект любого размера и быстро получить результат. Ну а если в проекте есть AGENTS MD и прочая документация для агентов c форматом для памяти, то им совсем хорошо



Вчера ко мне прибежали директора этой компании со словами “Ринат, как ты во время конференции за 5 минут дал такой ответ? Нам нужны скриншоты и видео процесса, мы это прямо в презентацию на тендер вставим”

Я сделал заново при помощи OpenAI Codex CLI. Заодно замерил стоимость запуска анализа на этом проекте с 2843 файлами - получилось 1.3 EUR.

Мелкая вещь, но у человека такой первичный анализ занял бы пару часов, как минимум. Да и то я проклял бы все (в этом языке есть даже макросы). Получается ускорение 120min:5min, что довольно неплохо и очень выгодно. А то, что из такого примера сделали хайлайт для крупного тендера (ибо конкуренты компании пока такого почему-то не умеют), это уже бонус.

Ваш, @llm_under_hood 🤗
88👍50🔥32💯5🤣4😁2🤯1🙏1🎄1
Ручка и блокнот - превосходно работают для управления агентами

Процесс выглядит так:
- берем чашечку кофе
- пишем идеи в блокнотике в приятном месте
- парсим текст при помощи ChatGPT
- отправляем AI+Coding агенту
- делаем ревью и деплоим
- помечаем Done
- допиваем чашечку кофе

Ваш, @llm_under_hood 🤗
🤣974025👍8🤯5🔥3👏3🎄2💯1
Кейс про reasoning, в котором автор признается в использовании векторов и в архитектурной ошибке

Задача кейса - ускорить работу c документами compliance офицеров, час работы которых стоит 160-400 EUR и выше.

Я про это уже писал тут:
- Эпизод I
- Эпизод II
- Эпизод III
- Reasoning кирпичик для Stargate
- Эпизод IV

Архитектура и подходы - не коммерческая тайна. Это просто повторение успешных паттернов, которые я уже видел в других проектах.

Система состоит из трех частей.

Первая часть - data parsing с VLM под капотом. Регуляторные документы обычно распространяются в хитровыверченных PDF разных форматов. Нам нужно не просто их распарсить в текст, но и сохранить семантическую структуру (граф).

Когда я показал один такой документ Илье, он сказал про “криптонит всех парсеров” и “коварно” 😁

На эту часть я потратил в сумме три месяца. Под капотом - PyMuPDF, Paddleocr/PaddleX, Gemini Pro 2.5/OpenAI и пара интерактивных интерфейсов для реализации REPL/Human In The Loop. Конечно же SO CoT.

Вторая часть - анализатор документов c LLM под капотом. Это workflow, который сопоставляет набор регуляторных документов и набор внутренних документов, выделяет список применимых требований и аргументированно выдает список проблем во внутренних документах, которые надо бы проверить.

На эту часть я потратил тоже месяца три в сумме.

(1) загружаем все релевантные графы документов
(2) проходимся по графам, анализируем узлы, проецируем все в мини-графы. Каждый мини-граф - это конкретная статья со всеми подпунктами и релевантным контекстом
(3) анализируем каждый мини-граф - содержит ли он в себе конкретные требования, которые нужно выполнять? А применимы ли эти требования к рассматриваемым документам?
(4) анализируем найденные требования - критичность? какая информация должна быть во внутренних документах, которые будут эти требования выполнять?

Везде тут используются SO CoT. В схемах прописаны checklists, которые содержат промежуточные пункты, чтобы направлять мышление системы, да и просто отлаживать весь процесс.

(5) ищем релевантные мини-графы во внутренней документации. В текущей версии использую embedding openai-text-large + LLM review, который делается просто и из коробки работает хорошо. Если соберется достаточно размеченных данных, которые показывают на ошибки, заменю на поиск по графу и онтологиям.

(6) собираем пакет документации (мини-графы требований и найденный evidence) и прогоняем еще через один SO CoT для финального анализа. Выписываем результаты в audit report, сортируем по срочности.

Третья часть - это интерфейс, который дает экспертам поработать с этим отчетом. Там есть дашборд с метриками и список найденных проблем. Эксперты могут загрузить в workbench каждую проблему, чтобы посмотреть результаты анализа, найденный evidence, пройтись по цепочке размышлений или просто по графу регуляторного документа. Есть возможность сделать review, пометить evidence, чтобы эти правки можно было отправить дальше в работу. Ну и заодно тут мы собираем feedback для калибрации системы в будущем.

Третья часть написана на next.js/React/Tailwind/TS + NixOS/Caddy deployment. Я на нее потратил в сумме часов 18 и пару недель. 100% кода написано AI+Coding.

Концепцию UX помог сформировать Gemini Pro 2.5 (пригодился его инженерный склад ума и активный контекст в 500k). Красивый интерфейс набросал Claude Opus 4

OpenAI Codex встроил этот интерфейс в чистый next.js шаблон и вел разработку дальше (вот тут и была моя архитектурная ошибка - next.js был очень неудачным выбором для AI+Coding - мало документации и слишком часто его меняют).

От меня агентам шел поток задач и отзывов. Они - ваяли. Использовали AICODE- память для посланий друг другу. В сложных случаях использовал implementation plan. Всегда запускал 2-4 версии задач, выбирал самый симпатичный вариант, остальные выкидывал. ~60% задач были отправлены с телефона)

В итоге получился очень интересный опыт. Надо теперь брать отпуск и систематизировать все возможности в голове)

Ваш, @llm_under_hood 🤗
🔥7534👍30👏4🤯4
Интерфейсы у Claude Opus получаются утилитарные, но всяко лучше того, что я бы сделал сам.
👍47🔥9😁9
Почему в канале тихо? Слишком много AI!

Помните, в ноябре прошлого года мы запускали акселератор AI проектов с Меллиферой (ныне Colibrix)?

Много всего случилось с того момента: прошел отбор подавшихся стартапов, прошли разнообразные мастер-классы и отработка навыка презентаций, организация раунда на Мальте. Этой весною жюри на Мальте отобрало один стартап-финалист - Homai, который сегодня презентовал в Женеве на глобальном саммите AI for Good от ООН.

В финал стартапу нашего инкубатора пройти не получилось, из 11 компаний дальше пойдут только 4 проекта c AI под капотом:

1. Слепой мужчина, который делает робота-поводыря для слепых
2. Анестезиологи, которые делают девайс для госпиталей
3. Женщина, которая диагностирует проблемы питания в Индии (миллионы детей уже проанализировали)
4. И женщина, которая делает девайс для послеродовых проблем детей в Африке

Но на этом Женева для Homai не заканчивается - надо стоять на стенде, презентовать идею всем заинтересованным и максимально раскручивать ситуацию для себя. Там и инвесторы, и AI компании со всего мира (очень много робототехники) и просто интересующиеся.

Поздравляем команду Homai! На этом тот первый инкубатор можно, наконец, считать закрытым.

Ваш, @llm_under_hood 🤗
41🔥22👏8👍2
Вот такие забавные девайсы можно встретить на саммите AIFG в Женеве.

Многорукий робот - это демонстратор сортировщика от компании, которая работает на куче складов в США. В процессе обучения и эксплуатации своих роботов, они набрали уже 200k часов данных для дальнейшего обучения моделей. И продолжают грести данные дальше.

Странно выглядящая женщина с визором на груди - это тоже робот (социальный работник). Еще на фотках есть робот-футбольная команда и какой-то персональный коптер. И это где-то 1-2% от того, что представлено.

Ваш, @llm_under_hood 🤗
👍23🔥104
И об OpenAI Codex: я в нем сейчас переписываю часть очень старой ERP системы прямо с сотового телефона (про кейс см тут, тут и тут).

Это происходит прямо на саммите AIFG в Женеве, одновременно с анализом зависимостей, миграцией БД и написанием тестов. Трачу где-то пару минут внимания каждые минут 20-25 😁

Такое стало возможно благодаря тому, что мы заранее подготовили проект для работы OpenAI Codex - добавили базу знаний с результатами предварительного анализа, прописали процессы агентам и создали отладочную инфраструктуру (инструменты) для них. Последнее - самое важное.

Получается забавный факт, что архитектура системы для полуавтоматического переписывания кода - основывается на обычных принципах построения систем с LLM под капотом - Knowledge Base, REPL и Workflow. И для стабильной работы всего этого достаточно небольшого пригляда человека (Human in the loop), который выражается в просмотре приходящих pull requests, выборе самого симпатичного и отправки заново команды:

Implement tests and code for the first non-closed gap from plans/002-v2-missing-features.md. Mark closed gaps with “DONE:”


И оно пока работает вполне себе хорошо - я сегодня уже 18 PRs закрыл.

Ваш, @llm_under_hood 🤗
🔥9318👍9🤣7🤔2
Что думают про перспективы продуктов с LLM под капотом в крупнейшей в мире консалтинговой компании?

Я задал такой вопрос представителям Deloitte. А ещё DLA Piper (4k адвокатов в 40+ странах) и China Telecom.

Получается интересная картина. В применимости и ценности AI систем не сомневается уже никто. Компании сыплют кейсами успешного применения то тут то там - в бизнесе, корпорациях и промышленности. Говорят, что не видели невозможных кейсов. Триллионые инвестиции в AI как бы намекают на перспективы.

Самое интересное начинается, если спросить их про основные препятствия для более широкого внедрения.

DLA Piper говорит про то, что основная проблема внедрения - это то, что пользователи упираются, боятся или просто не хотят осваивать новые инструменты. На каждый доллар затрат на разработку продукта с LLM под капотом нужно потратить ещё 5 долларов на его внедрение и change management. Обучать, успокаивать, адаптировать процессы итп.

Deloitte подтверждает, что основная проблема в том, что компании и люди просто не поспевают за скоростью развития технологий. Если людей учить, успокаивать, тренировать - то можно внедрять AI чуть быстрее, но не сильно.

Ну и тут забавно, что компании-клиенты бы рады заплатить:

Вот вам 100к USD за технологию с LLM под капотом, а вот еще 350к USD за то, что вы эту технологию у нас развернете так, что сотрудники будут её по факту использовать и генерировать тот самый обещанный 10x прирост производительности.


Все хотят получить 100k USD, но мало кто согласен еще и взять обязательные 350k.

И только China Telecom не парится по поводу проблем с внедрением: «у нас государство спускает программу сверху, и все обязаны KPI выполнять».

Ваш, @llm_under_hood 🤗
56🔥29😁21👍13💯3🤗3🤯1
Качество - это траектория

Недавно мы подкручивали промпт в нашем проекте. После изменений система стала работать лучше, но пользователи начали жаловаться. Поправили там, но сломалось где-то ещё.


Сталкивались с таким, когда допиливали своего агента, копилота или продукт с LLM под капотом?

Как я уже рассказывал, на этой неделе я был на саммите AI For Good ООН в Женеве. Через многие доклады и мастер классы красной линией проходила такая мысль:

Невозможность контролировать качество продукта - это одна из самых частых причин, по которой эти самые AI продукты проваливаются.

Эту статистику подтверждает и Asmaa EL Andaloussi
(Lead Enterprise Strategist & Architect из Леново) и Julien Weissenberg (AI Advisor в World Economic Forum).

Качество - это траектория. Инвесторов и пользователей волнует не столько точность ответов сегодня, сколько гарантии улучшения системы в следующие месяцы.

Я постоянно повторяю командам - прежде чем браться за разработку системы с LLM под капотом - придумайте, как вы будете оценивать качество и точность этой системы. Соберите первый тестовый датасет - качество прототипа на нем станет вашей базовой линией. Сделайте такую архитектуру, где можно будет измерять точность разных блоков, системно собирать отзывы пользователей и интегрировать их в датасет для улучшения качества всей системы.

Когда Asmaa рассказывала про внутреннюю кухню Perplexity (вы все знаете этот мультиагентный поисковик) она подчеркивала, что они сделали не просто работающую систему, а систему, которая может становиться лучше от релиза к релизу.

В общем, продуктов с LLM под капотом есть тьма. Любой студент может навайбкодить что-то правдоподобное на LangChain, векторной БД или паре промптов. Иногда оно даже будет работать.

Что отличает реально работающие продукты от поделок - возможность оценивать качество и планомерно его улучшать. Ведь quality is a trajectory.

Ваш, @llm_under_hood 🤗
88👍49🔥14🤝2🤯1