Я пока не решил насколько глубоко я буду рассказывать про технические детали или наоборот останусь на уровне "так чтобы мама поняла", но знаю точно, что собираюсь писать здесь через призму своего опыта и знаний, так что если хочется разбираться в этом всем, то оставайтесь здесь
😍1
Немного про Валидацию:
В классическом ML мы уже давно научились проводить эксперименты, знаем про A/B тесты и даже умеем эвалить любые изменения: фичи, метрики и все что угодно. У нас даже есть для этого куча инструментов, в том числе опенсорсных. В мире LLM я чаще вижу такой цикл:
→ написали какую-то инструкцию
→ потыкали на паре примеров в какие-то модельки
→ катнули в прод
→ столкнулились с какой-то проблемой
→ поправили промпт
→ все заново 🤯
Я не знаю связано ли это с тем, что все хотят катить свои решения как можно быстрее или с тем, что AI довольно легко может внедрять не специалист в области ML (склоняюсь я, конечно, ко второму), в любом случае, я очень рекомендую начать (если еще нет хе-хе) мерять качество своих решений и трекать свои эксперименты. О том как к этому можно подходить я как раз недавно рассказывал на ML Party (YouTube, VKVideo)
В классическом ML мы уже давно научились проводить эксперименты, знаем про A/B тесты и даже умеем эвалить любые изменения: фичи, метрики и все что угодно. У нас даже есть для этого куча инструментов, в том числе опенсорсных. В мире LLM я чаще вижу такой цикл:
→ написали какую-то инструкцию
→ потыкали на паре примеров в какие-то модельки
→ катнули в прод
→ столкнулились с какой-то проблемой
→ поправили промпт
→ все заново 🤯
Я не знаю связано ли это с тем, что все хотят катить свои решения как можно быстрее или с тем, что AI довольно легко может внедрять не специалист в области ML (склоняюсь я, конечно, ко второму), в любом случае, я очень рекомендую начать (если еще нет хе-хе) мерять качество своих решений и трекать свои эксперименты. О том как к этому можно подходить я как раз недавно рассказывал на ML Party (YouTube, VKVideo)
❤2
По следам прошлого поста, хочется рассказать про Agentic Context Engineering: Evolving Contexts for Self-Improving Language Models
В современном мире мы почти пришли к тому, чтобы улучшать ответы LLMок не за счёт дообучения, а через контекстную адаптацию, тоесть обновление системных промптов, памяти или инструкций.
Ранее уже были подходы:
- In-Context Learning по сути это просто few shot когда мы показываем модели хорошие примеры, но при таком подходе не накапливается опыт, он плохо работает в многошаговых задачах (читай агентских) и вообще ограничен размером контекста и не адаптируется.
- GEPA (Genetic-Pareto Optimizer) анализирует собственные ошибки, генерирует текстовый фидбек, создаёт популяцию улучшенных промптов и отбирает лучшие с помощью Парето-оптимизации (как мутации в генетическом алгоритме)
- Dynamic Cheatsheet - это адаптивная внешняя память с полезными стратегиями, кодом и решениями, при этом модель сама пополняет этот список, переиспользуя знания. Проблема в том, что память периодически переписывается полностью, и сжимается тоесть превращается в краткую сводку, а значит важные детали теряются
Итого, ранее существовавшие подходы страдают от:
1. Brevity bias - склонности к слишком кратким, обобщённым промптам с потерей важных деталей
2. Context collapse - деградации контекста при многократных перезаписях, при этом знания заменяются короткими сводками
В октябре вышла статья от Stanford University и UC Berkeley, где предлагают фреймворк ACE (Agentic Context Engineering), в котором контекст рассматривается как эволюционирующий “плейбук”, постепенно накапливающий и структурирующий знания, стратегии и инсайты.
Из чего состоит:
📚 Playbook Context - эволюционируемый системный контекст. Это по сути улучшеная версия Dynamic Cheatsheet, коллекция bullet'ов, где каждый bullet это маленькая единица знания, которая содержит метаданные (id и счётчики сколько раз запись помогла/навредила) и саму запись: короткая стратегия или правило, доменная концепция, описание типичной ошибки. Это позволяет локализовывать знания, обеспечить точный ретрив и делать инкрементальные адаптации
🤖 Агенты:
- Generator (решает задачи и генерирует reasoning-трейсы)
- Reflector (анализирует успехи и ошибки, извлекая конкретные уроки)
- Curator (обновляет контекст малыми “дельта-изменениями”, не переписывая его целиком)
📈 Feedback: это собственно метрики из сигналов качества и среды (про это в другой раз). Ну и тут важно рассказать про refine-процедуру, которая позволяет держать playbook длинным, но при этом не мусорным:
- схожие bullet'ы ищутся через эмбединги;
- дубликаты склеиваются;
- совсем вредные или мало полезные могут быть понижены или удалены.
Подход позволяет проводить такой процесс:
- offline, в результате которого ты получаешь готовый playbook, который потом подключается в агента или системный промт, но да нужен датасет с правильной разметкой.
- online адаптация во время работы агента, но да, тут вопрос как корректно считать фидбэк. Однако, можно использовать сигналы среды (код упал, задача не завершена, проверка не прошла) и такой online-режим даёт +14.8% к базовому ReAct на AppWorld, используя сигналы среды (успех/фейл) вместо размеченных ответов.
Выводы:
1. По замерам из статьи ACE показывает значительный буст качества относительно ICL, GEPA, MIPROv2 и DC.
2. Засчет инкрементальных Delta изменений ACE демонстрирует хорошее снижение затрат и задержки адаптации относительно других подходов
В современном мире мы почти пришли к тому, чтобы улучшать ответы LLMок не за счёт дообучения, а через контекстную адаптацию, тоесть обновление системных промптов, памяти или инструкций.
Ранее уже были подходы:
- In-Context Learning по сути это просто few shot когда мы показываем модели хорошие примеры, но при таком подходе не накапливается опыт, он плохо работает в многошаговых задачах (читай агентских) и вообще ограничен размером контекста и не адаптируется.
- GEPA (Genetic-Pareto Optimizer) анализирует собственные ошибки, генерирует текстовый фидбек, создаёт популяцию улучшенных промптов и отбирает лучшие с помощью Парето-оптимизации (как мутации в генетическом алгоритме)
- Dynamic Cheatsheet - это адаптивная внешняя память с полезными стратегиями, кодом и решениями, при этом модель сама пополняет этот список, переиспользуя знания. Проблема в том, что память периодически переписывается полностью, и сжимается тоесть превращается в краткую сводку, а значит важные детали теряются
Итого, ранее существовавшие подходы страдают от:
1. Brevity bias - склонности к слишком кратким, обобщённым промптам с потерей важных деталей
2. Context collapse - деградации контекста при многократных перезаписях, при этом знания заменяются короткими сводками
В октябре вышла статья от Stanford University и UC Berkeley, где предлагают фреймворк ACE (Agentic Context Engineering), в котором контекст рассматривается как эволюционирующий “плейбук”, постепенно накапливающий и структурирующий знания, стратегии и инсайты.
Из чего состоит:
📚 Playbook Context - эволюционируемый системный контекст. Это по сути улучшеная версия Dynamic Cheatsheet, коллекция bullet'ов, где каждый bullet это маленькая единица знания, которая содержит метаданные (id и счётчики сколько раз запись помогла/навредила) и саму запись: короткая стратегия или правило, доменная концепция, описание типичной ошибки. Это позволяет локализовывать знания, обеспечить точный ретрив и делать инкрементальные адаптации
🤖 Агенты:
- Generator (решает задачи и генерирует reasoning-трейсы)
- Reflector (анализирует успехи и ошибки, извлекая конкретные уроки)
- Curator (обновляет контекст малыми “дельта-изменениями”, не переписывая его целиком)
📈 Feedback: это собственно метрики из сигналов качества и среды (про это в другой раз). Ну и тут важно рассказать про refine-процедуру, которая позволяет держать playbook длинным, но при этом не мусорным:
- схожие bullet'ы ищутся через эмбединги;
- дубликаты склеиваются;
- совсем вредные или мало полезные могут быть понижены или удалены.
Подход позволяет проводить такой процесс:
- offline, в результате которого ты получаешь готовый playbook, который потом подключается в агента или системный промт, но да нужен датасет с правильной разметкой.
- online адаптация во время работы агента, но да, тут вопрос как корректно считать фидбэк. Однако, можно использовать сигналы среды (код упал, задача не завершена, проверка не прошла) и такой online-режим даёт +14.8% к базовому ReAct на AppWorld, используя сигналы среды (успех/фейл) вместо размеченных ответов.
Выводы:
1. По замерам из статьи ACE показывает значительный буст качества относительно ICL, GEPA, MIPROv2 и DC.
2. Засчет инкрементальных Delta изменений ACE демонстрирует хорошее снижение затрат и задержки адаптации относительно других подходов
❤6
У OpenAI вышел очередной гайд From experiments to deployment, о том, как компании проходят путь от первых экспериментов с ИИ до его масштабного внедрения. В playbook'е подчёркивается важность выстраивания повторяемых процессов разработки AI-продуктов. Успех зависит не от одного «крутого кейса», а от способности организации **учиться, повторять, адаптировать и интегрировать AI во все процессы**.
OpenAI выделяют 4 ключевые фазы:
🧱 01 Set the foundations: стратегия, данные, управление, цели. На этом этапе важно оценить зрелость компании (данные, процессы, компетенции), вовлечь руководителей, выстроить governance, который не тормозит инновации, и определить метрики успеха (time saved → reuse → ROI).
🔬 02 Create AI fluency. Повышение AI-грамотности и развитие культуры экспериментов. Широкое обучение, ритуалы (хакатоны, демо-дни), сеть AI-чемпионов и внутренних экспертов все это создаёт устойчивую среду для поиска и тестирования новых идей.
⚖️ 03 Scope and prioritize: Идея → оценка → приоритет → бэклог. Оцениваем по 4 критериям impact, effort, risk, reuse и инвестируем в те, которые имеют максимальную ценность и минимальную сложность.
🛠 04 Build and scale products. В отличие от классического ПО, AI-продукты требуют постоянных итераций: hypotheses → build → measure → refine. Здесь особенно важны процессы, культура экспериментов и системные циклы улучшений. Именно это я подчеркивал в своем докладе недавно.
Выводы:
- Любой сотрудник может найти кейс, который масштабируется на всю компанию.
- Внедрение AI — это непрерывный цикл, а не проект. Фазы превращаются в операционную систему компании.
- ROI AI растёт экспоненциально: сначала сэкономленные минуты, потом автоматизированные процессы, затем новые продукты и источники дохода.
- Повторяемые процессы, культура и навыки важнее инструментов.
Интересно услышать ваши наблюдения как устроен процесс внедрения AI в вашей компании? Пишите в комментариях.
OpenAI выделяют 4 ключевые фазы:
🧱 01 Set the foundations: стратегия, данные, управление, цели. На этом этапе важно оценить зрелость компании (данные, процессы, компетенции), вовлечь руководителей, выстроить governance, который не тормозит инновации, и определить метрики успеха (time saved → reuse → ROI).
🔬 02 Create AI fluency. Повышение AI-грамотности и развитие культуры экспериментов. Широкое обучение, ритуалы (хакатоны, демо-дни), сеть AI-чемпионов и внутренних экспертов все это создаёт устойчивую среду для поиска и тестирования новых идей.
⚖️ 03 Scope and prioritize: Идея → оценка → приоритет → бэклог. Оцениваем по 4 критериям impact, effort, risk, reuse и инвестируем в те, которые имеют максимальную ценность и минимальную сложность.
🛠 04 Build and scale products. В отличие от классического ПО, AI-продукты требуют постоянных итераций: hypotheses → build → measure → refine. Здесь особенно важны процессы, культура экспериментов и системные циклы улучшений. Именно это я подчеркивал в своем докладе недавно.
Выводы:
- Любой сотрудник может найти кейс, который масштабируется на всю компанию.
- Внедрение AI — это непрерывный цикл, а не проект. Фазы превращаются в операционную систему компании.
- ROI AI растёт экспоненциально: сначала сэкономленные минуты, потом автоматизированные процессы, затем новые продукты и источники дохода.
- Повторяемые процессы, культура и навыки важнее инструментов.
Интересно услышать ваши наблюдения как устроен процесс внедрения AI в вашей компании? Пишите в комментариях.
🔥3
Наткнулся на интересную Брошюрку "Как получать радость от вайбкодинга" и с удовольствием делюсь ею с вами (спасибо автору канала Делай RAG за такую глубокую работу).
Сегодня хочется поговорить с вами на эту тему. Сразу обозначу, что я мало пробовал именно vibe-coding, но мой опыт, пока скорее получился отрицательный. Не исключено, что я просто не умею варить его.
Совсем недавно для одной моей апки (об этом я обязательно скоро так же поделюсь) потребовалось быстро, без смс, но с регистрацией поднять бэк. Стек довольно стандартный: FastAPI + Keyсloak + PostgreSQL. Написал несколько ручек, подключил Pydantic, все аккуратно сложил в котейнерочки, прикуртил CI. Все было почти готово и пришло время "подружить" Keycloak с FastAPI. На этом этапе, я решил, что это отличная возможность попробовать Codex от OpenAI (а зря...).
Задача довольно тривиальная с кучей примеров в интернете, но мне стало лень "мудохаться" самостоятельно со всеми этими разменами токенов и прочими настройками. Codex с минуту подумав, написал мне кучу кода, который конечно же не работал. И вот тут началось, почти 3 часа я ему отправлял ошибки, а взаменслушал читал его извинения, что он накосячил. Мне было принципиально добить, а портянка с какими-то невообразимыми абстракциями только росла. В какой-то момент уже и мой изначальный код разломался, а то что нагородил Codex я уже принципиально не смог даже осилить прочитать. Плюнул, откатился к началу, скопировал из интернета первый попавшийся пример на 10 строк кода и за 20 минут все завел. Свет. Занавес. 🍆
Второй момент который нужно было решить: у Keycloak отдельная база пользователей. Мне нужно было, сделать так, чтобы у моего бэка они тоже были. Я дал Codex’у второй шанс, но в этот раз я решил, что прежде чем писать код, он будет рассказывать, что он собирается делать. И вот мы снова пошли по всем кругам ада. Он начал мне рассказывать про какие-то плагины к Keycloak, которые я должен написать, причем обязательно на Java и прочие танцы с бубном. Думать мне было лень, я просто мучал его, пока он не даст мне какое-то супер простое и элегантное решение. 2 часа коту под хвост (и сожженых GPU офк). В итоге опять забил и просто на ручку(не претендует на идеальное инженерное решение) . Итого: 3 строчки кода и пять минут времени. 🤪
Все как в известном меме "Я уважаю то, что они делают, но..."😛 Если серьезно, очень круто, что непрограммисты могут реально быстро и на коленке создавать приложения и делать MVP продуктов. Да, пока скорее всего настоящему программисту, на этапе скейлинга и нормального продакшена будет тяжело разбираться с тем как оно работает (и работает ли вообще), но если подумать, то технология не будет развиваться если не пытаться ее внедрять.
У меня есть еще до конца не сформулированная мысль, что когда-то мы придем в точку, что каждый человек сможет написать любой продукт под себя и тогда рынок приложений окончательно девальвируется и тут возникает резонные вопросы: Во что же теперь инвестировать и какие стартапы теперь будут нужны рынку? Предлагаю пообсуждать это в комментариях.
Ну и поделюсь парой классных каналов про vibe coding, за которыми я с удовольствием слежу.
- Канальчик Делай RAG, Где Катя, как раз автор той книжки, которая вдохновила меня на этот пост делится своим опытом кодинга с нейросетями.
- Канал Zero to Vibe[coding] от Лиды, которая тоже активно делится своими успехами на этом сложном пути.
И, конечно, приглашаю вас в комментарии пообсуждать ваш опыт. Кстати, кто понял, почему на картинке к этому посту Рик Рубин?
Термины и определения для мамы:
- Vibe coding — метод программирования, при котором разработчик описывает задачу на естественном языке, а искусственный интеллект (ИИ) генерирует соответствующий код
- FastAPI — веб-фреймворк для создания API на языке Python.
- Keycloak — проект для управления идентификацией и доступом (Identity and Access Management, IAM)
Сегодня хочется поговорить с вами на эту тему. Сразу обозначу, что я мало пробовал именно vibe-coding, но мой опыт, пока скорее получился отрицательный. Не исключено, что я просто не умею варить его.
Совсем недавно для одной моей апки (об этом я обязательно скоро так же поделюсь) потребовалось быстро, без смс, но с регистрацией поднять бэк. Стек довольно стандартный: FastAPI + Keyсloak + PostgreSQL. Написал несколько ручек, подключил Pydantic, все аккуратно сложил в котейнерочки, прикуртил CI. Все было почти готово и пришло время "подружить" Keycloak с FastAPI. На этом этапе, я решил, что это отличная возможность попробовать Codex от OpenAI (а зря...).
Задача довольно тривиальная с кучей примеров в интернете, но мне стало лень "мудохаться" самостоятельно со всеми этими разменами токенов и прочими настройками. Codex с минуту подумав, написал мне кучу кода, который конечно же не работал. И вот тут началось, почти 3 часа я ему отправлял ошибки, а взамен
Второй момент который нужно было решить: у Keycloak отдельная база пользователей. Мне нужно было, сделать так, чтобы у моего бэка они тоже были. Я дал Codex’у второй шанс, но в этот раз я решил, что прежде чем писать код, он будет рассказывать, что он собирается делать. И вот мы снова пошли по всем кругам ада. Он начал мне рассказывать про какие-то плагины к Keycloak, которые я должен написать, причем обязательно на Java и прочие танцы с бубном. Думать мне было лень, я просто мучал его, пока он не даст мне какое-то супер простое и элегантное решение. 2 часа коту под хвост (и сожженых GPU офк). В итоге опять забил и просто на ручку
/me, в которую гарантировано сходит фронт, повесил проверку: есть ли у меня этот пользователь и если нет, то создать Все как в известном меме "Я уважаю то, что они делают, но..."
У меня есть еще до конца не сформулированная мысль, что когда-то мы придем в точку, что каждый человек сможет написать любой продукт под себя и тогда рынок приложений окончательно девальвируется и тут возникает резонные вопросы: Во что же теперь инвестировать и какие стартапы теперь будут нужны рынку? Предлагаю пообсуждать это в комментариях.
Ну и поделюсь парой классных каналов про vibe coding, за которыми я с удовольствием слежу.
- Канальчик Делай RAG, Где Катя, как раз автор той книжки, которая вдохновила меня на этот пост делится своим опытом кодинга с нейросетями.
- Канал Zero to Vibe[coding] от Лиды, которая тоже активно делится своими успехами на этом сложном пути.
И, конечно, приглашаю вас в комментарии пообсуждать ваш опыт. Кстати, кто понял, почему на картинке к этому посту Рик Рубин?
Термины и определения для мамы:
- Vibe coding — метод программирования, при котором разработчик описывает задачу на естественном языке, а искусственный интеллект (ИИ) генерирует соответствующий код
- FastAPI — веб-фреймворк для создания API на языке Python.
- Keycloak — проект для управления идентификацией и доступом (Identity and Access Management, IAM)
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤5👍3
Forwarded from Блокнот в винных пятнах
В мире, особенно с проникновением AI во все сферы жизни, только и разговоров, что мы живем в эпоху девальвации визуального искусства, в частности фотографии. Несмотря на то, что я нахожусь непосредственно на острие AI, я постоянно отвергал даже саму возможность его использования в творчестве. Сегодня я вдруг понял, что пришло время признать новую реальность. AI уже везде.
Вообще, если разобраться, фотография, которой я увлечён почти 20 лет, сама появилась на стыке технологий: живопись фиксировала реальность, но появление фотопроцесса сломало эту функцию, и возник новый вид искусства. Таких примеров много: театр + фото + механика → кино, музыка + электричество (синтезаторы, семплеры) → появились жанры, невозможные без технологии. Мы знаем много примеров того, как с развитием технологий меняется язык мышления, в том числе в искусстве.
А что если «картинки от нейросети» нужно воспринимать не так, а скорее в качестве диалога и итераций с художником? Ведь и написание промпта - это в каком-то роде искусство (хоть я и считаю, что это скорее сугубо инженерная задача ). И тогда художник становится режиссёром процесса и это уже волне тянет на искусство.
Сегодня, неожиданно для себя, провёл серию экспериментов с новой GPT Image 1.5 от OpenAI над своими черновиками рисунков и рандомными фотографиями. Спешу поделиться результатами. Материал специально брал не самый лучший. Приятного просмотра.
Обязательно напишите ваше мнение, а как как вы относитесь к симбиозу привычных видов искусства с AI?
Спойлер: я чувствую некоторое воодушевление от того, что так может родиться что-то потрясающе новое и свежее.
Вообще, если разобраться, фотография, которой я увлечён почти 20 лет, сама появилась на стыке технологий: живопись фиксировала реальность, но появление фотопроцесса сломало эту функцию, и возник новый вид искусства. Таких примеров много: театр + фото + механика → кино, музыка + электричество (синтезаторы, семплеры) → появились жанры, невозможные без технологии. Мы знаем много примеров того, как с развитием технологий меняется язык мышления, в том числе в искусстве.
А что если «картинки от нейросети» нужно воспринимать не так, а скорее в качестве диалога и итераций с художником? Ведь и написание промпта - это в каком-то роде искусство (
Сегодня, неожиданно для себя, провёл серию экспериментов с новой GPT Image 1.5 от OpenAI над своими черновиками рисунков и рандомными фотографиями. Спешу поделиться результатами. Материал специально брал не самый лучший. Приятного просмотра.
Обязательно напишите ваше мнение, а как как вы относитесь к симбиозу привычных видов искусства с AI?
Спойлер: я чувствую некоторое воодушевление от того, что так может родиться что-то потрясающе новое и свежее.
❤4👎1
Forwarded from Not Boring Tech
🚀 Вышло ультимативное руководство по созданию проектов в Claude Code — кодер за полчаса рассказал весь путь разработки от планирования до прода.
Вшил ссылки на таймкоды:
Сохраняйте — тут.
@notboring_tech
Вшил ссылки на таймкоды:
00:00 — Не повторяй мою ошибку
02:30 — Фаза 1: план
02:54 — Два вопроса, которые нужно задать себе перед началом проекта
04:44 — Как использовать ИИ для планирования
06:14 — Создание спецификации проекта
11:36 — Фаза 2: настройка
12:04 — Сетап репозитория на GitHub
13:32 — Создание файла переменных окружения (.env)
13:50 —CLAUDE.mdи как его заполнять
15:57 — Автоматическая документация проекта
18:24 — Установка плагинов
19:33 — Установка MCP-серверов
20:52 — Настройка кастомных slash-команд и sub-agents
23:22 — Продвинутая настройка: предварительная конфигурация прав
24:09 — Продвинутая настройка: хуки
24:55 — Фаза 3: разработка
25:41 — Создание MVP с Claude
26:33 — Ворк-флоу 1: разработка фичи
27:49 — Ворк-флоу 2: разработка по задачам (issue-based)
29:19 — Workflow 3: мультиагентная разработка (multi-clauding)
30:39 — Советы для продуктивной разработки
33:04 — Как применять всё, что вы узнали в видео
Сохраняйте — тут.
@notboring_tech
👍1