Вкалывают Роботы – Telegram
Немного про Валидацию:
В классическом ML мы уже давно научились проводить эксперименты, знаем про A/B тесты и даже умеем эвалить любые изменения: фичи, метрики и все что угодно. У нас даже есть для этого куча инструментов, в том числе опенсорсных. В мире LLM я чаще вижу такой цикл:
→ написали какую-то инструкцию
→ потыкали на паре примеров в какие-то модельки
→ катнули в прод
→ столкнулились с какой-то проблемой
→ поправили промпт
→ все заново 🤯

Я не знаю связано ли это с тем, что все хотят катить свои решения как можно быстрее или с тем, что AI довольно легко может внедрять не специалист в области ML (склоняюсь я, конечно, ко второму), в любом случае, я очень рекомендую начать (если еще нет хе-хе) мерять качество своих решений и трекать свои эксперименты. О том как к этому можно подходить я как раз недавно рассказывал на ML Party (YouTube, VKVideo)
2
По следам прошлого поста, хочется рассказать про Agentic Context Engineering: Evolving Contexts for Self-Improving Language Models

В современном мире мы почти пришли к тому, чтобы улучшать ответы LLMок не за счёт дообучения, а через контекстную адаптацию, тоесть обновление системных промптов, памяти или инструкций.

Ранее уже были подходы:
- In-Context Learning по сути это просто few shot когда мы показываем модели хорошие примеры, но при таком подходе не накапливается опыт, он плохо работает в многошаговых задачах (читай агентских) и вообще ограничен размером контекста и не адаптируется.
- GEPA (Genetic-Pareto Optimizer) анализирует собственные ошибки, генерирует текстовый фидбек, создаёт популяцию улучшенных промптов и отбирает лучшие с помощью Парето-оптимизации (как мутации в генетическом алгоритме)
- Dynamic Cheatsheet - это адаптивная внешняя память с полезными стратегиями, кодом и решениями, при этом модель сама пополняет этот список, переиспользуя знания. Проблема в том, что память периодически переписывается полностью, и сжимается тоесть превращается в краткую сводку, а значит важные детали теряются

Итого, ранее существовавшие подходы страдают от:
1. Brevity bias - склонности к слишком кратким, обобщённым промптам с потерей важных деталей
2. Context collapse - деградации контекста при многократных перезаписях, при этом знания заменяются короткими сводками

В октябре вышла статья от Stanford University и UC Berkeley, где предлагают фреймворк ACE (Agentic Context Engineering), в котором контекст рассматривается как эволюционирующий “плейбук”, постепенно накапливающий и структурирующий знания, стратегии и инсайты.

Из чего состоит:
📚 Playbook Context - эволюционируемый системный контекст. Это по сути улучшеная версия Dynamic Cheatsheet, коллекция bullet'ов, где каждый bullet это маленькая единица знания, которая содержит метаданные (id и счётчики сколько раз запись помогла/навредила) и саму запись: короткая стратегия или правило, доменная концепция, описание типичной ошибки. Это позволяет локализовывать знания, обеспечить точный ретрив и делать инкрементальные адаптации
🤖 Агенты:
- Generator (решает задачи и генерирует reasoning-трейсы)
- Reflector (анализирует успехи и ошибки, извлекая конкретные уроки)
- Curator (обновляет контекст малыми “дельта-изменениями”, не переписывая его целиком)

📈 Feedback: это собственно метрики из сигналов качества и среды (про это в другой раз). Ну и тут важно рассказать про refine-процедуру, которая позволяет держать playbook длинным, но при этом не мусорным:
- схожие bullet'ы ищутся через эмбединги; 
- дубликаты склеиваются;
- совсем вредные или мало полезные могут быть понижены или удалены.

Подход позволяет проводить такой процесс:
- offline, в результате которого ты получаешь готовый playbook, который потом подключается в агента или системный промт, но да нужен датасет с правильной разметкой.
- online адаптация во время работы агента, но да, тут вопрос как корректно считать фидбэк. Однако, можно использовать сигналы среды (код упал, задача не завершена, проверка не прошла) и такой online-режим даёт +14.8% к базовому ReAct на AppWorld, используя сигналы среды (успех/фейл) вместо размеченных ответов.

Выводы:
1. По замерам из статьи ACE показывает значительный буст качества относительно ICL, GEPA, MIPROv2 и DC.
2. Засчет инкрементальных Delta изменений ACE демонстрирует хорошее снижение затрат и задержки адаптации относительно других подходов
7
Схема работы Agentic Context Engineering из оригинальной статьи
У OpenAI вышел очередной гайд From experiments to deployment, о том, как компании проходят путь от первых экспериментов с ИИ до его масштабного внедрения. В playbook'е подчёркивается важность выстраивания повторяемых процессов разработки AI-продуктов. Успех зависит не от одного «крутого кейса», а от способности организации учиться, повторять, адаптировать и интегрировать AI во все процессы.

OpenAI выделяют 4 ключевые фазы:

🧱 01 Set the foundations: стратегия, данные, управление, цели. На этом этапе важно оценить зрелость компании (данные, процессы, компетенции), вовлечь руководителей, выстроить governance, который не тормозит инновации, и определить метрики успеха (time saved → reuse → ROI).

🔬 02 Create AI fluency. Повышение AI-грамотности и развитие культуры экспериментов. Широкое обучение, ритуалы (хакатоны, демо-дни), сеть AI-чемпионов и внутренних экспертов все это создаёт устойчивую среду для поиска и тестирования новых идей.

⚖️ 03 Scope and prioritize: Идея → оценка → приоритет → бэклог. Оцениваем по 4 критериям impact, effort, risk, reuse и инвестируем в те, которые имеют максимальную ценность и минимальную сложность.

🛠 04 Build and scale products. В отличие от классического ПО, AI-продукты требуют постоянных итераций: hypotheses → build → measure → refine. Здесь особенно важны процессы, культура экспериментов и системные циклы улучшений. Именно это я подчеркивал в своем докладе недавно.

Выводы:
- Любой сотрудник может найти кейс, который масштабируется на всю компанию.
- Внедрение AI — это непрерывный цикл, а не проект. Фазы превращаются в операционную систему компании.
- ROI AI растёт экспоненциально: сначала сэкономленные минуты, потом автоматизированные процессы, затем новые продукты и источники дохода.
- Повторяемые процессы, культура и навыки важнее инструментов.

Интересно услышать ваши наблюдения как устроен процесс внедрения AI в вашей компании? Пишите в комментариях.
🔥3
Наткнулся на интересную Брошюрку "Как получать радость от вайбкодинга" и с удовольствием делюсь ею с вами (спасибо автору канала Делай RAG за такую глубокую работу).

Сегодня хочется поговорить с вами на эту тему. Сразу обозначу, что я мало пробовал именно vibe-coding, но мой опыт, пока скорее получился отрицательный. Не исключено, что я просто не умею варить его.

Совсем недавно для одной моей апки (об этом я обязательно скоро так же поделюсь) потребовалось быстро, без смс, но с регистрацией поднять бэк. Стек довольно стандартный: FastAPI + Keyсloak + PostgreSQL. Написал несколько ручек, подключил Pydantic, все аккуратно сложил в котейнерочки, прикуртил CI. Все было почти готово и пришло время "подружить" Keycloak с FastAPI. На этом этапе, я решил, что это отличная возможность попробовать Codex от OpenAI (а зря...).

Задача довольно тривиальная с кучей примеров в интернете, но мне стало лень "мудохаться" самостоятельно со всеми этими разменами токенов и прочими настройками. Codex с минуту подумав, написал мне кучу кода, который конечно же не работал. И вот тут началось, почти 3 часа я ему отправлял ошибки, а взамен слушал читал его извинения, что он накосячил. Мне было принципиально добить, а портянка с какими-то невообразимыми абстракциями только росла. В какой-то момент уже и мой изначальный код разломался, а то что нагородил Codex я уже принципиально не смог даже осилить прочитать. Плюнул, откатился к началу, скопировал из интернета первый попавшийся пример на 10 строк кода и за 20 минут все завел. Свет. Занавес. 🍆

Второй момент который нужно было решить: у Keycloak отдельная база пользователей. Мне нужно было, сделать так, чтобы у моего бэка они тоже были. Я дал Codex’у второй шанс, но в этот раз я решил, что прежде чем писать код, он будет рассказывать, что он собирается делать. И вот мы снова пошли по всем кругам ада. Он начал мне рассказывать про какие-то плагины к Keycloak, которые я должен написать, причем обязательно на Java и прочие танцы с бубном. Думать мне было лень, я просто мучал его, пока он не даст мне какое-то супер простое и элегантное решение. 2 часа коту под хвост (и сожженых GPU офк). В итоге опять забил и просто на ручку /me, в которую гарантировано сходит фронт, повесил проверку: есть ли у меня этот пользователь и если нет, то создать (не претендует на идеальное инженерное решение). Итого: 3 строчки кода и пять минут времени. 🤪

Все как в известном меме "Я уважаю то, что они делают, но..." 😛 Если серьезно, очень круто, что непрограммисты могут реально быстро и на коленке создавать приложения и делать MVP продуктов. Да, пока скорее всего настоящему программисту, на этапе скейлинга и нормального продакшена будет тяжело разбираться с тем как оно работает (и работает ли вообще), но если подумать, то технология не будет развиваться если не пытаться ее внедрять.

У меня есть еще до конца не сформулированная мысль, что когда-то мы придем в точку, что каждый человек сможет написать любой продукт под себя и тогда рынок приложений окончательно девальвируется и тут возникает резонные вопросы: Во что же теперь инвестировать и какие стартапы теперь будут нужны рынку? Предлагаю пообсуждать это в комментариях.

Ну и поделюсь парой классных каналов про vibe coding, за которыми я с удовольствием слежу.
- Канальчик Делай RAG, Где Катя, как раз автор той книжки, которая вдохновила меня на этот пост делится своим опытом кодинга с нейросетями.
- Канал Zero to Vibe[coding] от Лиды, которая тоже активно делится своими успехами на этом сложном пути.

И, конечно, приглашаю вас в комментарии пообсуждать ваш опыт. Кстати, кто понял, почему на картинке к этому посту Рик Рубин?

Термины и определения для мамы:
- Vibe coding — метод программирования, при котором разработчик описывает задачу на естественном языке, а искусственный интеллект (ИИ) генерирует соответствующий код
- FastAPI — веб-фреймворк для создания API на языке Python.
- Keycloak — проект для управления идентификацией и доступом (Identity and Access Management, IAM)
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
5👍3
В мире, особенно с проникновением AI во все сферы жизни, только и разговоров, что мы живем в эпоху девальвации визуального искусства, в частности фотографии. Несмотря на то, что я нахожусь непосредственно на острие AI, я постоянно отвергал даже саму возможность его использования в творчестве. Сегодня я вдруг понял, что пришло время признать новую реальность. AI уже везде.

Вообще, если разобраться, фотография, которой я увлечён почти 20 лет, сама появилась на стыке технологий: живопись фиксировала реальность, но появление фотопроцесса сломало эту функцию, и возник новый вид искусства. Таких примеров много: театр + фото + механика → кино, музыка + электричество (синтезаторы, семплеры) → появились жанры, невозможные без технологии. Мы знаем много примеров того, как с развитием технологий меняется язык мышления, в том числе в искусстве.

А что если «картинки от нейросети» нужно воспринимать не так, а скорее в качестве диалога и итераций с художником? Ведь и написание промпта - это в каком-то роде искусство (хоть я и считаю, что это скорее сугубо инженерная задача). И тогда художник становится режиссёром процесса и это уже волне тянет на искусство.

Сегодня, неожиданно для себя, провёл серию экспериментов с новой GPT Image 1.5 от OpenAI над своими черновиками рисунков и рандомными фотографиями. Спешу поделиться результатами. Материал специально брал не самый лучший. Приятного просмотра.

Обязательно напишите ваше мнение, а как как вы относитесь к симбиозу привычных видов искусства с AI?

Спойлер: я чувствую некоторое воодушевление от того, что так может родиться что-то потрясающе новое и свежее.
4👎1
Forwarded from Not Boring Tech
🚀 Вышло ультимативное руководство по созданию проектов в Claude Code — кодер за полчаса рассказал весь путь разработки от планирования до прода.

Вшил ссылки на таймкоды:

00:00 — Не повторяй мою ошибку
02:30 — Фаза 1: план
02:54 — Два вопроса, которые нужно задать себе перед началом проекта
04:44 — Как использовать ИИ для планирования
06:14 — Создание спецификации проекта
11:36 — Фаза 2: настройка
12:04 — Сетап репозитория на GitHub
13:32 — Создание файла переменных окружения (.env)
13:50CLAUDE.md и как его заполнять
15:57 — Автоматическая документация проекта
18:24 — Установка плагинов
19:33 — Установка MCP-серверов
20:52 — Настройка кастомных slash-команд и sub-agents
23:22 — Продвинутая настройка: предварительная конфигурация прав
24:09 — Продвинутая настройка: хуки
24:55 — Фаза 3: разработка
25:41 — Создание MVP с Claude
26:33 — Ворк-флоу 1: разработка фичи
27:49 — Ворк-флоу 2: разработка по задачам (issue-based)
29:19 — Workflow 3: мультиагентная разработка (multi-clauding)
30:39 — Советы для продуктивной разработки
33:04 — Как применять всё, что вы узнали в видео


Сохраняйте — тут.

@notboring_tech
👍1
В начале года вышел довольно важный отчет Journalism, media, and technology trends and predictions 2026 от Reuters Institute

▶️ Конец эпохи поискового трафика

Трафик с Google Search к новостным сайтам уже сократился примерно на 33% за последний год и это это ещё до полноценного масштабирования их AI Overviews. Google активно показывая ответ прямо в SERPе приучает пользователей не переходить на сайты и эффект Zero-Click только растет. Кстати, поэтому же и траффик с Google Discover драматически падает (такой пинтерест для информации или новая инкарнация Google Feed). Сами медиа-менеджеры ожидают, что за следующие 3 года из-за смены модели потребления информации поисковый трафик упадёт ещё примерно на 43%,

Поисковые системы уже все чаще работают не как «навигаторы», а как AI-ответные машины: они агрегируют, суммируют, пересказывают контент из новостных источников и моделей, и отдают готовый ответ.

Важно, что хоть спрос на клики и падает, то вот спрос на информацию никуда не делся, потому что меняется не потребность, а формат доступа.

Термины, которые теперь начинают набирать популярность:

AEO (Answer Engine Optimization) - Оптимизация контента под AI-системы, ассистентов и чат-интерфейсы вместо классического SEO. Еще иногда это называют GEO (Generative Engine Optimization).

Liquid content - Адаптивный, «жидкий» контент, который может по-разному подаваться в разных каналах, пересобираться под контекст пользователя и жить вне одного сайта или формата.

🔄 Пересмотр контента и форматов.

Из-за AI ответов информация становятся легко доступной, и публикации с простыми новостями рискуют стать «коммодифицированными». Поэтому большинство изданий планирует:
- усиливать оригинальные расследования и аналитические материалы
- больше ресурсов тратить на видео и аудио-форматы
- переходить туда, где есть аудитория — на YouTube, TikTok, Instagram 

Около 75 % медиа-организаций хотят, чтобы журналисты работали как контент-креаторы: с узнаваемыми лицами, личными историями и формами, актуальными для платформ. Многие планируют работать с инфлюенсерами или даже нанимать их. 

➡️ AI уже реальность
Все признают, что неизбежно будут использовать для автоматизации рутинных задач, аналитики, работы с данными и внимание внимение оптимизации контента под новые «ответные движки» то самое AEO/GEO. Забавно, что только около 38% медиа-менеджеров уверены в будущем отрасли, и это существенно ниже, чем несколько лет назад. Но более половины при этом верят в перспективы своей собственной организации.


🧠 Мудрость напоследок
На самом деле, эти изменения касаются не только медиа, а мы наблюдаем тектонический сдвиг пользовательского флоу:
- от сайтов/источников → к AI интерфейсам и доверенным посредникам (которые тоже могут быть и AI)

Если тебя не цитируют, не используют и не «вшивают» в эти новые интерфейсы, то для пользователя тебя просто не существует даже если твой контент самый лучший.

👉 Основной вопрос 2026 года звучит так: «Как быть источником ответов, а не просто владельцем сайта?»
Please open Telegram to view this post
VIEW IN TELEGRAM
👍2🔥2
Решение, которое лежало на поверхности и о котором давно ходили слухи все таки принято. Теперь официально.

📣OpenAI объявили, что в ближайшие недели в ChatGPT появится реклама.

Обещают, что реклама не будет влиять на сами ответы и это способ профинансировать массовый доступ к ИИ, не ломая доверие к ответам и сохраняя бесплатный доступ (кстати, вместе с этим еще вводят 8-ми долларовый тариф)

Все-таки к маленькому калифорнийскому стартапу пришли инвесторы и спросили «где деньги?». Подписки не дают бесконечного роста и как бы красиво ты не формулировал миссию, P&L всегда побеждает.

Как бы не старались, безусловно, талантливые PRщики господина Альтмана, мы с вами понимаем, что влияние на продукт будет неизбежно. Конечно, не на уровне инференса и не напрямую. Реклама меняет систему. А система меняет поведение модели.

Почему? Реклама вводит новые KPI. Другие метрики неизбежно сместят язык, приоритеты и глубину ответов модели на более прикладные и совместимые с рекламным блоком.

Это классическая эволюция систем с revenue loop. Как только ответ стал частью воронки, он перестал быть чистым.

Были ли у стартапа альтернативные модели монетизации? Моё мнение: скорее нет. Напишите, что думаете, в комментариях.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍1
Я большой любитель коллекционировать истории о том, как на самом деле происходит AI-адопшен. Недавно я разбирал гайд от OpenAI. Там говорилось, что успех зависит не от моделей, а от способности организации учиться, повторять, адаптироваться и интегрировать AI во все процессы. Все по классике: делайте много экспериментов с дешёвыми ошибками и масштабируйте то, что работает. Это bottom-up подход, когда adoption происходит снизу вверх.

Недавно в Harvard Business Review я наткнулся на статью Stop Running So Many AI Pilots и на первый взгляд она показалась мне немного противоречащей, но это просто дополнительный уровень рассмотрения.

Поэтому сегодня про Bottom-up vs. Top-down (ну и если хотите adoption vs стратегия).

Если говорить по-честному, то большинство AI-пилотов вообще не про трансформацию. Это уже приевшиеся всем нам презентации, саммари встреч, чат-боты, автоматизация саппорта. Да, это экономит время и даёт быстрый ROI, но важно то, что это совершенно не меняет бизнес и легко копируется конкурентами.

Часто это выглядит так: «Давайте Запустим десяток AI пилотов в маркетинге, финансах, HR, саппорте и посмотрим, что взлетит», но это довольно плохая стратегия, потому что по сути это работа над офисной продуктивностью и автоматизацией рутины, и по факту получается:
🟣AI используется в 5–10% задач
🟣Никто не готов перестраивать процессы
🟣Возникает усталость от инициатив
🟣Сотрудники разочаровываются

Главный тезис статьи в HBR: Проблема не в том, что компании мало экспериментируют с AI. Проблема в том, что они экспериментируют не там и не глубоко
🔜 Хорошая стратегия выглядит так: «Мы выберем один критичный домен и перестроим его работу вокруг AI»

Лучше один AI-проект, который меняет бизнес и приводит к глубокой трансформации чем 50 пилотов, которые создают иллюзию прогресса.

Давайте взглянем на этот пирог:
🟡 Офисная продуктивность. Здесь нет конкурентного преимущества. Очень мелкие и, по-сути, не влияющие на бизнес изменения.
🟡 Доменные процессы и трансформация - это устойчивый источник конкурентного преимущества, позволяющий изменять ключевые бизнес-процессы, а не его косметика
🟡 Новые бизнес-модели. Да, изменения становятся труднокопируемыми для конкурентов, но они уже более рискованны

Хороший вопрос для любой компании, который стоит задать для диагностики: Если убрать этот AI-кейс станет ли бизнес снова прежним?Если ответ «да», то это не трансформация.

Вместо Shallow & Broad предлагается подход Deep & Narrow, с выводами на примере кейсов Reckitt (маркетинг), L’Oréal (customer journey, IKEA (дизайн интерьеров) и ипотечный процесс целиком на примере одного банка, который не раскрывается.

1️⃣ Step 1: Identify the most promising opportunity.
Выбрать один стратегически важный домен: функцию (маркетинг, дизайн, риск-менеджмент) или end-to-end процесс (ипотека, supply chain, onboarding клиента), который имеет наиболее перспективную возможность и сильнее всего влияет ли на выручку / маржу / удержание

2️⃣Step 2: Identify areas of lasting advantage.
Нужно выбрать такую область, в которой есть долгосрочные преимущества в виде данных, экспертизы и возможностей масштабирования. Так, чтобы внутри было много связанных друг с другом задач, использующую информацию полученную из одних и тех же данных, данных о клиентах и маркетинговых исследованиях.

3️⃣ Step 3: Choose the right sequence.
Чтобы составить правильную последовательность действий нужно как-то приоритизировать инициативы. В статье предлагается разложить их по двум осям: степень возможной автоматизации и размер возможностей для компании, да хоть классическим Impact vs Effort. Важно, что на этом этапе нормально делать эксперименты, но главное чтобы они были сфокусированы.

4️⃣ Step 4: Monitor the competitive landscape.
Базовый принцип ИИ должен усиливать существующее конкурентное преимущество или создавать новое, труднокопируемое.

Успех будет, если держать фокус на единой цели одного домена, имеющего много взаимосвязанных задач, общие данные и контекст. В таком случае AI усиливает саму систему, создавая рычаг, а не оптимизирует отдельные шаги.
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍2