Илья Филиппов – Telegram
Илья Филиппов
336 subscribers
11 photos
1 file
21 links
AI как двигатель доходов: от финансовых продуктов до нетривиальных стартапов. Рассказываю про деньги, неожиданные направления и внутреннюю кухню внедрений. Илья Филиппов, CEO red_mad_robot AI.

redmadrobot.ru
Download Telegram
AI-native GTM: новая экономика роста

Все обсуждают AI в продуктах, но почти никто — как он меняет экономику бизнеса. И дело не в автоматизации процессов или чат-ботах в поддержке. Речь о принципиально другой модели роста.

Возьмём Perplexity. Компания вышла на пять тысяч корпоративных клиентов при команде всего из пяти сейлзов — соотношение 1,000:1, которое в традиционном SaaS невозможно даже в теории. Похожая история у Cursor: при оценке в $400M у них нет полноценного GTM-отдела. Ни масштабного найма, ни сложной воронки продаж — рост заложен в сам продукт. 

Что изменилось?
AI-native компании встраивают интеллект не в отдельные фичи, а в весь customer journey — от первого касания до ретеншена. Это создаёт органически масштабируемую модель роста, которую традиционный бизнес воспроизвести просто не может. Цифры говорят сами за себя: при $25M ARR классические SaaS-компании в среднем держат 21 человека в GTM. AI-native — 13. И при этом они растут быстрее. Это не про оптимизацию издержек. Это про выручку, которая масштабируется без пропорционального роста операционных затрат.

McKinsey называет такой подход product-led sales — комбинацией лучшего из PLG с AI-автоматизацией. Результат: +10% к ARR и +50% valuation по сравнению с традиционными подходами. AI берёт на себя рутину: квалификацию лидов, онбординг, первую линию поддержки. Люди фокусируются на стратегической работе с высокой добавленной стоимостью. Но главное — это создаёт принципиально другую юнит-экономику.

Какой вывод?
Мы находимся в начале трансформации не просто продуктов, но и самой природы B2B. Те, кто сейчас строит AI-native GTM, получают структурное преимущество, которое нельзя догнать, просто добавив AI-фичи в существующие процессы.
6🔥3👍2👨‍💻1
AI-соло: как один человек конкурирует с целыми командами 

За последние несколько лет предпринимательский ландшафт кардинально изменился. Так, в 2024 году 38% стартапов были основаны соло-предпринимателями (против 22% в 2015). Используя AI как рычаг, они выходят на серьёзные метрики и уверенно конкурируют с полноценными командами.

Что говорят данные:

• Соло-основатели с AI достигают $1M ARR на четыре месяца быстрее, чем традиционные SaaS
• Бизнес держит маржинальность на уровне 70-90% против 60-80% у команд
• Один человек работает с эффективностью 5–10 специалистов

Реальные кейсы:

🇻🇳 Тони Дин, вьетнамский разработчик и создатель TypingMind, зарабатывает $45,000 в месяц при маржинальности 90%. Уже за первую неделю продукт принёс $22,000 выручки. В команде — только он и трое фрилансеров.

🇳🇱 Дэнни Постма, основатель HeadshotPro из Нидерландов, зарабатывает $300,000 в месяц, предлагая AI-альтернативу традиционным фотостудиям. Ранее он продал другой свой проект, Headlime, за $1M при выручке $20K MRR.

🇮🇳 Бхану Теджа, 24-летний выпускник индийского IIT, зарабатывает $95,000 в месяц на продукте SiteGPT и ещё $7,600 — на Feather, сервисе, который превращает страницы в Notion в полноценные блоги. Его проекты конкурируют с венчурными командами, несмотря на то, что он работает в одиночку.

Почему соло работает? 

Скорость: pivot занимает часы, а не месяцы. Никаких комитетов, согласований решений и бюрократии.

Экономика: вместо команды за $15,000+ — стек AI-инструментов за $200 в месяц.

Абсолютный фокус: 100% владения означает 100% ответственности и точности в исполнении.

Связь с клиентом: прямая коммуникация создаёт лояльность, которая в корпоративной модели попросту невозможна. 

Завтра продолжу и расскажу о конкретных бизнес-моделях, которые уже работают на WW-рынке. Уверен, их быстро скопируют и у нас…
5🔥4👨‍💻21
Кстати, цифры и ссылки по этой теме мне помог собрать Claude — отличный deep research за 6m35s. Разумеется, не моего времени
4👍2🔥2
AI-соло: бизнес-модели, которые работают для одиночек

Вчера говорил о результатах — сегодня разберём конкретные модели, которые позволяют одному человеку конкурировать с полноценными командами. Примеры в основном из опыта WW. В России такие модели пока встречаются реже — спрос ниже, но сами подходы вполне адаптируемы.

📍 AI SaaS: топовая модель с потенциалом $10K-$300M ARR при маржинальности 70-90%

Стратегия: находим конкретную боль (например, генерация формул, кастомные интерфейсы к ChatGPT, автоматизация задач) → решаем её лучше существующих продуктов → упаковываем в подписку по $29–299 в месяц. 

📍 Цифровые продукты: форматы с высокой маржой (85–95%) и минимальной поддержкой после запуска

Что работает: 

• Курсы с AI на стеке ChatGPT + ElevenLabs + Canva: $150K за полгода 
• Notion-шаблоны: до $220K в год при цене $15–100 за один шаблон 
• AI-генерируемый контент: eBooks, чек-листы, гайды

Формула: AI создаёт контент → вы добавляете экспертизу → автоматизированные продажи.

📍 AI-услуги: персонализированный подход с премиальными ценами

Примеры ниш: 

• Внедрение AI в бизнес-процессы
• Автоматизация контент-маркетинга
• Создание кастомных AI-агентов

📍 AaaS (Automation as a Service): один из самых удобных вариантов для пассивного дохода. Уверен, в SME-сегменте в РФ этот формат быстро найдёт спрос.

Что продавать: 

• 24/7 AI чат-боты для сайтов
• Автоматизация email-маркетинга
• AI для e-commerce (рекомендации, поддержка)

Модель ценообразования: разовая настройка → ежемесячная обслуживание → или % от сэкономленных затрат (обычно 10–30%).

Все эти модели не требуют команд, офисов и больших инвестиций — только фокус, понимание задачи и правильный стек.
Please open Telegram to view this post
VIEW IN TELEGRAM
3👍2🔥2👨‍💻1
Как топ-менеджеры на самом деле используют GenAI

Решил разобраться, как топы реально внедряют AI в свою работу — не в формате корпоративных кейсов с конференций, а через личные сценарии. Попросил Claude изучить, что можно найти публично, и дополнил это собственными наблюдениями и опытом на нашем рынке.

Утренние ритуалы с AI

💻 Сатья Наделла (Microsoft)
Каждое утро по дороге в офис он загружает транскрипты подкастов в Copilot и задаёт вопросы по ходу поездки. Вместо пассивного прослушивания — активный диалог с AI. У него настроено более десяти кастомных агентов в Copilot Studio, которых он называет своими «руководителями аппарата».

🟢 Дженсен Хуанг (NVIDIA)
В шесть утра, до начала рабочего дня, использует ChatGPT и Gemini для написания первых драфтов речей и презентаций. Алгоритм простой: он даёт LLM базовый outline, загружает PDF прошлых выступлений и получает рабочий черновик.

🧠 Сэм Альтман (OpenAI)
Начинает день с того, что просит ChatGPT разобрать почту и суммировать документы. Называет такое использование AI скучным, но именно это освобождает ментальные ресурсы для стратегического мышления.

Встречи и коммуникация

🔳Эй Джей Уилкокс (B2Linked)
Открыл для себя Fireflies.ai через подкаст, так что теперь все клиентские встречи автоматически записываются. AI создаёт comprehensive notes, пока он полностью сосредоточен на разговоре. Говорит, что это избавило от неловких моментов, когда не помнишь, что обсуждали на прошлом звонке.

🔳Макс Коби (Abstrax)
Генерирует квартальные отчёты для инвесторов с помощью ChatGPT o1. Сначала просит AI создать формат отчёта исходя из потребностей инвесторов, затем заполняет его финансовыми данными. Экономит по четыре часа ему и CFO.

Принятие решений

🔳Кортлин Холт-Нгуен (Accelerated Analyst)
Создаёт в ChatGPT виртуальные advisory boards — с участием Стива Джобса, Джеффа Безоса, Рейда Хоффмана и Шерил Сэндберг. Использует команды вроде «EVERYONE», «DEBATE» и «DEVIL’S ADVOCATE», чтобы получить групповой инпут, конфликтующие мнения и worst-case сценарии.

Также встречаются кейсы, где CEO готовятся к борду с помощью ChatGPT — такие практики видел и у знакомых в России. Ответы модели совпадали с реальными комментариями членов СД примерно на 80 %.

Что всё это означает?

Главный паттерн: executives используют AI не для замены, а для усиления. Человеческий надзор остаётся, но рутинные задачи уходят к моделям. Многие говорят, что 30–50 % их работы теперь AI-assisted.

Самые частые инструменты: ChatGPT, Claude, Copilot, Gemini + специализированные решения вроде Otter.ai и Fireflies.ai для встреч.

Интересно, что нигде не видно, чтобы условный Сэм Альтман запускал ультрасложную мультиагентную on-premise-систему, которая сама что-то изобретает на основе знаний и навыков. Пока это прерогатива IT-команд. Менеджеры же спокойно используют облачные базовые инструменты и экономят своё (весьма ценное) время. Вот вам и эффект, который не всегда отражён в метриках, но заметен в повседневной практике.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥53👨‍💻2👍1
🎯 Y Combinator назвал главные идеи для стартапов в 2025

Ребята из YC выпустили свежий список Requests for Startups — направления, в которых они особенно хотят видеть новые проекты. Вижу в этом некое отражение текущих трендов, поэтому решил разобрать.
Что ищет YC:

🔧 Переобучение рабочих для AI-экономики:
Пока все бьются за AI-таланты, забыли про дефицит электриков и сварщиков для строительства дата-центров. YC видит огромный потенциал в AI-школах профессионального обучения. Представьте: мультимодальный AI-тренер учит варить трубы через AR/VR.

🎬 Видеогенерация как новый базис:
Google Veo 3 уже создаёт 8-секундные фотореалистичные клипы за пару долларов. Скоро мы увидим еще большее удешевление. Что это меняет? Всё! От персонализированных сериалов до примерки одежды в реальном времени при онлайн-шопинге. Сюда же от себя добавлю новый пользовательский опыт и интерфейсы будущего, которые также смогут появляться на лету..

💯 Первая компания: 10 человек, $100B оценка
YC верит, что с помощью AI можно построить компанию-гиганта командой из 10 человек. Ключевая метрика будущего — revenue per employee. Маленькие команды без политики и лишних митингов против раздутых корпораций. Я уже писал про solo-предпринимателях, по сути та же мысль.

🤖 Инфраструктура для мультиагентных систем
AI-агенты эволюционируют в распределенные системы с тысячами субагентов. Нужны инструменты для оркестрации, мониторинга и дебаггинга флотов агентов. Мы кстати тоже внутри red_mad_robot проектируем подобное, думаю такие вещи точно будут появляться.

💼 AI-native корпоративный софт
Salesforce и ServiceNow построили империи на волне облачных технологий 25 лет назад. Сейчас такая же возможность с AI — создать Cursor для продаж, HR и бухгалтерии. Тоже полностью согласен с тезисами, верю, что очень скоро появится множество решений такого класса.

🏛️ LLM вместо госконсалтинга
США тратит $100B+ в год на консалтинг для госсектора. YC уже профинансировал стартапы, которые помогают с FedRAMP-сертификацией через LLM. Следующий шаг — заменить Deloitte и Accenture. Тут есть много специфики, кажется у нас пока этой боли нет. А вот про глобальный шифт бизнес модели консалтинга в мире AI и проблемы big 3, хочу порассуждать в отдельном посте.

Исходник можно почитать тут.

А какая идея зацепила вас? 🤔
👍6🔥32
Коротко о том как работает рынок AI:
👍7😁3🔥2
AI-трансформация консалтинга

Консалтинг всегда был индустрией адаптации. Но сегодня самой отрасли приходится перестраивать бизнес-модель под давлением AI и меняющихся запросов клиентов. В СМИ я наблюдаю всё больше интересных сигналов о состоянии рынка. Например:

• Gartner потерял $20 млрд рыночной стоимости
• Accenture провёл 19+ тыс сокращений с 2023 года
• PwC уволили рекордные 76 партнеров в UK за последний год

Что происходит
Акции Gartner снизились с $551 до $241 (–56%), а рост контрактов замедлился с двузначных темпов до 4,9%. За последние два года крупные консалтинговые фирмы сократили более 30 тыс сотрудников. И на фоне всего этого 78% CEO усиливают контроль над расходами.

О чём нам это говорит?
AI меняет саму природу консалтинговой работы: задачи, занимавшие недели, решаются за минуты. На рынок выходят новые игроки вроде Xavier AI, предлагающие аналитику за меньшие бюджеты.

Сдвиги в поведении клиентов
• 75% корпораций пересматривают консалтинговые проекты
• 56% планируют оптимизацию расходов на внешних советников
• 50% клиентов переоценивают ценность консалтинговых услуг

Некоторые игроки уже перестраиваются. BCG получает до 20% выручки от AI-related сервисов — это хороший показатель адаптации к новой реальности.

Период переосмысления
Индустрия, которая десятилетиями помогала компаниям адаптироваться, сегодня сама проходит через фундаментальную трансформацию. Это не временные трудности, а смена парадигмы. И компании, которые быстрее встроят AI в бизнес-модель, получат конкурентное преимущество.
👍9🔥53💯2🤯1👨‍💻1
AI и реальные сценарии

Яндекс открыл доступ к своей новой модели YandexGPT 5.1 Pro для бизнеса. Обещают меньше галлюцинаций, лучшее качество и цену в 0,40 ₽ за 1k токенов. Поделился с Forbes, как такие новости выглядят с позиции бизнеса.

Работа в реальных условиях
Настоящая проверка начинается не на тестах, а в прикладных сценариях — автоматизация документооборота, HR-ассистенты, поддержка клиентов. Только в продуктивной среде становится понятно, держит ли модель формат, справляется ли с ролью и приносит ли пользу.

Для зрелых сценариев важна интеграция
Отдельный вопрос — function calling. Без него невозможно строить зрелые агентные пайплайны, подключать внешние сервисы и выстраивать сложные цепочки. В релизе про это не сказано — стоит уточнять отдельно.

Рынок растёт и становится более гибким
Конкуренция в России усиливается: T-Банк выложил свою модель T-Pro 2.0 в open-source, и это даёт бизнесу возможность локального развёртывания без привязки к облаку. Для многих компаний с высоким уровнем требований к безопасности — это важный аргумент.
3🤝2👍1🔥1👨‍💻1
This media is not supported in your browser
VIEW IN TELEGRAM
2🔥21
На днях модерировал дискуссию на классной большой конференции @k2_tech. Поговорили с коллегами из отрасли о том, почему именно внутренняя RnD-функция превращается в источник конкурентного преимущества и становится enabler для развития компании в GenAI.

Основные блокеры в RnD у компаний сегодня:

1. Разрозненный уровень понимания технологии как у исполнителей, так и у бизнес-заказчиков

2. Отсутствие готовых платформ для экспериментов и масштабирования

3. Сложности с процессами и невозможность финансировать инновации, которые не ведут к быстрым эффектам

Что ребята видят в решениях:

▶️Развитие и обучение людей: крайне важна синхронизация по технологии без мифов, но и без заземлённого взгляда, что «всё переоценено, раз нет эффекта в первый день».

▶️Внедрение новых метрик для оценки RnD-проектов: не только экономия, но и индексы удовлетворённости сотрудников и клиентов, NPS и тд.

▶️Демократизация доступа: чем больше сотрудников получат доступ к лучшим инструментам, тем скорее в компании появятся амбассадоры решений, кейсов и сценариев, которые смогут «заразить» этой практикой остальных.

В конце ещё дал небольшое интервью для портала «ИТ-инфраструктура» — поделюсь как выйдет!
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥8💯421👌1
Почему на сайте ChatGPT это работает, а с моей LLM нет

Мы уже протестировали с ChatGPT — всё отлично работает! Он и отели находит, и билеты подбирает, и маршруты строит. Почему ваша реализация не может того же? 

Это один из самых частых вопросов, которые я слышу от клиентов. И дело не в недостатке навыков у разработчиков, а в том, что мало кто понимает фундаментальную разницу: за простым интерфейсом ChatGPT скрывается целая инфраструктура, а не одна лишь чистая LLM.

Что такое чистая LLM?

Чистая LLM похожа на эрудита, который прочитал миллионы книг, но заперт в комнате без интернета, калькулятора и часов. Она умеет генерировать связный текст на любую тему, отвечать на вопросы из того, что помнит, писать код (но не запускать его) и рассуждать и делать выводы. 

Но при этом НЕ может узнать курс доллара на сегодня, проверить наличие билетов, рассчитать сложные формулы, загрузить и обработать Excel-файл или запомнить, о чём вы говорили вчера.

То, что мы видим на сайте OpenAI — это лишь верхушка. Под капотом находится:

Слой инструментов:
• Python-интерпретатор для вычислений
• Браузер с фильтрацией доменов
• DALL-E для генерации изображений
• Система обработки файлов (PDF, Excel, изображения)
• Плагины для интеграции с внешними сервисами

Middleware для обработки:
• Маршрутизация запросов между инструментами
• Управление контекстом (до 128K токенов)
• Кэширование для экономии
• Системы безопасности и модерации

Инфраструктурный слой:
• Балансировка нагрузки
• Обработка ошибок и повторные попытки
• Мониторинг и логирование
• Управление очередями

Реальный кейс: travel-ассистент

Клиент приходит с запросом: хотим как в ChatGPT — пишешь «найди отель в Париже на выходные», и всё работает».

На практике за этим стоит целый стек задач: подключение API отелей (Booking, Expedia) с лицензиями и затратами, парсинг дат (выходные — это когда именно?), геолокация (какой Париж — Франция или Техас?), кэширование запросов, обработка ошибок при сбоях в API, удобный UI/UX для выдачи результатов. И это только базовый уровень функционала.

Статистика

↗️Expedia обрабатывает 1.26 квадриллиона переменных для поиска

↗️Booking.com потратил 10 недель на первый прототип своего AI Trip Planner

Для бизнеса это означает, что запуск подобных решений нельзя измерять неделями — даже пилотный проект займёт от трёх до шести месяцев. Помимо расходов на API придётся закладывать бюджет на разработку и инфраструктуру. В команде потребуются не только специалисты по NLP, но и бэкенд и DevOps. И самое важное — такой продукт нельзя рассматривать как статичный: он требует регулярных обновлений и постоянной поддержки. • Чистая LLM — это библиотекарь, который всё знает, но не может выйти из здания. ChatGPT — это целый исследовательский центр с интернетом, лабораториями и курьерской службой.

Практические советы и вывод 

1️⃣ Начинайте с чёткого скоупа — что именно должна делать система
2️⃣ Прототипируйте на готовых решениях (ChatGPT API с функциями)
3️⃣ Считайте TCO, а не только стоимость API
4️⃣ Закладывайте время на интеграции — они всегда сложнее, чем кажется
5️⃣ Не обещайте «как в ChatGPT» без понимания архитектуры

Главный вывод здесь в том, что ChatGPT и Claude — это не отдельные модели, а полноценные платформы с десятками интеграций, тысячами часов инженерной работы и миллионными вложениями в инфраструктуру. Поэтому, когда клиент говорит «мы проверили в ChatGPT, оно работает», — это примерно то же самое, что сравнивать полёт на Boeing 777 с задачей построить такой самолёт самостоятельно. Технически это возможно, но требует колоссальных затрат. 

P.S. И да, даже этот пост я писал не в чистой LLM, а через Claude с доступом к поиску и документам. Потому что без этого я бы не смог привести актуальные цифры и примеры 😉
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥6👍421🤝1
Всем привет!

Недавно наткнулся на очень точную мысль: вайб-кодинг — это не тулз, чтобы не-программист вдруг стал писать код. Это новый язык программирования. И учить его нужно как любой другой: разбираться в синтаксисе, понимать особенности, осваивать паттерны.

Те, кто уже проходил этот путь с Python, Java — да хоть с Pascal в школе — получают преимущество: им проще увидеть, как устроена логика взаимодействия с LLM.

Мы в red_mad_robot уже включаем вайб-кодинг в скиллсет сотрудников и, как обычно, делимся опытом. Так что, если хотите разобраться, как выглядит разработка с LLM на практике — приходите на наш митап 25 октября.
🔥832👍1👨‍💻1🤝1
AI и реальный рынок труда 

Каждый раз, когда кто-то произносит фразы типа «AI не заменит людей» или «пузырь скоро лопнет», где-то в мире сокращают очередную сотню сотрудников. И дело не в том, что бизнесу нужно отчитаться перед акционерами — просто это работает.

BP снизила потребность в разработчиках на 70%
Salesforce, Microsoft, Duolingo, IBM заменили десятки тысяч сотрудников AI-системами, агентами поддержки и автоматизированными HR-процессами
Chegg сократила 22 % штата, HP — 2 тыс человек, PwC — 1,5 тыс 

Перестраиваются и творческие профессии — GenAI постепенно вытесняет дизайнеров, иллюстраторов, копирайтеров. Некоторые компании, как Klarna, пытаются вернуть людей обратно после увольнений. Но к этому моменту инфраструктура уже другая — процессы изменились, роли пересмотрены, ожидания скорректированы.

Что здесь важно понимать?

Это не вытеснение человека из контура. Это переход от исполнения к проектированию систем — человек остаётся, но на других уровнях ответственности. Меняется сама механика того, что мы называем работой.

AI не забирает работу. Он трансформирует её природу.
🔥53👨‍💻31
Evaluation в AI-проектах: почему это не опция, а основа разработки

Сегодня, как и обещал, хочу поговорить о том, что часто остаётся за кадром в дискуссиях об AI — об evaluation. Потому что это не просто техническая деталь, а фундаментальная часть разработки AI-решений. 

Проблема, о которой не говорят

Статистика показывает, что 50-70% AI-агентов в production не справляются с реальными задачами. При этом компании, которые добиваются успеха получают 300-400% ROI и радикально сокращают операционные расходы.

В чём разница? В том, что успешные проекты строятся на системном подходе к оценке и измерению результатов с самого начала разработки.

Evaluation — не тестирование

Многие воспринимают evaluation как финальную стадию перед запуском: проверили, работает — запустили. Это заблуждение. Evaluation в AI-проектах — способ понять, что происходит внутри системы на каждом этапе. Это не контроль качества, а инструмент познания и улучшения.

В классической разработке вы знаете, что делает код. В AI — нет. Модель принимает вероятностные решения, адаптируется к контексту и может вести себя по-разному в похожих ситуациях. И единственный способ понять, почему система делает то, что делает — это evaluation на каждом уровне архитектуры.

Три измерения evaluation в современных AI-проектах

1️⃣ Development evaluation
На этапе разработки помогает выбирать подходы, архитектуры и модели. Без систематической оценки вы не сможете понять, какое решение лучше работает для вашей задачи. Это не интуиция и не best practices из интернета, а данные о том, как ведёт себя конкретная система на конкретных сценариях.

2️⃣ Testing evaluation
Перед запуском важно понимать не только работает ли система, но и как она работает:

• Какие сценарии проходят хорошо, какие — плохо
• Где система стабильна, где — непредсказуема
• Какие риски существуют

Это даёт возможность принимать взвешенные решения о готовности к production.

3️⃣ Production evaluation
После запуска evaluation не заканчивается — он только начинается. Continuous monitoring даёт понимание того, как система ведёт себя с реальными пользователями, где деградирует качество и какие новые паттерны появляются. 

Это основа для итеративного улучшения.

Подходы и методологии

За последние два года индустрия выработала несколько ключевых подходов к evaluation:

LLM-as-judge: один из самых значимых прорывов — использование больших языковых моделей для оценки работы других моделей. Это позволяет масштабировать оценку субъективных метрик качества без дорогостоящей человеческой разметки. Подход превратился из эксперимента в production-стандарт с чёткими best practices: 

1. Использование структурированных шкал оценки
2. Pairwise comparison для лучшего совпадения с человеческими суждениями
3. Chain-of-Thought reasoning для прозрачности решений

Компонентное тестирование: современные AI-системы — не монолитные модели, а многокомпонентные архитектуры. Evaluation должен покрывать каждый компонент отдельно: роутеры, retrieval-системы, tool calls, синтез ответов. Это единственный способ понять, где именно происходит сбой, когда система работает не так, как ожидалось.

Multi-layered monitoring: production-evaluation включает несколько слоёв мониторинга: 

1. Операционные метрики (latency, cost, error rates)
2. Метрики качества (completion rate, accuracy, user satisfaction)
3. Метрики безопасности (от jailbreak attempts до PII exposure)

Все три измерения крайне важны для полноценного понимания работы системы.

Завтра продолжу тему во второй части поста ⌨️
Please open Telegram to view this post
VIEW IN TELEGRAM
3🔥2👨‍💻2🤯1🤝1
Evaluation как отдельная индустрия: часть 2 

Evaluation в AI настолько критичен, что вокруг него сформировалась целая индустрия специализированных инструментов и платформ.

В 2024-2025 годах рынок evaluation-платформ перешёл от экспериментальных инструментов к production-grade решениям. Сегодня существуют полноценные бизнесы, которые покрывают весь цикл разработки AI-систем: Braintrust, Langfuse, PromptLayer, Patronus AI и другие.

Это уже не сторонние инструменты, а специализированные платформы с собственными командами, методологиями и enterprise-клиентами. Они решают задачи, которые невозможно закрыть универсальными средствами: от A/B-тестирования промптов до continuous monitoring в production с real-time alerts.

↗️ Факт существования этих бизнесов подчёркивает, что evaluation — не вспомогательная функция, а критически важная часть AI-инфраструктуры, требующая специализированных решений.

Даже крупные tech-компании развивают собственные evaluation-фреймворки: OpenAI создаёт инструменты для оценки своих моделей, Microsoft встраивает evaluation в Azure AI, а Anthropic использует подход Constitutional AI — методологию, в которой модели выстраиваются по набору принципов (конституции) вместо исключительно человеческой разметки. 

Почему это важно для бизнеса

Для бизнеса evaluation — механизм управления рисками и инвестициями.

AI-проекты стоят дорого. Они требуют времени, ресурсов и экспертизы. И без систематического evaluation вы не можете ответить на базовые вопросы: 

• Работает ли решение так, как мы ожидали? 
• Оправдывают ли результаты инвестиции?
• Какие риски мы несём?
• Где нужно улучшать систему? 
• Как изменения влияют на результат?

Evaluation превращает AI из «чёрного ящика» в управляемую систему, где каждое решение обосновано данными.

Какой вывод?

Индустрия AI вступила в фазу production-grade решений. И ключевой элемент этой трансформации — переход от восприятия evaluation как опциональной проверки к пониманию её как основы разработки.

Успешные AI-проекты строятся не только на самых продвинутых моделях. Они строятся на систематическом подходе к измерению, пониманию и улучшению. Evaluation — не контроль, а способ понимать, что и зачем вы делаете и как это работает.

Без этого фундамента AI остаётся экспериментом. С ним — становится инструментом для решения бизнес-задач.
Please open Telegram to view this post
VIEW IN TELEGRAM
3🔥32👍1
Когда твой диплом по линейной алгебре оказался open source😂
😁7
Forwarded from red_mad_robot
Карта_рынка_GenAI_red_mad_robot_2025.pdf
40.5 MB
Карта рынка GenAI: как он устроен в России

Центр AI-компетенций red_mad_robot собрал большой отчёт по состоянию российского рынка GenAI в 2025 году. Получилась настоящая онтологическая карта с уровнями экосистемы, распределением ролей и зонами, где формируются ключевые компетенции.

Мы проанализировали локальный ландшафт, зафиксировали связи и точки роста, а контекст и практические детали дополнили разговоры с экспертами из red_mad_robot, @beeline и @skolkovo_channel.

Сохраняйте и читайте PDF!

#AI_moment #трендвотчинг

↗️ red_mad_robot
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥743👨‍💻1
AI-агенты: дизраптор для платформенной экономики

Последние 10–15 лет сервисы вроде Uber, Airbnb и Amazon были стандартом в своих категориях. Но теперь контроль смещается к AI-агентам: они меняют саму механику потребления и делают платформенную модель менее устойчивой, чем кажется.

Экономика disintermediation

Традиционные платформы берут 15-30% комиссии: Uber — 20-25% с водителя, DoorDash — до 30% с ресторана, Airbnb — 14-16% с обеих сторон. AI-агенты могут сжать это до 2-7% — payment processing + обработка. 

Как это работает: агент перехватывает запрос в момент возникновения намерения — в календаре, переписке или поисковике — до того, как человек откроет какую-то конкретную платформу. Затем агрегирует предложения со всех площадок одновременно, ведёт прямые переговоры с продавцами и завершает покупку автономно.

Уже к 2030 году объём agentic commerce достигнет $3–5 трлн. Только один ритейл в США может дать до $1 трлн транзакций, оркестрируемых агентами.

Разные отрасли — разная скорость разрушения

Travel
Наиболее уязвимая категория: OTA тратят $17.8 млрд в год на маркетинг, но всё больше пользователей бронируют отели и билеты через AI, минуя сайты. При этом лишь 2% готовы передать агентам полную автономию в планировании — доверие к сложным сценариям остаётся низким.

E-commerce
Получит самый сильный удар в абсолютных величинах: McKinsey прогнозирует, что к 2030 году через агентные сценарии будет проходить $900 млрд–$1 трлн B2C-ритейла.

Только за год трафик из GenAI-браузеров вырос на 4 700% — хотя это всё ещё менее 1% от общего объёма.

Финансовые услуги
Здесь риск носит концентрированный характер: BCG оценивает, что переход к AI-First моделям может добавить банкам до $370 млрд дополнительной годовой прибыли, но параллельно agentic AI размывает традиционные источники дохода. 

Агенты могут сравнивать ставки, переводить средства на счета с более высокой доходностью (средняя ставка по депозитам — 0,38%, у онлайн-банков — более 4%) и подбирать оптимальные кредитные продукты. Дополнительно они способны инициировать account-to-account платежи на checkout, обходя interchange fees.

Delivery
Сегмент пока в стадии интеграции, а не разрушения. Крупные игроки — Uber Eats, DoorDash, Instacart — встроились в ChatGPT в октябре 2025 года и увеличили частоту заказов через существующие приложения. Но в долгосрочной перспективе остаётся риск превращения платформ в чистые utility, которые AI воспринимает как взаимозаменяемые. 

Реальность сложнее, чем кажется

Несмотря на быстрое развитие и рост интереса, реальное использование остаётся ограниченным:

• Только 10% потребителей хоть раз покупали что-то через AI
• ~50% агентных задач внутри CRM-процессов проваливаются
• Даже лучшие агенты завершают цели максимум в 55% случаев

Отдельный слой — доверие. Например, только 14% американцев пользовались AI shopping assistants, 41% — избегают таких сценариев. При этом подсказки внутри ритейлерских экосистем принимаются примерно в три раза чаще, чем рекомендации сторонних агентов.

Платформы не сдаются

📍 Amazon запустил AI-ассистента Rufus, которым воспользовались более 250 млн клиентов в 2025 году. Это может принести компании до $10 млрд выручки и $700+ млн операционной прибыли.

Покупатели, использующие Rufus, на 60% чаще завершают покупку.

📍 Booking развивает агентные функции, которые закрывают всё больше сценариев по ходу поездки: от подсказок при сбоях до быстрых изменений бронирования и коммуникации с поддержкой.

📍 Wildberries тестирует AI-ассистента, который не просто ищет товары, а помогает принимать решения — от фильтрации до выбора оптимальной модели.

Стратегический вопрос: кто контролирует агента?

Платформа, LLM-провайдер или персональный агент пользователя, работающий поверх всех площадок? От ответа зависит, кто захватит $3–5 трлн к 2030 году.

Ближайшие два-три года станут тестом на устойчивость платформенных бизнесов: либо сетевые эффекты и бренд удержат пользователей внутри экосистем, либо их позиции размоет также быстро, как это было с диспетчерами в такси и консультантами в travel-агентствах.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥833👍1👨‍💻1