Илья Филиппов – Telegram
Илья Филиппов
336 subscribers
11 photos
1 file
21 links
AI как двигатель доходов: от финансовых продуктов до нетривиальных стартапов. Рассказываю про деньги, неожиданные направления и внутреннюю кухню внедрений. Илья Филиппов, CEO red_mad_robot AI.

redmadrobot.ru
Download Telegram
This media is not supported in your browser
VIEW IN TELEGRAM
2🔥21
На днях модерировал дискуссию на классной большой конференции @k2_tech. Поговорили с коллегами из отрасли о том, почему именно внутренняя RnD-функция превращается в источник конкурентного преимущества и становится enabler для развития компании в GenAI.

Основные блокеры в RnD у компаний сегодня:

1. Разрозненный уровень понимания технологии как у исполнителей, так и у бизнес-заказчиков

2. Отсутствие готовых платформ для экспериментов и масштабирования

3. Сложности с процессами и невозможность финансировать инновации, которые не ведут к быстрым эффектам

Что ребята видят в решениях:

▶️Развитие и обучение людей: крайне важна синхронизация по технологии без мифов, но и без заземлённого взгляда, что «всё переоценено, раз нет эффекта в первый день».

▶️Внедрение новых метрик для оценки RnD-проектов: не только экономия, но и индексы удовлетворённости сотрудников и клиентов, NPS и тд.

▶️Демократизация доступа: чем больше сотрудников получат доступ к лучшим инструментам, тем скорее в компании появятся амбассадоры решений, кейсов и сценариев, которые смогут «заразить» этой практикой остальных.

В конце ещё дал небольшое интервью для портала «ИТ-инфраструктура» — поделюсь как выйдет!
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥8💯421👌1
Почему на сайте ChatGPT это работает, а с моей LLM нет

Мы уже протестировали с ChatGPT — всё отлично работает! Он и отели находит, и билеты подбирает, и маршруты строит. Почему ваша реализация не может того же? 

Это один из самых частых вопросов, которые я слышу от клиентов. И дело не в недостатке навыков у разработчиков, а в том, что мало кто понимает фундаментальную разницу: за простым интерфейсом ChatGPT скрывается целая инфраструктура, а не одна лишь чистая LLM.

Что такое чистая LLM?

Чистая LLM похожа на эрудита, который прочитал миллионы книг, но заперт в комнате без интернета, калькулятора и часов. Она умеет генерировать связный текст на любую тему, отвечать на вопросы из того, что помнит, писать код (но не запускать его) и рассуждать и делать выводы. 

Но при этом НЕ может узнать курс доллара на сегодня, проверить наличие билетов, рассчитать сложные формулы, загрузить и обработать Excel-файл или запомнить, о чём вы говорили вчера.

То, что мы видим на сайте OpenAI — это лишь верхушка. Под капотом находится:

Слой инструментов:
• Python-интерпретатор для вычислений
• Браузер с фильтрацией доменов
• DALL-E для генерации изображений
• Система обработки файлов (PDF, Excel, изображения)
• Плагины для интеграции с внешними сервисами

Middleware для обработки:
• Маршрутизация запросов между инструментами
• Управление контекстом (до 128K токенов)
• Кэширование для экономии
• Системы безопасности и модерации

Инфраструктурный слой:
• Балансировка нагрузки
• Обработка ошибок и повторные попытки
• Мониторинг и логирование
• Управление очередями

Реальный кейс: travel-ассистент

Клиент приходит с запросом: хотим как в ChatGPT — пишешь «найди отель в Париже на выходные», и всё работает».

На практике за этим стоит целый стек задач: подключение API отелей (Booking, Expedia) с лицензиями и затратами, парсинг дат (выходные — это когда именно?), геолокация (какой Париж — Франция или Техас?), кэширование запросов, обработка ошибок при сбоях в API, удобный UI/UX для выдачи результатов. И это только базовый уровень функционала.

Статистика

↗️Expedia обрабатывает 1.26 квадриллиона переменных для поиска

↗️Booking.com потратил 10 недель на первый прототип своего AI Trip Planner

Для бизнеса это означает, что запуск подобных решений нельзя измерять неделями — даже пилотный проект займёт от трёх до шести месяцев. Помимо расходов на API придётся закладывать бюджет на разработку и инфраструктуру. В команде потребуются не только специалисты по NLP, но и бэкенд и DevOps. И самое важное — такой продукт нельзя рассматривать как статичный: он требует регулярных обновлений и постоянной поддержки. • Чистая LLM — это библиотекарь, который всё знает, но не может выйти из здания. ChatGPT — это целый исследовательский центр с интернетом, лабораториями и курьерской службой.

Практические советы и вывод 

1️⃣ Начинайте с чёткого скоупа — что именно должна делать система
2️⃣ Прототипируйте на готовых решениях (ChatGPT API с функциями)
3️⃣ Считайте TCO, а не только стоимость API
4️⃣ Закладывайте время на интеграции — они всегда сложнее, чем кажется
5️⃣ Не обещайте «как в ChatGPT» без понимания архитектуры

Главный вывод здесь в том, что ChatGPT и Claude — это не отдельные модели, а полноценные платформы с десятками интеграций, тысячами часов инженерной работы и миллионными вложениями в инфраструктуру. Поэтому, когда клиент говорит «мы проверили в ChatGPT, оно работает», — это примерно то же самое, что сравнивать полёт на Boeing 777 с задачей построить такой самолёт самостоятельно. Технически это возможно, но требует колоссальных затрат. 

P.S. И да, даже этот пост я писал не в чистой LLM, а через Claude с доступом к поиску и документам. Потому что без этого я бы не смог привести актуальные цифры и примеры 😉
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥6👍421🤝1
Всем привет!

Недавно наткнулся на очень точную мысль: вайб-кодинг — это не тулз, чтобы не-программист вдруг стал писать код. Это новый язык программирования. И учить его нужно как любой другой: разбираться в синтаксисе, понимать особенности, осваивать паттерны.

Те, кто уже проходил этот путь с Python, Java — да хоть с Pascal в школе — получают преимущество: им проще увидеть, как устроена логика взаимодействия с LLM.

Мы в red_mad_robot уже включаем вайб-кодинг в скиллсет сотрудников и, как обычно, делимся опытом. Так что, если хотите разобраться, как выглядит разработка с LLM на практике — приходите на наш митап 25 октября.
🔥832👍1👨‍💻1🤝1
AI и реальный рынок труда 

Каждый раз, когда кто-то произносит фразы типа «AI не заменит людей» или «пузырь скоро лопнет», где-то в мире сокращают очередную сотню сотрудников. И дело не в том, что бизнесу нужно отчитаться перед акционерами — просто это работает.

BP снизила потребность в разработчиках на 70%
Salesforce, Microsoft, Duolingo, IBM заменили десятки тысяч сотрудников AI-системами, агентами поддержки и автоматизированными HR-процессами
Chegg сократила 22 % штата, HP — 2 тыс человек, PwC — 1,5 тыс 

Перестраиваются и творческие профессии — GenAI постепенно вытесняет дизайнеров, иллюстраторов, копирайтеров. Некоторые компании, как Klarna, пытаются вернуть людей обратно после увольнений. Но к этому моменту инфраструктура уже другая — процессы изменились, роли пересмотрены, ожидания скорректированы.

Что здесь важно понимать?

Это не вытеснение человека из контура. Это переход от исполнения к проектированию систем — человек остаётся, но на других уровнях ответственности. Меняется сама механика того, что мы называем работой.

AI не забирает работу. Он трансформирует её природу.
🔥53👨‍💻31
Evaluation в AI-проектах: почему это не опция, а основа разработки

Сегодня, как и обещал, хочу поговорить о том, что часто остаётся за кадром в дискуссиях об AI — об evaluation. Потому что это не просто техническая деталь, а фундаментальная часть разработки AI-решений. 

Проблема, о которой не говорят

Статистика показывает, что 50-70% AI-агентов в production не справляются с реальными задачами. При этом компании, которые добиваются успеха получают 300-400% ROI и радикально сокращают операционные расходы.

В чём разница? В том, что успешные проекты строятся на системном подходе к оценке и измерению результатов с самого начала разработки.

Evaluation — не тестирование

Многие воспринимают evaluation как финальную стадию перед запуском: проверили, работает — запустили. Это заблуждение. Evaluation в AI-проектах — способ понять, что происходит внутри системы на каждом этапе. Это не контроль качества, а инструмент познания и улучшения.

В классической разработке вы знаете, что делает код. В AI — нет. Модель принимает вероятностные решения, адаптируется к контексту и может вести себя по-разному в похожих ситуациях. И единственный способ понять, почему система делает то, что делает — это evaluation на каждом уровне архитектуры.

Три измерения evaluation в современных AI-проектах

1️⃣ Development evaluation
На этапе разработки помогает выбирать подходы, архитектуры и модели. Без систематической оценки вы не сможете понять, какое решение лучше работает для вашей задачи. Это не интуиция и не best practices из интернета, а данные о том, как ведёт себя конкретная система на конкретных сценариях.

2️⃣ Testing evaluation
Перед запуском важно понимать не только работает ли система, но и как она работает:

• Какие сценарии проходят хорошо, какие — плохо
• Где система стабильна, где — непредсказуема
• Какие риски существуют

Это даёт возможность принимать взвешенные решения о готовности к production.

3️⃣ Production evaluation
После запуска evaluation не заканчивается — он только начинается. Continuous monitoring даёт понимание того, как система ведёт себя с реальными пользователями, где деградирует качество и какие новые паттерны появляются. 

Это основа для итеративного улучшения.

Подходы и методологии

За последние два года индустрия выработала несколько ключевых подходов к evaluation:

LLM-as-judge: один из самых значимых прорывов — использование больших языковых моделей для оценки работы других моделей. Это позволяет масштабировать оценку субъективных метрик качества без дорогостоящей человеческой разметки. Подход превратился из эксперимента в production-стандарт с чёткими best practices: 

1. Использование структурированных шкал оценки
2. Pairwise comparison для лучшего совпадения с человеческими суждениями
3. Chain-of-Thought reasoning для прозрачности решений

Компонентное тестирование: современные AI-системы — не монолитные модели, а многокомпонентные архитектуры. Evaluation должен покрывать каждый компонент отдельно: роутеры, retrieval-системы, tool calls, синтез ответов. Это единственный способ понять, где именно происходит сбой, когда система работает не так, как ожидалось.

Multi-layered monitoring: production-evaluation включает несколько слоёв мониторинга: 

1. Операционные метрики (latency, cost, error rates)
2. Метрики качества (completion rate, accuracy, user satisfaction)
3. Метрики безопасности (от jailbreak attempts до PII exposure)

Все три измерения крайне важны для полноценного понимания работы системы.

Завтра продолжу тему во второй части поста ⌨️
Please open Telegram to view this post
VIEW IN TELEGRAM
3🔥2👨‍💻2🤯1🤝1
Evaluation как отдельная индустрия: часть 2 

Evaluation в AI настолько критичен, что вокруг него сформировалась целая индустрия специализированных инструментов и платформ.

В 2024-2025 годах рынок evaluation-платформ перешёл от экспериментальных инструментов к production-grade решениям. Сегодня существуют полноценные бизнесы, которые покрывают весь цикл разработки AI-систем: Braintrust, Langfuse, PromptLayer, Patronus AI и другие.

Это уже не сторонние инструменты, а специализированные платформы с собственными командами, методологиями и enterprise-клиентами. Они решают задачи, которые невозможно закрыть универсальными средствами: от A/B-тестирования промптов до continuous monitoring в production с real-time alerts.

↗️ Факт существования этих бизнесов подчёркивает, что evaluation — не вспомогательная функция, а критически важная часть AI-инфраструктуры, требующая специализированных решений.

Даже крупные tech-компании развивают собственные evaluation-фреймворки: OpenAI создаёт инструменты для оценки своих моделей, Microsoft встраивает evaluation в Azure AI, а Anthropic использует подход Constitutional AI — методологию, в которой модели выстраиваются по набору принципов (конституции) вместо исключительно человеческой разметки. 

Почему это важно для бизнеса

Для бизнеса evaluation — механизм управления рисками и инвестициями.

AI-проекты стоят дорого. Они требуют времени, ресурсов и экспертизы. И без систематического evaluation вы не можете ответить на базовые вопросы: 

• Работает ли решение так, как мы ожидали? 
• Оправдывают ли результаты инвестиции?
• Какие риски мы несём?
• Где нужно улучшать систему? 
• Как изменения влияют на результат?

Evaluation превращает AI из «чёрного ящика» в управляемую систему, где каждое решение обосновано данными.

Какой вывод?

Индустрия AI вступила в фазу production-grade решений. И ключевой элемент этой трансформации — переход от восприятия evaluation как опциональной проверки к пониманию её как основы разработки.

Успешные AI-проекты строятся не только на самых продвинутых моделях. Они строятся на систематическом подходе к измерению, пониманию и улучшению. Evaluation — не контроль, а способ понимать, что и зачем вы делаете и как это работает.

Без этого фундамента AI остаётся экспериментом. С ним — становится инструментом для решения бизнес-задач.
Please open Telegram to view this post
VIEW IN TELEGRAM
3🔥32👍1
Когда твой диплом по линейной алгебре оказался open source😂
😁7
Forwarded from red_mad_robot
Карта_рынка_GenAI_red_mad_robot_2025.pdf
40.5 MB
Карта рынка GenAI: как он устроен в России

Центр AI-компетенций red_mad_robot собрал большой отчёт по состоянию российского рынка GenAI в 2025 году. Получилась настоящая онтологическая карта с уровнями экосистемы, распределением ролей и зонами, где формируются ключевые компетенции.

Мы проанализировали локальный ландшафт, зафиксировали связи и точки роста, а контекст и практические детали дополнили разговоры с экспертами из red_mad_robot, @beeline и @skolkovo_channel.

Сохраняйте и читайте PDF!

#AI_moment #трендвотчинг

↗️ red_mad_robot
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥743👨‍💻1
AI-агенты: дизраптор для платформенной экономики

Последние 10–15 лет сервисы вроде Uber, Airbnb и Amazon были стандартом в своих категориях. Но теперь контроль смещается к AI-агентам: они меняют саму механику потребления и делают платформенную модель менее устойчивой, чем кажется.

Экономика disintermediation

Традиционные платформы берут 15-30% комиссии: Uber — 20-25% с водителя, DoorDash — до 30% с ресторана, Airbnb — 14-16% с обеих сторон. AI-агенты могут сжать это до 2-7% — payment processing + обработка. 

Как это работает: агент перехватывает запрос в момент возникновения намерения — в календаре, переписке или поисковике — до того, как человек откроет какую-то конкретную платформу. Затем агрегирует предложения со всех площадок одновременно, ведёт прямые переговоры с продавцами и завершает покупку автономно.

Уже к 2030 году объём agentic commerce достигнет $3–5 трлн. Только один ритейл в США может дать до $1 трлн транзакций, оркестрируемых агентами.

Разные отрасли — разная скорость разрушения

Travel
Наиболее уязвимая категория: OTA тратят $17.8 млрд в год на маркетинг, но всё больше пользователей бронируют отели и билеты через AI, минуя сайты. При этом лишь 2% готовы передать агентам полную автономию в планировании — доверие к сложным сценариям остаётся низким.

E-commerce
Получит самый сильный удар в абсолютных величинах: McKinsey прогнозирует, что к 2030 году через агентные сценарии будет проходить $900 млрд–$1 трлн B2C-ритейла.

Только за год трафик из GenAI-браузеров вырос на 4 700% — хотя это всё ещё менее 1% от общего объёма.

Финансовые услуги
Здесь риск носит концентрированный характер: BCG оценивает, что переход к AI-First моделям может добавить банкам до $370 млрд дополнительной годовой прибыли, но параллельно agentic AI размывает традиционные источники дохода. 

Агенты могут сравнивать ставки, переводить средства на счета с более высокой доходностью (средняя ставка по депозитам — 0,38%, у онлайн-банков — более 4%) и подбирать оптимальные кредитные продукты. Дополнительно они способны инициировать account-to-account платежи на checkout, обходя interchange fees.

Delivery
Сегмент пока в стадии интеграции, а не разрушения. Крупные игроки — Uber Eats, DoorDash, Instacart — встроились в ChatGPT в октябре 2025 года и увеличили частоту заказов через существующие приложения. Но в долгосрочной перспективе остаётся риск превращения платформ в чистые utility, которые AI воспринимает как взаимозаменяемые. 

Реальность сложнее, чем кажется

Несмотря на быстрое развитие и рост интереса, реальное использование остаётся ограниченным:

• Только 10% потребителей хоть раз покупали что-то через AI
• ~50% агентных задач внутри CRM-процессов проваливаются
• Даже лучшие агенты завершают цели максимум в 55% случаев

Отдельный слой — доверие. Например, только 14% американцев пользовались AI shopping assistants, 41% — избегают таких сценариев. При этом подсказки внутри ритейлерских экосистем принимаются примерно в три раза чаще, чем рекомендации сторонних агентов.

Платформы не сдаются

📍 Amazon запустил AI-ассистента Rufus, которым воспользовались более 250 млн клиентов в 2025 году. Это может принести компании до $10 млрд выручки и $700+ млн операционной прибыли.

Покупатели, использующие Rufus, на 60% чаще завершают покупку.

📍 Booking развивает агентные функции, которые закрывают всё больше сценариев по ходу поездки: от подсказок при сбоях до быстрых изменений бронирования и коммуникации с поддержкой.

📍 Wildberries тестирует AI-ассистента, который не просто ищет товары, а помогает принимать решения — от фильтрации до выбора оптимальной модели.

Стратегический вопрос: кто контролирует агента?

Платформа, LLM-провайдер или персональный агент пользователя, работающий поверх всех площадок? От ответа зависит, кто захватит $3–5 трлн к 2030 году.

Ближайшие два-три года станут тестом на устойчивость платформенных бизнесов: либо сетевые эффекты и бренд удержат пользователей внутри экосистем, либо их позиции размоет также быстро, как это было с диспетчерами в такси и консультантами в travel-агентствах.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥833👍1👨‍💻1