Записки C3PO – Telegram
Записки C3PO
5.08K subscribers
70 photos
5 videos
225 links
Product Director @ T-Bank AI, ex. YouDo

Пишу о Product & People Management, AI, своих наблюдениях и прочих бесполезных вещах.
Download Telegram
Записки C3PO
Прочитал «The Crux» Румельта в прошлом году - абсолютный маст рид для всех, кто занимается стратегией. Все время собирался написать про нее, но руки не доходили. Это продолжение «Good Strategy Bad Strategy», где 13 лет назад автор сформулировал ядро хорошей…
Судя по комментариям к этому посту, канал надо закрывать. Нет знания, есть только рандом и ошибка выжившего. Остальное все переливание из пустого в порожнее
😁47💯10👍6😱3😎21🤔1
Не смотрел презу OpenAI. Уже давно воспринимаю их, как догоняющих и даже деградирующих. В целом, судя по новостям, не прогадал.

Пока Сама все больше и больше напоминает человека, который выбрал в качестве инструмента - пускание пыли в глаза, как, к примеру, в случае с недавней OSS моделью, которая абсолютно бесполезна.

Я в отпуске, поэтому это наиболее глубокая аналитика, на которую я способен. Простите!

P. S. Добавление чатов в избранное так и не завезли, похоже. А проекты все такие же бесполезные.
😁39👍13😢53😎3🔥2💯2👏1
Гоняю уже несколько часов gpt-5 на своих некодинг и нерабочих сценариях (их попозже). Прогресс относительно предыдущих моделей, конечно, есть. 4o все таки оч старая модель. Относительно о3 и конкурентов есть только одна разница и она существенная для меня.

Почти у всех моделей, кроме, пожалуй, gemini 2.5 pro, есть проблема - ты им что-то говоришь в диалоге типа «а что на счет Х?» и они начинают подыгрывать даже, если ты сказал абсолютную дичь: «да да, ты прав. Х это очень важно. Сейчас напишу тебе, как это делать с Х». Промпты и инструкции не всегда спасают от такого.

Так вот, gpt-5 с thinking ни разу мне не подыграл и всегда идет объективным курсом. А это прям важный поинт для меня, даже если в остальном она такая же, как все.
68🔥28👍14
Не мог понять вектор критики Whoop, который часто доводилось слышать как от знакомых, так и в интернете: «нужно платить за подписку». Не очень было понятно, почему это минус, если аналоги без подписки стоили как годовая или двухлетняя подписка Вупа с возможностью получать обновления устройства. За само устройство-то платить не нужно. Но я тут выяснил, что народ, в частности в Мск, покупает Вуп через посредников, которые берут за сам браслет цену годовой подписки, да ещё и ты сам потом вынужден подписку оплачивать 😳
Please open Telegram to view this post
VIEW IN TELEGRAM
👍17😁112💯1
Ну то есть продакты перекрыли входную карьерную воронку для разрабов, что приведет к их скорому вымиранию, как класса. Звучит будто разрабы это герой мема про велосипедиста с палкой в колесе.
😁53👍9👏2😢2💯1
Впервые ходил в отпуск вовремя и вырубал корпоративный мессенджер. Два ключевых наблюдения:
- ты весь отпуск на чиле и при этом есть энергия изучать локацию, тусить и вот это вот все, а не просто деградировать на пляже, так как ушел в отпуск, потому что не осталось сил работать.
- 66 пропущенных сообщений в корп месенджере. Никто не умер. Даже Гуф.
1🔥78😁21💯124
Кстати, придумал самый легкий тест на аутизм для взрослого человека. Работает, как швейцарские часы. Спрашиваешь, кто виноват в инфляции в России.

Обычно, ответ бывает двух типов:
- Набиуллина/ЦБ
- Какие то макрофакторы, рыночные обстоятельства, ликвидность, изменение денежной массы и тд. Короче, все остальное.

Не благодарите.
😁51🤔11👏5🤯1😢1
Прочитал эссе про «doomprompting» - новый вид зависимости от AI.

Автор описывает, как пустое поле ChatGPT из инструмента для мышления превратилось в бесконечную прокрутку мыслей. Промпты становятся короче, ответы длиннее, и вместо глубокого размышления получаются переговоры с компухтером, который постоянно предлагает «а давайте еще…», «может быть стоит…», «хотите, я добавлю…».

AI выдает что-то на 60% хорошее, человек начинает это редактировать и незаметно становится редактором чужого текста, а не автором своего. Часы такой «продуктивной» работы ощущаются как дело, но не дают ни прогресса, ни обучения.

Хорошее наблюдение про то, где AI полезен, а где нет. В начале (накидать идей) и в конце (проверить результат) - да. Но в середине, где живет суть аргумента - слаб. Когда люди просят целиком накидать документ или, к примеру, стратегию, получают красивую пустышку.

Автор предлагает «медленный AI» со встроенным сопротивлением. ChatGPT уже тестирует режим Study. С другой стороны, лимиты на использование, которые всех бесят, случайно делают правильную вещь - заставляют остановиться и подумать.

Классическая история: обещали инструмент для мышления, получили еще один способ его избежать.

Для себя давно заметил, что самое полезное от работы с AI - процесс мышления над задачей во время написания инструкций и указаний. Получается такой метод уточки, но вместо уточки что-то, что может еще и ответить.
👍38🔥12💯5🤔21
Поиграл тут в бету BF6. Господи, как же я скучал по этому сумасшедшему аттракциону!

Буквально за пару минут на экране разворачивается Майкл Бей: дроп на точке возрождения, сразу в мясо, тиммейты падают как мухи, вражеский танк выкатывается и начинает всех расстреливать. Бегу прятаться в здание, вижу как наш вертолет закручиваясь красиво падает в огненном шлейфе, танк херачит по моему укрытию, отвечаю с РПГ, бум, башня отлетает и сносит соседнее здание, куда я собирался переместиться. На фоне адской перестрелки подъезжает тиммейт на БМП, крошит чужую пехоту, но тут же прилетает F-16 с мавериком и вскрывает его. Все горит, взрывается, дымится, а параллельно мой союзник фигачит со стингера по летуну, он красиво падает буквально в паре метров от меня.

И это все за ДВЕ МИНУТЫ!

Очень люблю за это Battlefield - это была единственная игра, где можешь почувствовать себя в центре голливудского блокбастера, причем не по сценарию, а спонтанно. В востороге, что это вернулось. Спустя почти 10 лет!

Хороший пример того, что если дать людям классно работающую песочницу, камень/ножницы/бумагу и отлично продуманный дизайн окружения, чтобы это заработало, а остальное люди сами себе скреативят.
🔥415😁3👍1🤔1😢1
Сама, где мои бабки за консультацию?
https://news.1rj.ru/str/seeallochnaya/2764
😁27💯2
Ввели у себя во вселенной систему “грейдирования” ассистентов. Сравниваем, на каком уровне работает ассистент: человек, эксперт или топ-эксперт. Чем выше грейд, тем больше ценности получает пользователь от ассистента.

Простой пример. Есть тревел-ассистент, одна из задач которого — подбирать авиабилеты под задачу пользователя (“когда в октябре и дешевле лететь в Испанию из мск с минимальным количеством пересадок”). Для него есть 3 грейда:
1. Обычный человек — с каким качеством человек сам для себя подберёт билеты (человек не всегда может найти лучшее предложение — заленится долго искать или просто просмотрит)
2. Консьерж-сервис / обычный ассистент — человек, на которого могут делегировать такую задачу
3. Турагент — человек, для которого это является основной работой

Если ассистент работает на уровне обычного человека, пользователь получает ценность в виде экономии времени — ему не надо самостоятельно делать кучу поисков и просматривать миллион билетов, сравнивать и выбирать лучший. Ассистент сделает это за него с таким же уровнем ошибки, как сделал бы сам пользователь.

Если ассистент работает на более высоком грейде, пользователь начинает экономить время и деньги, которые отдал бы эксперту за решение его задачи.

Как сравнивать
Придумали грейды — как понять, до какого из них “дорос” ассистент?

Глобально есть 2 варианта:
⁃ Абсолютный скоринг — ставим оценку каждому варианту решения задачи по какой-то шкале, потом сравниваем оценки. Например, человек подобрал на троечку, ассистент на 3,5, консьерж — 4, турагент — 5 => ассистент перебил человека, но не перебил остальные грейды.
⁃ Sbs (side-by-side) — попарно сравниваем ответы каждого варианта решения задачи, строим рейтинг на основе win-rate таблицы (как в спортивных турнирах). Сравниваем: человек vs ассистент, человек vs консьерж, человек vs турагент итд. Собираем победы в табличку и строим рейтинг, например, по количеству побед.

Чаще используют sbs, потому что меньше искажений от шкалирования — даже людям сложно одинаково оценить один и тот же ответ по шкале. А ещё sbs позволяет понять, какой ответ предпочтительнее, даже если по абсолютному скорингу они равны.

В итоге
У ассистента есть грейд (всё как на работе, да). А мы понимаем, какую ценность получат пользователи от нашего продукта. И можем её грамотно транслировать.



Вообще, я собрала целый доклад, где структурировала всю базу про создание LLM-based продуктов. Эвалы, бенчи, корзинки, LLM as a judge и другие умные слова, суть которых надо понимать, чтобы создать качественный LLM-продукт. Буду рассказывать на онлайн-конференции WANNABE AI GENIUS.
Сразу после меня будет доклад Севы Викулина из Яндекса, который расскажет, как довести до прода прототип, который выбил хорошие метрики качества — как делать на своих моделях, сжимать/ускорять их, чтобы они стоили не как самолёт… Супер полезно и интересно!

30 августа с 11 до 17 по мск
Онлайн
Билеты тут
11🤔10👍8🔥3😁2
Мне кажется, что многое можно сказать о личности по самым юзаемым реакциям в слаке
😁38💯4
Вчера был забавный кейс на интервью с продуктовым кейсом. Когда озвучивал условие задачи допустил ошибку в озвучке тотал суммы, но кандидатка перепроверила сразу же все множители и сказала, что не сходится. Получился такой не баг, а фича! И я понял, что большинство кандидатов до этого не перепроверяли математику 🤔
Please open Telegram to view this post
VIEW IN TELEGRAM
😁59👍11🔥52
Спросил тут у перплексити, как можно добраться до Фетхие
😁71😎62🤔1
Команда активно превращается в фан группу Румельта. "Good Strategy Bad Strategy" уже прочитали, переходят на The Crux
16
Forwarded from Albina Munirova
This media is not supported in your browser
VIEW IN TELEGRAM
2😎2
Скоро мои профессиональные похороны. Все подписчики приглашены
1😁32
У Ленни вышла статья где рассказывается про то, почему AI продукты должны иметь другой цикл разработки. Авторы показали фреймворк CC/CD.

TLDR: как писал много раз ранее, rolling updates с эскалацией сложности системы и evals для оценки технического качества.

Две фундаментальные проблемы AI-продуктов:

1. Недетерминированность - пользователи пишут что угодно вместо нажатия строго определенных заранее кнопок, система отвечает по-разному на одинаковые запросы. Классический QA тут не работает.
2. Компромисс между агентностью и контролем - чем больше автономии даешь ИИ, тем меньше контроля остается у людей.

Что такое CC/CD:

Continuous Development:
- Разбиваем большую цель на версии с растущей автономией (v1: AI-раб → v3: AI-коллега)
- Настраиваем простейшее приложение с логированием всего подряд и возможностью передачи контроля человеку
- Проектируем evals для измерения качества

Continuous Calibration:
- Запускаем на небольшой группе пользователей
- Анализируем реальные данные и паттерны фейлов
- Итеративно фиксим на основе данных

Пример из жизни - автоматизация саппорта:
- v1: Только роутинг тикетов по отделам
- v2: Предложение решений на основе инструкций и/или базы знаний
- v3: Автономное решение с эскалацией сложных кейсов до человека

Главный принцип - не давать ИИ полную автономию сразу. Система должна заслужить доверие через постепенное увеличение ответственности и доказательство надежности на каждом этапе. Это как онбординг нового сотрудника. Сначала простые задачи, потом постепенное расширение полномочий по мере накопления доверия.

По факту, это формализация того, что мы и так делаем в команде с нашими ассистентами и другими ИИ продуктами. Начинаем с простых сценариев, постепенно расширяем полномочия, мониторим каждый чих через evals, много бенчмаркинга.
👍37🔥63