Записки C3PO – Telegram
Записки C3PO
5.08K subscribers
70 photos
5 videos
225 links
Product Director @ T-Bank AI, ex. YouDo

Пишу о Product & People Management, AI, своих наблюдениях и прочих бесполезных вещах.
Download Telegram
Прочитал эссе про «doomprompting» - новый вид зависимости от AI.

Автор описывает, как пустое поле ChatGPT из инструмента для мышления превратилось в бесконечную прокрутку мыслей. Промпты становятся короче, ответы длиннее, и вместо глубокого размышления получаются переговоры с компухтером, который постоянно предлагает «а давайте еще…», «может быть стоит…», «хотите, я добавлю…».

AI выдает что-то на 60% хорошее, человек начинает это редактировать и незаметно становится редактором чужого текста, а не автором своего. Часы такой «продуктивной» работы ощущаются как дело, но не дают ни прогресса, ни обучения.

Хорошее наблюдение про то, где AI полезен, а где нет. В начале (накидать идей) и в конце (проверить результат) - да. Но в середине, где живет суть аргумента - слаб. Когда люди просят целиком накидать документ или, к примеру, стратегию, получают красивую пустышку.

Автор предлагает «медленный AI» со встроенным сопротивлением. ChatGPT уже тестирует режим Study. С другой стороны, лимиты на использование, которые всех бесят, случайно делают правильную вещь - заставляют остановиться и подумать.

Классическая история: обещали инструмент для мышления, получили еще один способ его избежать.

Для себя давно заметил, что самое полезное от работы с AI - процесс мышления над задачей во время написания инструкций и указаний. Получается такой метод уточки, но вместо уточки что-то, что может еще и ответить.
👍38🔥12💯5🤔21
Поиграл тут в бету BF6. Господи, как же я скучал по этому сумасшедшему аттракциону!

Буквально за пару минут на экране разворачивается Майкл Бей: дроп на точке возрождения, сразу в мясо, тиммейты падают как мухи, вражеский танк выкатывается и начинает всех расстреливать. Бегу прятаться в здание, вижу как наш вертолет закручиваясь красиво падает в огненном шлейфе, танк херачит по моему укрытию, отвечаю с РПГ, бум, башня отлетает и сносит соседнее здание, куда я собирался переместиться. На фоне адской перестрелки подъезжает тиммейт на БМП, крошит чужую пехоту, но тут же прилетает F-16 с мавериком и вскрывает его. Все горит, взрывается, дымится, а параллельно мой союзник фигачит со стингера по летуну, он красиво падает буквально в паре метров от меня.

И это все за ДВЕ МИНУТЫ!

Очень люблю за это Battlefield - это была единственная игра, где можешь почувствовать себя в центре голливудского блокбастера, причем не по сценарию, а спонтанно. В востороге, что это вернулось. Спустя почти 10 лет!

Хороший пример того, что если дать людям классно работающую песочницу, камень/ножницы/бумагу и отлично продуманный дизайн окружения, чтобы это заработало, а остальное люди сами себе скреативят.
🔥415😁3👍1🤔1😢1
Сама, где мои бабки за консультацию?
https://news.1rj.ru/str/seeallochnaya/2764
😁27💯2
Ввели у себя во вселенной систему “грейдирования” ассистентов. Сравниваем, на каком уровне работает ассистент: человек, эксперт или топ-эксперт. Чем выше грейд, тем больше ценности получает пользователь от ассистента.

Простой пример. Есть тревел-ассистент, одна из задач которого — подбирать авиабилеты под задачу пользователя (“когда в октябре и дешевле лететь в Испанию из мск с минимальным количеством пересадок”). Для него есть 3 грейда:
1. Обычный человек — с каким качеством человек сам для себя подберёт билеты (человек не всегда может найти лучшее предложение — заленится долго искать или просто просмотрит)
2. Консьерж-сервис / обычный ассистент — человек, на которого могут делегировать такую задачу
3. Турагент — человек, для которого это является основной работой

Если ассистент работает на уровне обычного человека, пользователь получает ценность в виде экономии времени — ему не надо самостоятельно делать кучу поисков и просматривать миллион билетов, сравнивать и выбирать лучший. Ассистент сделает это за него с таким же уровнем ошибки, как сделал бы сам пользователь.

Если ассистент работает на более высоком грейде, пользователь начинает экономить время и деньги, которые отдал бы эксперту за решение его задачи.

Как сравнивать
Придумали грейды — как понять, до какого из них “дорос” ассистент?

Глобально есть 2 варианта:
⁃ Абсолютный скоринг — ставим оценку каждому варианту решения задачи по какой-то шкале, потом сравниваем оценки. Например, человек подобрал на троечку, ассистент на 3,5, консьерж — 4, турагент — 5 => ассистент перебил человека, но не перебил остальные грейды.
⁃ Sbs (side-by-side) — попарно сравниваем ответы каждого варианта решения задачи, строим рейтинг на основе win-rate таблицы (как в спортивных турнирах). Сравниваем: человек vs ассистент, человек vs консьерж, человек vs турагент итд. Собираем победы в табличку и строим рейтинг, например, по количеству побед.

Чаще используют sbs, потому что меньше искажений от шкалирования — даже людям сложно одинаково оценить один и тот же ответ по шкале. А ещё sbs позволяет понять, какой ответ предпочтительнее, даже если по абсолютному скорингу они равны.

В итоге
У ассистента есть грейд (всё как на работе, да). А мы понимаем, какую ценность получат пользователи от нашего продукта. И можем её грамотно транслировать.



Вообще, я собрала целый доклад, где структурировала всю базу про создание LLM-based продуктов. Эвалы, бенчи, корзинки, LLM as a judge и другие умные слова, суть которых надо понимать, чтобы создать качественный LLM-продукт. Буду рассказывать на онлайн-конференции WANNABE AI GENIUS.
Сразу после меня будет доклад Севы Викулина из Яндекса, который расскажет, как довести до прода прототип, который выбил хорошие метрики качества — как делать на своих моделях, сжимать/ускорять их, чтобы они стоили не как самолёт… Супер полезно и интересно!

30 августа с 11 до 17 по мск
Онлайн
Билеты тут
11🤔10👍8🔥3😁2
Мне кажется, что многое можно сказать о личности по самым юзаемым реакциям в слаке
😁38💯4
Вчера был забавный кейс на интервью с продуктовым кейсом. Когда озвучивал условие задачи допустил ошибку в озвучке тотал суммы, но кандидатка перепроверила сразу же все множители и сказала, что не сходится. Получился такой не баг, а фича! И я понял, что большинство кандидатов до этого не перепроверяли математику 🤔
Please open Telegram to view this post
VIEW IN TELEGRAM
😁59👍11🔥52
Спросил тут у перплексити, как можно добраться до Фетхие
😁71😎62🤔1
Команда активно превращается в фан группу Румельта. "Good Strategy Bad Strategy" уже прочитали, переходят на The Crux
16
Forwarded from Albina Munirova
This media is not supported in your browser
VIEW IN TELEGRAM
2😎2
Скоро мои профессиональные похороны. Все подписчики приглашены
1😁32
У Ленни вышла статья где рассказывается про то, почему AI продукты должны иметь другой цикл разработки. Авторы показали фреймворк CC/CD.

TLDR: как писал много раз ранее, rolling updates с эскалацией сложности системы и evals для оценки технического качества.

Две фундаментальные проблемы AI-продуктов:

1. Недетерминированность - пользователи пишут что угодно вместо нажатия строго определенных заранее кнопок, система отвечает по-разному на одинаковые запросы. Классический QA тут не работает.
2. Компромисс между агентностью и контролем - чем больше автономии даешь ИИ, тем меньше контроля остается у людей.

Что такое CC/CD:

Continuous Development:
- Разбиваем большую цель на версии с растущей автономией (v1: AI-раб → v3: AI-коллега)
- Настраиваем простейшее приложение с логированием всего подряд и возможностью передачи контроля человеку
- Проектируем evals для измерения качества

Continuous Calibration:
- Запускаем на небольшой группе пользователей
- Анализируем реальные данные и паттерны фейлов
- Итеративно фиксим на основе данных

Пример из жизни - автоматизация саппорта:
- v1: Только роутинг тикетов по отделам
- v2: Предложение решений на основе инструкций и/или базы знаний
- v3: Автономное решение с эскалацией сложных кейсов до человека

Главный принцип - не давать ИИ полную автономию сразу. Система должна заслужить доверие через постепенное увеличение ответственности и доказательство надежности на каждом этапе. Это как онбординг нового сотрудника. Сначала простые задачи, потом постепенное расширение полномочий по мере накопления доверия.

По факту, это формализация того, что мы и так делаем в команде с нашими ассистентами и другими ИИ продуктами. Начинаем с простых сценариев, постепенно расширяем полномочия, мониторим каждый чих через evals, много бенчмаркинга.
👍37🔥63
Прочитал клевое и резонирующее эссе Мустафы Сулеймана (CEO Microsoft AI) про Seemingly Conscious AI. Главная мысль: мы должны строить AI для людей, а не цифровых людей.

Через 2-3 года технически можно будет собрать AI с долговременной памятью, "личными" целями и способностью рассказывать о своих "переживаниях". Всё это уже доступно через API больших моделей. И люди поверят, что такая система сознательна.

Проблема уже проявляется. Harvard Business Review опросил 6000 юзеров AI - топовый юз кейс это companionship и терапия. Люди ищут в AI не инструмент, а собеседника. Некоторые влюбляются, другие считают своего бота богом.

Сулейман видит два пути развития AI:

Первый - AI как усилитель человека. Система, которая делает нас продуктивнее, креативнее, помогает достигать наших целей. Честный инструмент без претензий на личность.

Второй - AI как имитация личности. Система, которая косплеит эмоции, утверждает что страдает, требует прав и внимания. Создает иллюзию отношений вместо реальной пользы.

Парадокс в том, что технически второй путь проще. Добавить память и немного "личности" в промпт может любой. А вот построить действительно полезный AI, который при этом не создает иллюзию сознания - это вызов.

Позиция Сулеймана четкая: надо сознательно выбирать первый путь. Специально ломать иллюзию персоны. Напоминать, что это инструмент для усиления человека, а не замена человеческим отношениям.

Но индустрия к этому не готова. Мы даже не заметили, когда машины прошли тест Тьюринга. И похоже, скоро не заметим, как они начнут убеждать людей в своей сознательности.

Вопрос не в том, можем ли мы построить "сознательный" AI. Вопрос в том, должны ли.
1🔥42👍1310
Ты понимаешь тупик, но need to manage this mess

Обожаю Claude, но как же доставляет каждый раз его “смотря какой fabric”
😁44
Думаю, все видели заруб между Cloudflare и Perplexity. Cloudflare уличил последних в том, что они игнорят robots.txt и делают вид, что это не боты краулят, а "агенты по пользовательскому запросу". А Cloudflare строит AI-лабиринты и изобретает pay-per-crawl механики. И весь интернет такой: "ура, Cloudflare защищает честных создателей контента от злых корпораций!".

Но если разобраться, картина другая.

С одной стороны есть AI-сервисы, которые решают задачи пользователей. С другой стороны "хранители контента", которые теряют рекламные доходы. Почему? Потому что юзер больше не листает их сайт в поисках ответа между баннерами с казино и курсами по SMM.

AI приходит, парсит контент, выдает ответ. Юзеру хорошо: получил решение за 5 секунд вместо 5 минут. Сайту плохо: потерял показ рекламы.

И тут появляется Cloudflare со своим решением. Только это не про защиту авторских прав или борьбу за справедливость. Это чистый спрос и предложение. Контент-холдеры готовы платить за защиту своих рекламных моделей, и Cloudflare им эту защиту продает.

Забавный парадокс: те же самые сайты, которые сейчас воюют с AI-краулерами, последние 20 лет оптимизировались под поисковые боты Google. SEO-шная помойка, где контент пишется не для людей, а для алгоритмов. А теперь, когда алгоритмы научились обходиться без их посредничества, они кричат о несправедливости.

Это как если бы производители свечей начали блокировать электричество, потому что люди перестали покупать свечи.

Рынок сам решит. Если контент действительно ценный и уникальный, найдутся модели монетизации без впаривания пользователю 15 попапов на странице. А если вся ценность была в том, чтобы быть прослойкой между юзером и информацией... ну, такова эволюция и прогресс, сори.
447💯29👍14🔥2
Антропики предлагают поучаствовать в превью их AI браузинга. Пока, как понял, это простой экстеншн для Chrome.

P. S. Comet все еще почти бесполезный. За последнее время было всего 2 кейса, где он пригодился: про один не могу говорить, а второй это из закладок инсты вытащить места и никидать в подборки в яндекс картах. Все!
👍20
У Марти новая записка про архетипы продуктовых лидеров. Статья основана на подкасте с Shreyas Doshi, где тот выделил три типа продуктовых лидеров, а Марти добавил свои инсайты.

Shreyas описывает три архетипа:

Craftsperson - это про продукт. Они лучше всех понимают, что нужно пользователям и как должен работать продукт. Хорошо выстраивают продуктовую стратегию и учат других PM'ов. Предпочитают проводить время с командой разработки и пользователями. В карьере их ценят за способности, и они умеют создавать фичи, которые кардинально улучшают продукт. Слабое место - не умеют работать в больших компаниях с бюрократией и политикой. Им сложно справляться с согласованиями и процедурами крупных организаций.

Operator - про масштаб. Их сила - умение координировать действия. Они превосходно скейлят команды, обеспечивают согласованность между подразделениями и убирают препятствия для работы. Любят общаться с коллегами и топ-менеджментом компании. В карьере их продвигают за потенциал, и они часто притягивают к себе талантливых продактов.

Visionary - это про будущее. Их суперспособность - видеть то, что не видят другие. Они отлично понимают общую картину и изобретают новое. Любят общаться с другими визионерами и пользователями. В начале карьеры ими может быть сложно управлять, и они часто создают собственные компании. Слабые места - проблемы с людьми и неумение масштабировать команды без посторонней помощи.

Но главный вывод от самого Кагана: умение делать продукты (product craft) - это не один из вариантов, а основа основ. Базовые навыки, которые должны быть у любого продуктового лидера.

Марти считает, что если компании живут или умирают благодаря продуктам, а команды ориентируются на то, что важно для продуктового лидера, то лидер обязан быть экспертом в создании продуктов. Без этого ничего остального не работает.

С визионерами проблем обычно нет - большинство сильных craft персон также хороши в вижне. Проблема возникает только когда есть два визионера - фаундер и продуктовый лидер. Такие ситуации редко длятся долго.

А вот с операторами все сложнее. Марти выделяет два принципиально разных типа операторов.

Хорошие операторы - это золотой стандарт. Они понимают, что правильное мышление находится в самом центре продуктового мастерства, и именно это нужно развивать на масштабе. Поэтому они увеличивают команды через коучинг и развитие людей. Они умеют направлять большие организации к важным целям и раскрывают лучшие качества продуктовых людей.

Плохие операторы пытаются масштабировать через процессы, используя их как масштабируемую замену мышления. У них хорошие намерения, но результат плачевный. Часто их нанимают из больших известных компаний, которые хороши в угождении стейкхолдерам, но слабы в продукте. И это последнее, что нужно привносить в компанию.

Джобс, кстати, в Lost Interview говорил именно об опасности таких process people. Они могут довести продукты и организации до деградации.

Рекомендации от Кагана по найму просты:
- Во-первых, обязательно нужен кто-то с реальными product craft навыками.
- Если это growth-stage компания или больше, то дополнительно нужны навыки масштабирования craft через сильный коучинг и организационный элайнмент.
- Если фаундер хорош в vision и хочет продолжать в этой роли, то продуктовый лидер должен помогать воплощать это видение в реальность. Если фаундер не силен в vision или его нет, то большинство продуктовых лидеров с сильным craft могут обеспечить необходимое видение.

Формула успешного продуктового лидерства: strong craft + coaching.
339🔥4👍3
Forwarded from partially unsupervised
Так как пена релиза GPT 5 улеглась, а потом начались и обратные разговоры, что AI hit the wall, можно поиграть в визионера и поговорить о светлом будущем. Думаю, что партия умеренного оптимизма побеждает в своих прогнозах.

Для начала разметим спектр отношений к AI:
- с одной стороны неолуддиты и скептики, утверждающие про пузырь, стохастических попугаев, умный автокомплит, не умеющие считать r в strawberry и все такое;
- с другой стороны адепты AGI к 2027 и прочие свидетели сверхинтеллекта на видеокартах, туда же паникеры из секты, призывающей бомбить датацентры, пока этот мифический AGI не пойдет максимизировать скрепки и пожирать всех человеков. 

Как типичный центрист (слизняк без мнения), считаю, что обе крайности заблуждаются. Окей, судя по последним инкрементальным релизам от всех крупных вендоров, LLM перешли к этапу мелких улучшений. Давайте для модели представим, что фундаментальных улучшений больше не будет, а все талантливые ресерчеры наконец-то уйдут из корпораций пасти гусей. И что?

1. То, как агенты сейчас применяются в software, уже сильно повысило продуктивность. Не только в кодогенерации, но и в смежном: тут и UX-прототипы, и анализ логов, и дебаггинг. Там еще много сырого, и проникновение невысоко за пределами пузыря, но по вайбам - это повышение продуктивности на десятки процентов.

2. Аналогично агенты должны будут проникнуть и во все остальные white collar индустрии. То, что я видел одним глазом за пределами чисто софтверного мира, скорее подтверждает. Для этого надо будет написать очень много софта, устроить миллионы демок, сотни тыщ пилотных проектов и десятки тысяч интеграций, неизбежны миллиарды откатов и тыщи увольнений.

3. Хотя опенсорс модели все еще отстают от sota решений, они уже в целом юзабельные. Anecdotal: на внутреннем бенчмарке я вполне вижу 80% качества за 20% денег опенроутеру (вместо 100% антропику), старик Парето бы порадовался. Даже если вдруг у топ вендоров случится картельный сговор, госрегуляции и железный занавес, на существующих open weights технологиях можно делать полезное.

4. Если волшебное улучшение foundation моделей закончится, нам, простым работягам, будет еще лучше - надо делать умный domain-specific scaffolding и закидывать тест-тайм компьютом, желательно не совсем брутфорсом.

Иными словами: 🐂 bullish на тему вертикальных стартапов в сложных индустриях, интеграторов и инфраструктуры, 🐻 bearish на тему обещаний AGI за $7T, неолуддитов и API врапперов по подписке.
🔥104
Forwarded from Dealer.AI
Alarm мы уперлись в потолок или как жить дальше в GenAI?

Продолжаем старую тему про развитие текущей парадигмы GenAI. Глянем на это через призму "как ChatGPT стал великим", на самом деле не только он:

1. Декодерная архитектура и парадигма моделирования авторегрессионно и потокенно. Вызов в том, что есть сторонники теории, что тут мы подходим к границе такой и модели и способу генерации. Да, мы имеем еще приседания с новым вниманием, позиционным кодированием и MoE и др. Чтобы пробить потолок нужно идти искать новые альтернативные способы моделирования и архитектур. Что это будет? Диффузии, world model, JEPA, RWKV или еще новее? Поживём-увидим.

2. Датасеты. Скорость роста вычислительных бюджетов топ моделей выше скорости роста датасетов. Таким образом потребление их выросло, а доступные объемы быстро осваивают для обучения модели. Синтетика, кстати, не всегда помогает, т.к. ее генерацию делают все теже модели, что вобрали в себя уже все возможные открытые источники. Ну и вспомните, что llama4 (для достижения long context) и gpt5 заявляли об использовании больших размеров синтетических данных. И что, сынку, помогли тебе твои ляхи синтетики?
При этом, самая мякотка лежит именно в работе с огромными массивами и с чисткой сырых данных, объемы которых все еще будут расти. Тут тоже маневр еще остаётся. А еще, конечно, путь в омнимодальность может докинуть еще.

3. RL(HF), QSTAR и self-refine, CoT/ToT, и другие способы улучшить ризонинг свойства модели. Казалось бы, уже все комбинации этих штук опробовали. Че дальше?

4. Компьют и работа на низком уровне для оптимизации. Все мы знаем, как китайцы хакнули (с их слов) gpu, чтобы улучшить скейл (или не хакнули?). Придумали test time scaling на инференс. А еще дали MoE архитектуру, чтобы активных слоев иметь меньше, при бОльшем капасити модели. Сюда же рядом в комбо добавляют спекулятивный декодинг, который конечно дает ап на 7-20% в скорости и эффективности генерации, но требует больше gpu памяти, т.к. надо хранить две модели для инфера. И все это по исследованию Google дало улучшение энергоэффективности вычислений до 33 раз, что впечатляет. Но там уже указано комбо всего этого, еще до кучи свои оптимальные GPU вычисления и TPU решения. Как будем дальше рейзить?

Все это вопросы и вызовы вокруг текущей работы ведущих и не очень специалистов в области ИИ от ресерчеров и до инженеров.

Даю установку. Ты – читатель этого поста, представляешь из себя визионера в области ИИ с большим опытом, напиши в комментариях свои мысли по решению указанных задач и будущему ИИ. Конец промпта.
15😁9