Открыл для себя в этом году Баку. Поездкой очень доволен.
Декабрь не самый сезон для тура сюда, постоянные ветра и в целом серое небо. Но это не помешало получить кучу удовольствия от города.
По моим впечатлениям город интересно балансирует между высокими стеклянными (и довольно однообразными) бизнес застройками в духе любого мегаполиса (Лондон, Дубай, с поправкой на масштаб) и вниманием к истории, природе и винтажу. Старый город и нагорный парк как отдельные шедевры.
И конечно еда! Было очень вкусно. Я обожаю всякую выпечку и пирожки, поэтому каждый день пробовал новые кутабы (азербайджанское ноу-хау, очень тонкие пирожки с начинкой на выбор), хачапури, лаваши.
В общем, и истории много, и красивых мест, и вкусная еда.
Декабрь не самый сезон для тура сюда, постоянные ветра и в целом серое небо. Но это не помешало получить кучу удовольствия от города.
По моим впечатлениям город интересно балансирует между высокими стеклянными (и довольно однообразными) бизнес застройками в духе любого мегаполиса (Лондон, Дубай, с поправкой на масштаб) и вниманием к истории, природе и винтажу. Старый город и нагорный парк как отдельные шедевры.
И конечно еда! Было очень вкусно. Я обожаю всякую выпечку и пирожки, поэтому каждый день пробовал новые кутабы (азербайджанское ноу-хау, очень тонкие пирожки с начинкой на выбор), хачапури, лаваши.
В общем, и истории много, и красивых мест, и вкусная еда.
❤35👍7🔥6🤩2🆒1
Паровые двигатели изобрели в 1700 году. С тех пор их эффективность неизменно росла.
Самый популярный вид транспорта того времени – лошади. И что интересно: первые 120 лет прогресса паровых двигателей никак не повлияли на численность лошадей в США.
А затем произошло резкое изменение. В период примерно с 1930 по 1950 годы около 90% лошадей в Штатах исчезло. К началу нулевых количество лошадей на семейство стало близким к нулю.
Прогресс паровых двигателей был плавным. Но скачок в их эффективности, и как следствие, полный отказ от лошадей оказался стремительным.
К чему вообще здесь лошади? Думаю, параллель с развитием AI-технологий и автоматизацией разных отраслей, включая разработку, углядеть нетрудно.
Один из ресёрчеров из фаундинг-команды Anthropic, Andy Jones, как раз пишет об этом у себя в блоге:
https://andyljones.com/posts/horses.html
Он подкрепляет историческую аналогию личным опытом. В 2024 году, ещё до выхода Claude Sonnet 3.5, значительная часть его работы заключалась в онбординге новых сотрудников и ответах на их вопросы, порядка 4000 вопросов в месяц.
К декабрю их доля заметно сократилась. А ещё через шесть месяцев 80% этой рутины было автоматизировано. В итоге появилась система, которая в сотни раз дешевле человека и легко масштабируется.
На такой ноте заметка заканчивается.
Но в жизни Andy Jones большой AI-евангелист. Коллега по работе училась вместе с ним в Эдинбургском университете, так что была редкая возможность познакомиться ближе. В жизни он с юмором сочетает мысли о невероятной скорости прогресса и неизбежной автоматизации профессий с абсолютной глупостью моделей в некоторых вещах. Одни технологии и профессии уйдут, но придут новые.
Прогресс может быть плавным. Но трансформация стремительной.
Самый популярный вид транспорта того времени – лошади. И что интересно: первые 120 лет прогресса паровых двигателей никак не повлияли на численность лошадей в США.
А затем произошло резкое изменение. В период примерно с 1930 по 1950 годы около 90% лошадей в Штатах исчезло. К началу нулевых количество лошадей на семейство стало близким к нулю.
Прогресс паровых двигателей был плавным. Но скачок в их эффективности, и как следствие, полный отказ от лошадей оказался стремительным.
К чему вообще здесь лошади? Думаю, параллель с развитием AI-технологий и автоматизацией разных отраслей, включая разработку, углядеть нетрудно.
Один из ресёрчеров из фаундинг-команды Anthropic, Andy Jones, как раз пишет об этом у себя в блоге:
https://andyljones.com/posts/horses.html
Он подкрепляет историческую аналогию личным опытом. В 2024 году, ещё до выхода Claude Sonnet 3.5, значительная часть его работы заключалась в онбординге новых сотрудников и ответах на их вопросы, порядка 4000 вопросов в месяц.
К декабрю их доля заметно сократилась. А ещё через шесть месяцев 80% этой рутины было автоматизировано. В итоге появилась система, которая в сотни раз дешевле человека и легко масштабируется.
На такой ноте заметка заканчивается.
Но в жизни Andy Jones большой AI-евангелист. Коллега по работе училась вместе с ним в Эдинбургском университете, так что была редкая возможность познакомиться ближе. В жизни он с юмором сочетает мысли о невероятной скорости прогресса и неизбежной автоматизации профессий с абсолютной глупостью моделей в некоторых вещах. Одни технологии и профессии уйдут, но придут новые.
Прогресс может быть плавным. Но трансформация стремительной.
Andyljones
Horses
AI progress is steady. Human equivalence is sudden.
🔥17👍9🤔4❤2😁1
Год подходит к концу, поэтому самое время подводить итоги.
В этом посте разбираю одну из центральных тем блога в этом году: собеседования на ML/Research роли.
⚫️ В первой половине года я много собеседовал и понял, что хочется делиться тем, что может помочь соискателям. Так появились эти тексты. Они разные по формату и теме, все субъективные и основаны на личном опыте. А теплые сообщения в личку о пользе текстов только мотивируют стараться ✨
Типы вопросов на собеседованиях про Трансформеры
Подборка ресурсов для изучения RL в контексте LLM
Лонгрид ML Breadth Interview Deep Dive
Как готовиться к Coding Interview
Как готовиться к ML Design Interview
Как готовиться к ML Depth Interview
Рисерч стажировки в биг техе. Часть 1. Как попасть на собеседование
Рисерч стажировки в биг техе. Часть 2. Структура Интервью
⚫️ Потом я оказался по другую сторону и начал собеседоваться сам. Собесы – это во многом рандом, поэтому любая информация помогает хоть немного увеличить шансы в этой лотерее. А реальные отзывы других людей так тем более. Я начал собирать истории подписчиков канала и делиться ими здесь. В итоге получилась солидная коллекция интервью-историй за 2025 год.
Все отзывы можно найти по тегу #интервью. А здесь оставлю ссылки на истории в зарубежные компании:
🌐 Research Engineer в Google DeepMind
🍏Senior ML Engineer в Apple Music
💻 Performance Engineer в Nvidia, Munich
💻 OpenAI, Solutions Architect, Generative AI Deployment, London
Ⓜ️ Senior ML Engineer в Meta
🖥 Research Fellowship в Anthropic
🛒 Applied Scientist, Amazon
🎧 Senior DL Engineer в Spotify, Personalization, London
Senior ML Engineer в Waymo, Perception Team, California
Solutions Architect в ByteDance, Дубай.
VP of AI ML в J.P. Morgan Chase, London
AI Engineer в Mistral.AI
🔥 Буду рад если поддержите пост репостами или поделитесь с друзьями. И забирайте себе в коллекцию, если готовитесь к новому приключению в следующем году!
В этом посте разбираю одну из центральных тем блога в этом году: собеседования на ML/Research роли.
Типы вопросов на собеседованиях про Трансформеры
Подборка ресурсов для изучения RL в контексте LLM
Лонгрид ML Breadth Interview Deep Dive
Как готовиться к Coding Interview
Как готовиться к ML Design Interview
Как готовиться к ML Depth Interview
Рисерч стажировки в биг техе. Часть 1. Как попасть на собеседование
Рисерч стажировки в биг техе. Часть 2. Структура Интервью
Все отзывы можно найти по тегу #интервью. А здесь оставлю ссылки на истории в зарубежные компании:
🍏Senior ML Engineer в Apple Music
Senior ML Engineer в Waymo, Perception Team, California
Solutions Architect в ByteDance, Дубай.
VP of AI ML в J.P. Morgan Chase, London
AI Engineer в Mistral.AI
Please open Telegram to view this post
VIEW IN TELEGRAM
14👍57❤19🎄10🔥9⚡4❤🔥1🆒1
А в финальном посте года немного рефлексии по итогам полугода работы в стартапе.
О скорости перемен
Полгода назад ушел из биг техаловить счастье делать pre-PMF стартап (про первый месяц писал тут). Компания без продукта, но с большим раундом (фаундер уже продал юникорна) в эпоху AI трансформаций == постоянный пивот в новое направление.
Начинали с фреймворка про Spec Driven Development, а сейчас делаем платформу, на которой можно измерять перформанс coding-агентов с разных сторон: насколько хорошо они справляются с задачами в репозитории, умеют ли писать идиоматически приемлемый код (рассказывал о бенчмарке тут). Плюс разные фишки вокруг этого: автогенерация документации, сравнение с другими агентами, context engineering.
После биг теха было сложно привыкнуть к тому, что каждые месяц-два могут выбрасываться не просто идеи и прототипы (там то мы следовали принципу Disagree and Commit😑 ), а целое видение компании. И что нужно регулярно погружаться в ресерч совсем новых тем.
Слоган года, который я постоянно слышал от фаундеров стартапов: Побеждают те, у кого хватает ресурсов, чтобы сделать еще один пивот.
Про агентов и программирование
Эволюция профессии происходит стремительно. Это невозможно отрицать.
Еще в начале лета я был плотно вовлечен в написание кода: задаешь направление, а умные IDE помогают. Автокомплитят или реализуют логику на уровне файла. Но почти всегда с правками, потому что что-то не совсем то.
Точка перелома случилась примерно с Sonnet 4.5, когда я закоммитил 500+ строк кода.
В проект, который вижу чуть ли не в первый раз и понимаю в основном на уровне бизнес-логики.
Нужно было срочно сделать конкретную фичу.
Запускаешь и работает как надо.
И выглядит адекватно.
Так оно и было смерджено.
А дальше понеслось. Код руками я почти перестал писать. Все время уходит на оркестрацию агентов, продумывание идей, эксперименты с новыми фичами (типа skills у Claude Code),ведение тг-канала. Короче, агентам аутсорсишь исполнение, а сам занимаешься самым интересным – размышлением.
Имхо: без human in the loop на дистанции все равно получается разваливающийся нейрослоп. Но это временно.
Еще одна мысль, на которой себя поймал. Да, прорывы в кодогенерации привели к массовым сокращениям, заменив многие роли (например, чистых фронтендеров). Но при этом тот же прогресс создал и огромное количество новых возможностей: кучу стартапов (включая тот, где работаю и я), позиции вроде Agents Developer, AI Engineer и т.д.
В заключение
Следующий год, думаю, будет еще более интересным и насыщенным: больше открытий, релизов новых моделей, роста адопшена и безумных сделок по покупке компаний.
В таком мире особенно важно не прекращать учиться, качать новые скиллы и заботиться о здоровье (особенно ментальном!).
Спасибо, что читаете!
С Новым годом! 🥂🎄🍪
О скорости перемен
Полгода назад ушел из биг теха
Начинали с фреймворка про Spec Driven Development, а сейчас делаем платформу, на которой можно измерять перформанс coding-агентов с разных сторон: насколько хорошо они справляются с задачами в репозитории, умеют ли писать идиоматически приемлемый код (рассказывал о бенчмарке тут). Плюс разные фишки вокруг этого: автогенерация документации, сравнение с другими агентами, context engineering.
После биг теха было сложно привыкнуть к тому, что каждые месяц-два могут выбрасываться не просто идеи и прототипы (там то мы следовали принципу Disagree and Commit
Слоган года, который я постоянно слышал от фаундеров стартапов: Побеждают те, у кого хватает ресурсов, чтобы сделать еще один пивот.
Про агентов и программирование
Эволюция профессии происходит стремительно. Это невозможно отрицать.
Еще в начале лета я был плотно вовлечен в написание кода: задаешь направление, а умные IDE помогают. Автокомплитят или реализуют логику на уровне файла. Но почти всегда с правками, потому что что-то не совсем то.
Точка перелома случилась примерно с Sonnet 4.5, когда я закоммитил 500+ строк кода.
В проект, который вижу чуть ли не в первый раз и понимаю в основном на уровне бизнес-логики.
Нужно было срочно сделать конкретную фичу.
Запускаешь и работает как надо.
И выглядит адекватно.
Так оно и было смерджено.
А дальше понеслось. Код руками я почти перестал писать. Все время уходит на оркестрацию агентов, продумывание идей, эксперименты с новыми фичами (типа skills у Claude Code),
Имхо: без human in the loop на дистанции все равно получается разваливающийся нейрослоп. Но это временно.
Еще одна мысль, на которой себя поймал. Да, прорывы в кодогенерации привели к массовым сокращениям, заменив многие роли (например, чистых фронтендеров). Но при этом тот же прогресс создал и огромное количество новых возможностей: кучу стартапов (включая тот, где работаю и я), позиции вроде Agents Developer, AI Engineer и т.д.
В заключение
Следующий год, думаю, будет еще более интересным и насыщенным: больше открытий, релизов новых моделей, роста адопшена и безумных сделок по покупке компаний.
В таком мире особенно важно не прекращать учиться, качать новые скиллы и заботиться о здоровье (особенно ментальном!).
Спасибо, что читаете!
С Новым годом! 🥂🎄
Please open Telegram to view this post
VIEW IN TELEGRAM
16🎄48❤15🍾6🔥3⚡2👍2
Бодро влетаем в новый год. Сегодня про Claude Code Skills.
Пару месяцев назад Антропики добавили концепцию Agent Skills
Skills, если по-простому, это папки с SKILLS.md и любыми вспомогательными файлами/скриптами, которые агент может по необходимости подтягивать в контекст и использовать как «встроенный опыт».
Преимуществ несколько:
1) переиспользуемый контекст. Вы, как пользователь Claude Code, можете создать свои кастомные скиллы и переиспользовать в проекте / внутри организации
2) более эффективное использование контекстного окна LLM. Содержимое навыка будет загружено в контекст модели только если она решит, что уместно использовать скилл, а не будет таскать всю инфу о нем постоянно.
3) открытая экосистема, которая будет расширяться за счет опен соурса и самих Антропиков.
Экосистема действительно разрастается. Вот, например, всеми любимый Hugging Face опубликовали серию своих SKILLS, написанных вручную, чтобы обучить агента файн-тюнить модели (SFT, GRPO, DPO). По итогу это набор гайдлайнов о том, какой инстанс брать для файн-тюна в зависимости от размера модели, как провалидировать, что данные в правильном формате, и так далее.
Ссылка.
А еще, энтузиасты собрали интересный проект – Skills Marketplace. Соскрапили 44K skills с github и прикрутили поисковик. Может быть полезно, если что-то ищете специфичное под фреймворк.
Я на практике пока что успел поиграть с несколькими официальными скиллами от самих Антропиков. Например, с гайдлайнами для дизайна фронтендов.
Из интересного, это то что подключение скилла консистенто запускает у Claude Code режим планирования, в котором он у меня распрашивает, какой веб-стэк я хочу использовать. Без подключенного скилла же, регулярно улетает в поделки на plain HTML/CSS/JS.
Интересно, видно что будет расти и дальше. Пользуемся.👍
Пару месяцев назад Антропики добавили концепцию Agent Skills
Skills, если по-простому, это папки с SKILLS.md и любыми вспомогательными файлами/скриптами, которые агент может по необходимости подтягивать в контекст и использовать как «встроенный опыт».
Преимуществ несколько:
1) переиспользуемый контекст. Вы, как пользователь Claude Code, можете создать свои кастомные скиллы и переиспользовать в проекте / внутри организации
2) более эффективное использование контекстного окна LLM. Содержимое навыка будет загружено в контекст модели только если она решит, что уместно использовать скилл, а не будет таскать всю инфу о нем постоянно.
3) открытая экосистема, которая будет расширяться за счет опен соурса и самих Антропиков.
Экосистема действительно разрастается. Вот, например, всеми любимый Hugging Face опубликовали серию своих SKILLS, написанных вручную, чтобы обучить агента файн-тюнить модели (SFT, GRPO, DPO). По итогу это набор гайдлайнов о том, какой инстанс брать для файн-тюна в зависимости от размера модели, как провалидировать, что данные в правильном формате, и так далее.
Ссылка.
А еще, энтузиасты собрали интересный проект – Skills Marketplace. Соскрапили 44K skills с github и прикрутили поисковик. Может быть полезно, если что-то ищете специфичное под фреймворк.
Я на практике пока что успел поиграть с несколькими официальными скиллами от самих Антропиков. Например, с гайдлайнами для дизайна фронтендов.
Из интересного, это то что подключение скилла консистенто запускает у Claude Code режим планирования, в котором он у меня распрашивает, какой веб-стэк я хочу использовать. Без подключенного скилла же, регулярно улетает в поделки на plain HTML/CSS/JS.
Интересно, видно что будет расти и дальше. Пользуемся.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥26👍11⚡4❤3🆒2🙏1👌1
На ютубе разлетелось видео, в котором стример разбирает якобы слитый собес в Антропик, секция кодинг, на позицию Senior AI engineering, Inference team.
Смотреть тут
Пост на блайнде
Слить такое в сеть мог только сам кандидат. Учитывая, что интервью он прошел, объективно, плохо (для человека с позиционированием себя как 10+ лет опыта разработки на c++ очень плохо), зачем такое выкладывать не очень понятно. Только для пиара. Но его оригинал я не нашел, кстати.
Так что воспринимать контент стоит в любом случае осторожно, с долей скептицизма.
В комментариях к видео (и посту здесь в тг!) пишут, что действительно такой раунд и формат, и задача имеют место быть.
Задача кажется не очень сложная. Конвертировать стак трейс в вектор событий. Что-то на уровне между литкодом и повседневным программированием. Разобраться (не так как кандидат) и решить за час точно можно.
В конце интервью замечательный диалог:
Сильно.
Смотреть тут
Пост на блайнде
Слить такое в сеть мог только сам кандидат. Учитывая, что интервью он прошел, объективно, плохо (для человека с позиционированием себя как 10+ лет опыта разработки на c++ очень плохо), зачем такое выкладывать не очень понятно. Только для пиара. Но его оригинал я не нашел, кстати.
Так что воспринимать контент стоит в любом случае осторожно, с долей скептицизма.
В комментариях к видео (и посту здесь в тг!) пишут, что действительно такой раунд и формат, и задача имеют место быть.
Задача кажется не очень сложная. Конвертировать стак трейс в вектор событий. Что-то на уровне между литкодом и повседневным программированием. Разобраться (не так как кандидат) и решить за час точно можно.
В конце интервью замечательный диалог:
кандидат: How do you compromise speed for safety?
интервьюер: We never compromise on safety.
Сильно.
👍31😁16🤣4🔥3❤1🆒1
Когда-то давно, во времена учебы в ШАДе, нам читали интенсив по основам архитектуры GPU и разработки на CUDA. Обещали рассказать, как устроены видеокарты и почему они эффективны для машинного обучения. Я тогда дальше
Лекции читали разработчики из Nvidia. Да, это было такое время, когда у компании был Московский офис и они периодически нанимали DL-инженеров, а иногда и стажеров (марафон технических раундов и глубоких вопросов на понимание, чтобы побороться за 2 стажерские позиции).
Курс, по моему мнению, получился ужасным. Материал стремительно усложнялся без какой-либо оглядки на аудиторию и тот факт, что ко второй лекции половина слушателей уже отвалилась. Я потерял суть происходящего уже минуте на 20-30 первой лекции, в момент когда термины вида SM, warp schedulers, cuda cores заполняли каждый слайд, а повествование превратилось во внутренний митап для инженеров Nvidia.
Худо-бедно интенсив я закрыл, решая задачи методом проб и ошибок. От курса в голове не осталось почти ничего. Разве что боязнь копаться в деталях работы с GPU.
Позже, уже в 2022-2023 году, модели перестали влазить в память одной ГПУ и нужно было учиться паралелить, оценивать эффективность инфраструктуры в поисках ответа на вопрос: а почему все так медленно? are we compute bound or communication bound? Снова я столкнулся с GPU акселераторами лицом к лицу. Документации от Nvidia было не очень много, так что неподготовленному читателю входить было не просто. Но дело двигалось тем же путем проб и ошибок и общением с коллегами по работе.
А хороших гайдов на понимание все еще не было. Мне кажется их и сейчас не очень много. ( Как и специалистов в этой области. Performance Engineer крайне актуальная роль в области DL на ближайшие годы)
Недавно наткнулся на "книгу" от ребят из DeepMind, они проделали невероятную методологическую работу. И выпустили онлайн-учебник How to Scale Your Model. Центральный предмет книги о том, как учить трансформеры на больших кластерах, арифметику моделей (откуда набегает так много гигабайтов памяти, чтобы сделать один forward pass) и что такое TPU/GPU. К каждой главе идет еще набор квизов, чтобы посчитать что-нибудь руками.
Крайне Рекомендую!
https://jax-ml.github.io/scaling-book/
Edit: в комментариях накидали еще полезных материалов!
model.to('cuda:0') в этом вопросе ничего не знал, поэтому с интересом записался.Лекции читали разработчики из Nvidia. Да, это было такое время, когда у компании был Московский офис и они периодически нанимали DL-инженеров, а иногда и стажеров (марафон технических раундов и глубоких вопросов на понимание, чтобы побороться за 2 стажерские позиции).
Курс, по моему мнению, получился ужасным. Материал стремительно усложнялся без какой-либо оглядки на аудиторию и тот факт, что ко второй лекции половина слушателей уже отвалилась. Я потерял суть происходящего уже минуте на 20-30 первой лекции, в момент когда термины вида SM, warp schedulers, cuda cores заполняли каждый слайд, а повествование превратилось во внутренний митап для инженеров Nvidia.
Худо-бедно интенсив я закрыл, решая задачи методом проб и ошибок. От курса в голове не осталось почти ничего. Разве что боязнь копаться в деталях работы с GPU.
Позже, уже в 2022-2023 году, модели перестали влазить в память одной ГПУ и нужно было учиться паралелить, оценивать эффективность инфраструктуры в поисках ответа на вопрос: а почему все так медленно? are we compute bound or communication bound? Снова я столкнулся с GPU акселераторами лицом к лицу. Документации от Nvidia было не очень много, так что неподготовленному читателю входить было не просто. Но дело двигалось тем же путем проб и ошибок и общением с коллегами по работе.
А хороших гайдов на понимание все еще не было. Мне кажется их и сейчас не очень много. ( Как и специалистов в этой области. Performance Engineer крайне актуальная роль в области DL на ближайшие годы)
Недавно наткнулся на "книгу" от ребят из DeepMind, они проделали невероятную методологическую работу. И выпустили онлайн-учебник How to Scale Your Model. Центральный предмет книги о том, как учить трансформеры на больших кластерах, арифметику моделей (откуда набегает так много гигабайтов памяти, чтобы сделать один forward pass) и что такое TPU/GPU. К каждой главе идет еще набор квизов, чтобы посчитать что-нибудь руками.
Крайне Рекомендую!
https://jax-ml.github.io/scaling-book/
Edit: в комментариях накидали еще полезных материалов!
jax-ml.github.io
How To Scale Your Model
Training LLMs often feels like alchemy, but understanding and optimizing the performance of your models doesn't have to. This book aims to demystify the science of scaling language models: how TPUs (and GPUs) work and how they communicate with each other…
12⚡51👍34❤22🔥12🆒1
Недавно вернулся со второго командного оффсайта (про прошлый писал в Июле).
В западной культуре, как в больших компаниях так и стартапах, в целом принято выделять первую половину января под разного рода планирования в формате собраться всем в одной месте.
Так можно провести большие ретро, послушать речи фаундера (или директора), понять, почему слишком медленно бежим и все в таком духе. По итогу, устаешь гораздо больше, чем от обычной рабочей недели.
В силу своего размера, старатапы (которым не нужно выживать) могут позволить себе провести такие штуки в необычных локациях.
В этот проводили в Барселоне. Первый раз оказался здесь зимой. И мне кажется, это самая идеальная зима, которую можно представить! Сухо, 10-13 градусов, одинаково тепло и днем и вечером, так еще и людей не слишком много!
Свободного времени почти не было, поэтому только посмотрел архитектуру Гауди – вечно строящийся собор и несколько фасадов. Интересно, что среди коллег мнения о его искусстве полярно разделились – либо поражает воображение, либо кажется необоснованным нагромождением. Мне вот очень откликнулось.
Но туристические заметки можно прочитать много где еще. А вот пообщаться с инвесторами и послушать, что они говорят - нет.
Познакомился с управляющим партнером венчурного фонда GV Tom Hulme (на последнем фото). Лидировал раунды в крупные компании, включая Stripe, Monzo, Blockchain (тут сомнительно, конечно). Том вел раунд и в Tessl (где сейчас и работаю). Из интересных публичных мыслей:
• Инвестировать в ранние стартапы еще сложнее, из-за вайб-кодинга у каждого проекта всегда красивый питч-дек, демо, анализ данных, хотя если капнуть глубже, то пустота. Поэтому отдают предпочтение анализу профилей фаундеров
• Считает, что Gemini и гугл обойдут OpenAI в активных юзерах и возьмут превосходство в качестве.
• Скейлинг продолжится: pre-training, post-training, test-time compute живее всех живых. Человек который общаестя с Хассабисом каждую неделю что-то точно знает 😀
• Разрыв между опен-соурсом и проприетарными решениями будет сохраняться, а в компанию Reflection AI которая привлекла огромный раунд для создания "западного ответа DeepSeek" не верит
В западной культуре, как в больших компаниях так и стартапах, в целом принято выделять первую половину января под разного рода планирования в формате собраться всем в одной месте.
Так можно провести большие ретро, послушать речи фаундера (или директора), понять, почему слишком медленно бежим и все в таком духе. По итогу, устаешь гораздо больше, чем от обычной рабочей недели.
В силу своего размера, старатапы (которым не нужно выживать) могут позволить себе провести такие штуки в необычных локациях.
В этот проводили в Барселоне. Первый раз оказался здесь зимой. И мне кажется, это самая идеальная зима, которую можно представить! Сухо, 10-13 градусов, одинаково тепло и днем и вечером, так еще и людей не слишком много!
Свободного времени почти не было, поэтому только посмотрел архитектуру Гауди – вечно строящийся собор и несколько фасадов. Интересно, что среди коллег мнения о его искусстве полярно разделились – либо поражает воображение, либо кажется необоснованным нагромождением. Мне вот очень откликнулось.
Но туристические заметки можно прочитать много где еще. А вот пообщаться с инвесторами и послушать, что они говорят - нет.
Познакомился с управляющим партнером венчурного фонда GV Tom Hulme (на последнем фото). Лидировал раунды в крупные компании, включая Stripe, Monzo, Blockchain (тут сомнительно, конечно). Том вел раунд и в Tessl (где сейчас и работаю). Из интересных публичных мыслей:
• Инвестировать в ранние стартапы еще сложнее, из-за вайб-кодинга у каждого проекта всегда красивый питч-дек, демо, анализ данных, хотя если капнуть глубже, то пустота. Поэтому отдают предпочтение анализу профилей фаундеров
• Считает, что Gemini и гугл обойдут OpenAI в активных юзерах и возьмут превосходство в качестве.
• Скейлинг продолжится: pre-training, post-training, test-time compute живее всех живых. Человек который общаестя с Хассабисом каждую неделю что-то точно знает 😀
• Разрыв между опен-соурсом и проприетарными решениями будет сохраняться, а в компанию Reflection AI которая привлекла огромный раунд для создания "западного ответа DeepSeek" не верит
3❤17🔥9👍6🆒2
Как строить evaluation системы для AI агентов?
Очередной крутой блог пост от Антропиков. Читать тут.
Прорывных мыслей, бенчмарков или сокрального знания тут не найти, но зато очень хорошая структура (такое пригождается на систем дизайн интервью, если что), отличный технический словарь (task, trannoscript, evaluation harness, agent harness, и.т.д) и призыв к действию для тех, кто активно шаманит над агентами в рабочих задачах.
И действительно. Если в прошлом году все поголовно были увлечены внедрением агентов процессы, то сейчас все переходят к стадии "а как с этими агентами со-существовать" и валидировать, что со временем они так же продолжают драйвить продуктивность (чтобы это не значило). Короче говоря, не хочется вслепую обновлять модель на новую и потом ловить себя на чувстве "так а чето стало только хуже".
Поэтому Eval-ы и нужны. Eval (от evaluation) – это по большому счету тест AI агента. Даете ему среду, задачу, запускаете, и оцениваете результат. На бумаге легко. На деле же каждая из переменных: среда, задача и оценка результата – безумно сложная задача. Особенно на масштабе организаций с сотнями репозиториев. Тут нужна методичность и структура. Поэтому так легко свалиться в "да пофиг, вроде стало лучше". По работе много общаюсь с энтерпрайзами и это головная боль чуть ли не каждого. Собственно поэтому мы и стали командой делать eval платформу, в которой можно эвалить разного рода контекст (например, вы сделали claude skill, а насколько он хорош? оценить можно тут) или целые репозитории и смотреть насколько хорошо агенты справляются с задачами. Но про это в другой раз.
Мне из блога откликнулись такие мысли.
* Смотреть на Eval-ы, как на модель швейцарского сыра. Картинка к посту в пояснение. Суть в том, что одним подходом все не поймать. Поэтому нужно много слоев. Где-то часть ошибок отловят автопроверки, где-то llm-as-judge, а где-то нужно смотреть не просто в input-output поведение, а анализировать логи агента и смотреть что он там накуролесил в процессе.
* Чем больше в системе детерминированных проверок, тем лучше (для вас). Проще дебажить, проще менять. Вслепую делегировать работу на откуп агенту-валидатору (читай llm-as-judge), себе дороже. По мнению такого валидатора все всегда будет ХО-РО-ШО. Как минимум рубрики нужно калибровать и смотреть глазами прежде чем внедрять такое и основывать на этом выводы.
* Чем раньше начнете задумываться о концепции eval-ов, тем проще будет с агентами дальше. Потому что так будет четкие аргументы, почему агент не может решать задачи именно в вашей кодовой базе и во что инвестировать, чтобы стало лучше. Несколько знакомых так уже получили промоушены в биг техах, чисто за счет какой-никакой observability-платформы для агентов. Лайфхаком не является, но намек вы поняли.
Очередной крутой блог пост от Антропиков. Читать тут.
Прорывных мыслей, бенчмарков или сокрального знания тут не найти, но зато очень хорошая структура (такое пригождается на систем дизайн интервью, если что), отличный технический словарь (task, trannoscript, evaluation harness, agent harness, и.т.д) и призыв к действию для тех, кто активно шаманит над агентами в рабочих задачах.
И действительно. Если в прошлом году все поголовно были увлечены внедрением агентов процессы, то сейчас все переходят к стадии "а как с этими агентами со-существовать" и валидировать, что со временем они так же продолжают драйвить продуктивность (чтобы это не значило). Короче говоря, не хочется вслепую обновлять модель на новую и потом ловить себя на чувстве "так а чето стало только хуже".
Поэтому Eval-ы и нужны. Eval (от evaluation) – это по большому счету тест AI агента. Даете ему среду, задачу, запускаете, и оцениваете результат. На бумаге легко. На деле же каждая из переменных: среда, задача и оценка результата – безумно сложная задача. Особенно на масштабе организаций с сотнями репозиториев. Тут нужна методичность и структура. Поэтому так легко свалиться в "да пофиг, вроде стало лучше". По работе много общаюсь с энтерпрайзами и это головная боль чуть ли не каждого. Собственно поэтому мы и стали командой делать eval платформу, в которой можно эвалить разного рода контекст (например, вы сделали claude skill, а насколько он хорош? оценить можно тут) или целые репозитории и смотреть насколько хорошо агенты справляются с задачами. Но про это в другой раз.
Мне из блога откликнулись такие мысли.
* Смотреть на Eval-ы, как на модель швейцарского сыра. Картинка к посту в пояснение. Суть в том, что одним подходом все не поймать. Поэтому нужно много слоев. Где-то часть ошибок отловят автопроверки, где-то llm-as-judge, а где-то нужно смотреть не просто в input-output поведение, а анализировать логи агента и смотреть что он там накуролесил в процессе.
* Чем больше в системе детерминированных проверок, тем лучше (для вас). Проще дебажить, проще менять. Вслепую делегировать работу на откуп агенту-валидатору (читай llm-as-judge), себе дороже. По мнению такого валидатора все всегда будет ХО-РО-ШО. Как минимум рубрики нужно калибровать и смотреть глазами прежде чем внедрять такое и основывать на этом выводы.
* Чем раньше начнете задумываться о концепции eval-ов, тем проще будет с агентами дальше. Потому что так будет четкие аргументы, почему агент не может решать задачи именно в вашей кодовой базе и во что инвестировать, чтобы стало лучше. Несколько знакомых так уже получили промоушены в биг техах, чисто за счет какой-никакой observability-платформы для агентов. Лайфхаком не является, но намек вы поняли.
7💯13🔥9🆒8👍4❤3😁1