Время Валеры – Telegram
Время Валеры
28.8K subscribers
189 photos
6 videos
1 file
398 links
Мне платят за то, что я говорю другим людям что им делать.
Автор книги https://www.manning.com/books/machine-learning-system-design
https://venheads.io
https://www.linkedin.com/in/venheads
Download Telegram
Сначала я подумал что это нечто вроде Causal Impact от Гугла на минималках, но затем оценил простоту, элегантность и возможность заглянуть в черный ящик

В качестве примера рассматривают изменение ВВП на душу населения в Западной Германии и как на это повлияла объединение с Восточной Германией (figure 1)
Пул Кандидатов с весами (table 2)
И даже что-то вроде предсказательных/доверительных интервалов (figure 4)
К слову статью мне подкинул мой давний друг и бывший коллега, а ныне большой начальник в одном желтом банке - Нерсес Багиян, за что ему большое спасибо

#ArticleReview
2👍2
Во время моего сегодняшнего выступления на it nights в Инополисе, на мне будет прибор, непрерывно замеряющий пульс. Зрители будут голосовать стоит ли его понизить или повысить и по итогам будет происходить какое то событие. Какое - я и сам не знаю
👍2
Кажется иногда ребята из Карпов Курсес могут быть очень активным с рекламой, правда скорее всего это сама площадка пытается что-то оптимизировать. В целом напоминает определенные образы. На второй фотографии святой Христофор Псеглавый
😁1
Стоит ли публиковать вакансии по аналитике, мл, дата инженерии и прочему здесь. Вакансии от моих друзей или тех с кем или где я работал
Anonymous Poll
85%
Да
15%
Нет
Часть 1/3
Мой друг Нерсес, регулярно скидывает мне контент отличного качества, сегодня речь пойдет о небольшой статье : Building a data team at a mid-stage startup: a short story https://erikbern.com/2021/07/07/the-data-team-a-short-story.html

На мой взгляд mid-stage startup название обманчивое. Описанное очень похоже на процесс построения дата-команды как в большой публичной компании, так и в небольшом стартапе. Статья разделена на отрезкие описывающие первый год Head of the Data Team (HoDT) с чекпойнтами в разные моменты времени. Я приведу их ниже, вместе с тем как это происходило со мной, происходящее со мной будет миксом из событий происходивших в разных компаниях в России и в Лондоне.

Первый день: СЕО и экзеки привечают тебя, we are so excited you are here. Потом оказывается что есть Data Scientist-ы которые тебе не репортят, хотя утверждалось что все репортят тебя. Есть Дашборды, но они не те и туда никто не смотрит. Проводятся какие-то запуски, есть даже какие то цифры - правда при вопросе про стат значимость ПМ отвечает что это не его работа, это твоя работа, кроме того последний раз когда ПМ спрашивал, ему ответили что это займет месяцы сбора данных. Да и вообще, крутые штуки не строятся через инкремент, Стив Джобс не делал А/Б тест Айфона. Crush before deadline - that’s what matters

Идет знакомство с командой - есть куча Ipython ноутбуков, рекомендационные системы, нейронные сетки для прогноза оттока и много чего еще, что то прикольное, что то нет. Почти везде куча спагетти кода, сложный препроцессинг данных, непонятный ETL, все это работает только если запускать правильные скрипты в правильном порядке и ничего из этого нет в продакшене. Почему нет? Потому что инженеры говорят что это очень сложный проект

Общение с директором по логистике не такое радужное, он говорит что не уверен, что ему нужна помощь дата саентистов,.
Вот бизнес аналитики, это то что ему надо, у него куча вопросов к ним. Если взглянуть на эти вопросы, они выглядят следующим образом: какая конверсия, если Тикет разрешен менее чем за час и какая, если более чем за час. Кроме того у него есть МОДЕЛЬ. После просмотра модель оказывается очень запутанной штук в Гугл доке, с кучой VLOOKUPs и данными, которые должны быть copy-pasted в нужную колонку в нужном формате. Данные обновляются ежедневно и выход модели определяет приоритеты это дня. Кроме того этот док рассчитывает кому и сколько платить из вендоров

Что было у меня в первые дни: Успел поймать момент, когда другой департамент пытался завести своих дата саентистов, потому что ему не уделяли достаточно внимание и остановить это. Увидел схожие проблемы с принятием решений на основе данных. К моему удивлению, несмотря на обилие PhD в команде, качество кода не вызывало оторопи, да, есть что улучшить, но выглядит достойно. Большинство команд и руководителей страдает от отсутствия базового анализа и пока не задумывается о чем-то большем. Экзеки были very excited. Те люди, чьи сотрудники работали в Эксельках были настроены скептично


Неделя после выхода на работу: Проводится реорганизация дата команды, выделяется инфраструктурная команда. Из описания вакансий вымарывается машинное обучение и искусственный интеллект. Ты пообщался с Дата Саентистами которые тебе не репортят и они говорят: “I've always wanted to become a data scientist, and I can't wait to learn from you” . Созваниваешься с другом у которого есть курсы по SQL и договариваешься об их проведении. Делаешь презентацию про АБ тестам и как они работают. Общаешься с бизнес аналитиками из логистики - они вменяемые ребята, но предыдущий их опыт общения с дата командой оставляет желать лучшего. Кто то из них знает SQL и если дать им доступы к базам данных, работа пойдет веселее чем через Эксель. С ключевыми людьми, которым нужна работа с данными, ставятся регулярные встречи для понимания куда и как идти

#CoolStory
👍93
Часть 2/3
Что было у меня в первые недели
: Проводится реорганизация, выделяется инфраструктурная команда и ad hoc команда. Ты пообщался с Дата Саентистами (или теми людьми, которые думаю что они DS) не репортящими тебе и они говорят: “I've always wanted to become a data scientist, and I can't wait to learn from you”. Созваниваешься с другом у которого есть курсы по SQL и договариваешься об их проведении. Делаешь презентацию про АБ тесты и как они работают. Общаешься с бизнес аналитиками из других подразделений - они вменяемые ребята, но предыдущий их опыт общения с дата командой оставляет желать лучшего. Кто то из них знает SQL и если дать им доступы к базам данных, работа пойдет веселее чем через Эксель. С ключевыми людьми, которым нужна работа с данными, ставятся регулярные встречи для понимания куда и как идти


Два месяца после выхода на работу: Команда выросла, кто то работает на инфру, остальные раскиданы по конкретным продуктовым командам. Об это сообщено в рамках компании. Нанимая новых людей - их нанимают в конкретную команду, зачастую продуктовую или инфру

Что было у меня Команда выросла, разделена на три команды: Data Engineering/infra, Squad team, Ad-hoc team из ad-hoc team растет a/b testing platform. Об это сообщено в рамках компании. Нанимая новых людей - их нанимают в конкретную команду, DE/Ad-hoc/Squad


Полгода после выхода на новую работу С утра письмо, один человек уходит из команды, хочет заниматься исследованиями в машинном обучение. Что-ж, нет смысла его отговаривать, кроме того это было неизбежно. В команде достаточно людей которым нравится текущая работа, они знают немного SQL, немного Software Eng - самое главное у них есть желание разбираться в данных. Например один из членов команды смог поймать проблему в онбординге пользователей и тем самым повысить конверсию на 21% - это стало возможно только благодаря новой структуре данных, полученной после ETL

Встреча с СЕО и экзеками по поводу проектов запущенных в прошлом квартале. CMO демонстрирует новый лендинг, его делали 20 инженеров и успели к дедлайну. По итогам презентации все смотрят на СЕО, она молчит, потом спрашивает, какие метрики - как изменилась цена привлечения пользователя. Оказывается расчет метрик по результатам АБ есть где то в аппендиксе, но они не прокрасились, стат значимой разницы нет. СМО говорит что цифры еще могу измениться и нужны месяцы для сбора данных, так говорит дата команды, но даже при этом стоимость привлечения юзера выглядит не очень.

Что было у меня Было что люди уходили, потому не было нейроночек, а нужны были аналитики. Топ менеджмент начал смотреть на метрики а спрашивать про стат значимость и понимать что тест надо крутить какое то длительное время. Качественные данные позволили понять, что есть места где можно много заработать. В некоторых случаях Топ менеджмент говорит что надо крутить тест долго - так нам сказала дата команда.


Девять месяцев после выхода на новую работу Почти все проекты с машинным обучением пошли в никуда, кроме одного. Есть интересный проект по рекомендациям. DS которая его сделала умеет во Flask и может сделать приложеньку, которая будет выплевывать результаты. PM команды вовлечен и хочет шипнуть этот проект как можно быстрее. К сожалению твой DS не умеет в нагруженные системы, но для 1% пользователей сделать может, звучит как АБ.

Аналитики из логистики пишут гигантские SQL запросы, твоя команда помогает их переписывать и оптимизировать. Директор логистики говорит что как только вы начали работать вместе, его аналитики стали гораздо продуктивнее, он сделает все чтобы нанять еще людей тебе в команду, чтобы они помогали его ребятам

Что было у меня МЛ проектов было побольше , где можно было без мл - делали без него. Однако прогноз спроса, антифрод, различные сегментации и аплифты - делали через машинное обучение. В основном вся помощь на другие подразделения компании происходила через Ad-hoc, для которого другие директора не жалели ресурсов

#CoolStory
👍111
Часть 3/3
Прошел год после выхода на новую работу
Идет планирование. Раньше это были дебаты, сейчас это ревью метрик и прокси метрик - есть целая иерархия метрик. Работа с ПМами дала свои плоды, они часто подтверждают свои результаты выкладками из аб или инсайтами из данных. Дата Аналитики помогли найти несколько багов за счет Exploratory Data Analysis. Идут работы по атрибуции для маркетинга. Тест рекомендашек оказался крайне успешным, но раскатить на 100% не так просто. СЕО дала зеленый свет - будем подключать инженеров. Множество тестов оказались безрезультативными или даже негативными. Но теперь это не провал, а повод понять что наша картина мира не совпадает с реальностью и нужно проводить дополнительные исследования

Что было у меня Примерно через год мы начали приносить деньги - ряд проектов выстрелил, иерархия метрик и внедрение культуры АБ тестирования заняли больше времени. Атрибуцией занялись с самого начала. Множество тестов оказались серыми или даже негативными, но это не провал, это норма. Уровень успешных тестов заметно выше того, что я видел в других местах, это вызывает уважение. Работа с ПМами дала свои плоды, они часто подтверждают свои результаты выкладками из аб или инсайтами из данных

#CoolStory
👍82
У меня есть друг и его зовут Адам Елдаров. Сейчас он CPO (Chief product officer) в youdo.com и отвечает за всю продуктовую часть этого сервиса. Наш общий друг постоянно называет его C3PO и Адам не обижается. Мы дружим с ним уже года три или четыре, хотя я до конца не уверен, потому что за все это время мы так ни разу и не ездили с ним вместе на гелике и не стреляли в воздух из калаша, возможно я ему и не друг вовсе.

Кроме продуктовой работы, Адам умеет писать код, разбирается в мл опс и девопс, машинном обучении и аналитике. Или старательно делает вид, но у меня не хватает квалификации его разоблачить, оцените например это видео https://m.youtube.com/watch?v=F-j0G0lrjFw
Кстати это именно он писал здесь коммент, мол чего это вы делали платформу АБ тестирования так долго и вдесятером, я один за две недели справился

Ещё он автор этого документа, https://youdo.notion.site/Product-Skills-Track-32bdfbe6b6c64bd182474c2050fa19d8 product skills track

Если бы у меня была своя компания и мне пришлось бы платить свои деньги, чтобы другие люди делали работу, я бы хотел нанять туда Адама.

К сожалению сегодня нанимаю не я, а он и не меня, а аналитика. В первом комментарии я сброшу описание, здесь скажу по деньгам. 200-300 тысяч рублей в месяц на руки база для аналитика и 300-400 для Лида. Правда чего хочется от Лида в первом комменте не будет. Возможно это неслучайно
Также Адам утверждает что премий нет и придется ему поверить. Хотя я не верю

#friends
👍111
В ближайшее время я буду рассказывать про инженерные грейды в технологических компаниях, на примере Фейсбука.

Эта система практически полностью повторяется в Гугле. Из российских компаний я встречал рабочую систему грейдов только в Яндексе.
Прежде чем описывать каждый грейд детально, начнем с общей информации
Существуют две основные ветки, Individual Contributor и Manager, при этом компенсация зависит от уровня, то есть VP и Инженер высокого уровня будут получать одинаковые деньги

Слева будет IC грейд и название, справа менеджер грейд и название

E2, Cтажёр, -, -, L2 Гугл, 12 грейд в Яндексе
E3, Джуниор, -,-, L3 Гугл, 13-14 грейд в Яндексе
E4, Мидл, - ,- ,L4 Гугл, 15-16 грейд в Яндексе
E5, Senior/Tech Lead, M0, редкий грейд начального менеджера, L5 в Гугле , 17-18 грейд в Яндексе
E6, Staff Engineer/Senior Tech Lead, M1,Engineering Manager, L6 в Гугле, 18-19 грейд в Яндексе
E7, Senior Staff Engineer, Senior Engineering Manager, L7 в Гугле, 19-20 грейд в Яндексе
E8, Principal Engineer, Engineering Director, L8 в Гугле. В Яндексе я с такими людьми мало тусил, пожалуй только Анатоликс (был руководителем разработки Поиска) и Алексей Шевенков (был техническим директором Маркета), если говорим про технарей

Дальше я не заходил, реальных вилок не знаю, поэтому и описывать не буду. В следующем посте расскажу из чего складывается компенсация, как на это влияет перформанс ревью и затем начну разбирать каждый грейд
#BigTechLevelsCompensation
👍203
Общался сегодня с кандидатом на Дата Аналитика, узнал много интересного

Tensorflow - для нейронных сетей, PyTorch для Deep Learning, вместе они для Machine Learning
Data Pipeline - это скрипт в питоне, подключающийся к MySql - на вопрос а как ты его регулярно запускаешь, сказал что нажимал на зеленый треугольник
Hadoop - он для больших данных, это единственное что получилось вытащить
Random Forest - классифицирует, там есть fit и predict

Замечу что все эти вещи указаны в резюме в разделе Tech Skills

Код я спрашивать не стал

#JobInterviewStory
👍10🤣8😁2
Не так давно, компания где я работаю выдала другой компании кредит в 525 миллионов долларов, чтобы те спокойно майнили крипту и не переживали.
Еще более недавно, мы купили Аргентинскую контору SeSocio и теперь все сто сотрудников оттуда стали нашими коллегами. Досталось и мне, я получил дата инженера и проект по интеграции всей дата инфраструктуры SeSocio. Меня терзают сомнения что это равноценный обмен.

Вот мой Босс получил командировку на три-шесть месяцев в Буэнос-Айрес и задачу отмасштабировать и превратить офис SeSocio в центральный офис в Латинской Америке. Он это умеет, не зря же рулил офисом Гугла в Сиэтле, где сейчас работает свыше 6300 человек. Не знаю насколько это равноценный обмен в его случае, но звучит неплохо.

Босс говорит что в Аргентине хорошие инженеры и дата саентисты, потому как достойные университеты. После сегодняшнего интервью с парнем из Штатов я не удивлюсь если это так, бейзлайн невысок. Вчера пообщался с CTO и Кофаундером SeSocio Гастоном Красным (да, у него русская фамилия), пообещал подогнать кандидатов, так как он сам в прошлом дата саентист. С интересом жду

#CoolStory
👍31
Прежде чем перейти к описанию инженерных уровней опишем из чего складывается Total Comp, что такое Перфоманс Ревью и как оно влияет на Total Comp
Total Comp складывается из трех компонент: Базовая зарплата + премия + RSU (у работников первого года еще есть бонус за подписание и бонус за релокацию)

Базовая зарплата это то, что сотрудник получает всегда и при любых условиях
Премия - это какой то процент от зарплаты за шесть месяцев, который выдается дополнительно по итогам ревью
RSU - это акции компании, которые выдаются на 4 года, с возможностью забирать 1/16 каждый квартал и делать с ними что захочется (продавать или держать) Период когда акции становятся твоими называется vesting, в момент наступления вестинга удерживается часть акций на оплату налогов, остальные переводятся на счет работника (Во многом поэтому мой последний день в ФБ был 15 ноября)
RSU складываются из начального гранта, который выдается при приеме на работу и refresher - пакета акций который выдается каждый год по результатам двух ревью. Кроме того VP может выдать additional equity

Раз в полгода проходит процедура перфоманс ревью, во время которой собирается calibration package каждого сотрудника и происходит калибровка, где по четырем осям оценивают инженеров одного уровня между собой и в итоге решают, кому какую оценку дать. Делается это коллективом из инженеров более высоких уровней, руководителей оцениваемых инженеров и их начальника, затем это идет на уровень выше и еще выше и выше, но не всегда. Очевидно что директорам и VP нет смысла калибровать E3, но есть смысл калибровать E6

Мне довелось участвовать в калибровках что в Яндексе, что в Фейсбуке
Итоговые оценки бывают следующие
Does not meet expectations - катастрофа, видел такое в Яндексе два раза, один из этих разов поспособствовал получению этой оценки(оценка А по шкале Яндекса на тот момент)
Meets some - очень плохо, премии и рефрешеров нет
Meets most - терпимо, 80% от базовой премии и рефрешеров
Meets all - хорошо, 100% от базовой премии и рефрешеров
Exceeds - очень хорошо, 125% от базовой премии и рефрешеров
Greatly Exceeds - отлично, 200% от базовой премии и рефрешеров
Redefines expectations - невероятно хорошо, 300% от базовой премии и рефрешеров - никогда не видел такое

Кроме того существует коэффициент перфоманса компании, который умножает все это на еще одно число в диапазоне между 0 и 1.5, для Фейсбука это почти всегда было больше 1
Итоговая оценка также влияет на получение повышений, нельзя перейти на следующий уровень получив MA. Также получить EE на 3 уровне и на 8 это две огромные разницы
Обычно на перфоманс ревью уходит 4-6 недель времени почти всего менеджмента компании. Это лучшая из системных процедур что я видел в плане оценки сотрудника, но она отнимает кучу времени. В ФБ с этого года обещают 1 перфоманс ревью в год, но по прежнему два окна для промо - посмотрим как они это реализуют. Возможно дадут больше власти менеджеру?

К слову у нас в Блокчейне запустили перфоманс ревью с этого года, сейчас как раз проходит первый экспериментальный сбор калибровочных пакетов, затем пойдут калибровки
#BigTechLevelsCompensation
👍251
This media is not supported in your browser
VIEW IN TELEGRAM
В субботу снимали промо для запуска нового проекта
👍5😁3💩3💅1
Пожалуй последнее что нужно знать перед детальным описанием левелов, это то, что единого стандарта пока что нет. В целом стараются придерживаться линейки ФБ/Гугла, но например 4 уровень в Apple это 5 в ФБ/Гугле, но Staff Eng в Linkedin это 5 уровень в фб и 4 в Apple.
#BigTechLevelsCompensation
👍2
В среду у меня новый кандидат.

Закончил прикладную математику в университете в Калифорнии, Master of Science in Data Science из Универа Чикаго.
В резюме пишет что знает PySpark, Tensorflow, PyTorch (работал с Databricks), A/B тесты и Model Deployment (Flask) !

Очень интересно посмотреть правда ли это так, надеюсь что да
В среду в ФизТехе веду семинар у магистрантов Кафедры Промышленного Анализа Данных Х5 по ML System Design

Я подготовил две сложных темы, поэтому и отвечать на них будут преподаватели:
Principal Engineer из OLX, Berlin
Руководитель Направления Машинного Обучения из Х5, Москва

Думаю получится интересно
👍5
Начнем по порядку. Е3 - иначе именуемый джуниором.
Примерная компенсация (берем США за точку отсчета)

Базовая зарплата - 110 - 140 тысяч долларов в год
Бонус - 5% от этого в год
Initial grant ±150 тысяч долларов
Refresher ~ 30 тысяч долларов в год
Может быть бонус за подписание от 30 до 100 тысяч долларов
Total Comp порядка 170-200 тысяч долларов в год, без учета бонуса за подписание

Что ожидается от E3?

Способность решать отдельные задачи независимо и с небольшой поддержкой, опираясь на собственную оценку и умение решать проблемы. Находить ответы на вопросы и решать возможные неполадки в разумное время, обычно за несколько дней

Способность решать все более сложные задачи. Желание и готовность искать новую работы, если текущие задачи решены. Желание принимать больше отвественности со временем

Понимание кодовой базы продукта или системы где ты работаешь. Способность предлагать улучшения и дополнения

Большая часть работы выполняется вовремя. Плотное сотрудничество с техлидом/менеджером, чтобы они помогли развить навык эстимации (оценки времени)

Принятие критики и работа над собой после получения конструктивной обратной связи.

Понимание и следование стандартам в фб в области дизайна, разработки, документации, ревью, тестов, анализа и деплоя кода. Демонстрация умений в анализе данных, программировании и SWE. На выходе должен получаться код высокого уровня, покрытый тестами, абстракции и Фреймворки используются когда необходимо

У Е3 есть 24 месяца чтобы стать Е4
- иначе на выход
#BigTechLevelsCompensation
👍213
Brexit вносит свои корректировки. Теперь, чтобы привезти сотрудника из Греции или Италии, необходимо делать ему рабочую визу.

Сегодня решили что нанимаем стажера из Италии на 6 месяцев, но он не может работать из Лондона, потому что рабочую визу мы делаем только для Full-time employee.

Впрочем, думаю с полутора медианными зарплатами среднего итальянца он не будет долго горевать, а затем мы его увезем за море

#CoolStory
👍5
У трех сотрудников Ковид, один в Аргентине, второй в Лондоне, Третий в Бостоне. У одного вообще нет симптомов, у второго легкие, у третьего средней степени недомогание. Можно через свою команду следить за распространением эпидемии
Недавно я рассказывал про статью 2021 года, Using Synthetic Controls: Feasibility, Data Requirements, and Methodological Aspects

Если задуматься, эта статья тесно связана с методами матчинга , только вместо поиска подходящего матча, мы его создаем
Возникает вопрос, как же подобрать матч? Раньше в моей голове в эти моменты всплывал propensity score

К счастью, недавно я наткнулся на статьи и выступления Gary King, который сейчас директорствует в Гарварде в the Institute for Quantitative Social Science.

Советую ознакомиться с его выступлением Gary King, "Why Propensity Scores Should Not Be Used for Matching"
https://www.youtube.com/watch?v=rBv39pK1iEs&t=3103s
В этом выступлении есть очень интересный слайд, в котором утверждается что если мы проводим Fully Blocked А/В эксперимент, то это снижает стандартную ошибку оценки эффекта на 600%

Что в целом начинает напоминать чем-то стратификацию через множество ковариат

#ArticleReview
👍3