Avito Data Tech – Telegram
Avito Data Tech
3.25K subscribers
273 photos
12 videos
1 file
182 links
Эксперты Авито делятся опытом развития аналитической платформы.

Будет полезно для инженеров, аналитиков и тимлидов в сфере Big Data.
Download Telegram
Почему мы идем в Data Lakehouse?

В этом посте мы рассмотрим варианты построения аналитического хранилища данных и представим концепцию Data Lakehouse.

Хранилище данных — это ядро аналитической платформы, которое состоит из 6 компонентов:
- Storage — собственно, где хранятся данные.
- Storage Engine — движок, отвечающий за физическую оптимизацию хранения данных.
- Compute Engine — движок, отвечающий за выполнение запросов и обработку данных.
- Catalog — система хранения метаданных (таблицы, схемы).
- Table Format — система, обеспечивающая SQL-like синтаксис работы с табличными данными.
- File Format — формат хранения данных (колоночные, строковые, ...).

Первая концепция Data Warehouse (DWH) появилась еще в 1980-х годах. В концепции описанные выше компоненты содержатся в одной коробке и максимально заточены друг под друга. Такой вариант удобен для аналитика: единая точка входа, хорошо работают аналитические запросы, просто управлять данными, схема валидируется при записи. При этом DWH редко приспособлен для решения data science задач: не приспособлен к ML-нагрузке и хранит только структурированные данные. С точки зрения администратора такое хранилище легко конфигурировать, при этом оно лишено гибкости. Один из главных недостатков — на больших объемах хранилище слишком дорого масштабировать (Compute и Storage движки соединены), подменить Compute — нельзя, всё закрыто через вендор-лок.

В 2011 году компания Pentaho представила подход Data Lake. Это парадоксально, но в таком подходе в хранилище отсутствует Storage Engine. Как преимущество — данные хранятся в открытых форматах и на дешевом железе, в хранилище может быть несколько Compute Engine (решается проблема масштабирования). Также Data Lake отлично заточен на решение data science задач: он хранит неструктурированные данные и приспособлен к ML-нагрузке. При этом такое хранилище существенно сложнее поддерживать: нужно выбирать, собирать и затачивать друг под друга компоненты. Аналитику приходится работать с неструктурированными данными и мириться с плохим перформансом запросов по сравнению с DWH.

Следующей революцией в мире аналитических хранилищ данных стала парадигма Data Lakehouse. В эту сторону двигались некоторые Big Tech компании, а термин ввели Jellyvision в 2017 году. Из названия мы понимаем, что этот подход призван совместить плюсы двух предыдущих концепций. Lakehouse предоставляет DWH-like интерфейс, предоставляет сопоставимую скорость выполнения запросов. При этом интерфейс построен на открытых технологиях, дешевом железе и приспособлен для ML-задач, как Data Lake. Разумеется, такой подход сложнее с точки зрения администрирования, но это стоит того, в особенности на больших объемах.
Хотите узнать подробнее про наш Data Lakehouse? Ставьте 👍

#Databases
👍63🔥76🥱3
Как провести эксперимент в офлайне на высоконагруженном сервисе или переиспользовать его внутреннюю логику для аналитики и ML?

Ваня Ахлестин, наш биг-дата инженер, в статье расскажет, как вписать кусочек сервиса на Go в стандартный бигдата батч-стек в виде Kafka/Hadoop/PySpark. Для этого он приготовил демо-проект, который сможет переиспользовать каждый.
🔥8👍4👌3
Как строить план развития, когда ты тимлид?

Всем привет, я Денис Пехтерев, руководитель команды аналитики в блоке монетизации.

Сегодня я решил поделиться с вами тем, как подхожу к формированию своего индивидуального плана развития (ИПР) как менеджер.

Зачем я это делаю?

Это регулярный процесс рефлексии, который заставляет меня собрать обратную связь, переработать её и наложить на свои будущие проекты. Следовательно помогает мне куда эффективнее реализовывать те проекты, в которых я заинтересован, а значит и расти в компании.

Что конкретно делаю?

1. Собираю обратную связь у руководителя и бизнес партнёров (UL, CL) по тому, чего мне не хватает и наоборот, где мои сильные стороны.
У ребят на моей роли и следующей узнаю, что полезного они проходили, слушали, читали за последние 2 года, что им помогло в работе;

2. Смотрю на карту компетенций менеджеров, а именно, какие вещи мне нужно прокачивать на следующей роли vs моя текущая роль;

3. Накладываю п.1 и п.2 на тот список проектов, который у меня есть в OKR. Это помогает мне понять, а как я могу реализовать недостающие компетенции и прокачать свои слабые/сильные стороны через призму имеющихся на столе проектов;

4. Вместе с руководителем (или сам) структурирую получившееся в п.1/п.2/п.3 и стараюсь выделить общие паттерны.

Пример: мне с руководителем предстоит написать стратегию + моему бизнес партнёру, продуктовому лиду, нужен будет кусок аналитической стратегии. Окей, записываю в свой план: стратегическое мышление/видение, составление стратегии.

Пример 2: Люблю делиться знаниями, т.к. это помогает их лучше переварить. Соответственно собирался выступать во вне в этом полугодии (ведущим, подкаст и ост) - прошёл курс по Публичным выступлениям (внутренний Авито, он реально топ).


5. Обращаюсь к TnD партнёру, у нас это прекрасная Аня. К ней я прихожу с:
a. С названием курсов, если сам собрал у коллег ОС, что они крутые;
b. С названием компетенций, которые я хочу прокачать;
c. С общими проблемами, которые я хочу закрыть.

6. Далее Аня уходит за подбором курсов/менторов под те точки роста, которые я выделил выше. Когда Аня возвращается со списком, мы вместе определяем:
— Их приоритетность, т.к. решать в итоге мне, что выбирать из меню тех возможностей, которые TnD партнёр мне озвучил;
— Понимаю их влияние на рост людей по отзывам/комментариям тех, кто их проходил. Отсюда понимаю, подходит ли формат лично мне;
— Оцениваю вместимость этих активностей в меня - успею ли я везде со всеми проектами.

7. Выбираю курсы и прохожу до конца!
Если я понимаю из п.1-п.4 свою мотивацию (= новые навыки, рост в компании), в п.5/6 мне их подобрали, и я подписался - значит теперь я комичусь их проходить и выносить максимальную пользу.
При этом бывают и случаи, когда из всего курса я не слушал только 2 модуля из 4. Да, значит я послушаю только их, остальные закрою на прошлых навыках, ведь время у меня не резиновое.

Поделюсь подборкой курсов для аналитиков в следующем посте, до встречи!

#analytics
👍21🔥136
Запуск нового продвижения с красными тестами на пилоте, ещё и на 500 пользователей — как это было? Ответ на нашем НЕмитапе!

В программе доклад двух старших аналитиков продукта из команды Analytics&Monetisation, Юлии Голубевой и Евгении Мурзаевой. Расскажут обо всём в подробностях: от первых A/В-тестов в ситуациях, когда цена ошибки высока, до отслеживания результатов после масштабирования.

Полезные материалы для изучения:
Доклад «Как мы используем теорию игр и data science в монетизационных продуктах»
Доклад «Как мы запускали новую модель продвижения — матчинг»
Доклад «Аналитика нового продукта под ключ»
Статья «Causal Inference for The Brave and True - Propensity Score»
Статья «A Review of Propensity Score Modeling Approaches»
Статьи «Как улучшить ваши A/B-тесты: лайфхаки аналитиков Авито» — Часть 1 и Часть 2
6👍5👌2👎1
Команда Trisigma в Авито развивает свою платформу проведения A/B-тестов. Мы прошли большой путь: вышли на темп 4000+ экспериментов в год, из них 350+ одновременно, обрабатывая 18B+ событий в день.

А знаете, сколько времени тратят на анализ экспериментов наши аналитики? Нисколько.

Никаких секретов, только Trisigma. Это платформа автоматизации A/B-тестирования, созданная нашими инженерами. Подробнее о преимуществах и алгоритме работы Trisigma — в обзоре аналитика Артёма Дронова.

Вопросы, предложения, заявки на демо — всё принимается.
🔥2618👌1
Avito Data Tech
Команда Trisigma в Авито развивает свою платформу проведения A/B-тестов. Мы прошли большой путь: вышли на темп 4000+ экспериментов в год, из них 350+ одновременно, обрабатывая 18B+ событий в день. А знаете, сколько времени тратят на анализ экспериментов наши…
Не отходя далеко: в команду разработки Trisigma очень ищут старшего аналитика данных.

Вкратце, что предстоит сделать:
➡️ Создавать простые интерфейсы для сложных задач.
➡️ Реализовывать теоретические идеи в реальные решения.
➡️ Разрабатывать аналитический движок и язык метрик.
➡️ Развивать BI-аналитику с помощью LLM и работать с big data технологиями (Trino, Iceberg, Clickhouse).
➡️ Обучать пользователей (аналитиков, продактов) работать с платформой и делиться экспертизой.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍17😍3👌1
Всем привет! На связи снова Денис Пехтерев, TL команды аналитики. Сегодня хочется обсудить тему видимости команды как внутри своей доменки (для заказчиков), так и вне своей команды.

Этот пост будет полезен тем, кто хочет рассказать о себе и команде как внутри компании, так и снаружи. Отсюда же потенциальные кандидаты смогут увидеть команду и захотят попасть именно к вам, что упрощает/ускоряет найм.

Начнём с того, что видимость можно представить как охватную историю (Денис аналитик зашёл в чат), поэтому и качать её нужно аналогично. Желательно с наименьшими трудозатратами, чтобы она была производной всей вашей аналитической деятельности.

Для этого мы используем следующий полезный фреймворк:

📎 Нашёл сложную задачу ➡️ Посидел и качественно решил её ➡️ Оформил по всем внутренним шаблонам ➡️ Рассказал на Демо внутри доменки ➡️ Рассказал внутри Авито на всех аналитиков ➡️ Рассказал на внешних площадках.

Почему работает?
Потому что на каждом этапе ты получаешь награду за хорошее выполнение + тебе это интересно (раз ты аналитик), все шаги находятся в логичном порядке и делая качественно предыдущий шаг — тебе будет легче и проще сделать следующий.

Этот фреймворк мы зашиваем в каждую масштабную задачу своей команды. Как итог мы получаем максимальный ROI = выхлоп/затраченные ресурсы.

Напишите, как действуете вы вместе с командой в треде, обсудим!
Please open Telegram to view this post
VIEW IN TELEGRAM
14🔥6👍5🆒3
Всем привет! Продукт Авито Недвижимости активно растет - у нас появляется все больше направлений, в которых мы развиваемся. В связи с этим мы ищем талантливых ребят, которые усилят нашу аналитическую команду и помогут нам в достижении наших целей.

🚀 Где посмотреть команды, куда мы ищем людей? Собрали для вас в одном месте описание наших вакансий. Если вам откликнулась одна из вакансий Авито путешествий, пишите @moiseevavera5, по всем остальным - @iri_vovk.

🚀 Почему у нас классно? Рассказали про это в статье «Почему в Авито сильная аналитическая культура: 6 главных принципов команды Недвижимости».
Please open Telegram to view this post
VIEW IN TELEGRAM
🤩11👍63❤‍🔥1
Всем привет!

Денис Пехтерев снова с вами, сегодня делюсь обещанными курсами/книгами из предыдущего поста про развитие 😀

Сам использую для развития и могу рекомендовать:

1. Книги. При том, что я обожаю Kindle, печатные книги отлично переводят дух и дают отдохнуть глазам. Также я много и активно в них выделяю, интересное записываю в заметках на iPhone (выписываю batch(ом) в Notion/Anki, когда собираюсь закончить читать).

1) Ментальный рост:

🗂The Daily Stoic - каждый день тебе предлагается 1 философская мысль, каждый день рефлексируешь и отмечаешь какие-то вещи про себя из собственного опыта (самый важный кусок) и чувствуешь, как становишься лучше. Мне помогла найти полезные паттерны, которые стали принципами.
🗂Atomic Habits - про цикл формирования привычки с 0 до 100%, книга научила меня проходиться по этим этапам, рождая полезные привычки, параллельно убирая из повседневной жизни плохие. Люди вокруг замечают улучшения, что также делают оценку объективнее.

2) Работа с командой и стрессом:

🗂«Идеальный руководитель» Ицхака Адизеса — кажется, что я дошёл до тех же мыслей на собственной шкуре относительно формирования команды и ролей её участников, но всё же фундамент моих убеждений эта книга помогла сформировать.
🗂 «The Happiness Advantage» — читается быстро, книга про методы управления стрессом и то, как с улыбкой относиться почти ко всем новостям, видя в них больше возможностей. Согласитесь, когда видишь больше возможностей - больше хочется идти вперёд.

3) Про жизнь и рефлексию:

📌 GreenLights Мэттью Макконахи — эта книга +1 к рефлексиии о жизни, как отдушина современному миру. Точно душевно восстанавливает, точно есть смешные моменты, которые отмечаешь и в своей жизни!
📌 В прошлом году Skyeng и iTalki брал, в этом решил повторить для поддержания уровня владениям языком.
📌 Психолог — понимаю, что менеджерская зрелость также упирается и в какие-то мои внутренние установки. Долго искал своего психолога, собрал кучу трэшовых историй, но нашёл того самого и мы успели за 3 сеанса столько вещей обсудить/проработать, что до сих пор под впечатлением)

Материалы на новый год обучения

1. Список книг к прочтению:
➡️ Докачиваю навык публичных выступлений:
- Принцип пирамиды Минто. Золотые правила мышления, делового письма и устных выступлений Барбара Минто.
➡️ Ментальный рост:
- Поток: Психология оптимального переживания.
➡️ Про прокачку мышления:
- Геймдизайн: Как создать игру, в которую будут играть все;
- Timothy Ferriss: Tools of Titans.
➡️ Художественная рагрузка после рабочего дня:
- книги Курта Ваннегута, начал с Сирены титана.
2. Закупил ChatGPT+, т.к. много где можно использовать, в том числе при написании и вычитки доков, изучении языков;
3. Пройду тест Хогана, сформулирую свои точки роста с коучем.

Важно, что это книги, которые советовали/интересны лично мне из разных подкастов/обсуждений *(не является индивидуальной инвестиционной рекомендацией)*.

p.s. Также я написал python-скрипт, который позволяет мне импортировать все заметки из книг Kindle/iBooks (pdf формат) в Anki/Notion. Пишите в тред, если вам будет полезен — красиво оберну его в течение месяца и опубликую!

#analytics
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥287👎3👌3
⚡️ Всем привет!

Сегодня Дасаев Гарри, старший аналитик в команде Marketplace Seller в Авито, делится своим опытом взаимодействия с командой DWH. В статье можно узнать, как выстроено взаимодействие DWH и аналитики в Авито, а также почерпнуть советы из практического опыта, как правильно планировать работу с хранилищем данных, чтобы не утонуть в задачах и не сломать всё на свете 😀

☄️ Переходите по ссылке и читайте статью!

#DWH
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥21👍7👎3🙏3
Всем привет 😀

Записал видео на тему выгорания для тимлидов и аналитиков. В нём поделился своим подходом, который поможет не только самому справиться с этим, но и поддержать вашу команду.

🔍 Рассказал о метриках и признаках, по которым можно выявить выгорание, и предложил простые шаги для восстановления баланса в трёх ключевых сферах: умственной, духовной и физической.

Рекомендации уже помогли мне и моей команде, и теперь могут быть полезны вам.

Если вам интересно будет их обсудить - приходите в личку: https://news.1rj.ru/str/mr_pekhterev
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥12👍8👏3🐳2
Чтобы привлекать ликвидность из внешних рекламных платформ, мы отправляем в рекламные системы целевые события. Системы используют эти данные в рамках realtime-аукциона за пользователя.

А чтобы избежать 3rd party-маркетингового кода внутри фронта и мобильных приложений, а также дать возможность обогащать данные аналитическими моделями, мы разработали сервис под названием Marketing Manager.

С его помощью мы уменьшили ТТМ по заведению экспорта с двух месяцев до нескольких дней и обеспечили гарантию ботной очистки потока за счёт онлайн антибота.

Подробнее об инструменте — в хабрастатье Вячеслава Сухорукова, бекэнд-инженера департамента разработки Analytics Platform.
👍138🔥7😍1
⭐️ Найти баланс между «заработать больше» и «принести пользу» может искусственный интеллект. А научил его Егор Самосват, наш руководитель юнита эффективности монетизации.

💻 В Machine Learning Podcast Егор рассказал об этом и о том, почему выбирает долгосрочные стратегии. Объяснил, почему модели могут ошибаться и как сейчас устроена контекстная реклама.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥86👍2👌2