Аналитика и Big Data уже играют ключевую роль в жизни многих компаний, а с трендами на цифровизацию и развитие AI эта потребность только нарастает. Компании решают похожие проблемы: как сделать "нормальную" аналитику, какие технологии и архитектуру выбрать, как обрабатывать данные эффективно, как справиться с уходом вендоров, как защитить бюджет на развитие платформы и т.д.
Авито с 2013 года удалось пройти длинный путь внедрения аналитической платформы, масштабирования ее в тысячи раз, выбора и отказа от вендорских решений, экономии сотен миллионов рублей для компании. Сейчас тысячи сотрудников ежедневно решают аналитические задачи самостоятельно с помощью платформы, она является ядром развития многомиллиардного бизнеса компании.
Теперь мы хотим нанести ценность не только внутри компании, но и за ее пределами. В этом канале эксперты (инженеры, аналитики и руководители) будут делиться опытом по развитию аналитической платформы внутри компании и делать анонсы продукта, который мы выводим на внешний рынок.
Подписывайтесь, чтобы прокачать свою аналитическую платформу!
Авито с 2013 года удалось пройти длинный путь внедрения аналитической платформы, масштабирования ее в тысячи раз, выбора и отказа от вендорских решений, экономии сотен миллионов рублей для компании. Сейчас тысячи сотрудников ежедневно решают аналитические задачи самостоятельно с помощью платформы, она является ядром развития многомиллиардного бизнеса компании.
Теперь мы хотим нанести ценность не только внутри компании, но и за ее пределами. В этом канале эксперты (инженеры, аналитики и руководители) будут делиться опытом по развитию аналитической платформы внутри компании и делать анонсы продукта, который мы выводим на внешний рынок.
Подписывайтесь, чтобы прокачать свою аналитическую платформу!
👍6❤1
Всем привет, давайте знакомиться!😄 Сложно уместить в один текст или даже статью рассказ об аналитической платформе Авито. Вместо знакомства текстом поделимся с вами целым сезоном подкаста, который мы выпустили совместно с коллегами из @datacoffee:
• 📊аналитическая платформа (Евгений Николаев)
• 🕸интеграция с инфраструктурой компании (Александр Филатов)
• 🆎A/B эксперименты (Данила Леньков)
• 📒логирование событий и их доставка (Евгений Суворов)
• 🛍витрины данных (Павел Пучков)
• 👨💻доступ к данным и каталог (Олег Харатов)
• 🛠self-service и BI (Илья Аникин)
Дальше мы планируем серию публикаций, поделитесь в комментариях, какие темы вам были бы наиболее интересны!
• 📊аналитическая платформа (Евгений Николаев)
• 🕸интеграция с инфраструктурой компании (Александр Филатов)
• 🆎A/B эксперименты (Данила Леньков)
• 📒логирование событий и их доставка (Евгений Суворов)
• 🛍витрины данных (Павел Пучков)
• 👨💻доступ к данным и каталог (Олег Харатов)
• 🛠self-service и BI (Илья Аникин)
Дальше мы планируем серию публикаций, поделитесь в комментариях, какие темы вам были бы наиболее интересны!
👍16❤4👏2
Хотите погрузиться во внутренности распределенных СУБД?
Подпишитесь на канал Carnegie Mellon University Database Group со свежими лекциями Энди Павло:
• Intro to Database Systems: все про устройство СУБД, в том числе распределенных - работа с диском и памятью, структуры данных и алгоритмы
• Advanced Database Systems: сжатие данных, сложные алгоритмы join'ов и устройство оптимизатора в СУБД. После теории автор разбирает современные распределенные движки: Databricks Photon / Spark SQL, Google BigQuery / Dremel, Snowflake
Понимание устройства распределенных СУБД поможет вам писать более эффективные запросы к существующим хранилищам данных и научит проектировать новые.
Энди Павло - профессор CMU и один из немногих учеников Майкла Стоунбрейкера, отца Postgres и Vertica. Ученики Энди Павло, в свою очередь, сегодня разрабатывают топовые движки: Databricks, BigQuery, Snowflake и другие.
#Databases
Подпишитесь на канал Carnegie Mellon University Database Group со свежими лекциями Энди Павло:
• Intro to Database Systems: все про устройство СУБД, в том числе распределенных - работа с диском и памятью, структуры данных и алгоритмы
• Advanced Database Systems: сжатие данных, сложные алгоритмы join'ов и устройство оптимизатора в СУБД. После теории автор разбирает современные распределенные движки: Databricks Photon / Spark SQL, Google BigQuery / Dremel, Snowflake
Понимание устройства распределенных СУБД поможет вам писать более эффективные запросы к существующим хранилищам данных и научит проектировать новые.
Энди Павло - профессор CMU и один из немногих учеников Майкла Стоунбрейкера, отца Postgres и Vertica. Ученики Энди Павло, в свою очередь, сегодня разрабатывают топовые движки: Databricks, BigQuery, Snowflake и другие.
#Databases
CMU 15-445/645
Schedule - CMU 15-445/645 :: Intro to Database Systems (Fall 2023)
Course schedule with slides, lecture notes, and videos.
🔥15👍4❤🔥1❤1
🚀 Переосмысливаем BI в большой компании: наш путь к open source с Redash
В 2022 году мы столкнулись с задачей замены Tableau, лидера в области BI, на open source решение. Нам предстояло не только выбрать новый инструмент, но и изменить подход к аналитике данных.
🔍 Выбор инструмента: аналитический метод
Переход начался с анализа. Мы изучили лидеров рынка и open source альтернативы, оценивая их по ключевым параметрам:
- функциональность
- удобство использования
- масштабируемость
- стоимость.
Импортные BI решения сразу были убраны со стола, из-за сложностей с покупкой и наличием вендорлока. А российские BI системы еще не были развиты на приемлемом уровне. Поэтому у нас выбор был между SuperSet, Redash и Metabase.
Далее мы проанализировали логи использования Tableau и подготовили список функций, которые применялись нашими пользователями, а дальше оценили open source BI тройку на соответствие этим функциям. К сожалению любой open source далек от Tableau и мы начали оценивать стоимость и сложность доработок.
Среди всех кандидатов Redash выделился, показав наилучшее соответствие нашим требованиям, т.к. он полностью соответствовал нашему стеку, в отличии от metabase и в нем не пришлось бы сильно ломать пользовательские сценарии, как SuperSet.
🛠 Усиление функционала
Приняв решение в пользу Redash, мы начали активно развивать функциональность, уже за первые пол года были сделаны разные фичи, например такие как: Row Level Security, Workbooks, Projects, Presets, переделаны типы визуализаций, “экстракты как в Табло” и т.д.
🚀 Технические улучшения
Переход на TypeScript и усиленное покрытие unit-тестами значительно улучшили стабильность и производительность нашего решения. Мы сократили технический долг и повысили эффективность разработки и поддержки.
💡 Результаты
Переход на Redash не только открыл для нас новые возможности по масштабированию и адаптации под нужды бизнеса, но и позволил существенно расширить функциональность BI-инструментария, сделав его более быстрым и надежным для конечных пользователей.
А в будущих постах про BI мы будем больше рассказывать про фичи которые уже были разработаны и продолжают разрабатываться в Avito Redash.
#BI #Redash
В 2022 году мы столкнулись с задачей замены Tableau, лидера в области BI, на open source решение. Нам предстояло не только выбрать новый инструмент, но и изменить подход к аналитике данных.
🔍 Выбор инструмента: аналитический метод
Переход начался с анализа. Мы изучили лидеров рынка и open source альтернативы, оценивая их по ключевым параметрам:
- функциональность
- удобство использования
- масштабируемость
- стоимость.
Импортные BI решения сразу были убраны со стола, из-за сложностей с покупкой и наличием вендорлока. А российские BI системы еще не были развиты на приемлемом уровне. Поэтому у нас выбор был между SuperSet, Redash и Metabase.
Далее мы проанализировали логи использования Tableau и подготовили список функций, которые применялись нашими пользователями, а дальше оценили open source BI тройку на соответствие этим функциям. К сожалению любой open source далек от Tableau и мы начали оценивать стоимость и сложность доработок.
Среди всех кандидатов Redash выделился, показав наилучшее соответствие нашим требованиям, т.к. он полностью соответствовал нашему стеку, в отличии от metabase и в нем не пришлось бы сильно ломать пользовательские сценарии, как SuperSet.
🛠 Усиление функционала
Приняв решение в пользу Redash, мы начали активно развивать функциональность, уже за первые пол года были сделаны разные фичи, например такие как: Row Level Security, Workbooks, Projects, Presets, переделаны типы визуализаций, “экстракты как в Табло” и т.д.
🚀 Технические улучшения
Переход на TypeScript и усиленное покрытие unit-тестами значительно улучшили стабильность и производительность нашего решения. Мы сократили технический долг и повысили эффективность разработки и поддержки.
💡 Результаты
Переход на Redash не только открыл для нас новые возможности по масштабированию и адаптации под нужды бизнеса, но и позволил существенно расширить функциональность BI-инструментария, сделав его более быстрым и надежным для конечных пользователей.
А в будущих постах про BI мы будем больше рассказывать про фичи которые уже были разработаны и продолжают разрабатываться в Avito Redash.
#BI #Redash
🔥21❤3👌1
Airflow Declarative - как не дать себя опутать
Те кто давно разрабатывают пайплайны для Airflow не понаслышке знают насколько легко в код проектов прорастают специфичные для самого Airflow API и функционал.
Для того, чтобы оградить разработчиков, от необходимости собирать пайплайн внутри питон-кода и вендор лока на airflow и была создана библиотечка airflow-declarative.
Делимся историей о предпосылках создания библиотеки и ее возможностях -
https://telegra.ph/Airflow-Declarative---kak-ne-dat-sebya-oputat-04-05
#Airflow
Те кто давно разрабатывают пайплайны для Airflow не понаслышке знают насколько легко в код проектов прорастают специфичные для самого Airflow API и функционал.
Для того, чтобы оградить разработчиков, от необходимости собирать пайплайн внутри питон-кода и вендор лока на airflow и была создана библиотечка airflow-declarative.
Делимся историей о предпосылках создания библиотеки и ее возможностях -
https://telegra.ph/Airflow-Declarative---kak-ne-dat-sebya-oputat-04-05
#Airflow
Telegraph
Airflow Declarative - как не дать себя опутать
История создания airflow-declarative восходит к 2017 году (кажется airflow был тогда версии 1.6-1.7), когда я работал в Рамблере (RIP) - мой старший инфраструктурный инженер и куратор Саша Шорин aka kxepal, к тому моменту уже успевший год как отмигрировать…
🔥10👌2
Сегодня мы заглянем под капот Vertica и расскажем о некоторых проблемах из практики ее обслуживания. Мы активно мигрируем ежедневные расчеты данных в Trino, но большая их часть по-прежнему крутится в Vertica. Недавно с ней приключилась интересная история.
https://telegra.ph/Kak-OOM-killer-Vertica-ubival-04-08
#Vertica
https://telegra.ph/Kak-OOM-killer-Vertica-ubival-04-08
#Vertica
Telegraph
Как OOM киллер Vertica убивал
Недавно мы обнаружили, что OOM киллер вдруг стал убивать процессы Vertica. Заглянув в atop, мы увидели, что она использовала меньше 300ГБ памяти, а остальные процессы набирали еще максимум 100ГБ при пределе в 500ГБ на сервер. Вроде мы еще далеки от лимита…
🔥11👌1
Наш аналитик, Артём Дронов, рассказал, как мы в Авито масштабируем AB-эксперименты. На платформе Trisigma проходит порядка 3000 экспериментов в год и это количество растет 40% YoY (конечно, у нас data-driven подход).
Теперь мы готовы выводить платформу на внешний рынок и уже ведем пилотные проекты с некоторыми компаниями.
Рекомендуем к просмотру!
#AB
Теперь мы готовы выводить платформу на внешний рынок и уже ведем пилотные проекты с некоторыми компаниями.
Рекомендуем к просмотру!
#AB
YouTube
Как масштабировать AB эксперименты | Артем Дронов | A/B Platform 2024 | SberMarket Tech
Поговорим, как в Авито бизнес формулируют свои цели основываясь на глобальных метриках. И как при этом команды оценивают свои результаты по результатам A/B, направленным на различные сегменты аудитории. Расскажем про методологию приведения результатов экспериментов…
❤17🔥4👌3
Всем привет! Мы уже рассказывали про повышение качества данных с использованием Zero Bug Policy.
Прошло полгода и сегодня мы хотим поделиться рассказом про риск-ориентированный подход и метрики качества данных.
https://telegra.ph/Risk-orientirovannyj-podhod-k-DQ-04-17
#DQ
Прошло полгода и сегодня мы хотим поделиться рассказом про риск-ориентированный подход и метрики качества данных.
https://telegra.ph/Risk-orientirovannyj-podhod-k-DQ-04-17
#DQ
Telegraph
Риск-ориентированный подход к DQ
Мы, как команда Data Quality, стремимся, чтобы о нас забыли: если никто не говорит про качество данных, значит, все хорошо. Можно провести аналогию с безопасностью - о нас вспоминают, когда творится что-то неладное. В мире безопасности давно главенствует…
👍14❤3
Привет! Сегодня расскажем, как можно быть эффективнее аналитической СУБД на примере джойна на коленке. Погнали:
https://telegra.ph/Kak-baza-mozhet-proigrat-algoritmu-na-kolenke-04-23
#Databases
https://telegra.ph/Kak-baza-mozhet-proigrat-algoritmu-na-kolenke-04-23
#Databases
Telegraph
Как база может проиграть алгоритму на коленке
С начала времен мы строим хранилище данных в Авито на основе методологии Anchor Modeling. Принято считать, что такая методология хорошо работает за счет локальных и мердж джойнов. И даже более того, что нет ничего лучше для настолько нормализованных данных. …
❤15👍2🤨1
Привет всем! Сегодня мы продолжаем тему качества данных рассказом об анализе критических инцидентов с пользовательскими событиями.
https://telegra.ph/CHto-mozhno-uznat-iz-analiza-kriticheskih-incidentov-svyazannyh-s-logirovaniem-analiticheskih-sobytij-04-26
#DQ
https://telegra.ph/CHto-mozhno-uznat-iz-analiza-kriticheskih-incidentov-svyazannyh-s-logirovaniem-analiticheskih-sobytij-04-26
#DQ
Telegraph
Что можно узнать из анализа критических инцидентов, связанных с логированием аналитических событий?
Сегодня мы начинаем большой цикл статей о системе логирования пользовательских действий в Авито. Многосерийный рассказ о том, как действия пользователей порождают аналитические события, которые в процессе множества трансформаций в пайплайне данных превращаются…
👍15🔥5
Самый важный SQL-запрос в моей карьере.
Сегодняшний пост про анализ аб-тестов. Будет полезен всем аналитикам и bi-девелоперам.
Создатель in-house платформы для A/B-тестирования в Авито Данила Леньков делится лайфаком: как свести задачу расчета Minimum Detectable Effect к простому SQL-запросу.
Читайте и делитесь в комметриях своими лайфхаками про анализ #аб!
Сегодняшний пост про анализ аб-тестов. Будет полезен всем аналитикам и bi-девелоперам.
Создатель in-house платформы для A/B-тестирования в Авито Данила Леньков делится лайфаком: как свести задачу расчета Minimum Detectable Effect к простому SQL-запросу.
Читайте и делитесь в комметриях своими лайфхаками про анализ #аб!
Telegraph
Самый важный SQL-запрос в моей карьере или как посчитать MDE правильно
Больше 6 лет я занимаюсь вопросами культуры и автоматизации A/B-тестирования. Сотни часов я провел, консультируя аналитиков внутри и за пределами Авито по вопросам дизайна экспериментов. Тема A/B не всегда дается легко, несмотря на большое количество материалов…
🔥45❤2👍2👌1