В @ozon_tech вышел второй эпизод подкаста Рандомные Дрова.
Ребята расширили стек и добавили дата-аналитику. Можно послушать про собесы, кейсы, обучение, тех.интервью и процессы в разных компаниях.
В этом эпизоде встретились Ван Хачатрян (Head of ML Ozon), Денис Нечитайло (Head of Product Analytics Ozon) и Сергей Юдин (COO Яндекс Кью).
Обсудили, где пролегает граница между дата-сайентистами и дата-аналитиками, поговорили о том, что нужно дата-сайентисту и что пригодится аналитику данных, рассказали, откуда взялась мода на дата-сайентистов (спойлер: по одной изверсий, из-за этой статьи «Дата-сайентист – самая сексуальная профессия»).
Послушать можно тут:
🎧Яндекс
🎧Apple
🎧Google
Ребята расширили стек и добавили дата-аналитику. Можно послушать про собесы, кейсы, обучение, тех.интервью и процессы в разных компаниях.
В этом эпизоде встретились Ван Хачатрян (Head of ML Ozon), Денис Нечитайло (Head of Product Analytics Ozon) и Сергей Юдин (COO Яндекс Кью).
Обсудили, где пролегает граница между дата-сайентистами и дата-аналитиками, поговорили о том, что нужно дата-сайентисту и что пригодится аналитику данных, рассказали, откуда взялась мода на дата-сайентистов (спойлер: по одной изверсий, из-за этой статьи «Дата-сайентист – самая сексуальная профессия»).
Послушать можно тут:
🎧Яндекс
🎧Apple
Слышали про новый гайд от MyTracker для прогноза LTV приложений? Рассказываю 😉
Команда предиктивной аналитики MyTracker описали, какими моделями пользоваться и как, чтобы самостоятельно построить прогноз LTV мобильного приложения.
Чему можно научиться после практики по гайду:
1️⃣ Работать с сырыми данными, предобратывать их (это изи)
2️⃣ Представлять в виде пригодных данных для анализа (посложнее, но задачка уровня джун+)
3️⃣ Подбирать модели и корректно оценивать их по метрикам (а вот и хардкор)
Из моделей разбираются:
- модель на основе catboost
- модель на основе линейной регрессии
- коэффициентная модель
- модель на основе экстраполяции логарифмом
Для кого полезно? Маркетинг менеджеры, продакты, аналитики
Что нужно уметь? Хотя бы немного в Python, чтобы применить рекомендации на практике (внутри примеры кода)
Если интересно, оставьте свои контакты на лендинге и скачивайте 👉 e-book
А что делать если данных для практики нет?
Даже если у вас нет своего продукта или клиентских данных и на первых страницах возникнет вопрос, — все круто, полезно, а где взять выгрузки, чтобы поиграться с моделями?
Ссылку на сырые данные, ищите на 14-й странице. Внутри:
файл с сырыми данными о транзакциях устройств для большого приложения
файл с данными о кумулятивном (накопленном) LTV устройств
E-book всего 43 страницы, поэтому концентрация пользы максимальная и без воды!
Команда предиктивной аналитики MyTracker описали, какими моделями пользоваться и как, чтобы самостоятельно построить прогноз LTV мобильного приложения.
Чему можно научиться после практики по гайду:
1️⃣ Работать с сырыми данными, предобратывать их (это изи)
2️⃣ Представлять в виде пригодных данных для анализа (посложнее, но задачка уровня джун+)
3️⃣ Подбирать модели и корректно оценивать их по метрикам (а вот и хардкор)
Из моделей разбираются:
- модель на основе catboost
- модель на основе линейной регрессии
- коэффициентная модель
- модель на основе экстраполяции логарифмом
Для кого полезно? Маркетинг менеджеры, продакты, аналитики
Что нужно уметь? Хотя бы немного в Python, чтобы применить рекомендации на практике (внутри примеры кода)
Если интересно, оставьте свои контакты на лендинге и скачивайте 👉 e-book
А что делать если данных для практики нет?
Даже если у вас нет своего продукта или клиентских данных и на первых страницах возникнет вопрос, — все круто, полезно, а где взять выгрузки, чтобы поиграться с моделями?
Ссылку на сырые данные, ищите на 14-й странице. Внутри:
файл с сырыми данными о транзакциях устройств для большого приложения
файл с данными о кумулятивном (накопленном) LTV устройств
E-book всего 43 страницы, поэтому концентрация пользы максимальная и без воды!
💎 Хочу порекомендовать канал Айти психолог
Вообще в канале бывает много полезного про менеджмент самого себя.
Крис, тимлид команд аналитики с опытом 7 лет в айти, пишет о практической психологии без воды и эзотерики:
🔹как побороть синдром самозванца
🔹как справляться с тревогой
🔹как наладить отношения с заказчиками
🔹как преуспеть на перформанс ревью
Подписывайтесь и больше не выгорайте 🌚
Вообще в канале бывает много полезного про менеджмент самого себя.
Крис, тимлид команд аналитики с опытом 7 лет в айти, пишет о практической психологии без воды и эзотерики:
🔹как побороть синдром самозванца
🔹как справляться с тревогой
🔹как наладить отношения с заказчиками
🔹как преуспеть на перформанс ревью
Подписывайтесь и больше не выгорайте 🌚
Telegram
Крис, Айти психолог
Твоя порция полезностей из психологии на каждый спринт
Для связи: @kris_it_psycho
Для связи: @kris_it_psycho
Forwarded from запуск завтра
Open AI опубликовала крупнейшую нейросеть распознавания речи, обученную на 680 тысячах часов аудио, назвали Whisper — шепот.
Сеть понимает множество языков кроме английского, включая русский.
Качество распознавания сравнимо с сервисами от Google, Amazon, Microsoft и Yandex. При этом сервисы распознавания речи от корпораций стоят по 2 доллара за минуту распознавания, а тут можно скачать и пользоваться этой штукой бесплатно и без подключения к интернету.
Открыта и бесплатна для скачивания не только конечная сеть, но и «развесовка», то есть модель можно тюнить и использовать как составную часть более сложных алгоритмов. Не открыты только 680 тысяч часов аудио, которые использовали для обучения модели.
Пара примеров есть на странице проекта; распознать любые файлы и даже свою речь с микрофона можно попробовать онлайн в неофициальном google colab блокноте (очень классный инструмент!).
—
Кстати, если у вас айфон — рекомендую обновить iOS и попробовать встроенное распознавание речи. Новая версия iOS внесла одно маленькое изменение — теперь редактирование текста клавиатурой не прерывает процесс распознавания. Можно набрать текст голосом, исправить ошибку пальцами и продолжить набор голосом. Я теперь пишу большинство сообщений на айфоне именно так — гораздо быстрее и легче, чем печатать пальцами.
Интересно, что мы как раз начинаем исследовательский проект для Чайки — встроим распознавание речи в медицинскую информационную систему, чтобы врачи могли заполнять карточки пациентов голосом и тратили на это меньше времени.
Будущее уже совсем близко.
Сеть понимает множество языков кроме английского, включая русский.
Качество распознавания сравнимо с сервисами от Google, Amazon, Microsoft и Yandex. При этом сервисы распознавания речи от корпораций стоят по 2 доллара за минуту распознавания, а тут можно скачать и пользоваться этой штукой бесплатно и без подключения к интернету.
Открыта и бесплатна для скачивания не только конечная сеть, но и «развесовка», то есть модель можно тюнить и использовать как составную часть более сложных алгоритмов. Не открыты только 680 тысяч часов аудио, которые использовали для обучения модели.
Пара примеров есть на странице проекта; распознать любые файлы и даже свою речь с микрофона можно попробовать онлайн в неофициальном google colab блокноте (очень классный инструмент!).
—
Кстати, если у вас айфон — рекомендую обновить iOS и попробовать встроенное распознавание речи. Новая версия iOS внесла одно маленькое изменение — теперь редактирование текста клавиатурой не прерывает процесс распознавания. Можно набрать текст голосом, исправить ошибку пальцами и продолжить набор голосом. Я теперь пишу большинство сообщений на айфоне именно так — гораздо быстрее и легче, чем печатать пальцами.
Интересно, что мы как раз начинаем исследовательский проект для Чайки — встроим распознавание речи в медицинскую информационную систему, чтобы врачи могли заполнять карточки пациентов голосом и тратили на это меньше времени.
Будущее уже совсем близко.
👍1
Forwarded from Ivan Begtin (Ivan Begtin)
Команда Clickhouse, создателей одной из лучших аналитических СУБД, запустили бета версию облачной версии продукта [1]. Сейчас облако работает с поминутной тарификацией на базе инфраструктуры AWS․ Главное достоинство в том что продукт непосредственно от команды разработчиков Clickhouse, а значит можно надеяться на лучшую производительность и техническую поддержку.
При том что кластеры на Clickhouse существуют уже много где. Например, в Яндекс облаке [2] с ежесуточной и ежемесячной тарификацией и в самом AWS [3].
Clickhouse не единственная СУБД для аналитики в реальном времени на базе которой создаются DBAAS (database-as-a-service) продукты. Например, команда их менее популярного, но близкого по производительности, конкурента StarRocks анонсировали появление их облака в 3-м квартале 2022 г. [4]. 3-й квартал вот только что прошёл, ждём когда же можно будет увидеть обещанное.
А я напомню интересную штуку от Clickhouse по открытым замерам производительности баз данных [5] с весьма неплохим их сравнением.
Ссылки:
[1] https://clickhouse.com/blog/clickhouse-cloud-public-beta
[2] https://cloud.yandex.com/en/services/managed-clickhouse
[3] https://aws.amazon.com/ru/quickstart/architecture/clickhouse-cluster/
[4] https://starrocks.io/blog/starrocks-launches-the-industrys-fastest-cloud-native-real-time-analytics-engine
[5] https://benchmark.clickhouse.com
#opensource #startups #dbms #clickhouse
При том что кластеры на Clickhouse существуют уже много где. Например, в Яндекс облаке [2] с ежесуточной и ежемесячной тарификацией и в самом AWS [3].
Clickhouse не единственная СУБД для аналитики в реальном времени на базе которой создаются DBAAS (database-as-a-service) продукты. Например, команда их менее популярного, но близкого по производительности, конкурента StarRocks анонсировали появление их облака в 3-м квартале 2022 г. [4]. 3-й квартал вот только что прошёл, ждём когда же можно будет увидеть обещанное.
А я напомню интересную штуку от Clickhouse по открытым замерам производительности баз данных [5] с весьма неплохим их сравнением.
Ссылки:
[1] https://clickhouse.com/blog/clickhouse-cloud-public-beta
[2] https://cloud.yandex.com/en/services/managed-clickhouse
[3] https://aws.amazon.com/ru/quickstart/architecture/clickhouse-cluster/
[4] https://starrocks.io/blog/starrocks-launches-the-industrys-fastest-cloud-native-real-time-analytics-engine
[5] https://benchmark.clickhouse.com
#opensource #startups #dbms #clickhouse
ClickHouse
ClickHouse Cloud is now in Public Beta
ClickHouse Cloud has entered public beta. Get your free trial now!
❤1
В блоге Ozon Tech на Хабре вышла хорошая статья про построение аналитической инфраструктуры для проведения A/B-тестов, а конкретно о платформе сплитования пользователей. Рассматривается несколько различных архитектурных подходов к сплитованию, их плюсы и минусы. В общем, статья достойная с большим количеством технических подробностей
https://habr.com/ru/company/ozontech/blog/689052/
https://habr.com/ru/company/ozontech/blog/689052/
👍1
Forwarded from Python 🐍 Work With Data
Подборка статей про оптимизацию Pandas
Статьи:
🔹 Memory Optimisation – Python DataFrames vs Lists and Dictionaries (JSON-like)
🔹 Advanced Pandas: Optimize speed and memory
🔹 Five Killer Optimization Techniques Every Pandas User Should Know
🔹 Pandas Optimization for Largest Datasets
🔹 How to handle large datasets in Python with Pandas and Dask
🔹 Scaling to large datasets
🔹 Comprehensive Guide To Optimize Your Pandas Code
🔹 Seven Killer Memory Optimization Techniques Every Pandas User Should Know
🔹 Optimizing Pandas
Видео:
🎦 Speed up slow pandas python code by 2500x
🎦 Efficient Pandas Dataframes in Python - Make your code run fast with these tricks!
🎦 Loop / Iterate over pandas DataFrame (2020)
🎦 How to Optimize and Speed Up Pandas
👉 @python_powerbi
Статьи:
🔹 Memory Optimisation – Python DataFrames vs Lists and Dictionaries (JSON-like)
🔹 Advanced Pandas: Optimize speed and memory
🔹 Five Killer Optimization Techniques Every Pandas User Should Know
🔹 Pandas Optimization for Largest Datasets
🔹 How to handle large datasets in Python with Pandas and Dask
🔹 Scaling to large datasets
🔹 Comprehensive Guide To Optimize Your Pandas Code
🔹 Seven Killer Memory Optimization Techniques Every Pandas User Should Know
🔹 Optimizing Pandas
Видео:
🎦 Speed up slow pandas python code by 2500x
🎦 Efficient Pandas Dataframes in Python - Make your code run fast with these tricks!
🎦 Loop / Iterate over pandas DataFrame (2020)
🎦 How to Optimize and Speed Up Pandas
👉 @python_powerbi
👍1
Forwarded from Максим Цепков (Maxim Tsepkov)
Татьяна Половинкина. Данные в комиксах: От источников до дельты. В докладе был некоторый ликбез по работе аналитика данных как новой специализации, дополняющей существующие специализации бизнес-аналитика и системного аналитика. Отличие в том, что он работает с динамическим потоком данных, строя архитектуру обработки и обеспечивая пользователей нужными данными. Специализация в процессе формирования, так что тут нет устойчивого процесса и терминологии. Но при этом контекст достаточно объемный.
* Фазы понятные: планирование, проектирование, создание-получение, хранение-обслуживание-архивирование, использование. Но потоки данных - меняются, хранение - деформируется.
* Фокусы: осмысленность данных, выгода использования. Доступность в условиях изменчивости. Масштабируемость. Качественность, доверие данным. Безопасность данных. Температура данных - частота обращения.
* Виды данных: Small (обычные БД), Big (с ними просто не получится), Smart (информативные данные, Fast (выявление Smart в Big, Темные (это что мы не знаем).
* Деление по хранению: Широкие (много колонок) Длинные (много строк).
* Сегментирование - партиционирование - шардирование: деление больших данных на группы.
* Виртуализация данных: они лежат везде, 60-70источников - обычная история, идея - промежуточный уровень для абстрагирование от изменений в конкретных источниках.
* Качество данных. Тут много характеристик, было 4, теперь 20.
* Безопасность: генерация, маскирование, шифрование. Маскирование всегда необратимо, а отличие от шифрования, при этом маскирование может быть частичным.
* Обогащение данных. Это не только дополнение, это еще удаление ненужных данных, маскирование для увеличения доступности.
* Фазы понятные: планирование, проектирование, создание-получение, хранение-обслуживание-архивирование, использование. Но потоки данных - меняются, хранение - деформируется.
* Фокусы: осмысленность данных, выгода использования. Доступность в условиях изменчивости. Масштабируемость. Качественность, доверие данным. Безопасность данных. Температура данных - частота обращения.
* Виды данных: Small (обычные БД), Big (с ними просто не получится), Smart (информативные данные, Fast (выявление Smart в Big, Темные (это что мы не знаем).
* Деление по хранению: Широкие (много колонок) Длинные (много строк).
* Сегментирование - партиционирование - шардирование: деление больших данных на группы.
* Виртуализация данных: они лежат везде, 60-70источников - обычная история, идея - промежуточный уровень для абстрагирование от изменений в конкретных источниках.
* Качество данных. Тут много характеристик, было 4, теперь 20.
* Безопасность: генерация, маскирование, шифрование. Маскирование всегда необратимо, а отличие от шифрования, при этом маскирование может быть частичным.
* Обогащение данных. Это не только дополнение, это еще удаление ненужных данных, маскирование для увеличения доступности.
Привет! Если вам интересна или вы работаете/хотите работать в сфере IT аналитики, то вам на канал – ❤️ IT Analyst
На канале ежедневно публикуются материалы по тематике. Канал будет интересен ИТ-аналитикам, таким как: Бизнес-аналитик, Системный аналитик, Аналитик данных, Web-аналитик и т.д.
➡️ Тут вы найдёте:
🟢 интересные статьи с разных ресурсов
🟢 опросы
🟢 обучающие видео с ведущими IT-специалистами
🟢 актуальные новости
🟢 профессиональный юмор
также поразбираемся в сортах аналитиков в индустрии IT😉
Примеры постов с канала:
- Разбор скилов разных аналитиков
- Отношение к ТЗ в современных ИТ проектах
- Аналитик в автоматизации - кто он и чем занимается
- Краткое описание BPMN с примером
На канале ежедневно публикуются материалы по тематике. Канал будет интересен ИТ-аналитикам, таким как: Бизнес-аналитик, Системный аналитик, Аналитик данных, Web-аналитик и т.д.
также поразбираемся в сортах аналитиков в индустрии IT😉
Примеры постов с канала:
- Разбор скилов разных аналитиков
- Отношение к ТЗ в современных ИТ проектах
- Аналитик в автоматизации - кто он и чем занимается
- Краткое описание BPMN с примером
Please open Telegram to view this post
VIEW IN TELEGRAM
Telegram
Analyst IT
Авторский канал для аналитиков в индустрии ИТ. Все, что надо знать аналитику в одном месте.
Сотрудничество: @the_real_bird
BA/SA: @ba_and_sa
Регистрация РКН: https://knd.gov.ru/license?id=673c6a15b7aeb106ce045ee5®istryType=bloggersPermission
Сотрудничество: @the_real_bird
BA/SA: @ba_and_sa
Регистрация РКН: https://knd.gov.ru/license?id=673c6a15b7aeb106ce045ee5®istryType=bloggersPermission
Forwarded from Центр непрерывного образования ФКН НИУ ВШЭ
🤔Что общего у бортпроводников, хирургических бригад и успешных специалистов по анализу данных? Все они используют читлисты. Читлисты – это шпаргалки, в которых собраны базовые действия. Несмотря на то, что каждая операция, каждый проект и каждый полет имеют свои особенности, во всех этих вещах есть необходимые основные шаги.
Мы собрали для вас шпаргалки по Python для анализа данных, чтобы вам не пришлось тратить время на поиск банальных функций:
🔷 Numpy. Практически в каждом проекте по анализу данных есть вычисления с помощью этого модуля. Numpy помогает при работе с массивами, матрицами, операциями из линейной алгебры и другими математическими вычислениями. Сохраняйте шпаргалку по Numpy отсюда.
🔷 Scikit-learn. Полдключение этой библиотеки также встречается почти во всех работах по машинному обучению. Scikit-learn выручает в случаях, когда надо использовать алгоритмы ML. Он предоставляет выбор эффективных инструментов, включая регрессию, классификацию, кластеризацию, подбор гиперпараметров, метрики и оценки и снижение размерности. Читлист по scikit-learn можно найти здесь.
🔷 Pandas. Эта библиотека была создана с целью упростить работу с данными. Pandas облегчает выполнение трудоемких и повторяющихся задач, в том числе: очистку данных, масштабирование, объединения, проверки значений, визуализацию и статистический анализ. Шпаргалка лежит здесь.
🔷 Matplotlib. Эта библиотека отвечает за визуализацию данных и считается самой распространенной среди специалистов по DS. Отрисовка графиков, диаграмм, пайчартов, точечных спектров с уникальным стилем, подписями, легендами и возможностью сохранения в любом удобном формате – весь этот функционал доступен благодаря Matplotlib. Краткий список по этому модулю забираем отсюда.
Мы собрали для вас шпаргалки по Python для анализа данных, чтобы вам не пришлось тратить время на поиск банальных функций:
🔷 Numpy. Практически в каждом проекте по анализу данных есть вычисления с помощью этого модуля. Numpy помогает при работе с массивами, матрицами, операциями из линейной алгебры и другими математическими вычислениями. Сохраняйте шпаргалку по Numpy отсюда.
🔷 Scikit-learn. Полдключение этой библиотеки также встречается почти во всех работах по машинному обучению. Scikit-learn выручает в случаях, когда надо использовать алгоритмы ML. Он предоставляет выбор эффективных инструментов, включая регрессию, классификацию, кластеризацию, подбор гиперпараметров, метрики и оценки и снижение размерности. Читлист по scikit-learn можно найти здесь.
🔷 Pandas. Эта библиотека была создана с целью упростить работу с данными. Pandas облегчает выполнение трудоемких и повторяющихся задач, в том числе: очистку данных, масштабирование, объединения, проверки значений, визуализацию и статистический анализ. Шпаргалка лежит здесь.
🔷 Matplotlib. Эта библиотека отвечает за визуализацию данных и считается самой распространенной среди специалистов по DS. Отрисовка графиков, диаграмм, пайчартов, точечных спектров с уникальным стилем, подписями, легендами и возможностью сохранения в любом удобном формате – весь этот функционал доступен благодаря Matplotlib. Краткий список по этому модулю забираем отсюда.
👍8
На ютубе появилась запись вебинара от команды предиктивной аналитики MyTracker
На вебинаре обсуждали:
Ссылка на вебинар
Please open Telegram to view this post
VIEW IN TELEGRAM
YouTube
Прогноз LTV: как выбрать модель и оценить результат
Вебинар от команды предиктивной аналитики MyTracker посвящен выбору подходящей модели прогноза LTV и метрик для оценки ее эффективности. Вы научитесь:
- выбирать модель под разные кейсы;
- правильно оценивать прогноз;
- понимать ограничения и критерии применимости…
- выбирать модель под разные кейсы;
- правильно оценивать прогноз;
- понимать ограничения и критерии применимости…
👍1
Запись вебинара с мероприятия «Управляемый сервис YDB: настройка, применение, мониторинг»
🔩 YDB — реляционная СУБД, которая была разработана в Яндексе. YDB позволяет создавать интерактивные приложения, которые можно быстро масштабировать, когда растёт нагрузка и объём данных. Применение YDB как управляемого сервиса позволяет разработчикам и архитекторам сосредоточиться на бизнес-задачах, а команда Yandex Cloud возьмёт на себя заботы о надёжности, производительности и ресурсной эффективности баз данных.
На вебинаре показали, как:
— начать работу с сервисом;
— подключить приложения и настроить аутентификацию;
— контролировать потребление ресурсов;
— работать с доступными инструментами мониторинга;
— масштабировать базы данных, когда нагрузка растёт.
https://www.youtube.com/watch?v=d5NEDzsyp7Q
На вебинаре показали, как:
— начать работу с сервисом;
— подключить приложения и настроить аутентификацию;
— контролировать потребление ресурсов;
— работать с доступными инструментами мониторинга;
— масштабировать базы данных, когда нагрузка растёт.
https://www.youtube.com/watch?v=d5NEDzsyp7Q
Please open Telegram to view this post
VIEW IN TELEGRAM
YouTube
Управляемый сервис YDB: настройка, применение, мониторинг
00:00 — Начало
01:30 — YDB в целом и сервис YDB в Yandex Cloud
04:44 — Разворачиваем сервисы YDB
12:08 — Методы аутентификации пользователей, создание учётных записей
19:05 — Обзор web-интерфейса консоли Yandex Cloud в части YDB
23:16 — Работа с YDB через…
01:30 — YDB в целом и сервис YDB в Yandex Cloud
04:44 — Разворачиваем сервисы YDB
12:08 — Методы аутентификации пользователей, создание учётных записей
19:05 — Обзор web-интерфейса консоли Yandex Cloud в части YDB
23:16 — Работа с YDB через…
Вчера на вебинаре с Артёмом Исакиным и Ритой Нижельской поговорили про различия между аналитиками данных и аналитиками требований (бизнес- и системными)
Подробно рассказали:
🟢 какие навыки нужны в этих профессиях
🟢 что нужно на входе, чтобы начать карьеру
🟢 на что смотрят работодатели про трудоустройстве
https://www.youtube.com/watch?v=aE1X1KlKJZ8
Подробно рассказали:
https://www.youtube.com/watch?v=aE1X1KlKJZ8
Please open Telegram to view this post
VIEW IN TELEGRAM
👍1
В прошлом году проходил митап по аналитике от EXPF x Delivery Club. На митапе ребята много говорили про оценку экспериментов, так что эти доклады будут полезны аналитикам, которые в своей работе сталкиваются с проведением тестирований и анализом результатов тестов. Я делился анонсом трансляции, но анализируя прошлые посты, понял, что не поделился записями докладов
Исправляюсь:
1️⃣ «Что делать, если возникли сомнения, подходит ли твой критерий для твоего теста (а они должны возникать!)», Тимур Исмагилов, Avito
2️⃣ «Платформа switchback-экспериментов в Ситимобил», Артём Солоухин, Cитимобил
3️⃣ «Как мы ищем точки роста в продукте: пошаговая инструкция», Владимир Абазов, Delivery Club
4️⃣ «Скрытая угроза ранговых критериев», Егор Семин, EXPF
Исправляюсь:
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5
МТС вывел в Open Source первую версию библиотеки под названием Ambrosia. Ее назначение – работа с A/B тестами и экспериментами.
➡️ Что сейчас умеет библиотека?
🟠 теоретический и эмпирический дизайн экспериментов;
🟠 деление на группы (в том числе на множество групп, со стратификацией и так далее);
🟠 расчет эффекта с построением, как точечной, так и интервальной оценки;
🟠 использование нескольких подходов к увеличению чувствительности метрик: CUPED, MULTI_CUPED, MLVarianceReducer и другие;
🟠 возможность использование Spark API для дизайна и сплита.
В статье на Хабре рассказывается о функционале библиотеки
В статье на Хабре рассказывается о функционале библиотеки
Please open Telegram to view this post
VIEW IN TELEGRAM
👍13
Paul Levchuk в своей статье «Product feature retention deep dive» разбирает как провести анализ функций в продукте, чтобы оценить их влияние на возвращаемость пользователей с помощью метрики Information gain и всё это в Google Spreadsheets
👍15
Записался недавно в подкасте «Багрепорт»
В выпуске погружаемся в профессию и пытаемся понять, как аналитики работают, чем живут, как развиваются по хард и софт-скиллам. Пытаемся разобраться, чем эти специалисты похожи на ученых и зачем им нужно погружаться в теорию вероятностей.
Почему аналитиков делят на две касты: «требований» и «данных»? Всем ли так нужен SQL? Кстати, да. Excel — лучший друг аналитиков.
Где послушать:
В телеге
В Яндекс.Музыке
В Apple Podcasts
В VK
На сайте студии Red Barn
В PodParadise
В Castbox
В podcast.ru
В выпуске погружаемся в профессию и пытаемся понять, как аналитики работают, чем живут, как развиваются по хард и софт-скиллам. Пытаемся разобраться, чем эти специалисты похожи на ученых и зачем им нужно погружаться в теорию вероятностей.
Почему аналитиков делят на две касты: «требований» и «данных»? Всем ли так нужен SQL? Кстати, да. Excel — лучший друг аналитиков.
Где послушать:
В телеге
В Яндекс.Музыке
В Apple Podcasts
В VK
На сайте студии Red Barn
В PodParadise
В Castbox
В podcast.ru
🔥15👍6
Forwarded from Reveal the Data
Недавно на работе возник вопрос — в каких случаях можно отрывать ноль по оси Y для линейный графиков.
Я придерживаюсь таких правил:
⬆️ Если мы смотрим за небольшими периодом времени (дни и недели); на графике только одна линия; и метрика довольно стабильна (примерно изменяется в диапазоне ±15%), то скорее важнее смотреть за изменениями и можно отрывать ось от нуля.
0️⃣ Если смотрим большой период (месяцы и года); на графике есть другие линии; абсолютные значения важнее, чем изменения (например важно не упасть ниже какого-то значения); или метрика меняется в широком диапазоне, то отрывать ноль не стоит.
У Ника Десбарата есть отличная статья с примерами на эту тему с более сложным (и чутка запутанным 🙈) алгоритмом выбора.
🚫 Ну и конечно же не забываем, что для площадных диаграмм (барчарты и эреачарты) отрывать ноль нельзя ни в каком сценарии!
#ссылка
Я придерживаюсь таких правил:
⬆️ Если мы смотрим за небольшими периодом времени (дни и недели); на графике только одна линия; и метрика довольно стабильна (примерно изменяется в диапазоне ±15%), то скорее важнее смотреть за изменениями и можно отрывать ось от нуля.
0️⃣ Если смотрим большой период (месяцы и года); на графике есть другие линии; абсолютные значения важнее, чем изменения (например важно не упасть ниже какого-то значения); или метрика меняется в широком диапазоне, то отрывать ноль не стоит.
У Ника Десбарата есть отличная статья с примерами на эту тему с более сложным (и чутка запутанным 🙈) алгоритмом выбора.
🚫 Ну и конечно же не забываем, что для площадных диаграмм (барчарты и эреачарты) отрывать ноль нельзя ни в каком сценарии!
#ссылка
👍3
И снова подкаст. На этот раз записался в подкасте «Выживут только айтишники»
В выпуске пытаемся понять, как аналитику адекватно оценить карьерные возможности и что нужно делать, чтобы постоянно развиваться внутри профессии. Разбираем аргументы в пользу повышения зарплаты: изменение зоны ответственности, грейды, исследования рынка труда, контр-офферы
В целом, получилось описать хороший алгоритм того как аналитику можно расти в зоне ответственности и деньгах, оставаясь на текущей работе или осуществляя карьерные переходы, в том числе в смежные профессии, например, в продакт-менеджеры или дата-инженеры
Где послушать:
В телеге
В Яндекс.Музыке
В Apple Podcasts
В VK
На сайте студии Red Barn
В PodParadise
В Castbox
В podcast.ru
В Google Podcast
В выпуске пытаемся понять, как аналитику адекватно оценить карьерные возможности и что нужно делать, чтобы постоянно развиваться внутри профессии. Разбираем аргументы в пользу повышения зарплаты: изменение зоны ответственности, грейды, исследования рынка труда, контр-офферы
В целом, получилось описать хороший алгоритм того как аналитику можно расти в зоне ответственности и деньгах, оставаясь на текущей работе или осуществляя карьерные переходы, в том числе в смежные профессии, например, в продакт-менеджеры или дата-инженеры
Где послушать:
В телеге
В Яндекс.Музыке
В Apple Podcasts
В VK
На сайте студии Red Barn
В PodParadise
В Castbox
В podcast.ru
В Google Podcast
👍12🔥6
Восьмой онлайн-митап для продуктовых аналитиков от AvitoTech
С докладами выступили спикеры из Авито, Lamoda и СберМаркета. Поговорили про предиктивную классификацию, офлайн-эксперименты и аналитику клиентской базы.
➡️ Программа
1️⃣ Как мы в Авито увеличили эффективность привлечения за счёт предиктивной классификации
Ирина Гутман из Авито рассказала как большая площадка с кучей данных может их использовать для эффективного привлечения целевого трафика. Как использовать предсказания и классификации для оптимизации и как быть с неизбежными подводными камнями. Ирина приводит пример из истории перформанс-маркетинга Авито, когда это сработало
2️⃣ Аналитика клиентской базы
Кирилл Федоренков из Lamoda рассказал, почему для Lamoda важна аналитика клиентской базы и какие задачи, связанные с ней, ребята решали. Рассматриваются кейсы сегментации клиентской базы, построения прогнозов, анализа причинно-следственных связей
3️⃣ Применение иерархических моделей в офлайн-экспериментах
Полина Ревина из СберМаркета рассказала что делать при столкновении с влиянием объектов рандомизации в разных группах друг на друга во время эксперимента. Для проведения таких экспериментов СберМаркет использует свитчбэк-тестирование. При таком подходе возникает естественная вложенность данных и зависимость наблюдений
С докладами выступили спикеры из Авито, Lamoda и СберМаркета. Поговорили про предиктивную классификацию, офлайн-эксперименты и аналитику клиентской базы.
Ирина Гутман из Авито рассказала как большая площадка с кучей данных может их использовать для эффективного привлечения целевого трафика. Как использовать предсказания и классификации для оптимизации и как быть с неизбежными подводными камнями. Ирина приводит пример из истории перформанс-маркетинга Авито, когда это сработало
Кирилл Федоренков из Lamoda рассказал, почему для Lamoda важна аналитика клиентской базы и какие задачи, связанные с ней, ребята решали. Рассматриваются кейсы сегментации клиентской базы, построения прогнозов, анализа причинно-следственных связей
Полина Ревина из СберМаркета рассказала что делать при столкновении с влиянием объектов рандомизации в разных группах друг на друга во время эксперимента. Для проведения таких экспериментов СберМаркет использует свитчбэк-тестирование. При таком подходе возникает естественная вложенность данных и зависимость наблюдений
Please open Telegram to view this post
VIEW IN TELEGRAM
👍8
Предлагаю послушать подкаст «Дайте данных!»
Это профессиональный разговор о том, как устроена работа аналитиков и дата сайентистов в самых разных сферах. Авторы и ведущие подкаста — Наташа Тоганова и Саша Бородин — давно работают с большими данными и машинным обучением, они делятся своей экспертизой и узнают, как работают их коллеги в разных компаниях и институциях. Гости подкаста изучают данные, чтобы предсказывать погоду и урожайность полей, борются с мошенниками, защищают персональные данные в финтех сервисах, изучают старые и новые языки программирования.
Подкаст «Дайте данных!» — о том, как разнообразен мир больших технологий. Послушать выпуски будет интересно и полезно как профессионалам, так и начинающим разработчикам и аналитикам, которые только ищут себя и присматриваются к миру больших данных.
✅ Послушать на удобной платформе https://pc.st/1584566030
✅ Стать частью NoML Community https://news.1rj.ru/str/noml_digest
Это профессиональный разговор о том, как устроена работа аналитиков и дата сайентистов в самых разных сферах. Авторы и ведущие подкаста — Наташа Тоганова и Саша Бородин — давно работают с большими данными и машинным обучением, они делятся своей экспертизой и узнают, как работают их коллеги в разных компаниях и институциях. Гости подкаста изучают данные, чтобы предсказывать погоду и урожайность полей, борются с мошенниками, защищают персональные данные в финтех сервисах, изучают старые и новые языки программирования.
Подкаст «Дайте данных!» — о том, как разнообразен мир больших технологий. Послушать выпуски будет интересно и полезно как профессионалам, так и начинающим разработчикам и аналитикам, которые только ищут себя и присматриваются к миру больших данных.
✅ Послушать на удобной платформе https://pc.st/1584566030
✅ Стать частью NoML Community https://news.1rj.ru/str/noml_digest
❤3👍2