Datalytics – Telegram
Datalytics
9.04K subscribers
219 photos
17 videos
5 files
674 links
Канал для аналитиков данных про Python, карьерное развитие в анализе данных, всякое разное

Автор – @ax_makarov

Отдельный канал про ChatGPT и его практическое применение —  @ai_forge

Чат канала — @pydata_chat

Вакансии — @data_hr
Download Telegram
МТС вывел в Open Source первую версию библиотеки под названием Ambrosia. Ее назначение – работа с A/B тестами и экспериментами.

➡️Что сейчас умеет библиотека?
🟠теоретический и эмпирический дизайн экспериментов;
🟠деление на группы (в том числе на множество групп, со стратификацией и так далее);
🟠расчет эффекта с построением, как точечной, так и интервальной оценки;
🟠использование нескольких подходов к увеличению чувствительности метрик: CUPED, MULTI_CUPED, MLVarianceReducer и другие;
🟠возможность использование Spark API для дизайна и сплита.

В статье на Хабре рассказывается о функционале библиотеки
Please open Telegram to view this post
VIEW IN TELEGRAM
👍13
Paul Levchuk в своей статье «Product feature retention deep dive» разбирает как провести анализ функций в продукте, чтобы оценить их влияние на возвращаемость пользователей с помощью метрики Information gain и всё это в Google Spreadsheets
👍15
Записался недавно в подкасте «Багрепорт»

В выпуске погружаемся в профессию и пытаемся понять, как аналитики работают, чем живут, как развиваются по хард и софт-скиллам. Пытаемся разобраться, чем эти специалисты похожи на ученых и зачем им нужно погружаться в теорию вероятностей.

Почему аналитиков делят на две касты: «требований» и «данных»? Всем ли так нужен SQL? Кстати, да. Excel — лучший друг аналитиков.

Где послушать:
В телеге
В Яндекс.Музыке
В Apple Podcasts
В VK
На сайте студии Red Barn
В PodParadise
В Castbox
В podcast.ru
🔥15👍6
Forwarded from Reveal the Data
Недавно на работе возник вопрос — в каких случаях можно отрывать ноль по оси Y для линейный графиков.

Я придерживаюсь таких правил:
⬆️ Если мы смотрим за небольшими периодом времени (дни и недели); на графике только одна линия; и метрика довольно стабильна (примерно изменяется в диапазоне ±15%), то скорее важнее смотреть за изменениями и можно отрывать ось от нуля.

0️⃣ Если смотрим большой период (месяцы и года); на графике есть другие линии; абсолютные значения важнее, чем изменения (например важно не упасть ниже какого-то значения); или метрика меняется в широком диапазоне, то отрывать ноль не стоит.

У Ника Десбарата есть отличная статья с примерами на эту тему с более сложным (и чутка запутанным 🙈) алгоритмом выбора.

🚫 Ну и конечно же не забываем, что для площадных диаграмм (барчарты и эреачарты) отрывать ноль нельзя ни в каком сценарии!
#ссылка
👍3
И снова подкаст. На этот раз записался в подкасте «Выживут только айтишники»

В выпуске пытаемся понять, как аналитику адекватно оценить карьерные возможности и что нужно делать, чтобы постоянно развиваться внутри профессии. Разбираем аргументы в пользу повышения зарплаты: изменение зоны ответственности, грейды, исследования рынка труда, контр-офферы

В целом, получилось описать хороший алгоритм того как аналитику можно расти в зоне ответственности и деньгах, оставаясь на текущей работе или осуществляя карьерные переходы, в том числе в смежные профессии, например, в продакт-менеджеры или дата-инженеры

Где послушать:
В телеге
В Яндекс.Музыке
В Apple Podcasts
В VK
На сайте студии Red Barn
В PodParadise
В Castbox
В podcast.ru
В Google Podcast
👍12🔥6
Восьмой онлайн-митап для продуктовых аналитиков от AvitoTech

С докладами выступили спикеры из Авито, Lamoda и СберМаркета. Поговорили про предиктивную классификацию, офлайн-эксперименты и аналитику клиентской базы.

➡️Программа

1️⃣Как мы в Авито увеличили эффективность привлечения за счёт предиктивной классификации
Ирина Гутман из Авито рассказала как большая площадка с кучей данных может их использовать для эффективного привлечения целевого трафика. Как использовать предсказания и классификации для оптимизации и как быть с неизбежными подводными камнями. Ирина приводит пример из истории перформанс-маркетинга Авито, когда это сработало

2️⃣Аналитика клиентской базы
Кирилл Федоренков из Lamoda рассказал, почему для Lamoda важна аналитика клиентской базы и какие задачи, связанные с ней, ребята решали. Рассматриваются кейсы сегментации клиентской базы, построения прогнозов, анализа причинно-следственных связей

3️⃣Применение иерархических моделей в офлайн-экспериментах
Полина Ревина из СберМаркета рассказала что делать при столкновении с влиянием объектов рандомизации в разных группах друг на друга во время эксперимента. Для проведения таких экспериментов СберМаркет использует свитчбэк-тестирование. При таком подходе возникает естественная вложенность данных и зависимость наблюдений
Please open Telegram to view this post
VIEW IN TELEGRAM
👍8
Предлагаю послушать подкаст «Дайте данных!»

Это профессиональный разговор о том, как устроена работа аналитиков и дата сайентистов в самых разных сферах. Авторы и ведущие подкаста — Наташа Тоганова и Саша Бородин — давно работают с большими данными и машинным обучением, они делятся своей экспертизой и узнают, как работают их коллеги в разных компаниях и институциях. Гости подкаста изучают данные, чтобы предсказывать погоду и урожайность полей, борются с мошенниками, защищают персональные данные в финтех сервисах, изучают старые и новые языки программирования.

Подкаст «Дайте данных!» — о том, как разнообразен мир больших технологий. Послушать выпуски будет интересно и полезно как профессионалам, так и начинающим разработчикам и аналитикам, которые только ищут себя и присматриваются к миру больших данных.

Послушать на удобной платформе https://pc.st/1584566030
Стать частью NoML Community https://news.1rj.ru/str/noml_digest
3👍2
Forwarded from 🗞 Виз Ньюз (Nikita Rokotyan)
This media is not supported in your browser
VIEW IN TELEGRAM
🥳 🎉 Представляю Unovis — новую библиотеку визуализации данных для React, Angular, Svelte, а также «голого» TypeScript и JavaScript.

У меня второй большой (после Космографа) open source анонс в этом году, который будет интересен в первую очередь веб-разработчикам. Сегодня мы выложили в открытый доступ дитавиз библиотеку, над которой я работаю уже на протяжении последних трех лет (разработка началась в стартапе Volterra, и продолжилать в купившей его компании F5).

Немного об отличительных особенностях Unovis:
🏗 Удобно интегрируется в React, Angular и Svelte, что дает возможность использовать одну библиотеку в совсем разных проектах;
🗺 Помимо классических графиков умеет рисовать детальные карты и графы;
💇 Легко кастомизируется под ваш стиль (спасибо CSS переменным);
📖 Детальная документация и галерея примеров с кодом для разных фреймворков.

Если заинтерисовались, добро пожаловать на сайт библиотеки unovis.dev, и не забудьте лайкнуть наш репозиторий на GitHub!
👍4🔥1
Запись Q&A-сессии с Yandex DataLens Festival. Роман Бунин и Роман Колеченков ответили на вопросы участников Yandex DataLens Festival о работе с чартами, дашбордами, расчётными полями. На фоне роста популярности альтернативных BI-систем будет полезно

А ещё оказывается существует коммюнити DataLens в телеграме и там довольно-таки живо и можно найти ответы на интересующие вопросы
7👍3
Уже больше 70 лет биологи исследуют состояние Байкала: берут пробы воды в одной и той же точке и вручную ведут подсчет микроорганизмов. Этот метод не менялся с 1945 года. Теперь учёным помогают алгоритмы машинного обучения — они анализируют виды и формы планктона и экономят время специалистов.

Нейросеть Yandex Cloud стала доступна в опенсорсе — то есть и сам алгоритм, и датасет можно использовать в исследованиях других водоемов по всему миру. Читайте подробнее в блоге.

Посмотрите короткометражку о том, как нейросети учились различать байкальских рачков, а специалисты из разных областей — понимать друг друга
🔥13
Forwarded from Reveal the Data
📈 Dashboard Canvas 2.0 📈
Три года назад я придумал сделать шаблон сбора требований для дашборда. За это время его использовали много раз, а видео с рассказом про него на канале DataLearn от Димы Аношина посмотрели более 20 тысяч раз. За это время я получил много обратной связи и сам часто использовал шаблон, поэтому смог конструктивно его улучшить. Представляю новую версию!

Подробно, почему он стал таким, я недавно рассказал на конференции Flow, 👉 вот запись 👈, получилась интересная история развития фреймворка. Спасибо организаторам, они согласились выложить доклад в общий доступ сильно раньше, чем планировали.

А вот ссылка на Miro, где теперь есть инструкция, примеры и новая версия в pptx (ещё приложу её в комментарии). Совместно с идеей построения карты дашбордов получается полноценный алгоритм построения системы дашбордов в компании. Делитесь обратной связью и используйте в работе!
@revealthedata
Please open Telegram to view this post
VIEW IN TELEGRAM
👍9
Написал на своём философском канале пост со своими размышлениями про ChatGPT и про будущее человеческого мышления и уникальности в контексте массового внедрения генеративных моделей

➡️ https://news.1rj.ru/str/kempleks/26

С радостью почитаю вашу обратную связь на этот текст
Please open Telegram to view this post
VIEW IN TELEGRAM
👍1
Forwarded from Designing Numbers
This media is not supported in your browser
VIEW IN TELEGRAM
Немного не по теме моего канала, но нет сил молчать. Недавно я поняла, что некоторые сервисы строят пузырьковые диаграммы, как бог на душу положит. И провела маленькое исследование, в котором сравнила результаты наиболее популярных датавиз сервисов и программ. Хочу его попозже дополнить еще QGIS и Gephi, если будет интерес. Если есть еще идеи — ю а вери велкам.

Опубликовала у себя на тильде
👍8🔥2
A/B-тестирование — незаменимый инструмент при проверке гипотез, но есть ряд причин, по которым оно может привести к ошибкам

Ребята из OzonTech в своей статье рассмотрели шесть распространенных причин, из-за которых система принятия решений через A/B-тестирования может давать неверные выводы. Узнайте, что нужно учитывать, чтобы ваши эксперименты работали и, таким образом, приносили пользу бизнесу. Мы рассмотрим методологию и процесс A/B-тестирования, а также проблемы и заблуждения, которые могут привести к провалу. Если вам кажется, что вы не обладаете достаточными знаниями о том, как проводить и правильно оценивать эксперименты, то вам будет полезна эта статья

https://habr.com/ru/company/ozontech/blog/712306/
👍5😁1
Появилась идея сделать гайд про использование ChatGPT через Python и поделиться хаками для составления эффективных запросов

На этом фоне небольшой опрос 🤖Пользовались ли вы ChatGPT (или GPT3)?
Anonymous Poll
10%
Не использовал, и не планирую
52%
Не использовал, но планирую попробовать
24%
Да, пробовал, но не применяю в работе
14%
Да, использую и применяю в работе
Pandas на самом деле предельно прост

Но как и при использовании любого инструмента, который с виду кажется простым, всегда возникают какие-то ограничения, которые мешают решить поставленную задачу

У только что освоивших import pandas as pd бывает, что они знают какого вида табличку хотят получить на выходе, а как её получить — не знают и в итоге впадают в ступор, потому что знают синтаксис, но не знают внутрянки

Для того, чтобы эффективно использовать Pandas и максимально пользоваться его потенциалом, важно понимать основные структуры данных Series и DataFrame, так как они являются строительными блоками работы с данными в Pandas

Написал про это целую статью с кучей примеров

http://datalytics.ru/all/uglublennoe-izuchenie-pandas-struktury-dannyh/
👍39👎2
Яндекс выкладывает в опенсорс код счётчика — ключевого компонента Метрики. Это JS-бандл, который загружается вместе со страницей сайта и фиксирует различные события.
 
Вот ссылка на репозиторий в Гитхаб. Теперь вы можете подробно изучить код счётчика и пересобрать его в той конфигурации, которая необходима для вашего проекта.  

Разработчик Метрики Евгений Новиков поделился краткой историей счётчика и тем, как с ним работать в небольшой статье на Хабре.
👍9
Большие языковые модели (LLMs), к которым относится ChatGPT (и GPT3, которая под капотом у ChatGPT) открывают огромный простор для дешевого создания сервисов, способных выполнять операции по несложному семантическому анализу. Например, я за пару часов с использованием API Яндекс.Переводчика, API OpenAI и библиотеки LangChain сделал небольшого бота, который в ответ на фразу даёт численные оценки её специфичности и детализации с объяснением почему была дана такая оценка, а также рекомендациями как эти показатели улучшить. На картинках примеры, а в конце поста ссылка на блокнот

Отдельно стоит заметить, что в работе с запросами к GPT3 важную роль играет сколько мы поставляем ей примеров и явное указание специфичной формы ответа (будь то перечисление конкретных заголовков, атрибутов ответа, явное указание на то, что ответ должен быть получен в виде таблице). На картинке есть пример запроса

А ещё вижу зарождение новой профессии «prompt engineer», задача которой будет в формировании таких запросов, которые будут максимально эффективно решать потребности бизнеса с помощью LLMs. И тут речь не только про запрос, качественно решающий изначальную задачу, но и про формирование цепочек запросов, настройку переиспользования предыдущих ответов для улучшения качества запросов. В общем, целая новая вдохновляющая область на стыке AI, лингвистики и бизнес-аналитики

https://github.com/axmakarov/datalytics/blob/master/GPT3_phrase_detail_and_specific_analyser.ipynb
🔥13👍31