This media is not supported in your browser
VIEW IN TELEGRAM
Физики бывшими не бывают, поэтому сегодня — модель двойного маятника.
Движение выглядит хаотичным, но на деле оно строго предопределено — даже небольшое изменение начальных условий сильно поменяет траекторию движения. Эффект наглядно виден в этом ролике.
Инструменты: python, matplotlib.
В комментарии приложу вариант с более долгой «экспозицией» следа и итоговую траекторию движения грузов.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥4👍1
Everything is data
Этой несложной демонстрацией часто иллюстрируют хаотические системы.
Между тем, что-то похожее можно поймать и при обучении моделей. Как правило, веса инициализируют случайными значениями (часто из равномерного, иногда из нормального распределения) — и конечно, если не фиксировать random seed, результаты в конце будут немного отличаться.
«Немного» — ключевое слово. Если c каждым запуском результаты разнятся, нужно понять, все ли в порядке с данными — шум в исходном датасете может сильно испортить результаты.
Между тем, что-то похожее можно поймать и при обучении моделей. Как правило, веса инициализируют случайными значениями (часто из равномерного, иногда из нормального распределения) — и конечно, если не фиксировать random seed, результаты в конце будут немного отличаться.
«Немного» — ключевое слово. Если c каждым запуском результаты разнятся, нужно понять, все ли в порядке с данными — шум в исходном датасете может сильно испортить результаты.
На этой неделе прошло три интересных митапа: Data Engineering Meetup Билайна, Python Backend Meetup Литреса, dbt Meetup.
Хочу отметить несколько докладов, которые понравились лично мне. Ссылка на доклад про квантовые вычисления ведет на страницу, где запись будет позже — через неделю этот доклад можно будет услышать на PyCon. Кстати, пообщались с автором на митапе, было очень приятно.
➖ Как мы управляем данными с помощью каталога данных, Владислав Шевченко, Альфа-банк
➖ Python Шредингера: когда ваш код и жив, и мертв, а весь мир с замиранием ожидает его выполнения, Бейлак Алиев, Raiffeisen Bank
➖ Оркестрация dbt jobs для Dev, Test, Prod без головной боли, Артемий Козырь, Wheely
📼 #конференции
Хочу отметить несколько докладов, которые понравились лично мне. Ссылка на доклад про квантовые вычисления ведет на страницу, где запись будет позже — через неделю этот доклад можно будет услышать на PyCon. Кстати, пообщались с автором на митапе, было очень приятно.
Please open Telegram to view this post
VIEW IN TELEGRAM
YouTube
beeline data engineering meetup: решение бизнес-задач с помощью данных
Решаем задачи бизнеса, внедряя микросервисы на ETL-потоках, оптимизируем параметры запуска приложения Spark, выбираем и внедряем каталог для управления данными.
Презентации спикеров будут доступны по ссылке: https://drive.google.com/drive/folders/1iED_p…
Презентации спикеров будут доступны по ссылке: https://drive.google.com/drive/folders/1iED_p…
👍2
Понедельничный #фреймворк
Сегодня хочу продолжить тему прошлой недели и рассказать о модификации RICE-приоритезации.
➖ Речь пойдет об ICE-приоритезации. Изначально этот фреймворк заточен под эксперименты, что и вызывает интерес.
➖ Impact — как это повлияет на метрики и что даст пользователям;
➖ Confidence — насколько мы уверены в своих оценках;
➖ Ease — насколько просто реализовать эксперимент.
Обычно выбирают шкалу от 1 до 10. Лучше заранее обговорить, что считается за тройку, а что за десять.
Уже сейчас видно, что фреймворк субъективен и требует от человека целых две прикидки. На мой взгляд, RICE более сбалансирован, но ICE не требует оценок временных затрат.
Посмотрим, как фреймворк работает на примере. Есть две задачи:
(1) протестировать, влияет ли объединение нескольких экранов регистрации в один на процент завершенных регистраций;
(2) протестировать, что при изменении структуры разводящей страницы не произойдет отток аудитории.
Перед оценкой определимся, что основная метрика нашего продукта — MAU и мы нацелены на увеличение ежемесячного прироста на 5%.
➖ Impact
(1) Эксперимент влияет на активацию пользователя, а значит, опосредованно и на будущий показатель MAU. Так как влияние опосредованное, оценим на 6.
(2) Структура разводящей страницы не привлечет к нам новую аудиторию (если, конечно, не случится чудо), однако может уронить основную метрику. Эксперимент не работает на цель продукта, но нужен с точки зрения развития — оценим его на 3.
➖ Confidence
Самый скользкий момент — сложно представить, чтобы в бэклог попали задачи, в необходимости которых кто-то не уверен. Тем не менее, можно опереться на результаты UX-исследований:
(1) Согласно исследованию, 40% респондентов ушли с третьего экрана регистрации. 80% из них объяснили это тем, что ожидали, что регистрация завершится на прошлом шаге.
Мы не до конца уверены, виноваты ли экраны, количество вопросов, отсутствие прогресс-бара или сбивающий с толку текст на кнопке. Поэтому оценка уверенности — 4.
(2) Согласно исследованию, 55% пользователей не могут найти нужную им функцию на главном экране в течение 15 секунд. Таких людей много и экран явно нуждается в переработке — оценим уверенность в 8.
Почему не 10 — неизвестно, будет ли реакция пользователей положительной или новая навигация окончательно собьет всех с толку.
➖ Ease
(1) Нужно только переделать форму регистрации — UI-элементы уже готовы и сборка новой версии не займет больше пары часов. Оценка — 10.
(2) Как минимум, потребуется создать новый макет. Если он не потребует создания новых элементов, задача упростится, но все-таки займет больше времени и сотрудников. Оценка — 6.
Считаем:
(1) 6x4x10 = 240
(2) 3x8x6 = 144
Таким образом, по ICE выиграл более простой и безопасный эксперимент. В следующий раз разберем, что можно сделать, чтобы избежать неоднозначности и расплывчатых оценок.
Пользовались? Пишите в комментарии ваши впечатления💬
Сегодня хочу продолжить тему прошлой недели и рассказать о модификации RICE-приоритезации.
Обычно выбирают шкалу от 1 до 10. Лучше заранее обговорить, что считается за тройку, а что за десять.
Уже сейчас видно, что фреймворк субъективен и требует от человека целых две прикидки. На мой взгляд, RICE более сбалансирован, но ICE не требует оценок временных затрат.
Посмотрим, как фреймворк работает на примере. Есть две задачи:
(1) протестировать, влияет ли объединение нескольких экранов регистрации в один на процент завершенных регистраций;
(2) протестировать, что при изменении структуры разводящей страницы не произойдет отток аудитории.
Перед оценкой определимся, что основная метрика нашего продукта — MAU и мы нацелены на увеличение ежемесячного прироста на 5%.
(1) Эксперимент влияет на активацию пользователя, а значит, опосредованно и на будущий показатель MAU. Так как влияние опосредованное, оценим на 6.
(2) Структура разводящей страницы не привлечет к нам новую аудиторию (если, конечно, не случится чудо), однако может уронить основную метрику. Эксперимент не работает на цель продукта, но нужен с точки зрения развития — оценим его на 3.
Самый скользкий момент — сложно представить, чтобы в бэклог попали задачи, в необходимости которых кто-то не уверен. Тем не менее, можно опереться на результаты UX-исследований:
(1) Согласно исследованию, 40% респондентов ушли с третьего экрана регистрации. 80% из них объяснили это тем, что ожидали, что регистрация завершится на прошлом шаге.
Мы не до конца уверены, виноваты ли экраны, количество вопросов, отсутствие прогресс-бара или сбивающий с толку текст на кнопке. Поэтому оценка уверенности — 4.
(2) Согласно исследованию, 55% пользователей не могут найти нужную им функцию на главном экране в течение 15 секунд. Таких людей много и экран явно нуждается в переработке — оценим уверенность в 8.
Почему не 10 — неизвестно, будет ли реакция пользователей положительной или новая навигация окончательно собьет всех с толку.
(1) Нужно только переделать форму регистрации — UI-элементы уже готовы и сборка новой версии не займет больше пары часов. Оценка — 10.
(2) Как минимум, потребуется создать новый макет. Если он не потребует создания новых элементов, задача упростится, но все-таки займет больше времени и сотрудников. Оценка — 6.
Считаем:
(1) 6x4x10 = 240
(2) 3x8x6 = 144
Таким образом, по ICE выиграл более простой и безопасный эксперимент. В следующий раз разберем, что можно сделать, чтобы избежать неоднозначности и расплывчатых оценок.
Пользовались? Пишите в комментарии ваши впечатления
Please open Telegram to view this post
VIEW IN TELEGRAM
❤1👍1
This media is not supported in your browser
VIEW IN TELEGRAM
Анализ спортивных мероприятий - крайне занимательная вещь. Например, футбольной статистикой очень подробно занимаются эти ребята. Объемы открытой части данных впечатляют, оценить их можно на гитхабе.
Автор датавиза проанализировал 882,536 пасов из 890 матчей. В оригинальном посте интерактивный график, советую залипнуть:
https://observablehq.com/@karimdouieb/all-the-passes
Инструменты: d3.js
Что мне нравится:
Последнюю проблему важно избегать, но к сожалению, не все обращают на нее внимание.
Что не нравится:
Enjoy!
Please open Telegram to view this post
VIEW IN TELEGRAM
👍3🔥2
Сегодня я прочувствовала выражение «забанили в гугле» на себе — переборщила с запросами по апи =)
Спарсила мировую статистику по «выстрелившим» запросам согласно Google Trends за 2022 год и построила ridge-plot. Тематик запросов оказалось не так много, как я ожидала. Для сравнения в комментариях оставлю ковидный 2020.
Инструменты: python, pytrends (как неофициальный апи к Google Trends), seaborn.
Было бы интересно поисследовать локальный топ запросов по России, но доступ к нему закрыт.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍6🔥2
Вот и прошел июль ➖
Что было интересного в прошлом месяце:
➖ Выяснили, законно ли отрывать ноль на графике;
➖ Нашли open-source замену покинувшему нас GA-Universal Analytics;
➖ Разобрались, как не обмануть читателя цветовой схемой;
➖ Послушали несколько митапов для дата-инженеров и не только.
Вчера не вышел «понедельничный фреймворк» — он выйдет через неделю в немного другом формате.
Stay tuned!
Что было интересного в прошлом месяце:
Вчера не вышел «понедельничный фреймворк» — он выйдет через неделю в немного другом формате.
Stay tuned!
Please open Telegram to view this post
VIEW IN TELEGRAM
👍6
В блужданиях по Кэгглу я нашла датасет, в котором собраны фильмы и сериалы с Нетфликса с кратким описанием. Почему бы не сделать из этого арт?
Чем бóльшим шрифтом написано слово, тем чаще оно встречается в синопсисах. Кажется, рождественские ромкомы довольно популярны 😁
Инструменты: python и тонко настроенный matplotlib с либой WordCloud поверх.
Хочу спарсить синопсисы литературы разных жанров и посмотреть, что покажет такой подход — но оставлю это на другой раз.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥9👍4❤2
Понедельничный #фреймворк
Я экспериментирую с форматом лонгридов — кажется, что так читать их намного приятнее.
➖ Сегодня поговорим про фреймворк PXL. Он должен избавить нас от субъективности ICE/RICE-подобных фреймворков.
В конце статьи вы найдете гугл-таблицу с примером использования — копируйте, пользуйтесь и внедряйте у себя, если актуально.
Расскажите в комментариях, что думаете об этом? Возможно, кто-то даже внедрял, будет круто послушать опыт.
https://telegra.ph/PXL-frejmvork-kogda-ne-vse-testy-odinakovo-polezny-08-06
Я экспериментирую с форматом лонгридов — кажется, что так читать их намного приятнее.
В конце статьи вы найдете гугл-таблицу с примером использования — копируйте, пользуйтесь и внедряйте у себя, если актуально.
Расскажите в комментариях, что думаете об этом? Возможно, кто-то даже внедрял, будет круто послушать опыт.
https://telegra.ph/PXL-frejmvork-kogda-ne-vse-testy-odinakovo-polezny-08-06
Please open Telegram to view this post
VIEW IN TELEGRAM
Telegraph
PXL-фреймворк: когда не все тесты одинаково полезны
Нельзя протестировать все гипотезы сразу: у нас ограничен как трафик, так и силы разработчиков. А значит, надо взвесить приоритеты так, чтобы из всех идей тестировать самые перспективные. Забегая вперед, скажу, что АБ-тест нужен не всегда. Конечно, если трафик…
👍5🔥2
This media is not supported in your browser
VIEW IN TELEGRAM
Нашла очень приятный пример учебной иллюстрации.
Амазон запустил классный проект Machine Learning University, в рамках которого публикаются краткие описания основных концепций ML. На мой вкус, достаточно наглядно, но иногда хочется побольше математики.
#рекомендасьон #датавиз
https://mlu-explain.github.io/
Амазон запустил классный проект Machine Learning University, в рамках которого публикаются краткие описания основных концепций ML. На мой вкус, достаточно наглядно, но иногда хочется побольше математики.
#рекомендасьон #датавиз
https://mlu-explain.github.io/
🔥5👍2
Датавиз нужен нам, чтобы рассказывать истории. Но сам по себе график ничего не расскажет — нужно подкрепить его контекстом.
К примеру, возьмем данные о безработице в РФ с 1992 по 2010 (доступны в репозитории ООН). Вне контекста тенденции неясны.
Но стоит лишь добавить контекст:
и график становится наглядной иллюстрацией.
Я использовала диаграмму Найтингейл – у нее интересная история появления, о которой расскажу на будущей неделе.
У круглых диаграмм одна глобальная проблема — считается, что наш мозг очень плохо оценивает углы и сравнивает площади. А почему так и что с этим делать – расскажу завтра.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍2🌚2❤1
Everything is data
А так ли плохи Pie-чарты?
➖ tl;dr: нет, сами по себе они не плохи. Но у них много ограничений, которые хорошо бы держать в голове.
Об этом и лонгрид.
https://telegra.ph/nePlohie-pirogi-08-13
Об этом и лонгрид.
https://telegra.ph/nePlohie-pirogi-08-13
Please open Telegram to view this post
VIEW IN TELEGRAM
Telegraph
(не)Плохие пироги
Pie-чарты очень любит бизнес — мало какой отчет в Excel обходится без них. Разберемся, заслуженно ли. Речь пойдет про механизмы восприятия, искажения, которые можно встретить и небольшая инструкция, как этих искажений избежать. Ссылки на исследования оставила…
🔥7🌚1
Понедельничный #фреймворк
Мы поговорили про «умные» системы планирования, учитывающие контекст, трафик и альтернативные способы решения проблемы. Но что, если раскидать задачки по приоритетам нужно прямо сейчас и «на коленке»?
➖ Тогда подойдет фреймворк MoSCoW. Приятный бонус — он легко применяется как к планированию в команде, так и для себя.
https://telegra.ph/MoSCoW--kak-razobrat-hotelki-i-stat-ehffektivnee-08-13
Мы поговорили про «умные» системы планирования, учитывающие контекст, трафик и альтернативные способы решения проблемы. Но что, если раскидать задачки по приоритетам нужно прямо сейчас и «на коленке»?
https://telegra.ph/MoSCoW--kak-razobrat-hotelki-i-stat-ehffektivnee-08-13
Please open Telegram to view this post
VIEW IN TELEGRAM
Telegraph
MoSCoW — как разобрать «хотелки» и стать эффективнее
Интуитивно мы делим дела на «важные» и «неважные». Как правило, в «важные» дела попадает сильно больше, чем мы можем сделать. Намного эффективнее поделить их на 4 категории. Конечно, разделение будет субъективным — но если договориться о критериях важности…
👍3👌1
Привет!
Недавно пришло много новых читателей, добро пожаловать!
Меня зовут Алена и мне проще всего описать себя как Full stack аналитика. В моей работе есть место BI, дата-инжинирингу, дата-аналитике и даже разработке 😁 И мне это очень нравится!
Этот канал — отражение моих интересов. Я датавиз-гик и мне нравится исследовать, как рассказать историю с помощью данных.
Навигация:
#датавиз — классные визуализации. А каждую субботу я делаю небольшой датавиз экспромтом;
#фреймворк — рубрика по понедельникам о том, как построить работу и понять заказчика;
#рекомендасьон — ресурсы, которые я хочу порекомендовать, как правило образовательные;
#конференции — подборки понравившихся выступлений с прошедших конференций;
#инструменты — программы и библиотеки, которые могут пригодиться аналитику.
Немного обо мне:
Я всегда рада общению, можно на ты, можно на вы — как кому комфортнее.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍13❤8
Everything is data pinned «➖ О канале Привет! Недавно пришло много новых читателей, добро пожаловать! Меня зовут Алена и мне проще всего описать себя как Full stack аналитика. В моей работе есть место BI, дата-инжинирингу, дата-аналитике и даже разработке 😁 И мне это очень нравится!…»
Хочу рассказать про (буквально!) исторический пример того, насколько важна хорошая визуализация.
В тексте легко упустить факты — датавиз же помогает выделить те части истории, которые мы хотим подсветить. Например, понятная визуализация помогла Флоренс Найтингейл дать ход реформам, спасшим тысячи жизней.
О том, как это случилось — сегодняшний рассказ:
https://telegra.ph/Kak-horoshij-dataviz-spas-nemalo-zhiznej-08-17
В тексте легко упустить факты — датавиз же помогает выделить те части истории, которые мы хотим подсветить. Например, понятная визуализация помогла Флоренс Найтингейл дать ход реформам, спасшим тысячи жизней.
О том, как это случилось — сегодняшний рассказ:
https://telegra.ph/Kak-horoshij-dataviz-spas-nemalo-zhiznej-08-17
Telegraph
Как хороший датавиз спас немало жизней
Флоренс Найтингейл оставила значительный след в истории — во многом благодаря реформе военных госпиталей. Пронести свои идеи вопреки предрассудкам 19 века ей помог статистический подход и грамотная визуализация данных.
👍5🔥3
Не утихают холивары о-самом-главном-инструменте аналитика. Лично я пользуюсь Экселем только для просмотра. У кого-то Эксель — основной инструмент. Это не зло само по себе, скорее индикатор, что культуре обращения с данными в компании есть куда расти и что масштабирование будет непростым.
Кажется, что такая интеграция поможет начинающим аналитикам — тем, кто уже освоил Excel, но с pandas работает со словарем. Опытным аналитикам проще написать код — даже плохой код читается в разы лучше, чем формулы в ячейках.
Грустно одно — сам дистрибутив питона в облаке и поставить сторонние библиотеки нельзя. А в будущем эту фичу закроют под отдельную подписку.
https://techcommunity.microsoft.com/t5/excel-blog/announcing-python-in-excel-combining-the-power-of-python-and-the/ba-p/3893439
Please open Telegram to view this post
VIEW IN TELEGRAM
TECHCOMMUNITY.MICROSOFT.COM
Announcing Python in Excel
Announcing Python in Excel: Combining the power of Python and the flexibility of Excel.
👍4🤯1
🌆 Занятная иллюстрация из статьи по урбанистике
Автор из университета Южной Калифорнии построил преимущественное направление на азимут улиц основных городов мира. Графики упорядочены по росту информационной энтропии. А чем выше столбец, тем больше улиц в этом направлении.
Анализ проводился на основе данных OpenStreetMap. В Python такие карты удобно читать с помощью библиотеки OSMnx.
Логично, что чем старше город, тем «хаотичнее» направления в нём. Я хорошо знаю всего пару городов с этой иллюстрации, с ощущениями совпадает 🙂
Рекомендую посмотреть и оригинальную статью - в ней авторы выделили «похожие» города и удобно визуализировали полученные кластеры с помощью t-SNE.
В комментариях — hi-res версия.
#датавиз
Автор из университета Южной Калифорнии построил преимущественное направление на азимут улиц основных городов мира. Графики упорядочены по росту информационной энтропии. А чем выше столбец, тем больше улиц в этом направлении.
Анализ проводился на основе данных OpenStreetMap. В Python такие карты удобно читать с помощью библиотеки OSMnx.
Логично, что чем старше город, тем «хаотичнее» направления в нём. Я хорошо знаю всего пару городов с этой иллюстрации, с ощущениями совпадает 🙂
Рекомендую посмотреть и оригинальную статью - в ней авторы выделили «похожие» города и удобно визуализировали полученные кластеры с помощью t-SNE.
В комментариях — hi-res версия.
#датавиз
👍6❤4
Не писала некоторое время — увеличилась нагрузка на работе, добралась до интересного мне проекта, вот время и закончилось.
Но нагрузка приходит в норму, вот и я понемногу возобновлю вещание.
Недавно я решила повысить умение работы с данными в продуктовой команде — умение не столько оперировать ими, сколько правильно интерпретировать. Мне важно погрузить в контекст, чтобы мы говорили на одном языке. Отсюда и родился небольшой внутренний лекторий.
Один из модулей — про датавиз. При подготовке я нашла классные рулбуки, которыми и хочу поделиться.
➖ Постер Financial Times — четко размечено, какой график выбрать, чтобы подсветить нужную идею. Хочется распечатать и оставить на видном месте.
➖ Таблица USI — как Менделеева, только про графики. Каждый «элемент» проиллюстрирован и размечен — указано, какой цели служит и как его воспримет смотрящий. Лучше смотреть на компьютере.
➖ Стайлгайд Карины Спитальник — в первую очередь он применим для Tableau, но много полезных идей можно взять и для других BI-систем.
#датавиз
Но нагрузка приходит в норму, вот и я понемногу возобновлю вещание.
Недавно я решила повысить умение работы с данными в продуктовой команде — умение не столько оперировать ими, сколько правильно интерпретировать. Мне важно погрузить в контекст, чтобы мы говорили на одном языке. Отсюда и родился небольшой внутренний лекторий.
Один из модулей — про датавиз. При подготовке я нашла классные рулбуки, которыми и хочу поделиться.
#датавиз
Please open Telegram to view this post
VIEW IN TELEGRAM
GitHub
chart-doctor/visual-vocabulary/Visual-vocabulary-en.pdf at main · Financial-Times/chart-doctor
Sample files to accompany the FT's Chart Doctor column - Financial-Times/chart-doctor
❤3👍3🔥3
Нашла, пожалуй, уникальный датасет с самыми разными характеристиками миллиона песен — от метаданных до громкости, популярности и bpm каждой песни.
Стало интересно, а что уже делали с этими данными - и смотрите, как хорошо получилось у Шона Миллера скрестить топ-100 Rolling Stones с ними.
Песни собраны по альбомам, что даёт распределения величин — на борде прослеживается, что редко выстреливают все песни сборника, или что не всегда сохранение ритма и тональности от трека к треку — путь к успеху.
Список, кстати, что надо - если не знали, откуда подступиться к метал-музыке, можно начать с классики
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥7👍4