Forwarded from Junior Data Scientist
Разбираем код по строчкам.
#полезное
В курсе на степике вы столкнетесь с суровой реальностью - ваш код не будет работать. Искать ту самую ошибку дело не из приятных. На помощь приходит инструмент, который визуализирует код. Эта штуковина спасет очень много нервных клеток. Работает все просто - копипастишь свое творчество, запускаешь, разбираешься. Слева твой код, который выполняется по одной строке, справа визуализация.
Вердикт. 5/5. Отличный инструмент для новичка.
Ссылка: помогатор.
#полезное
В курсе на степике вы столкнетесь с суровой реальностью - ваш код не будет работать. Искать ту самую ошибку дело не из приятных. На помощь приходит инструмент, который визуализирует код. Эта штуковина спасет очень много нервных клеток. Работает все просто - копипастишь свое творчество, запускаешь, разбираешься. Слева твой код, который выполняется по одной строке, справа визуализация.
Вердикт. 5/5. Отличный инструмент для новичка.
Ссылка: помогатор.
🔥1
Forwarded from A/B testing
Появился еще один пакет в Python для оценки A/B-тестирования с использованием байесовского подхода: статья | пакет | github
via @ABtesting
via @ABtesting
🔥1
Forwarded from Data-comics
Data visualization society выложило 71 видео с прошедшей датавиз конференции Outlier 2022! 😍
Постараюсь посмотреть и написать, что есть интересного, но не уверена, что все осилю! Так что делитесь, если найдёте что-то годное!
https://youtube.com/playlist?list=PLAm5TIX-yz7LJKkE-hzEWiIJpAFPmB19A
Постараюсь посмотреть и написать, что есть интересного, но не уверена, что все осилю! Так что делитесь, если найдёте что-то годное!
https://youtube.com/playlist?list=PLAm5TIX-yz7LJKkE-hzEWiIJpAFPmB19A
🔥1
Forwarded from Pavel Dubinin
Полезные ссылки для знакомства и работы с DataLens
Большой функциональный демо дашборд:
- datalens.yandex/demo - публичный, только чтение
- Развернуть дашборд в своем DataLens для редактирования
Сообщество:
- Телеграм чат (вы сейчас тут)
- Предложить и проголосовать за новую фичу
- Плейлист официальных мероприятий на YouTube
Обучение:
- Быстрый старт, пошаговая инструкция
- Более детальные пошаговые инструкции по сценариям
- Туториалы по аналитическим функциям: агрегации, оконные функции, Level-of-Detail выражения
- Создание SQL-чартов (если вам нужно больше гибкости модели данных)
- Образовательные проекты
FAQ в документации:
- https://cloud.yandex.ru/docs/datalens/qa/
Публичные кейсы использования DataLens:
- КазаньЭкспресс - Аналитика retail маркетплейса
- Правительство С.-Петербурга - Аналитика городских сервисов
- Окраина - Аналитика на мясоперерабатывающем заводе
- МВидео - Платформа данных в облаке, геоаналитика
- Rubetek - Аналитика IOT по датчикам домов и квартир застройщика ПИК
- Moneycare - Кредитный брокер, корпоративный BI
- AnywayAnyDay - Аналитика онлайн туристического агентства
- JustSchool - Аналитика над CRM школы английского языка
- SevenTech - Аналитика технологического стартапа над ClickHouse
- НефтеТрансСервис - Промышленная аналитика интернета вещей
- RADAR - Аналитика аудитории наружной рекламы по всей России
- Цифровое образование - Аналитика олимпиад, учеников, школ
- Биологический Факультет МГУ - Предсказание и аналитика урожая
- tproger – Веб аналитика портала
- Car-Taxi - Продуктовая аналитика сервиса эвакуации авто
- Кинопоиск - Публичная статистика оценок фильмов
Примеры публичных дашбордов:
- Анализ качества воздуха
- Статистика коронавируса
- Погода
- Показатели Российских ВУЗов
- Демография Ставрополья
- Исследование про работу вахтовым методом в РФ
- Безработица РФ
- Пример с LOD выражениями от @ab0xa
(присылайте ваши примеры в чат, если хотите поделиться своим опытом!)
Презентации:
- DataLens
- Yandex Cloud Data Platform
Помощь:
- Обсудить ваш проект
- Завести тикет в техподдержку
- Найти партнера для проекта
Большой функциональный демо дашборд:
- datalens.yandex/demo - публичный, только чтение
- Развернуть дашборд в своем DataLens для редактирования
Сообщество:
- Телеграм чат (вы сейчас тут)
- Предложить и проголосовать за новую фичу
- Плейлист официальных мероприятий на YouTube
Обучение:
- Быстрый старт, пошаговая инструкция
- Более детальные пошаговые инструкции по сценариям
- Туториалы по аналитическим функциям: агрегации, оконные функции, Level-of-Detail выражения
- Создание SQL-чартов (если вам нужно больше гибкости модели данных)
- Образовательные проекты
FAQ в документации:
- https://cloud.yandex.ru/docs/datalens/qa/
Публичные кейсы использования DataLens:
- КазаньЭкспресс - Аналитика retail маркетплейса
- Правительство С.-Петербурга - Аналитика городских сервисов
- Окраина - Аналитика на мясоперерабатывающем заводе
- МВидео - Платформа данных в облаке, геоаналитика
- Rubetek - Аналитика IOT по датчикам домов и квартир застройщика ПИК
- Moneycare - Кредитный брокер, корпоративный BI
- AnywayAnyDay - Аналитика онлайн туристического агентства
- JustSchool - Аналитика над CRM школы английского языка
- SevenTech - Аналитика технологического стартапа над ClickHouse
- НефтеТрансСервис - Промышленная аналитика интернета вещей
- RADAR - Аналитика аудитории наружной рекламы по всей России
- Цифровое образование - Аналитика олимпиад, учеников, школ
- Биологический Факультет МГУ - Предсказание и аналитика урожая
- tproger – Веб аналитика портала
- Car-Taxi - Продуктовая аналитика сервиса эвакуации авто
- Кинопоиск - Публичная статистика оценок фильмов
Примеры публичных дашбордов:
- Анализ качества воздуха
- Статистика коронавируса
- Погода
- Показатели Российских ВУЗов
- Демография Ставрополья
- Исследование про работу вахтовым методом в РФ
- Безработица РФ
- Пример с LOD выражениями от @ab0xa
(присылайте ваши примеры в чат, если хотите поделиться своим опытом!)
Презентации:
- DataLens
- Yandex Cloud Data Platform
Помощь:
- Обсудить ваш проект
- Завести тикет в техподдержку
- Найти партнера для проекта
Telegram
Yandex DataLens
Сообщество пользователей Yandex DataLens
- Правила: t.me/YandexDataLens/28609/28610
- Полезное: t.me/YandexDataLens/28609/28894
Номер заявления РКН: 4962849290
- Правила: t.me/YandexDataLens/28609/28610
- Полезное: t.me/YandexDataLens/28609/28894
Номер заявления РКН: 4962849290
🔥1
Forwarded from Simulative
🔥 Разбор тестового задания для аналитика с [Avito Weekend Offer]
Сегодня вместе с онлайн-университетом SF Education подготовили разбор задачи по Python с [Avito Weekend Offer].
Кстати, попробуйте сначала решить эту задачу самостоятельно 👉🏻 https://vk.cc/cb8QbP 😉
# Задача
Вам дано 2 набора чисел arr1 и arr2 в виде списка Python. Необходимо вернуть список, состоящий из элементов пересечения. Дубликаты необходимо удалить.
Важно: Если пересечение пустое, то возвращаем пустой список.
Пример:
Самый простой подход - пробежаться по элементам каждого массива и проверить вхождение во второй массив. Если элемент есть в обоих массивах - добавляем к результату.
Кроме того, одно значение может встречаться в каждом массиве несколько раз. Нет смысла проверять каждый раз - достаточно одного.
Чтобы убрать дубликаты, мы можем использовать множества - set. Они хранят уникальные значения в неупорядоченном виде.
У множеств в Python есть встроенный метод intersection - он как раз находит пересечение двух множеств.
Таким образом, решение задачи сводится к следующему:
1. Переводим оба списка в множества
2. С помощью метода intersection находим пересечение
3. На выходе intersection получается снова множество, поэтому переводим его в список с помощью функции list
Итоговый код:
Сегодня вместе с онлайн-университетом SF Education подготовили разбор задачи по Python с [Avito Weekend Offer].
Кстати, попробуйте сначала решить эту задачу самостоятельно 👉🏻 https://vk.cc/cb8QbP 😉
# Задача
Вам дано 2 набора чисел arr1 и arr2 в виде списка Python. Необходимо вернуть список, состоящий из элементов пересечения. Дубликаты необходимо удалить.
Важно: Если пересечение пустое, то возвращаем пустой список.
Пример:
arr1 = [1, 2, 3], arr2 = [1, 1, 5]Пример:
Ответ: [1]
arr1 = [1, 2, 3], arr2 = [6, 7, 5]Пример:
Ответ: []
arr1 = [1, 2, 3], arr2 = [1, 2, 15, 3, 3]# Попытка 1
Ответ: [1, 2, 3]
Самый простой подход - пробежаться по элементам каждого массива и проверить вхождение во второй массив. Если элемент есть в обоих массивах - добавляем к результату.
Очевидно, что это не самый оптимальный код - мы несколько раз пробегаемся по каждому списку, да еще и каждый раз проверяем: нет ли уже такого элемента в res.
res = []
for el in arr1:
if el in arr2 and el not in res:
res.append(el)
for el in arr2:
if el in arr1 and el not in res:
res.append(el)
Кроме того, одно значение может встречаться в каждом массиве несколько раз. Нет смысла проверять каждый раз - достаточно одного.
Чтобы убрать дубликаты, мы можем использовать множества - set. Они хранят уникальные значения в неупорядоченном виде.
st1 = set(arr1)# Попытка 2
У множеств в Python есть встроенный метод intersection - он как раз находит пересечение двух множеств.
Таким образом, решение задачи сводится к следующему:
1. Переводим оба списка в множества
2. С помощью метода intersection находим пересечение
3. На выходе intersection получается снова множество, поэтому переводим его в список с помощью функции list
Итоговый код:
def PureIntersection(arr1, arr2):
return list(set(arr1).intersection(set(arr2)))
🔥1
Forwarded from Клуб анонимных аналитиков
5 способов врать с помощью диаграмм🙊
Иногда диаграммы и графики манипулируют нами с помощью трюков, которые полностью меняют восприятие данных. Вот 5 таких трюков.
⛔ Загадочная перспектива
Обе круговые диаграммы на картинке 1 показывают, что «труд» занимает 30%. Но на диаграмме справа этот показатель размещен на переднем плане и имеет толстый 3D-край. Визуально это сильно увеличивает «масштаб» показателя.
⛔ Мошеннические формы
Классический способ лгать с помощью диаграммы — это вводить не относящуюся к делу информацию. На диаграмме справа (картинка 2) единственное релевантное свойство — высота конуса. Объем не имеет значения, но игнорировать его трудно. И это заставляет придавать большее значение широкой части конуса.
⛔ Несвязанные тренды
Когда на графике есть несколько похожих линий, кажется, что они связаны. На картинке 3 красная линия представляет уровень самоубийств, а зеленая — расходы на науку и технику. Это два совершенно независимых набора данных, но невольно возникает вопрос: а может, это как-то связано?
⛔ Показывая, прячем
Если надо, можно сделать какую-то тенденцию менее заметной. На картинке 4 левая диаграмма ясно показывает, что за три года расходы на маркетинг выросли втрое. То же самое есть и в правой диаграмме, но он скрыт среди множества других данных. Это делает резкий уклон в маркетинговых затратах малозаметным и почти невозможным для количественной оценки.
⛔ Дорогая, я уменьшил масштаб!
На первый взгляд кажется, что две диаграммы на картинке 5 изображают два разных набора данных. Но приглядитесь, и вы увидите, что единственная разница — это масштаб.
Этот трюк работает, потому что нам трудно исследовать масштаб диаграммы и данные одновременно.
Подбирать визуализацию по смыслу данных мои студенты учатся на курсе «Бизнес-дашборды в Excel» — ссылка в таплинке, в шапке профиля. Врать с помощью диаграмм никому не советую, но знать такие вещи необходимо :)
Иногда диаграммы и графики манипулируют нами с помощью трюков, которые полностью меняют восприятие данных. Вот 5 таких трюков.
⛔ Загадочная перспектива
Обе круговые диаграммы на картинке 1 показывают, что «труд» занимает 30%. Но на диаграмме справа этот показатель размещен на переднем плане и имеет толстый 3D-край. Визуально это сильно увеличивает «масштаб» показателя.
⛔ Мошеннические формы
Классический способ лгать с помощью диаграммы — это вводить не относящуюся к делу информацию. На диаграмме справа (картинка 2) единственное релевантное свойство — высота конуса. Объем не имеет значения, но игнорировать его трудно. И это заставляет придавать большее значение широкой части конуса.
⛔ Несвязанные тренды
Когда на графике есть несколько похожих линий, кажется, что они связаны. На картинке 3 красная линия представляет уровень самоубийств, а зеленая — расходы на науку и технику. Это два совершенно независимых набора данных, но невольно возникает вопрос: а может, это как-то связано?
⛔ Показывая, прячем
Если надо, можно сделать какую-то тенденцию менее заметной. На картинке 4 левая диаграмма ясно показывает, что за три года расходы на маркетинг выросли втрое. То же самое есть и в правой диаграмме, но он скрыт среди множества других данных. Это делает резкий уклон в маркетинговых затратах малозаметным и почти невозможным для количественной оценки.
⛔ Дорогая, я уменьшил масштаб!
На первый взгляд кажется, что две диаграммы на картинке 5 изображают два разных набора данных. Но приглядитесь, и вы увидите, что единственная разница — это масштаб.
Этот трюк работает, потому что нам трудно исследовать масштаб диаграммы и данные одновременно.
Подбирать визуализацию по смыслу данных мои студенты учатся на курсе «Бизнес-дашборды в Excel» — ссылка в таплинке, в шапке профиля. Врать с помощью диаграмм никому не советую, но знать такие вещи необходимо :)
🔥1
Forwarded from Python 🐍 Work With Data
Машинное_обучение_Паттерны_проектирования_Валиаппа_Лакшманан,_Майкл.pdf
58.7 MB
Python - Машинное обучение. Паттерны проектирования (Валиаппа Лакшманан, Майкл Мунн, Сара Робинсон).pdf
Практический_анализ_временных_рядов_прогнозирование_со_статистикой.pdf
37.9 MB
Python - Практический анализ временных рядов прогнозирование со статистикой и машинное обучение (Эйлин Нильсен).pdf
👍1
Forwarded from Журналистика данных
Данные о количестве и распределении христиан в мире
https://www.gordonconwell.edu/blog/who-owns-global-christianity/
https://www.gordonconwell.edu/blog/who-owns-global-christianity/
👍1
Forwarded from Интернет-аналитика // Алексей Никушин (Alex Nikushin)
У наших друзей из @KarpovCourses повышение цен с мая. Сообщают о том, что можно записаться на текущих условиях на следующий набор
👍1
Forwarded from karpov.courses
● Интервью с Марией Жавадовой
Одно из наших первых интервью, которое собрало невероятный отклик для наших первых шагов в ведении этого сообщества! Мария рассказывает о своем опыте работы Product Manager'ом ВКонтакте и дает советы для junior-аналитиков.
● Топ 5 книг по аналитике
Алексей Никушин поделился с нами книгами, которым стоит уделить внимание при изучении математики и анализа данных.
● Статья «Как правильно оформлять таблицы в Jupiter Notebook»
Прямое руководство о видоизменении таблицы в Jupyter Notebook, чтобы все таблицы в ваших документах были красивыми и понятными :)
● Вебинар «Как не запутаться в статистических методах»
Теплая и ламповая лекция о статистике с Анатолием Карповым (куда ж без него!). Разбираемся с основным набором статистических методов и рассматриваем случаи применения каждого из них.
● Подборка игровых тренажеров для аналитика данных
Геймификация – крутой тренд, который не стоит обходить стороной, поэтому мы собрали 6 игр для улучшения своих скиллов в анализе данных.
Одно из наших первых интервью, которое собрало невероятный отклик для наших первых шагов в ведении этого сообщества! Мария рассказывает о своем опыте работы Product Manager'ом ВКонтакте и дает советы для junior-аналитиков.
● Топ 5 книг по аналитике
Алексей Никушин поделился с нами книгами, которым стоит уделить внимание при изучении математики и анализа данных.
● Статья «Как правильно оформлять таблицы в Jupiter Notebook»
Прямое руководство о видоизменении таблицы в Jupyter Notebook, чтобы все таблицы в ваших документах были красивыми и понятными :)
● Вебинар «Как не запутаться в статистических методах»
Теплая и ламповая лекция о статистике с Анатолием Карповым (куда ж без него!). Разбираемся с основным набором статистических методов и рассматриваем случаи применения каждого из них.
● Подборка игровых тренажеров для аналитика данных
Геймификация – крутой тренд, который не стоит обходить стороной, поэтому мы собрали 6 игр для улучшения своих скиллов в анализе данных.
🔥1
Forwarded from karpov.courses
Plotly — гибкая и удобная библиотека для визуализации данных в Python.
Главная особенность plotly — интерактивность графиков, что делает анализ данных более удобным. Библиотека обладает большим количеством настроек, однако позволяет строить приятные и аккуратные графики даже с параметрами по умолчанию, что повышает скорость работы. В этой статье рассмотрим различные виды графиков в plotly.express — подмодуле plotly для быстрой визуализации.
Полезные ссылки:
● Документация Plotly (Python)
● Подробнее о boxplot
● Ноутбук с кодом
Главная особенность plotly — интерактивность графиков, что делает анализ данных более удобным. Библиотека обладает большим количеством настроек, однако позволяет строить приятные и аккуратные графики даже с параметрами по умолчанию, что повышает скорость работы. В этой статье рассмотрим различные виды графиков в plotly.express — подмодуле plotly для быстрой визуализации.
Полезные ссылки:
● Документация Plotly (Python)
● Подробнее о boxplot
● Ноутбук с кодом
🔥1