Junior Data Analyst – Telegram
Junior Data Analyst
499 subscribers
235 photos
12 videos
41 files
434 links
Джунам и не только подборки полезных ссылок.
- SQL
- Визуализация, Tableau
- Продуктовая аналитика
- Вакансии
- Книги
- Мемчики:)
Download Telegram
Forwarded from Pavel Dubinin
Полезные ссылки для знакомства и работы с DataLens

Большой функциональный демо дашборд:
- datalens.yandex/demo - публичный, только чтение
- Развернуть дашборд в своем DataLens для редактирования

Сообщество:
- Телеграм чат (вы сейчас тут)
- Предложить и проголосовать за новую фичу
- Плейлист официальных мероприятий на YouTube

Обучение:
- Быстрый старт, пошаговая инструкция
- Более детальные пошаговые инструкции по сценариям
- Туториалы по аналитическим функциям: агрегации, оконные функции, Level-of-Detail выражения
- Создание SQL-чартов (если вам нужно больше гибкости модели данных)
- Образовательные проекты

FAQ в документации:
- https://cloud.yandex.ru/docs/datalens/qa/

Публичные кейсы использования DataLens:
- КазаньЭкспресс - Аналитика retail маркетплейса
- Правительство С.-Петербурга - Аналитика городских сервисов
- Окраина - Аналитика на мясоперерабатывающем заводе
- МВидео - Платформа данных в облаке, геоаналитика
- Rubetek - Аналитика IOT по датчикам домов и квартир застройщика ПИК
- Moneycare - Кредитный брокер, корпоративный BI
- AnywayAnyDay - Аналитика онлайн туристического агентства
- JustSchool - Аналитика над CRM школы английского языка
- SevenTech - Аналитика технологического стартапа над ClickHouse
- НефтеТрансСервис - Промышленная аналитика интернета вещей
- RADAR - Аналитика аудитории наружной рекламы по всей России
- Цифровое образование - Аналитика олимпиад, учеников, школ
- Биологический Факультет МГУ - Предсказание и аналитика урожая
- tproger – Веб аналитика портала
- Car-Taxi - Продуктовая аналитика сервиса эвакуации авто
- Кинопоиск - Публичная статистика оценок фильмов

Примеры публичных дашбордов:
- Анализ качества воздуха
- Статистика коронавируса
- Погода
- Показатели Российских ВУЗов
- Демография Ставрополья
- Исследование про работу вахтовым методом в РФ
- Безработица РФ
- Пример с LOD выражениями от @ab0xa
(присылайте ваши примеры в чат, если хотите поделиться своим опытом!)

Презентации:
- DataLens
- Yandex Cloud Data Platform

Помощь:
- Обсудить ваш проект
- Завести тикет в техподдержку
- Найти партнера для проекта
🔥1
Forwarded from Simulative
🔥 Разбор тестового задания для аналитика с [Avito Weekend Offer]

Сегодня вместе с онлайн-университетом SF Education подготовили разбор задачи по Python с [Avito Weekend Offer].

Кстати, попробуйте сначала решить эту задачу самостоятельно 👉🏻 https://vk.cc/cb8QbP 😉

# Задача

Вам дано 2 набора чисел arr1 и arr2 в виде списка Python. Необходимо вернуть список, состоящий из элементов пересечения. Дубликаты необходимо удалить.

Важно: Если пересечение пустое, то возвращаем пустой список.

Пример:

 arr1 = [1, 2, 3], arr2 = [1, 1, 5]
Ответ: [1]

Пример:

 arr1 = [1, 2, 3], arr2 = [6, 7, 5]
Ответ: []

Пример:

 arr1 = [1, 2, 3], arr2 = [1, 2, 15, 3, 3]
Ответ: [1, 2, 3]

# Попытка 1

Самый простой подход - пробежаться по элементам каждого массива и проверить вхождение во второй массив. Если элемент есть в обоих массивах - добавляем к результату.

 
res = []
for el in arr1:
if el in arr2 and el not in res:
res.append(el)
for el in arr2:
if el in arr1 and el not in res:
res.append(el)

Очевидно, что это не самый оптимальный код - мы несколько раз пробегаемся по каждому списку, да еще и каждый раз проверяем: нет ли уже такого элемента в res.

Кроме того, одно значение может встречаться в каждом массиве несколько раз. Нет смысла проверять каждый раз - достаточно одного.

Чтобы убрать дубликаты, мы можем использовать множества - set. Они хранят уникальные значения в неупорядоченном виде.

 st1 = set(arr1)

# Попытка 2

У множеств в Python есть встроенный метод intersection - он как раз находит пересечение двух множеств.

Таким образом, решение задачи сводится к следующему:

1. Переводим оба списка в множества
2. С помощью метода intersection находим пересечение
3. На выходе intersection получается снова множество, поэтому переводим его в список с помощью функции list

Итоговый код:

 def PureIntersection(arr1, arr2):
return list(set(arr1).intersection(set(arr2)))
🔥1
5 способов врать с помощью диаграмм🙊

Иногда диаграммы и графики манипулируют нами с помощью трюков, которые полностью меняют восприятие данных. Вот 5 таких трюков.

Загадочная перспектива
Обе круговые диаграммы на картинке 1 показывают, что «труд» занимает 30%. Но на диаграмме справа этот показатель размещен на переднем плане и имеет толстый 3D-край. Визуально это сильно увеличивает «масштаб» показателя.

Мошеннические формы
Классический способ лгать с помощью диаграммы — это вводить не относящуюся к делу информацию. На диаграмме справа (картинка 2) единственное релевантное свойство — высота конуса. Объем не имеет значения, но игнорировать его трудно. И это заставляет придавать большее значение широкой части конуса.

Несвязанные тренды
Когда на графике есть несколько похожих линий, кажется, что они связаны. На картинке 3 красная линия представляет уровень самоубийств, а зеленая — расходы на науку и технику. Это два совершенно независимых набора данных, но невольно возникает вопрос: а может, это как-то связано?

Показывая, прячем
Если надо, можно сделать какую-то тенденцию менее заметной. На картинке 4 левая диаграмма ясно показывает, что за три года расходы на маркетинг выросли втрое. То же самое есть и в правой диаграмме, но он скрыт среди множества других данных. Это делает резкий уклон в маркетинговых затратах малозаметным и почти невозможным для количественной оценки.

Дорогая, я уменьшил масштаб!
На первый взгляд кажется, что две диаграммы на картинке 5 изображают два разных набора данных. Но приглядитесь, и вы увидите, что единственная разница — это масштаб.
Этот трюк работает, потому что нам трудно исследовать масштаб диаграммы и данные одновременно.

Подбирать визуализацию по смыслу данных мои студенты учатся на курсе «Бизнес-дашборды в Excel» — ссылка в таплинке, в шапке профиля. Врать с помощью диаграмм никому не советую, но знать такие вещи необходимо :)
🔥1
Машинное_обучение_Паттерны_проектирования_Валиаппа_Лакшманан,_Майкл.pdf
58.7 MB
Python - Машинное обучение. Паттерны проектирования (Валиаппа Лакшманан, Майкл Мунн, Сара Робинсон).pdf
Практический_анализ_временных_рядов_прогнозирование_со_статистикой.pdf
37.9 MB
Python - Практический анализ временных рядов прогнозирование со статистикой и машинное обучение (Эйлин Нильсен).pdf
👍1
Данные о количестве и распределении христиан в мире
https://www.gordonconwell.edu/blog/who-owns-global-christianity/
👍1
У наших друзей из @KarpovCourses повышение цен с мая. Сообщают о том, что можно записаться на текущих условиях на следующий набор
👍1
Forwarded from karpov.courses
Интервью с Марией Жавадовой

Одно из наших первых интервью, которое собрало невероятный отклик для наших первых шагов в ведении этого сообщества! Мария рассказывает о своем опыте работы Product Manager'ом ВКонтакте и дает советы для junior-аналитиков.

Топ 5 книг по аналитике

Алексей Никушин поделился с нами книгами, которым стоит уделить внимание при изучении математики и анализа данных.

Статья «Как правильно оформлять таблицы в Jupiter Notebook»

Прямое руководство о видоизменении таблицы в Jupyter Notebook, чтобы все таблицы в ваших документах были красивыми и понятными :)

Вебинар «Как не запутаться в статистических методах»

Теплая и ламповая лекция о статистике с Анатолием Карповым (куда ж без него!). Разбираемся с основным набором статистических методов и рассматриваем случаи применения каждого из них.

Подборка игровых тренажеров для аналитика данных

Геймификация – крутой тренд, который не стоит обходить стороной, поэтому мы собрали 6 игр для улучшения своих скиллов в анализе данных.
🔥1
Forwarded from karpov.courses
Plotly — гибкая и удобная библиотека для визуализации данных в Python.

Главная особенность plotly — интерактивность графиков, что делает анализ данных более удобным. Библиотека обладает большим количеством настроек, однако позволяет строить приятные и аккуратные графики даже с параметрами по умолчанию, что повышает скорость работы. В этой статье рассмотрим различные виды графиков в plotly.express — подмодуле plotly для быстрой визуализации.

Полезные ссылки:
Документация Plotly (Python)
Подробнее о boxplot
Ноутбук с кодом
🔥1
Forwarded from Data-comics
Kevin Flerlage рассказывает про Tiny Tableau Tips - подборку маленьких советов по работе с Tableau!
Они обитают в твиттере, сопровождаются короткими гифками, но часть интересных Кевин собрал в своём блоге.

Вот примеры:

1. Используйте стрелочки и Ctrl, чтобы менять размер таблицы.

2. Нажмите G чтобы показать сетку.

3. Копируете и вставляйте форматирование с воркбуков.

4. Перетаскивайте быстрые вычисления в сохранённые поля.

5. Меняйте агрегацию Итого прямо в таблице.

6. Заменяйте пилюли аккуратно, чтобы не слетело форматирование.

И т.д..

https://www.flerlagetwins.com/2022/04/tiny-tableau-tips-round-1.html?m=1
🔥1
Forwarded from Reveal the Data
Написал статью с инструкциями и собрал в одной книге на Паблике примеры навигации между дашбордами в Табло. Книгу можно скачать и посмотреть как это работает.

Кросс-линки между дашбордами неотъемлемая часть создания системы отчетности и важный функционал о котором часто забывают.
#статья
1
Леопарды, привет! Решил выложить бесплатную часть своего курса по DS на Ютюб. Посмотрим, как воспримет его рекомендательный алгоритм). Ну а кто еще не смотрел эти видосы на Stepik, можете посмотреть теперь на Ютюб.

Видос я выкладываю в первую очередь для продвижения своего курса по DS: я хочу покорить мир со своими курсами). Если вы хотите мне в этом помочь, и вам нравятся мои курсы, то пожалуйста поставьте мне 5 звездочек и напишите отзыв на курс по DS на Stepik или Udemy. 🙏

И спасибо вам всем огромное за поддержку, за месяц курс купило почти 300 человек. Офигеть! Спасибо! 🐆🐆🐆🐆🐆🐆
👍1🔥1