Junior Data Analyst – Telegram
Junior Data Analyst
499 subscribers
235 photos
12 videos
41 files
434 links
Джунам и не только подборки полезных ссылок.
- SQL
- Визуализация, Tableau
- Продуктовая аналитика
- Вакансии
- Книги
- Мемчики:)
Download Telegram
Forwarded from Junior Data Scientist
Как я узнал про Дата Саенс, машины лёрнинга и прочие бигдаты.
#всякоеразное

Каждый первый раз столкнулся со сферой по-своему, я вот на ютубе. Меня всегда интересовала тема таргетированной рекламы и как именно она работает, почему именно на меня нацелена та или иная (порой не тривиальная) реклама. На тот момент это было какой-то магией для меня. Ютуб -> рекомендации -> какое-то большое интервью про бигдату -> ну посмотрим. Смотрю, понимаю, что мне дико заходит эта тема. Главный герой вью - Артур Хачуян, специалист по обработке больших данных и основатель компании Tazeros Global. Ну очень интересное видео для меня на тот момент, много разных вещей, в которые сложно поверить. Кто собирает данные, зачем, что с ними делают, как из каких-то циферок получить деньги и на что вообще способны современные технологии. Артур очень интересный собеседник, который без пафоса и всякой теории рассказывает обычным людям достаточно сложные, а главное интересные вещи. После этого видео я начал гуглить другие его видео/лекции, меня реально затянуло. Оу, а обучаться я начну только через год (а зря!). Пожалуй с этого видео все началось, этот человек реально смог заинтересовать меня ДСом. Советую посмотреть пару роликов и вам, топ контент.

Ссылки: первое видео, вью любителя многоэтажек.
🔥1
Forwarded from Junior Data Scientist
Разбираем код по строчкам.
#полезное

В курсе на степике вы столкнетесь с суровой реальностью - ваш код не будет работать. Искать ту самую ошибку дело не из приятных. На помощь приходит инструмент, который визуализирует код. Эта штуковина спасет очень много нервных клеток. Работает все просто - копипастишь свое творчество, запускаешь, разбираешься. Слева твой код, который выполняется по одной строке, справа визуализация.

Вердикт. 5/5. Отличный инструмент для новичка.
Ссылка: помогатор.
🔥1
Forwarded from A/B testing
​​Появился еще один пакет в Python для оценки A/B-тестирования с использованием байесовского подхода: статья | пакет | github

via @ABtesting
🔥1
Forwarded from Data-comics
Data visualization society выложило 71 видео с прошедшей датавиз конференции Outlier 2022! 😍

Постараюсь посмотреть и написать, что есть интересного, но не уверена, что все осилю! Так что делитесь, если найдёте что-то годное!

https://youtube.com/playlist?list=PLAm5TIX-yz7LJKkE-hzEWiIJpAFPmB19A
🔥1
Forwarded from Pavel Dubinin
Полезные ссылки для знакомства и работы с DataLens

Большой функциональный демо дашборд:
- datalens.yandex/demo - публичный, только чтение
- Развернуть дашборд в своем DataLens для редактирования

Сообщество:
- Телеграм чат (вы сейчас тут)
- Предложить и проголосовать за новую фичу
- Плейлист официальных мероприятий на YouTube

Обучение:
- Быстрый старт, пошаговая инструкция
- Более детальные пошаговые инструкции по сценариям
- Туториалы по аналитическим функциям: агрегации, оконные функции, Level-of-Detail выражения
- Создание SQL-чартов (если вам нужно больше гибкости модели данных)
- Образовательные проекты

FAQ в документации:
- https://cloud.yandex.ru/docs/datalens/qa/

Публичные кейсы использования DataLens:
- КазаньЭкспресс - Аналитика retail маркетплейса
- Правительство С.-Петербурга - Аналитика городских сервисов
- Окраина - Аналитика на мясоперерабатывающем заводе
- МВидео - Платформа данных в облаке, геоаналитика
- Rubetek - Аналитика IOT по датчикам домов и квартир застройщика ПИК
- Moneycare - Кредитный брокер, корпоративный BI
- AnywayAnyDay - Аналитика онлайн туристического агентства
- JustSchool - Аналитика над CRM школы английского языка
- SevenTech - Аналитика технологического стартапа над ClickHouse
- НефтеТрансСервис - Промышленная аналитика интернета вещей
- RADAR - Аналитика аудитории наружной рекламы по всей России
- Цифровое образование - Аналитика олимпиад, учеников, школ
- Биологический Факультет МГУ - Предсказание и аналитика урожая
- tproger – Веб аналитика портала
- Car-Taxi - Продуктовая аналитика сервиса эвакуации авто
- Кинопоиск - Публичная статистика оценок фильмов

Примеры публичных дашбордов:
- Анализ качества воздуха
- Статистика коронавируса
- Погода
- Показатели Российских ВУЗов
- Демография Ставрополья
- Исследование про работу вахтовым методом в РФ
- Безработица РФ
- Пример с LOD выражениями от @ab0xa
(присылайте ваши примеры в чат, если хотите поделиться своим опытом!)

Презентации:
- DataLens
- Yandex Cloud Data Platform

Помощь:
- Обсудить ваш проект
- Завести тикет в техподдержку
- Найти партнера для проекта
🔥1
Forwarded from Simulative
🔥 Разбор тестового задания для аналитика с [Avito Weekend Offer]

Сегодня вместе с онлайн-университетом SF Education подготовили разбор задачи по Python с [Avito Weekend Offer].

Кстати, попробуйте сначала решить эту задачу самостоятельно 👉🏻 https://vk.cc/cb8QbP 😉

# Задача

Вам дано 2 набора чисел arr1 и arr2 в виде списка Python. Необходимо вернуть список, состоящий из элементов пересечения. Дубликаты необходимо удалить.

Важно: Если пересечение пустое, то возвращаем пустой список.

Пример:

 arr1 = [1, 2, 3], arr2 = [1, 1, 5]
Ответ: [1]

Пример:

 arr1 = [1, 2, 3], arr2 = [6, 7, 5]
Ответ: []

Пример:

 arr1 = [1, 2, 3], arr2 = [1, 2, 15, 3, 3]
Ответ: [1, 2, 3]

# Попытка 1

Самый простой подход - пробежаться по элементам каждого массива и проверить вхождение во второй массив. Если элемент есть в обоих массивах - добавляем к результату.

 
res = []
for el in arr1:
if el in arr2 and el not in res:
res.append(el)
for el in arr2:
if el in arr1 and el not in res:
res.append(el)

Очевидно, что это не самый оптимальный код - мы несколько раз пробегаемся по каждому списку, да еще и каждый раз проверяем: нет ли уже такого элемента в res.

Кроме того, одно значение может встречаться в каждом массиве несколько раз. Нет смысла проверять каждый раз - достаточно одного.

Чтобы убрать дубликаты, мы можем использовать множества - set. Они хранят уникальные значения в неупорядоченном виде.

 st1 = set(arr1)

# Попытка 2

У множеств в Python есть встроенный метод intersection - он как раз находит пересечение двух множеств.

Таким образом, решение задачи сводится к следующему:

1. Переводим оба списка в множества
2. С помощью метода intersection находим пересечение
3. На выходе intersection получается снова множество, поэтому переводим его в список с помощью функции list

Итоговый код:

 def PureIntersection(arr1, arr2):
return list(set(arr1).intersection(set(arr2)))
🔥1
5 способов врать с помощью диаграмм🙊

Иногда диаграммы и графики манипулируют нами с помощью трюков, которые полностью меняют восприятие данных. Вот 5 таких трюков.

Загадочная перспектива
Обе круговые диаграммы на картинке 1 показывают, что «труд» занимает 30%. Но на диаграмме справа этот показатель размещен на переднем плане и имеет толстый 3D-край. Визуально это сильно увеличивает «масштаб» показателя.

Мошеннические формы
Классический способ лгать с помощью диаграммы — это вводить не относящуюся к делу информацию. На диаграмме справа (картинка 2) единственное релевантное свойство — высота конуса. Объем не имеет значения, но игнорировать его трудно. И это заставляет придавать большее значение широкой части конуса.

Несвязанные тренды
Когда на графике есть несколько похожих линий, кажется, что они связаны. На картинке 3 красная линия представляет уровень самоубийств, а зеленая — расходы на науку и технику. Это два совершенно независимых набора данных, но невольно возникает вопрос: а может, это как-то связано?

Показывая, прячем
Если надо, можно сделать какую-то тенденцию менее заметной. На картинке 4 левая диаграмма ясно показывает, что за три года расходы на маркетинг выросли втрое. То же самое есть и в правой диаграмме, но он скрыт среди множества других данных. Это делает резкий уклон в маркетинговых затратах малозаметным и почти невозможным для количественной оценки.

Дорогая, я уменьшил масштаб!
На первый взгляд кажется, что две диаграммы на картинке 5 изображают два разных набора данных. Но приглядитесь, и вы увидите, что единственная разница — это масштаб.
Этот трюк работает, потому что нам трудно исследовать масштаб диаграммы и данные одновременно.

Подбирать визуализацию по смыслу данных мои студенты учатся на курсе «Бизнес-дашборды в Excel» — ссылка в таплинке, в шапке профиля. Врать с помощью диаграмм никому не советую, но знать такие вещи необходимо :)
🔥1
Машинное_обучение_Паттерны_проектирования_Валиаппа_Лакшманан,_Майкл.pdf
58.7 MB
Python - Машинное обучение. Паттерны проектирования (Валиаппа Лакшманан, Майкл Мунн, Сара Робинсон).pdf
Практический_анализ_временных_рядов_прогнозирование_со_статистикой.pdf
37.9 MB
Python - Практический анализ временных рядов прогнозирование со статистикой и машинное обучение (Эйлин Нильсен).pdf
👍1
Данные о количестве и распределении христиан в мире
https://www.gordonconwell.edu/blog/who-owns-global-christianity/
👍1
У наших друзей из @KarpovCourses повышение цен с мая. Сообщают о том, что можно записаться на текущих условиях на следующий набор
👍1
Forwarded from karpov.courses
Интервью с Марией Жавадовой

Одно из наших первых интервью, которое собрало невероятный отклик для наших первых шагов в ведении этого сообщества! Мария рассказывает о своем опыте работы Product Manager'ом ВКонтакте и дает советы для junior-аналитиков.

Топ 5 книг по аналитике

Алексей Никушин поделился с нами книгами, которым стоит уделить внимание при изучении математики и анализа данных.

Статья «Как правильно оформлять таблицы в Jupiter Notebook»

Прямое руководство о видоизменении таблицы в Jupyter Notebook, чтобы все таблицы в ваших документах были красивыми и понятными :)

Вебинар «Как не запутаться в статистических методах»

Теплая и ламповая лекция о статистике с Анатолием Карповым (куда ж без него!). Разбираемся с основным набором статистических методов и рассматриваем случаи применения каждого из них.

Подборка игровых тренажеров для аналитика данных

Геймификация – крутой тренд, который не стоит обходить стороной, поэтому мы собрали 6 игр для улучшения своих скиллов в анализе данных.
🔥1
Forwarded from karpov.courses
Plotly — гибкая и удобная библиотека для визуализации данных в Python.

Главная особенность plotly — интерактивность графиков, что делает анализ данных более удобным. Библиотека обладает большим количеством настроек, однако позволяет строить приятные и аккуратные графики даже с параметрами по умолчанию, что повышает скорость работы. В этой статье рассмотрим различные виды графиков в plotly.express — подмодуле plotly для быстрой визуализации.

Полезные ссылки:
Документация Plotly (Python)
Подробнее о boxplot
Ноутбук с кодом
🔥1