Junior Data Analyst – Telegram
Junior Data Analyst
501 subscribers
235 photos
12 videos
41 files
434 links
Джунам и не только подборки полезных ссылок.
- SQL
- Визуализация, Tableau
- Продуктовая аналитика
- Вакансии
- Книги
- Мемчики:)
Download Telegram
#вакансия #гибрид #СПб #Санкт-Петербург #Питер #data_analyst #аналитик_данных #dataanalyst #аналитикданных

Всем привет. Разыскивается Аналитик данных (Junior+/Middle)

Куда: ИТ-команда мультисервисной управляющей компании
Сфера: цифровизированное жилищно-коммунальное хозяйство
Вилка: 120 - 160 (Middle)
Стек: Power BI, Power Query, Power Pivot, MS Excel, MS SQL, PostgreSQL.
Ключевым на этапе онбординга будет
- продвинутый Excel, включая, сложные сводные таблицы;
- уверенный SQL с самостоятельным написанием запрос.
Как преимущество Знание VBA, Python.
Основная задача - анализ большого массива информции, выявление несоответствий и проблемных зон, поиск причин отклонений, визуализация отчетов для бизнес-заказчиков.
Формат: гибрид, офис-удаленка (50/50), офис Санкт-Петербург (в пешей доступности от ст. м. Бухарестская, Международная)
Занятость: полная занятость - пятидневка, 09.00 -18.00
Тип контракта: постоянный, оформление по ТК


Если вакансия заинтересовала и появились вопросы - просьба писать в тг @olya_agafitsa
Рассказы_о_математике_с_примерами_на_Python_и_C.pdf
3.7 MB
Книга "Рассказы о математике с примерами на языках Python и C"
Forwarded from Prog books
Статистика_и_планирование_эксперимента_для_непосвященных_2023_RU+EN.zip
17.1 MB
📕 Статистика и планирование эксперимента для непосвященных [2023] Херцог М. Х., Френсис Г., Кларк А.
Как быстро начать программировать на Python аналитику данных?

Я уверена, что даже полный новичок в Python сможет сделать простой анализ уже через 2 недели. Анализ данных на Python - это не миллионы строк кода, многие манипуляции с данными - это всего лишь одна или несколько строчек.

Вот некоторые мысли из моего опыта.

1) ИЗУЧИТЕ ОСНОВЫ PYTHON (СИНТАКСИС).

Однако тут может возникнуть проблема - вы неделями и месяцами изучаете синтаксис, но при этом до сих пор не понимаете, как делать анализ данных с помощью Python.

На старте я изучала бесплатный курс Python в 2х частях (Часть 1 и Часть 2) на Stepik. Хороший курс? Да. Но изучать его довольно долго. Заявлено 40 + 64 часа, но выходит гораздо больше. Некоторые задачи можно решать по несколько часов, а задач только в Части 1 более 150). Ну и если уделять даже 2 часа в день 5 дней в неделю, обучение все равно растянется на несколько месяцев, а то и полгода. А за это время вы так и не поймете, как делать анализ данных с помощью Python.

Синтаксис знать важно, но также важно не утонуть в нем. На мой взгляд, начать лучше с более короткого курса и быстрее перейти к изучению библиотек для анализа данных и практике. А к синтаксису вы так или иначе будете возвращаться и углубляться в него по мере практики.

Например, есть 2 коротких бесплатных курса от Kaggle по синтаксису: Введение в программирование с Python и Python. Но можно брать и другие.

2) ИЗУЧИТЕ БИБЛИОТЕКИ ДЛЯ АНАЛИЗА ДАННЫХ.

Именно изучая библиотеки вы и поймете, как делать анализ данных с Python. Библиотеки - это наборы шаблонов кода для каждой конкретной ситуации. Знакомиться с библиотеками лучше всего выполняя реальный проект по анализу данных.

Начните с Pandas - это основная библиотека для работы с данными. С помощью нее можно очищать и подготавливать данные, делать анализ, визуализировать и др.

Вот краткий бесплатный курс Pandas от Kaggle.

Также у Pandas есть официальный сайт с туториалами по анализу данных.

А если вы уже знаете Excel или SQL, то вам будет еще проще освоить эту библиотеку: Pandas имеет схожие функции и может принимать различные типы данных. На официальном сайте Pandas даже есть туториалы, где функции Pandas приводятся в сравнении с Excel или SQL.

Освоив азы Pandas, вам будет легко понять Numpy, Matplotlib, Seaborn и другие библиотеки для анализа данных.

Например, вот краткий бесплатный курс по визуализации данных в Python от Kaggle (а именно используются библиотеки Seaborn и Matplotlib).

3) НАЧНИТЕ ПРАКТИЧЕСКИЙ ПРОЕКТ ПО АНАЛИЗУ ДАННЫХ С ПЕРВЫХ ДНЕЙ

Обучение на практике - лучший способ научиться программировать. Да, это вызов и выход из зоны комфорта, но так вы научитесь гораздо быстрее. После короткого курса синтаксиса уже можно переходить к реальному проекту, в процессе изучая библиотеки.

Поначалу можете подсмотреть, как выглядят проекты по анализу данных у других (например, на Medium много таких проектов).
Также примеры проектов анализа данных с помощью Python и где взять данные писала тут.

Если в процессе сталкиваетесь с ошибками, то в помощь Google и Stackoverflow.

4) ЧТОБЫ ПИСАТЬ КОД, НУЖНО НАСТРОИТЬ СРЕДУ РАЗРАБОТКИ.

Первый раз мне эта задача не показалась легкой, тк возникали ошибки, которые я достаточно долго исправляла.

Поэтому с первых дней можно начать с облачных сред разработки, в которых можно писать код сразу без настройки. Например, Google Collab или Kaggle Notebook. А в последствии установите среду разработки, например PyCharm, VScode или другую.

Если было полезно, ставьте 🔥.
🔥2
Forwarded from Индекс дятла
Поиск метрик 88 уровня :)

— Пользователи платят раз в месяц, — сказал владелец фитнес-приложения. — Выходит, проверить гипотезы можно минимум за 30 дней?
— Нет. Ищи опережающие метрики

Мы ориентируемся на важные и медленные показатели — выручку, прибыль, удержание, виральность. Но работаем с быстрыми, на изменение которых можем повлиять максимум за неделю. У Facebook — количество друзей, Slack — сообщений, Udemy — пройденных уроков, Peloton — взвешиваний.

Найти их просто, но не легко. Допустим нам нужно увеличить оплаты на второй месяц:

1. Выписываем действия пользователей в первые дни. Например, добавляют фотографию профиля.

2. Проверяем связь. В один столбец вносим данные по добавлению фото; в другой — процент оплативших второй месяц. Смотрим на коэффициент корреляции (шаблон в помощь — копируем себе, заполняем только желтые ячейки во вкладке Корреляция).

3. Проверяем влияние. Смотрим на коэффициент регрессии (шаблон в помощь — заполняем только желтые ячейки во вкладе Влияние). Чем он больше — тем лучше.

4. Рассчитываем, какова должна быть опережающая метрика, чтобы достичь цели. Например, хотим, чтобы 75% добавивших фото оплатили второй месяц. Получаем — 89% человек должны воспользоваться этой функцией.

Вывод прост: хотите результат — улучшайте процесс. А за него отвечают опережающие метрики. Как их найти и оценить вы теперь знаете.
Ребята, привет! За выходные вас заметно прибавилось 🙈🔥 Расскажите откуда пришли?😊
И давайте знакомиться.) Я Вера, продуктовый аналитик. В профессии чуть больше, чем полтора года. До этого 10 лет трудились на заводе:)
На аналитика отучилась в Karpov.courses, там же мне помогли найти своё первое место работы в геймдеве. Сейчас я в e-comm :)

Ещё закончила курс по датавизу год назад, а сейчас прохожу симулятор аб-тестирования все также в Karpov.courses :)

Канал создала для сбора полезной информации для джунов + скидываю джуновские вакансии из разных источников. Знаю не понаслышке , как сложно найти первую работу.. 🫠
🔥4
Forwarded from Разрабы
#ad
___
Ребята из Авито запускают новый набор на обучение в Академии Аналитиков

На этой бесплатной программе онлайн-обучения можно прокачать навыки для работы с данными и погрузиться в специфику работы.

Прямо сейчас открыто два направления подготовки — аналитик данных и DS-инженер.

Курс будет интересен как студентам последних курсов и недавним выпускникам, так и тем, кто давно хотел готов попробовать себя в аналитике.

Старт обучения в сентябре, а приём заявок — до середины июня. Если интересно, ныряйте за подробностями по ссылке — изучайте программу и заполняйте заявку.
Forwarded from Про BI, DWH, DE
Где бесплатно изучить SQL?

1️⃣ Самый популярный на степике, покрывает все, что нужно новичку

2️⃣ После него можно (аналитику нужно) изучить оконные функции (курс стоит 900 руб., но по своей ценности вне конкуренции)

3️⃣ Сам не проходил, но очень много людей хвалят и учатся у Анатолия Карпова на курсе по SQL. Бесплатный

4️⃣ Не плохие задачки для закрепления и проверки. Не сложные, можно бесплатно все решать или минимальная оплата для доступа к решениям

5️⃣ Еще место где задачки порешать (есть бесплатный вариант и платный)

6️⃣ После всего можно идти на leetcode.com и решать там очень интересные задачи от Гугл, Амазона, MS и пр. Требуется оплата
Forwarded from karpov.courses
Владение основами ООП, а именно понятиями «класс» и «объект» — пререквизит к продвинутой версии Симулятора A/B-тестов, который многих будущих студентов вводит в ступор. Но всё гораздо проще, чем кажется! А чтобы это доказать – мы собрали шпаргалку, к которой вы сможете обращаться и во время учёбы, где раскрыли необходимый для общего понимания минимум.
Что спрашивают на собеседовании продакт аналитика в штат Тинькофф?

Уже подробно рассказывал про начало карьеры в Тинькофф здесь, но камрады постоянно просят расшарить вопросы второго технического собеседования. Не могу отказать своим любимым подписчикам, которые постоянно делятся моими постами и пиарят мои каналы друзьям. Все ради вас!

1. Есть база данных с одной таблицей из 9 строк (5 строк связанна с авторами, 4 с постами). Надо ее оптимизировать (разделить на 2 для оптимизации скорости и памяти, так как авторов намного меньше чем постов, поэтому будет выигрыш).
Это простая задач на декомпозицию. Декомпозиция может быть на уровне таблиц, а может быть на уровне баз данных, а также на уровне кластеров баз данных.
Основная цель декомпозиции сделать из сложного что-то мелкое и простое. Нашу задачу можно решить несколькими способами, например:
а) создать дополнительную таблицу и в неё переместить посты, удалить посты в исходной таблице
б) Можно создать две таблицы: посты и авторы. Переместить в них дату и дропнуть исходную (мало живой сценарий, но видел что так делают)

2. Разговор про графики и визуализацию.
Графики можно разделить на нормированный и масштабируемый. Формально не всегда так, но когда объясняем вопрос бизнесу нужно идти наиболее простыми путями. Если график нормированный (условно от нуля до единицы, или в миллионах), то важно чтобы бизнес понимал происходящее: почему так, зачем так, чтобы что так и другие подобные вопросы. Этот вопрос обычно решается двумя путями. Либо у бизнеса и так есть минимальная теор подготовка, либо нужно сделать преамбулу с объяснением. Не нормированный график, когда например значение у нас может лежать на всей числовой прямой. Тут важно больше помахать руками. В основном графики строятся от двух переменных: признака и целевой переменной (таргет). На практике же нужен всего один признак, ну максимум два, НО тут проблема с менеджментом: в этом случае им придётся думать, разбираться, а обычно они это не любят и опираются на эмоции, поэтому используем только одну, чтобы не нагружать трёхмерными картинками. Также можно рисовать картинки с тем как таргет метрика меняется с течением времени.

3. Разговор про метрики.
Метрики могут быть вообще разными: поюзерные (их можно считать многими способами: отношение, линейная комбинация и т.д.), метрика по всей выборке, метрика относительно какого-то события от пользователя и т.д. Все бизнес, и не только, метрики, типа CTR или конверсии, лучше всего найти в инете и заучить. Еще нужно быть готовым к тому, что интервьюер или просто джун менеджер любую изменчивую величину назовем метрикой, что очень часто не так.

4. Разговор про a/b тесты, как готовить выборки людей через критерии гомогенности и как потом проверять результат на стат значимость.
В классическом дизайне нужно выдвинуть гипотезу (некоторое бизнес утверждение/инициативу). Чтобы не растрачивать деньги зря, необходимо проверить на небольшой аудитории (выборке), которая будет очень похожей/схожей относительно всей генеральной совокупности (выборка должна быть репрезентативной). Тут можно использовать стратификацию, критерии согласия, визуальную схожесть, хэширование (солить, что-то питерское) и т.п. После формирования выборки разбиваем на две группы и проверяем на однородность (гомогенность, есть специальные тесты на равенство дисперсий). Запускаем тест. Останавливать тест можно по-разному: через MDE, если у нас нормальное распределение, через выверенное бизнес время. Затем проверяем гипотезу о том что значение метрики на тесте и контроле равны с нужным уровнем значимости. Если знаем распределение то используем параметрический тест, если не знаем то тут непараметрический тест.

Также не забываем про наши курсы, дающие настоящую базу, которая позволит щелкать такие вопросы как орешки!
1
Forwarded from 🗞 Виз Ньюз (Nikita Rokotyan)
Media is too big
VIEW IN TELEGRAM
🤯 В ChatGPT завезли фунционал, который может запускать код, и, как следствие, анализировать и визуаилизировать данные.

Я решил на пробу скормить ему данные с Екатеринбуржской метеостации за последние 140 лет, которые хранятся не в самом легкочитаемом формате. И затем спросить, что можно понять по этим данным, а также попросить построить графики. И тут началось самое интересное!

ChatGPT долго не мог понять формат данных, но продолжал самостоятельно пробовать разные подходы, что бы их прочитать, а я просто сидел и несколько минут наблюдал за его потугами. И вдруг с 18 попытки у него получилось! Он нарисовал графики среднемесячных значений температуры и количества осадков за поледние 10 лет.

Вишенкой на торте стало то, что когда следующим шагом я попросил его нарисовать климатические полоски (climate stripes) за последние 100 лет, ChatGPT уже зная, как читать такие данные, справился очень быстро, да еще и рассказал об истории этого графика и как его читать! Можно сравнить с аналогичными графиками, которые я делал пару лет назад: https://news.1rj.ru/str/dataviznews/378

На видео к посту привожу весь процесс. Впечатляюще!
Please open Telegram to view this post
VIEW IN TELEGRAM