NULL++ – Telegram
NULL++
75 subscribers
41 photos
12 links
Канал для тех, кто хочет развиваться как Data Analyst, Data Engineer и BI-Analyst
@HexMikhail
Download Telegram
NULL++
Всем привет! Сегодня будет микро-пост) Мне наконец-то удалось победить бесконечную капчу при регистрации аккаунта в LinkedIn. Поэтому, приглашаю всех) https://www.linkedin.com/in/mikhail-kolchar/
😂 Ахахах. Рано я обрадовался))
Мою учётную запись LinkedIn уже заблокировали, написали, что требуется подтверждение личности.
Проверку я только что прошёл, но ждать результатов надо до 5 дней...
🤔2😢1
Всем привет! Как думаете, что именно должен знать сейчас Аналитик данных? Ну... как минимум SQL. Но при работе в команде, очень важно понимать, как работать с гитом.
У нас тоже есть гит, куда мы закидываем все запросы по построению витрин данных перед тем, как выгружаются данные в DataLens.
Наткнулся на прикольную шпаргалочку по гиту, решил выложить сюда. Может и пригодится кому?
git init - инициализация нового репозитория
git add - подготовка изменений к коммиту
git commit - создание коммита
git push - отправка изменений в удалённый репозиторий
git pull - получение и слияние изменений с удалённого репозитория
git remote - управление удалёнными репозиториями
git branch - работа с ветками
git fetch - получение данных без слияния
git checkout - переключение между ветками
git merge - слияние веток
git status - проверка состояния репозитория
git reset - откат изменений
👍5🔥31
Всем привет!
Сегодня я решил написать пост не о работе 😅
Вчера вечером я посетил нашу филармонию, где исполняли музыку из фильмов (и игр) Гарри Поттера. Мне очень нравится эта вселенная, несмотря на многие логические нестыковки :)
Я читал книги (в электронном варианте) много позже выхода всех фильмов. Я слушал раз 7 аудиоверсию в исполнении великолепного Александра Клюквина. И даже слушал их в оригинале в исполнении Стивена Фрая!
Самое завораживающее, что стало для меня сюрпризом, это рисование песком прямо во время концерта картин по мотивам фильмов.
Вообще, этот год стал для меня своеобразным годом Гарри Поттера 😁
В новогодние праздники мы с детьми начали просмотр фильмов, в апреле я побывал в музее Гарри Поттера в Нижнем Новгороде, на день рождения мне подарили сувенирный комплект книг (конечно же РОСМАН), которые я начал читать по вечерам своим детям. И вот вчера был на концерте от которого у меня остались исключительно положительные впечатления.
Думаю, что надо будет сходить ещё раз как-нибудь 😊
🔥52
Всем привет!
Сегодня я решил арендовать простенький VPS для того, чтобы там крутились PostgreSQL и всякие Python скрипты)
Долго искал, где есть возможность буквально в пару кликов всё настроить и чтобы было недорого, и остановился на beget.com (не реклама, если что).
Хочу для начала перенести один свой учебный проект. Когда всё получится, я запилю об этом пост.

@nullpp #PostgreSQL #VPS #Python
👍7🔥1
Всем привет! :)
Как часто вам приходится генерировать какие-то данные? Бывает так, что создание синтетических данных просто необходимо. Например, для заполнения пропусков в датасете.
Кто-то скажет, что лучше удалить все пропуски и фиг с ним! Но это может привести к нежелательным последствиям.
Например, если удалять строки, то мы можем потерять большой объем данных или это может внести различного рода смещение (если пропуски не случайны). А если удалять столбцы, то мы можем потерять потенциально полезный признак для анализа.
Поэтому сначала смотрят каков процент пропусков и уже потом решают, что с ним делать. Может и действительно, легче удалить 15 строк из 10000, чем возиться с ними.
Для исправления ситуации обычно используется что-то, что очень быстро и легко "вставить".
Самый распространенный пример - это замена статистическими показателями. Это может быть среднее значение mean, медиана median или мода moda (часто встречающееся значение, обычно используется для категориальных данных).
Или можно просто заменить константой, предыдущим значением, интерполяцией.
А можно сгенерировать значение, подчиняющееся необходимым нам правилам.
Изучающие python, уверен, прекрасно знают модуль rnd для генерации. Но я, выполняя один учебный проект, наткнулся на интересную библиотеку faker, которая умеет генерировать не только числа, но и много всего интересного.
Вот простой пример использования этой библиотеки.
Сначала стандартная установка модуля:
pip install faker
А затем его использование:
from faker import Faker
fake = Faker('ru_RU')
print(fake.country())
print(fake.city_name())
print(fake.user_name())
print(fake.email())

И вот, вооружившись faker-ом и random-ом, я пошёл выполнять проект по генерации чеков продуктовых магазинов =)
О том, что у меня получилось, я расскажу в следующем посте.

@nullpp #Python #пропуски #генерация_данных
🔥6
Жаль, что hh закрывает диалог сразу после отказа компании xD
😁8💯1
А ещё я принял активное участие в написании наших (Денвика) статей по созданию интересных визуализаций в DataLens. Сегодня их как раз опубликовали в общем доступе)

Чарты с использованием функций AGO() и AT_DATE()
https://vk.cc/cQfqKe

Добавление всплывающей подсказки в чарт-таблицу
https://vk.cc/cQfqMD

#Яндекс #Yandex #DataLens #Денвик
👍2🔥2
Всем привет!
Наконец-то я занялся финальным проектом в своём обучении. Сначала создал БД и таблицы в ней для будущей выгрузки.
Написал на Python сбор данных от предоставленного API с последующей выгрузкой полученных данных в PostgreSQL.
Создал пока что первую страницу дашборда, которая должна дать общую картину состояния бизнеса, показать ключевые метрики и их динамику во времени. Это "дашборд для руководителя", который отвечает на вопрос "Как идут наши продажи в целом?"
Когда я доделаю всё, и работу оценят, я выложу исходники + ссылку на дашборд)

@nullpp #Python #PostgreSQL #Учеба
🔥9👍3
NULL++
Всем привет! Наконец-то я занялся финальным проектом в своём обучении. Сначала создал БД и таблицы в ней для будущей выгрузки. Написал на Python сбор данных от предоставленного API с последующей выгрузкой полученных данных в PostgreSQL. Создал пока что первую…
На прошлой неделе я доделал финальный проект и сдал его. Но пока что фидбэка не было)
А значит, я пока покажу вам скриншоты дашборда, как это выглядит. Я честно постарался, чтобы любое исследование по этим данным можно было провести прямо в DataLens. Такой подход, я считаю, показывает самодостаточность созданного дашборда для полноценного анализа ситуации и принятия решений.

@nullpp #Python #PostgreSQL #Учеба
🔥4
NULL++
На прошлой неделе я доделал финальный проект и сдал его. Но пока что фидбэка не было) А значит, я пока покажу вам скриншоты дашборда, как это выглядит. Я честно постарался, чтобы любое исследование по этим данным можно было провести прямо в DataLens. Такой…
А давайте я немного поясню, что происходит)
Вторая вкладка "Анализ продаж маркетплейса" позволяет понять портрет и поведение клиентской базы. Ответить на вопросы "Кто наши клиенты?" и "Насколько они лояльны?". На ней, кроме индикаторов (которые и так понятны), присутствует ещё несколько табличек.
В списках Топ покупателей по количеству заказов и по сумме затрат можно менять количество значений с помощью селектора.
Таблица RFM-анализа формируется "на лету" по SQL-запросу к БД, учитывая параметры ПЕРИОДА, и выдаёт актуальный результат на заданный период в дашборде.
Когортный анализ формируется "на лету" по SQL-запросу, учитывая параметры ПЕРИОДА. Анализ строит помесячные когорты, так как покупки сами по себе дорогие и нечастые. Показывает % уникальных клиентов от первого периода.
LTV также формируется "на лету" по SQL-запросу, учитывая параметры ПЕРИОДА. Сам анализ строит помесячные когорты, так как покупки сами по себе дорогие и нечастые. Показывает среднюю выручку на уникального клиента.
🔥4