Forwarded from Интернет-аналитика // Алексей Никушин (Veronica Gardash)
📌Ключевые темы сегодняшнего дня:
Алексей Чернобровов - Как архитектура DWH влияет на Data Quality
Петр Ермаков, Lamoda - Open Source BI: почему стоит выбрать Apache Superset
Сергей Галактионов, JetStat - Как маркетологу настроить и автоматизировать отчетность когда нет аналитика
Николай Валиотти, Valiotti Analytics - Современный облачный Data Stack
Роман Бунин, Яндекс.Go - Развитие BI-системы компании с помощью продуктовых подходов
Екатерина Колпакова, Head of DWH Ситимобил - Хочешь построить DWH? Спроси меня как!
Яна Манухина и Алексей Ростоцкий, Bookmate - Как устроить архитектуру DWH и контролировать изменения в ней
Начало в 11:00⏰
FREE: matemarketing.ru
FULL: https://lms.matemarketing.ru
@internetanalytics
Алексей Чернобровов - Как архитектура DWH влияет на Data Quality
Петр Ермаков, Lamoda - Open Source BI: почему стоит выбрать Apache Superset
Сергей Галактионов, JetStat - Как маркетологу настроить и автоматизировать отчетность когда нет аналитика
Николай Валиотти, Valiotti Analytics - Современный облачный Data Stack
Роман Бунин, Яндекс.Go - Развитие BI-системы компании с помощью продуктовых подходов
Екатерина Колпакова, Head of DWH Ситимобил - Хочешь построить DWH? Спроси меня как!
Яна Манухина и Алексей Ростоцкий, Bookmate - Как устроить архитектуру DWH и контролировать изменения в ней
Начало в 11:00⏰
FREE: matemarketing.ru
FULL: https://lms.matemarketing.ru
@internetanalytics
бесплатная трансляция на ютубе
https://www.youtube.com/watch?v=BPgcKYzgFEQ
https://www.youtube.com/watch?v=BPgcKYzgFEQ
YouTube
Матемаркетинг - День 4
data будни
бесплатная трансляция на ютубе https://www.youtube.com/watch?v=BPgcKYzgFEQ
через 3 минуты там будет лекция Ромы Бунина
Роман Бунин, Яндекс.Go - Развитие BI-системы компании с помощью продуктовых подходов
Роман Бунин, Яндекс.Go - Развитие BI-системы компании с помощью продуктовых подходов
SCD — Slowly Changing Dimensions
На одном собеседовании меня спросили как бы я спроектировал табличку для хранения показателей датчика, который иногда но нерегулярно меняется; и так, чтобы потом можно было найти показание за определённую дату простым запросом, не перебирая всю таблицу.
Сначала я долго тупил, но потом минут за 30 мы с собеседующим пришли к рабочему варианту… это оказался вариант по типу SCD2 — уже давно придумали как надо правильно.
Всего типов 6 — вот небольшая статья с примерами данных для каждого типа:
https://habr.com/ru/post/101544/
На одном собеседовании меня спросили как бы я спроектировал табличку для хранения показателей датчика, который иногда но нерегулярно меняется; и так, чтобы потом можно было найти показание за определённую дату простым запросом, не перебирая всю таблицу.
Сначала я долго тупил, но потом минут за 30 мы с собеседующим пришли к рабочему варианту… это оказался вариант по типу SCD2 — уже давно придумали как надо правильно.
Всего типов 6 — вот небольшая статья с примерами данных для каждого типа:
https://habr.com/ru/post/101544/
Хабр
Версионность и история данных
При разработке баз данных зачастую требуется обеспечить поддержку версионности и хранения истории объектов. Например, у работника может изменяться должность, у д...
Forwarded from Smart Data (Denis Solovyov)
#easy
Итак, 1-й фактор эффективности (эффективность = взаимное доверие и уважение) - это Люди.
Но прежде чем рассказывать о hard-skills и soft-skills, которыми должны обладать конкретные специалисты по данным, я хочу рассказать о позициях, которые могут встречаться в data-team. Я выделяю такие основные позиции:
Web-аналитик - один из тех людей, кто занимается первичным сбором данных. Под первичным сбором данных я подразумеваю сбор данных на уровне источников, т.е. это не построение ETL-процессов и data-пайплайнов. Главная задача web-аналитика - собрать данные о поведении пользователей на сайте и в мобильном приложении в системы web/app аналитики, такие как Google Analytics, Яндекс Метрика, Firebase Analytics, AppsFlyer и др. Они собирают данные о том, с каких источников трафика приходят пользователи на сайт или в мобильное приложение, какие страницы они посещают, на какие кнопки нажимают, какие товары покупают в интернет-магазине и т.д. Часто web-аналитики выступают в роли продуктовых аналитиков - они анализируют данные в системах web/app аналитики, строят гипотезы по улучшению эффективности сайта или приложения как продукта, делают A/B-тесты.
Data Engineer (инженер данных) - человек, который отвечает за построение надёжных и масштабируемых ETL-процессов и data-пайплайнов. Его главная задача - извлечь данные из источников, преобразовать данные в пригодный для анализа и data science вид и загрузить их в хранилище данных (Data Warehouse) или озеро данных (Data Lake).
BI Engineer (BI-разработчик) - человек, который отвечает за проектирование и создание отчётности в BI-инструменте (Power BI, Tableau и т.д.). Его главная задача - сделать так, чтобы бизнес-пользователям было удобно пользоваться отчётами и дашбордами, они могли находить инсайты в данных и принимать решения. BI-разработчики более высокого уровня могут не ограничиваться только проектированием и созданием BI-решений. Они также анализируют уже созданные отчёты, находят инсайты, строят гипотезы и предоставляют рекомендации бизнесу.
Data Analyst (аналитик данных) - человек, который анализирует данные (часто, уже подготовленные инженерами данных). Его главная задача - находить инсайты и предоставлять рекомендации бизнесу. В отличие от BI-разработчика он использует более продвинутые методы и инструменты анализа, такие как SQL, Python или R. Аналитики данных более высокого уровня применяют знания статистики и строят простые модели для Machine Learning. Часто Data-аналитики выступают в роли продуктовых аналитиков.
Product Analyst (продуктовый аналитик) - человек, основная задача которого - находить инсайты в данных, строить гипотезы и предоставлять рекомендации по улучшению продукта. Под продуктом подразумевается IT-продукт, т.е. сайт, мобильное приложение, web-приложение и т.д. Продуктовые аналитики используют в своём арсенале инструменты web/app аналитики, SQL, Python/R и сервисы для A/B тестирования (например, Google Optimize).
Data Scientist - человек, который строит модели Machine Learning, Deep Learning и занимается предиктивной аналитикой. Главная его задача - находить закономерности в данных благодаря построенным ML/DL моделям и помогать бизнесу находить скрытые точки роста.
Очень часто один человек может исполнять несколько ролей. Всё зависит от типа компании, её размера, орг. структуры и конкретного проекта. Я, например, выполняю задачи web-аналитика, инженера данных и BI-разработчика)
P.S. Думаю, пост будет очень полезен новичкам, кто ещё не определился с выбором профессии. Возможно, в этих описаниях вы найдёте своё призвание:)
Итак, 1-й фактор эффективности (эффективность = взаимное доверие и уважение) - это Люди.
Но прежде чем рассказывать о hard-skills и soft-skills, которыми должны обладать конкретные специалисты по данным, я хочу рассказать о позициях, которые могут встречаться в data-team. Я выделяю такие основные позиции:
Web-аналитик - один из тех людей, кто занимается первичным сбором данных. Под первичным сбором данных я подразумеваю сбор данных на уровне источников, т.е. это не построение ETL-процессов и data-пайплайнов. Главная задача web-аналитика - собрать данные о поведении пользователей на сайте и в мобильном приложении в системы web/app аналитики, такие как Google Analytics, Яндекс Метрика, Firebase Analytics, AppsFlyer и др. Они собирают данные о том, с каких источников трафика приходят пользователи на сайт или в мобильное приложение, какие страницы они посещают, на какие кнопки нажимают, какие товары покупают в интернет-магазине и т.д. Часто web-аналитики выступают в роли продуктовых аналитиков - они анализируют данные в системах web/app аналитики, строят гипотезы по улучшению эффективности сайта или приложения как продукта, делают A/B-тесты.
Data Engineer (инженер данных) - человек, который отвечает за построение надёжных и масштабируемых ETL-процессов и data-пайплайнов. Его главная задача - извлечь данные из источников, преобразовать данные в пригодный для анализа и data science вид и загрузить их в хранилище данных (Data Warehouse) или озеро данных (Data Lake).
BI Engineer (BI-разработчик) - человек, который отвечает за проектирование и создание отчётности в BI-инструменте (Power BI, Tableau и т.д.). Его главная задача - сделать так, чтобы бизнес-пользователям было удобно пользоваться отчётами и дашбордами, они могли находить инсайты в данных и принимать решения. BI-разработчики более высокого уровня могут не ограничиваться только проектированием и созданием BI-решений. Они также анализируют уже созданные отчёты, находят инсайты, строят гипотезы и предоставляют рекомендации бизнесу.
Data Analyst (аналитик данных) - человек, который анализирует данные (часто, уже подготовленные инженерами данных). Его главная задача - находить инсайты и предоставлять рекомендации бизнесу. В отличие от BI-разработчика он использует более продвинутые методы и инструменты анализа, такие как SQL, Python или R. Аналитики данных более высокого уровня применяют знания статистики и строят простые модели для Machine Learning. Часто Data-аналитики выступают в роли продуктовых аналитиков.
Product Analyst (продуктовый аналитик) - человек, основная задача которого - находить инсайты в данных, строить гипотезы и предоставлять рекомендации по улучшению продукта. Под продуктом подразумевается IT-продукт, т.е. сайт, мобильное приложение, web-приложение и т.д. Продуктовые аналитики используют в своём арсенале инструменты web/app аналитики, SQL, Python/R и сервисы для A/B тестирования (например, Google Optimize).
Data Scientist - человек, который строит модели Machine Learning, Deep Learning и занимается предиктивной аналитикой. Главная его задача - находить закономерности в данных благодаря построенным ML/DL моделям и помогать бизнесу находить скрытые точки роста.
Очень часто один человек может исполнять несколько ролей. Всё зависит от типа компании, её размера, орг. структуры и конкретного проекта. Я, например, выполняю задачи web-аналитика, инженера данных и BI-разработчика)
P.S. Думаю, пост будет очень полезен новичкам, кто ещё не определился с выбором профессии. Возможно, в этих описаниях вы найдёте своё призвание:)
Алексей Макаров в гостях у подкаста «Каждый может» рассказал про аналитику в целом и аналитиков данных в частности. Получилась такая хорошая беседа, чтобы понять что это за отрасль такая и чем занимаются аналитики.
Алексей давно в отрасли, ведёт канал @datalytx
Слушать в iTunes и Overcast
Порадовался, когда Алексей упомянул мой кейс про поиск работы: когда я по данным с фитнес трекера опознал человека, чьи это были данные ^_^
https://sashamikhailov.ru/blog/all/welltory-data-engineer/
#data_podcast
Алексей давно в отрасли, ведёт канал @datalytx
Слушать в iTunes и Overcast
Порадовался, когда Алексей упомянул мой кейс про поиск работы: когда я по данным с фитнес трекера опознал человека, чьи это были данные ^_^
https://sashamikhailov.ru/blog/all/welltory-data-engineer/
#data_podcast
Apple Podcasts
«Каждый МОЖЕТ» в Apple Podcasts
Образование · 2021
Forwarded from addmeto (Grigory Bakunov)
Пятничное: ребята из ClickHouse загрузили в базу кучу статистики про GitHub и сделали кучу готовых запросов, очень много рассказывающих про культуру и опенсорс вцелом. Если вас интересует эта тема - обязательно посмотрите, много неожиданных открытий. Например теперь понятно, какая компания делает самый популярный опенсорс. Или какой контент на гитхабе самый популярный вообще https://gh.clickhouse.tech/explorer/
Дата-хакатон по анализу данных от российских судов, полиции и законодателей
с 23 января по 7 февраля
https://coda.io/@ovdinfo/hackathon-with-memes
с 23 января по 7 февраля
https://coda.io/@ovdinfo/hackathon-with-memes
Coda
Login - Coda
Welcome back to Coda. Sign in via Google, Microsoft, Apple, SSO, or enter your email address for a password-free login.
Forwarded from Denis Sexy IT 🤖
Open AI поделился результатами своего исследования которое я никак кроме как магией назвать не могу – DALL·E, новая нейронка, продолжение идеи GPT-3 на трансформерах, но в этот раз для генерации изображений из текста.
Я часто пишу тут про фантазию, мол, скормил Гарри Поттера нейронке и получил иллюстрации всех сцен книги – кажется это уже не фантазия, но поковырять самому пока ничего не дают.
DALL·E нейронка с 12 миллиардами параметров, натренированная на парах картинка-текст, ее задачи:
✨ Синтезировать картинки по текстовому описанию
✨ Дорисовывать картинки имея часть на входе, с учетом текстового описания
Open AI уже тезерил какие-то вещи в этой области раньше, и вот наконец-то это вышло на такой уровень, что челюсть отпадает, посмотрите примеры что я приложил, вверху текст какой давали на входе.
Уверен, ей пока не дадут поиграться всем.
Предвижу, это исследование сильно повлияет на многие сферы и индустрии, так как это бесконечные сферы применения.
Тут подробнее:
https://openai.com/blog/dall-e/
Я часто пишу тут про фантазию, мол, скормил Гарри Поттера нейронке и получил иллюстрации всех сцен книги – кажется это уже не фантазия, но поковырять самому пока ничего не дают.
DALL·E нейронка с 12 миллиардами параметров, натренированная на парах картинка-текст, ее задачи:
✨ Синтезировать картинки по текстовому описанию
✨ Дорисовывать картинки имея часть на входе, с учетом текстового описания
Open AI уже тезерил какие-то вещи в этой области раньше, и вот наконец-то это вышло на такой уровень, что челюсть отпадает, посмотрите примеры что я приложил, вверху текст какой давали на входе.
Уверен, ей пока не дадут поиграться всем.
Предвижу, это исследование сильно повлияет на многие сферы и индустрии, так как это бесконечные сферы применения.
Тут подробнее:
https://openai.com/blog/dall-e/
Кем работать, если нравится визуализация данных
Роман Бунин перечислил несколько профессий, где платят за умение визуализировать данные: что делать, сколько платят, насколько востребованы.
Будет удобно тем, кто ещё только присматривается к отрасли (и любит визуализировать данные).
http://revealthedata.com/blog/all/kem-rabotat-esli-nravitsya-vizualizaciya-dannyh/
Там же есть ссылки на чумовые инструменты по анализу вакансий и зарплат на основе API Хедхантер
Общий анализ рынка аналитики
https://revealthedata.com/examples/hh/
Быстрый анализ зарплат по профессии
https://revealthedata.com/examples/vacancies/
Роман Бунин перечислил несколько профессий, где платят за умение визуализировать данные: что делать, сколько платят, насколько востребованы.
Будет удобно тем, кто ещё только присматривается к отрасли (и любит визуализировать данные).
http://revealthedata.com/blog/all/kem-rabotat-esli-nravitsya-vizualizaciya-dannyh/
Там же есть ссылки на чумовые инструменты по анализу вакансий и зарплат на основе API Хедхантер
Общий анализ рынка аналитики
https://revealthedata.com/examples/hh/
Быстрый анализ зарплат по профессии
https://revealthedata.com/examples/vacancies/
Revealthedata
Кем работать, если нравится визуализация данных
Читатель блога спросил кем работать, если нравится визуализация данных. Собрал небольшой гайд по профессиям, где одним из основных навыков является визуализация данных
Forwarded from запуск завтра
Супер история о том, как Амазон чуть не умер и переехал с серверов Sun на Linux. Это — история зарождения Amazon Web Services — облака, на котором сегодня работает добрая половина интернета.
Рассказывает один из непосредственных участников.
Самые впечатляющие моменты:
❧ в 2000 лопнул пузырь доткомов — технические компании обесценились в сотни раз, на фондовом рынке кончились деньги и Amazon начал жечь собственные средства — 1 миллиард долларов в год; самой крупной статьей расходов были серверы — их делал Sun, они стоили дорого;
❧ можно было перекупить серверы Sun у компаний, обанкротившихся на пузыре доткомов, но техдир Амазона пошел ва-банк — решил переехать с Sun на обычное железо Hewlett Packard на Линуксе; ядру лунукса тогда было всего 6 лет;
❧ на время переезда они остановили ВСЮ продуктовую разработку! ВСЕ занимались только переездом. В бэклоге лежали сотни функций для увеличения продаж, но все ждали, пока закончится переезд;
❧ заморозка развития сервиса привела к падению продаж → пришлось повышать цены на товары → продажи упали ещё сильнее, запустилась «спираль смерти»;
❧ у Амазона оставалось буквально несколько кварталов до смерти, когда деньги на счету кончатся, но они успели и запустили всё нормально, стоимость масштабирования инфраструктуры упала на 80%;
❧ продажи — сезонный бизнес и Безос придумал, почему бы не сдавать простаивающие серверы в низкий сезон другим компаниям? На презентации он привел аналогию с электрической сетью — в 1900 годы каждый завод строил свою собственную электростанцию, почему бы не сделать «электрическую сеть» для IT? Плюс это круто сочеталось с его идеей разделить команды внутри компании, чтобы команды могли развиваться самостоятельно — каждая команда стала независимым API.
Ну а дальше вы знаете. Сегодня Амазон — это не только интернет-магазин, но и одна из крупнейших IT компаний планеты.
https://twitter.com/DanRose999/status/1347677573900242944
Рассказывает один из непосредственных участников.
Самые впечатляющие моменты:
❧ в 2000 лопнул пузырь доткомов — технические компании обесценились в сотни раз, на фондовом рынке кончились деньги и Amazon начал жечь собственные средства — 1 миллиард долларов в год; самой крупной статьей расходов были серверы — их делал Sun, они стоили дорого;
❧ можно было перекупить серверы Sun у компаний, обанкротившихся на пузыре доткомов, но техдир Амазона пошел ва-банк — решил переехать с Sun на обычное железо Hewlett Packard на Линуксе; ядру лунукса тогда было всего 6 лет;
❧ на время переезда они остановили ВСЮ продуктовую разработку! ВСЕ занимались только переездом. В бэклоге лежали сотни функций для увеличения продаж, но все ждали, пока закончится переезд;
❧ заморозка развития сервиса привела к падению продаж → пришлось повышать цены на товары → продажи упали ещё сильнее, запустилась «спираль смерти»;
❧ у Амазона оставалось буквально несколько кварталов до смерти, когда деньги на счету кончатся, но они успели и запустили всё нормально, стоимость масштабирования инфраструктуры упала на 80%;
❧ продажи — сезонный бизнес и Безос придумал, почему бы не сдавать простаивающие серверы в низкий сезон другим компаниям? На презентации он привел аналогию с электрической сетью — в 1900 годы каждый завод строил свою собственную электростанцию, почему бы не сделать «электрическую сеть» для IT? Плюс это круто сочеталось с его идеей разделить команды внутри компании, чтобы команды могли развиваться самостоятельно — каждая команда стала независимым API.
Ну а дальше вы знаете. Сегодня Амазон — это не только интернет-магазин, но и одна из крупнейших IT компаний планеты.
https://twitter.com/DanRose999/status/1347677573900242944
🔥1
Читаю заголовок новости «Облачный провайдер дал клиенту 24 часа на „выселение“».
Оставлю в стороне политику, интересует только техническая сторона. Сам я напрямую с облаками много не работал, поэтому позволю себе очень глупые вопросы.
Как продавайдер знает, что вот конкретно эта компания пользуется его облаком? Он же по идее не читает его напрямую. Он может только посмотреть заключён ли договор с этим юрлицом. Или как это работает?
А можно как-то «анонимизировать» клиента в облаке? Типа заключить договор через какую-то компанию-прослойку там.
Или пойти дальше: вот есть же Hadoop — насколько я понимаю, это система распределённого хранения файлов. Нельзя сделать такое же, только для облаков? Чтобы все файлы хранились не на одном облаке, а много где — либо на нескольких аккаунтах одного облака, либо даже на нескольких разных облаках?
Если разбираетесь, расскажите в комментариях, почему так не делают.
Оставлю в стороне политику, интересует только техническая сторона. Сам я напрямую с облаками много не работал, поэтому позволю себе очень глупые вопросы.
Как продавайдер знает, что вот конкретно эта компания пользуется его облаком? Он же по идее не читает его напрямую. Он может только посмотреть заключён ли договор с этим юрлицом. Или как это работает?
А можно как-то «анонимизировать» клиента в облаке? Типа заключить договор через какую-то компанию-прослойку там.
Или пойти дальше: вот есть же Hadoop — насколько я понимаю, это система распределённого хранения файлов. Нельзя сделать такое же, только для облаков? Чтобы все файлы хранились не на одном облаке, а много где — либо на нескольких аккаунтах одного облака, либо даже на нескольких разных облаках?
Если разбираетесь, расскажите в комментариях, почему так не делают.
Смена тарифа по-людски
Код пишу в PyCharm; он платный — каждый месяц абонентская плата.
Есть два тарифа: 1. только PyCharm за $9 и 2. все продукты за $25. Все продукты мне не нужны, я пользуюсь одним, поэтому мой выбор очевиден.
В очередной месяц обнаруживаю списание $25 вместо $9. Иду в настройки — а там почему-то выбран второй тариф. Странно, но ладно. меняю тариф ручками.
Обидно конечно, но чё поделать. Типа этот месяц «шикую» — могу официально пользоваться всеми IDE сразу)) а через месяц они уже поменяют тариф на более простой и будут списывать 9€ как и должны.
(Таким же образом я недавно менял тариф на интернет например: в личном кабинете изменил сейчас — а по факту скорость поменяется только в следующем месяце)
На моё удивление, смена тарифа произошла мгновенно — не пришлось ждать месяц. Деньги, конечно же, не вернули: просто рястянули мой «простой» тариф почти на три месяца.
Мне нравится такой подход. По-хорошему, так и должно всё работать. Почему интернет-провайдер ждёт месяц, чтобы изменить в свой базе настройки мой скорости? Скорее всего ни почему — просто «так сложилось». Зачем морочиться и писать лишний код?
Код пишу в PyCharm; он платный — каждый месяц абонентская плата.
Есть два тарифа: 1. только PyCharm за $9 и 2. все продукты за $25. Все продукты мне не нужны, я пользуюсь одним, поэтому мой выбор очевиден.
В очередной месяц обнаруживаю списание $25 вместо $9. Иду в настройки — а там почему-то выбран второй тариф. Странно, но ладно. меняю тариф ручками.
Обидно конечно, но чё поделать. Типа этот месяц «шикую» — могу официально пользоваться всеми IDE сразу)) а через месяц они уже поменяют тариф на более простой и будут списывать 9€ как и должны.
(Таким же образом я недавно менял тариф на интернет например: в личном кабинете изменил сейчас — а по факту скорость поменяется только в следующем месяце)
На моё удивление, смена тарифа произошла мгновенно — не пришлось ждать месяц. Деньги, конечно же, не вернули: просто рястянули мой «простой» тариф почти на три месяца.
Мне нравится такой подход. По-хорошему, так и должно всё работать. Почему интернет-провайдер ждёт месяц, чтобы изменить в свой базе настройки мой скорости? Скорее всего ни почему — просто «так сложилось». Зачем морочиться и писать лишний код?
JetBrains
PyCharm: The only Python IDE you need
Built for web, data, and AI/ML professionals. Supercharged with an AI-enhanced IDE experience.
Недавно на проекте пригодилась information schema. Надо было сделать технический аудит существующей базы данных: проверить все таблицы и их колонки.
В заметке ещё несколько полезных знаний о PostgreSQL:
⁃ количество таблиц в базе
⁃ размер таблицы
⁃ активные подключение к базе
⁃ удаление дубликатов в таблицах без primary key
https://tproger.ru/translations/useful-postgresql-commands/
В заметке ещё несколько полезных знаний о PostgreSQL:
⁃ количество таблиц в базе
⁃ размер таблицы
⁃ активные подключение к базе
⁃ удаление дубликатов в таблицах без primary key
https://tproger.ru/translations/useful-postgresql-commands/
Tproger
15 полезных команд PostgreSQL
В сети много руководств по PostgreSQL, которые описывают основные команды. Но при погружении в работу возникают такие практические вопросы, для которых требуются продвинутые команды. Рассмотрим несколько таких команд на примерах, полезных как для разработчиков…