Экстрактор данных из Эгеи
Эгея — это движок для блога. Все данные о постах, тэгах, просмотрах, лайках хранятся в базе данных (сюрприз!).
Написал небольшой код, который достаёт из этой базы данных нужное и сохраняет в виде таблицы: в .csv или Google Sheets.
Это код использовал Роман Бунин для визуализации статистики по своим постам [1]; собственно, для этого проекта я и писал код ;-)
Всё оформил в виде Google Colab (это как Jupyter Notebook, только в интернете).
Чтобы всё заработало, нужно:
1. открыть доступ извне к своей базе (у меня это делается через настройки в хостинге)
2. заполнить в коде данные для подключения к базе: хост, название базы, логин и пароль.
3. если нужно сохранить итог в Google Sheets, код попросит авторизацию аккаунта — прямо рядом в соседней вкладке.
Коллеги дата инженеры могут заметить здесь базовый ETL процесс: достать данные из источника, преобразовать их и загрузить в другое место. Было интересно применить рабочие навыки к задаче из внешнего мира.
[1] — пост Романа
Дополнено: инструкция от Романа как засунуть собранные данные в Tableau
Эгея — это движок для блога. Все данные о постах, тэгах, просмотрах, лайках хранятся в базе данных (сюрприз!).
Написал небольшой код, который достаёт из этой базы данных нужное и сохраняет в виде таблицы: в .csv или Google Sheets.
Это код использовал Роман Бунин для визуализации статистики по своим постам [1]; собственно, для этого проекта я и писал код ;-)
Всё оформил в виде Google Colab (это как Jupyter Notebook, только в интернете).
Чтобы всё заработало, нужно:
1. открыть доступ извне к своей базе (у меня это делается через настройки в хостинге)
2. заполнить в коде данные для подключения к базе: хост, название базы, логин и пароль.
3. если нужно сохранить итог в Google Sheets, код попросит авторизацию аккаунта — прямо рядом в соседней вкладке.
Коллеги дата инженеры могут заметить здесь базовый ETL процесс: достать данные из источника, преобразовать их и загрузить в другое место. Было интересно применить рабочие навыки к задаче из внешнего мира.
[1] — пост Романа
Дополнено: инструкция от Романа как засунуть собранные данные в Tableau
Google
Aegea Export (public v.2)
Colaboratory notebook
Послушать:
Про генеративные алгоритмы на практике
как при помощи машинного обучения создавать текст, музыку и визуальный дизайн? есть ли разница, кто сделал работу, если задача решена?
Рассказывают композитор приложения Endel и создатель Николая Иронова.
Слушать в iTunes и Overcast
***
Про мощь алгоритмов и полезность математики
о применение алгоритмов к прогнозированию беспорядков в городе для помощи полиции и как сделать математику более человечной.
Слушать в iTunes и Overcast
выжимки и ссылки на странице проекта
***
Мы вас услышали. Как машина научилась понимать нашу речь
в коротких выпусках подкаста «Вы находитесь здесь» популярно описывают какую-то одну сторону машинного обучения.
В очередном выпуске рассказали про эволюцию алгоритмов для понимания и воспроизведения человеческой речи.
Слушать в iTunes и Overcast
Про генеративные алгоритмы на практике
как при помощи машинного обучения создавать текст, музыку и визуальный дизайн? есть ли разница, кто сделал работу, если задача решена?
Рассказывают композитор приложения Endel и создатель Николая Иронова.
Слушать в iTunes и Overcast
***
Про мощь алгоритмов и полезность математики
о применение алгоритмов к прогнозированию беспорядков в городе для помощи полиции и как сделать математику более человечной.
Слушать в iTunes и Overcast
выжимки и ссылки на странице проекта
***
Мы вас услышали. Как машина научилась понимать нашу речь
в коротких выпусках подкаста «Вы находитесь здесь» популярно описывают какую-то одну сторону машинного обучения.
В очередном выпуске рассказали про эволюцию алгоритмов для понимания и воспроизведения человеческой речи.
Слушать в iTunes и Overcast
Apple Podcasts
Проветримся!: Творческий искусственный интеллект on Apple Podcasts
Show Проветримся!, Ep Творческий искусственный интеллект - Dec 11, 2020
data будни
Экстрактор данных из Эгеи Эгея — это движок для блога. Все данные о постах, тэгах, просмотрах, лайках хранятся в базе данных (сюрприз!). Написал небольшой код, который достаёт из этой базы данных нужное и сохраняет в виде таблицы: в .csv или Google Sheets.…
Шаблон Tableau для визуализации данных из блога на Эгее
Роман Бунин опубликовал шаблон и написал инструкцию как заполнить его своими данными (которые предварительно достали из БД Эгеи с помощью простого кода ^)
Роман Бунин опубликовал шаблон и написал инструкцию как заполнить его своими данными (которые предварительно достали из БД Эгеи с помощью простого кода ^)
Tableau Public
Roman Bunin - Profile | Tableau Public
Hi! I'm Roman Bunin dataviz enthusiast and BI engineer keen on design, user experience and Agile approach to BI systems and dashboards.
на данных из моего блога получилось такая визуализация
Блог у меня с 2017 года, но, видимо, что-то криво поставил и просмотры начали считаться только после последней переустановки на последнюю версию 2.10.
По динамике просмотров выделяются три заметки:
1. Детективная история как я делал тестовое задание по анализу данных
2. Моё резюме в виде большой заметки (на момент обучения в Яндекс.Практикуме)
3. Отчёт-инструкция как я парсил сайт через встроенные функции в Гугл-таблицах (ещё до того как познакомился с Python)
Ещё заметил, что постов стало в принципе меньше (как и свободного времени, хе-хе)
А список тэгов, отсоритрованный по количеству заметок, напомнил, что когда-то у меня даже хватало времени выпускать еженедельную подборку интересных ссылок.
Блог у меня с 2017 года, но, видимо, что-то криво поставил и просмотры начали считаться только после последней переустановки на последнюю версию 2.10.
По динамике просмотров выделяются три заметки:
1. Детективная история как я делал тестовое задание по анализу данных
2. Моё резюме в виде большой заметки (на момент обучения в Яндекс.Практикуме)
3. Отчёт-инструкция как я парсил сайт через встроенные функции в Гугл-таблицах (ещё до того как познакомился с Python)
Ещё заметил, что постов стало в принципе меньше (как и свободного времени, хе-хе)
А список тэгов, отсоритрованный по количеству заметок, напомнил, что когда-то у меня даже хватало времени выпускать еженедельную подборку интересных ссылок.
data будни pinned «Экстрактор данных из Эгеи Эгея — это движок для блога. Все данные о постах, тэгах, просмотрах, лайках хранятся в базе данных (сюрприз!). Написал небольшой код, который достаёт из этой базы данных нужное и сохраняет в виде таблицы: в .csv или Google Sheets.…»
Как в Postgres раздать юзерам выборочные права на разные схемы:
https://towardsdatascience.com/how-to-handle-privileges-in-postgresql-with-specific-use-case-and-code-458fbdb67a73
https://towardsdatascience.com/how-to-handle-privileges-in-postgresql-with-specific-use-case-and-code-458fbdb67a73
Medium
How to Handle Privileges in PostgreSQL
A Case Study
Data Science — это направление знаний
это что-то такое крупное; типа «медицины».
в начале профессионального пути детали не важны и можно смело говорить, что хочешь стать «медиком» — со специализацией определишься уже ближе к третьему курсу.
но вот если какая-нибудь больница опубликует вакансию о поиске «медика», то к ним придут все: от акушера до нейрохирурга — спасибо, что не администратор в приёмную!
это что-то такое крупное; типа «медицины».
в начале профессионального пути детали не важны и можно смело говорить, что хочешь стать «медиком» — со специализацией определишься уже ближе к третьему курсу.
но вот если какая-нибудь больница опубликует вакансию о поиске «медика», то к ним придут все: от акушера до нейрохирурга — спасибо, что не администратор в приёмную!
В компании с налаженными процессами порог входа ниже
Сидят в отделе пять бородатых миддлов и всё у них слажено: все всё знают где что лежит, работа идёт, таски закрываются.
Но вот приходит новенький и изображает Траволту из известного мема: «где тут у вас что?»
Если в компании налажены процессы онбординга, то в новенького сразу прилетает куча пошаговых инструкций: куда писать код, к кому идти за менторством, где оформлять отпуск и брать печеньки.
Если же процессов нет, то адаптация идёт в ручном режиме: старичок проводит новенького за ручку по всем углам и знакомит с порядками (а мог бы свой код писать, да). И хорошо, если ещё старичок ничего не забудет! Хотя в любом случае новичок поначалу будет упираться в неизвестность и спрашивать совета.
Почему же не наладить процессы? Всё банально — это надо кому-то делать: решить, придумать, спланировать, реализовать. Поэтому в среднем у компаний процессы не описаны — так тупо проще.
И поэтому компании не любят нанимать джунов (пусть даже с горящими глазами) — ведь на них придётся выделять отдельного старичка, чтобы водить за ручку.
---
вдохновлено подкастом Moscow Python
https://news.1rj.ru/str/data_days/135
Сидят в отделе пять бородатых миддлов и всё у них слажено: все всё знают где что лежит, работа идёт, таски закрываются.
Но вот приходит новенький и изображает Траволту из известного мема: «где тут у вас что?»
Если в компании налажены процессы онбординга, то в новенького сразу прилетает куча пошаговых инструкций: куда писать код, к кому идти за менторством, где оформлять отпуск и брать печеньки.
Если же процессов нет, то адаптация идёт в ручном режиме: старичок проводит новенького за ручку по всем углам и знакомит с порядками (а мог бы свой код писать, да). И хорошо, если ещё старичок ничего не забудет! Хотя в любом случае новичок поначалу будет упираться в неизвестность и спрашивать совета.
Почему же не наладить процессы? Всё банально — это надо кому-то делать: решить, придумать, спланировать, реализовать. Поэтому в среднем у компаний процессы не описаны — так тупо проще.
И поэтому компании не любят нанимать джунов (пусть даже с горящими глазами) — ведь на них придётся выделять отдельного старичка, чтобы водить за ручку.
---
вдохновлено подкастом Moscow Python
https://news.1rj.ru/str/data_days/135
Telegram
data будни
Послушать:
Самат Галимов (Запуск Завтра) про технический консалтинг. Как устроено, сколько стоит (много!) и зачем это нужно бизнесу. Полезно послушать, если работаешь в агентстве с разными проектами; при работе в продукте тоже полезно — понимать, что делать…
Самат Галимов (Запуск Завтра) про технический консалтинг. Как устроено, сколько стоит (много!) и зачем это нужно бизнесу. Полезно послушать, если работаешь в агентстве с разными проектами; при работе в продукте тоже полезно — понимать, что делать…
Мета-Архитектура для работы с данными — исследование Andreessen & Horowitz на основне опроса сотен стартапов
[оригинал, перевод]
интересен общая схема и список всех участников. Выписал ребят из последней колонки:
Output — итог, «конечная станция» для данных
Dashboards
Looker
Superset
Mode
Tableau
Embedded Analytics
Sisense
Looker
cube.js
Augmented Analytics
Thoughtspot
Outlier
Anodot
Sisu
App Frameworks
Plotly Dash
Streamlit
Custom Apps
…
via @data_days
[оригинал, перевод]
интересен общая схема и список всех участников. Выписал ребят из последней колонки:
Output — итог, «конечная станция» для данных
Dashboards
Looker
Superset
Mode
Tableau
Embedded Analytics
Sisense
Looker
cube.js
Augmented Analytics
Thoughtspot
Outlier
Anodot
Sisu
App Frameworks
Plotly Dash
Streamlit
Custom Apps
…
via @data_days
data будни
Мета-Архитектура для работы с данными — исследование Andreessen & Horowitz на основне опроса сотен стартапов [оригинал, перевод] интересен общая схема и список всех участников. Выписал ребят из последней колонки: Output — итог, «конечная станция» для…
Data-Report-Martin-Inline-Graphics-R8-1.pdf
273.6 KB
хайрезы в ПДФ
Данные из Google Analytics можно экспортировать в BigQuery. Сам экспорт — стандартная функция GA и ничего не стоит; тарификация идёт по нормам BigQuery: за количество просканированных байт.
Разбирался сегодня со структурой этих данных: колонок всего 22, но их них 10 со вложенной структурой (если всё разложить, будет 176!). Чтобы добраться до нужных значений внутри, приходится прибегать к ухищрениям типа UNNEST. И всё не мог понять зачем это нужно, пока не нашёл гайд как сделать из этого экспорта плоский формат.
Оказывается, изначальная задумка вложенного формата в том, чтобы в одну таблицу «запихнуть» как бы четыре нормализованные… Когда стал ясен смысл, то и на данные смотреть теперь проще.
А вот делать плоские таблицы всё таки не стоит: у меня из одной таблицы на 30Гб получилось три на 30, 60, 30Гб ¯\_(ツ)_/¯ Но хоть можно посмотреть все имеющиеся колонки в одном месте.
https://www.ga4bigquery.com/tutorial-how-to-flatten-the-ga4-bigquery-export-schema-for-relational-databases-using-unnest/
Разбирался сегодня со структурой этих данных: колонок всего 22, но их них 10 со вложенной структурой (если всё разложить, будет 176!). Чтобы добраться до нужных значений внутри, приходится прибегать к ухищрениям типа UNNEST. И всё не мог понять зачем это нужно, пока не нашёл гайд как сделать из этого экспорта плоский формат.
Оказывается, изначальная задумка вложенного формата в том, чтобы в одну таблицу «запихнуть» как бы четыре нормализованные… Когда стал ясен смысл, то и на данные смотреть теперь проще.
А вот делать плоские таблицы всё таки не стоит: у меня из одной таблицы на 30Гб получилось три на 30, 60, 30Гб ¯\_(ツ)_/¯ Но хоть можно посмотреть все имеющиеся колонки в одном месте.
https://www.ga4bigquery.com/tutorial-how-to-flatten-the-ga4-bigquery-export-schema-for-relational-databases-using-unnest/
GA4BigQuery
How to flatten the GA4 BigQuery export schema for usage in relational databases
In this tutorial I will show you - step by step - how to flatten all fields of the Google Analytics 4 export schema with the purpose of using the data in a relational database outside of BigQuery.
Forwarded from Krasinsky — чат канала с вопросами
Да, это хорошая идея вообще, потихоничку описываем.
К сожалению, это не маленький список регшений и в формате комментариев к посту я не знаю как его уложить.
Ключевые метрики описывают свои классы проблем, например, низкая конверсия – описывает проблемы продажи – то как плохо мы продаем и причины этого.
Но это в идеальном мире, где метрики независимы – то есть базис метрик ортогонален друг другу. В реальном мире есть много проблем, например, проблема усреднения: эффективные когорты, каналы, кампании, посадочные страницы скрывают (усредняют) проблемы не эффективных.
Конверсия зависит на части сегментов от ср. чека – выше ср. чек, сложнее решение о покупке, потенциально ниже конверсия – а на некоторых не зависит (услово, у сегмента пользователей в пределах садового кольца стоимость денег ниже, чем в регионах и он меньше смотрит на чек в ресторанах или других сервисах). Конверсия так же ассиметрична по каналам и кампаниям и т.д.
Мы начали с конверсии. А есть и другие ключевые метрики CPUser, Users, Leads, Buyers, AvPrice, AvPaymentCount, Margin, COGS, Activation, Retention, еще лучше DailyUsage, виральность и расчетные AMPPU, AMPU и т.д.
Их соотношения дают классы проблем: в маркетинге, продажах в диджитал части (сайт, приложение), проблемы в отделе/команде продаж (если есть), в операционных процессах и издержках, в ценообразовании и сегментации по цене, в цикле сделки и CJM сделки и процессе продаж, в монетизации и т.д.
В каждом классе проблем свои вопросы:
- Почему мы делаем плановое число продаж?
- проблема у новых пользователей или у старых?
- У нас низкая конверсия у новых?
- низкая конверсия на посадочных?
- на шагах воронки на сайте? (или в приложении?)
- низкая конверсия в отделе продаж?
- Какие есть блокеры, что мешают пользователям купить?
- Какие возражения пользователей или вопросы необходимые для покупки мы не отрабатываем?
- какие воронки, события, шаги ведут к продаже, а какие мешают? Какие события триггеры, а какие анти-триггеры?
- есть ли ассиметрия по устройствам? по городам, регионам? доменам? и почему?
и т.д. это не маленький список вопросов, которые ожидаются от аналитика, для того чтобы понять что произошло, почему, в чем проблема и где и как можно выдвинуть гипотезы.
К сожалению, это не маленький список регшений и в формате комментариев к посту я не знаю как его уложить.
Ключевые метрики описывают свои классы проблем, например, низкая конверсия – описывает проблемы продажи – то как плохо мы продаем и причины этого.
Но это в идеальном мире, где метрики независимы – то есть базис метрик ортогонален друг другу. В реальном мире есть много проблем, например, проблема усреднения: эффективные когорты, каналы, кампании, посадочные страницы скрывают (усредняют) проблемы не эффективных.
Конверсия зависит на части сегментов от ср. чека – выше ср. чек, сложнее решение о покупке, потенциально ниже конверсия – а на некоторых не зависит (услово, у сегмента пользователей в пределах садового кольца стоимость денег ниже, чем в регионах и он меньше смотрит на чек в ресторанах или других сервисах). Конверсия так же ассиметрична по каналам и кампаниям и т.д.
Мы начали с конверсии. А есть и другие ключевые метрики CPUser, Users, Leads, Buyers, AvPrice, AvPaymentCount, Margin, COGS, Activation, Retention, еще лучше DailyUsage, виральность и расчетные AMPPU, AMPU и т.д.
Их соотношения дают классы проблем: в маркетинге, продажах в диджитал части (сайт, приложение), проблемы в отделе/команде продаж (если есть), в операционных процессах и издержках, в ценообразовании и сегментации по цене, в цикле сделки и CJM сделки и процессе продаж, в монетизации и т.д.
В каждом классе проблем свои вопросы:
- Почему мы делаем плановое число продаж?
- проблема у новых пользователей или у старых?
- У нас низкая конверсия у новых?
- низкая конверсия на посадочных?
- на шагах воронки на сайте? (или в приложении?)
- низкая конверсия в отделе продаж?
- Какие есть блокеры, что мешают пользователям купить?
- Какие возражения пользователей или вопросы необходимые для покупки мы не отрабатываем?
- какие воронки, события, шаги ведут к продаже, а какие мешают? Какие события триггеры, а какие анти-триггеры?
- есть ли ассиметрия по устройствам? по городам, регионам? доменам? и почему?
и т.д. это не маленький список вопросов, которые ожидаются от аналитика, для того чтобы понять что произошло, почему, в чем проблема и где и как можно выдвинуть гипотезы.
data будни
Данные из Google Analytics можно экспортировать в BigQuery. Сам экспорт — стандартная функция GA и ничего не стоит; тарификация идёт по нормам BigQuery: за количество просканированных байт. Разбирался сегодня со структурой этих данных: колонок всего 22, но…
This media is not supported in your browser
VIEW IN TELEGRAM
Продолжаю разбираться с вложенными данными в BigQuery — читаю наглядное пояснение (только посмотрите на эти гифки!) как и зачем применять к ним UNNEST:
> The problem here is that event_params is essentially an array (actually in BigQuery parlance it’s a “repeated record”, but you can think of it as an array). …
This is where the UNNEST function comes in. It basically lets you take elements in an array and expand each one of these individual elements. You can then join your original row against each unnested element to add them to your table.
автор плавно подводит к выводу, что UNNEST — это как CROSS JOIN, только запись короче (потому что так looks cooler):
> You’ll find that in practice, though, most BigQuery developers will replace the CROSS JOIN with a comma … It still does the same thing, it just looks cooler. (BigQuery developers are all about looking cool.)
https://medium.com/firebase-developers/using-the-unnest-function-in-bigquery-to-analyze-event-parameters-in-analytics-fb828f890b42
> The problem here is that event_params is essentially an array (actually in BigQuery parlance it’s a “repeated record”, but you can think of it as an array). …
This is where the UNNEST function comes in. It basically lets you take elements in an array and expand each one of these individual elements. You can then join your original row against each unnested element to add them to your table.
автор плавно подводит к выводу, что UNNEST — это как CROSS JOIN, только запись короче (потому что так looks cooler):
> You’ll find that in practice, though, most BigQuery developers will replace the CROSS JOIN with a comma … It still does the same thing, it just looks cooler. (BigQuery developers are all about looking cool.)
https://medium.com/firebase-developers/using-the-unnest-function-in-bigquery-to-analyze-event-parameters-in-analytics-fb828f890b42
Не «если», а «когда»
когда только начинал, было страшно браться за работу — ведь любая работа делалась впервые. Поднять Постгрес на голой Убунте? → «Ну не знаю, смогу ли…»
сейчас с этим проще — во-первых, уже много чего успел поделать, а во-вторых, понял, что всегда будут попадаться задачи, которые придётся делать первый раз. И это нормально! Типа «поднять для проекта инфру с нуля в облаке на кубере и настроить туда доступ облачному BI» — пфф! легко!
(на самом деле совсем не легко, но опустим это))
навеяно:
⁃ известный архитектор тоже не знает как он будет строить заказанный у него небоскрёб (но, конечно, предусмотрительно не говорит об это клиенту) (прочитал у Бабаевой https://news.1rj.ru/str/changemarketing/718)
⁃ Артемий Лебедев старается брать проекты, где как минимум 50% придется делать впервые (типа зачем делать одно и тоже?)
Получается, там где джун не уверен сможет ли, миддл просто называет срок.
(математики в чате могут сказать, что джун тоже «называет срок» — ∞)
когда только начинал, было страшно браться за работу — ведь любая работа делалась впервые. Поднять Постгрес на голой Убунте? → «Ну не знаю, смогу ли…»
сейчас с этим проще — во-первых, уже много чего успел поделать, а во-вторых, понял, что всегда будут попадаться задачи, которые придётся делать первый раз. И это нормально! Типа «поднять для проекта инфру с нуля в облаке на кубере и настроить туда доступ облачному BI» — пфф! легко!
(на самом деле совсем не легко, но опустим это))
навеяно:
⁃ известный архитектор тоже не знает как он будет строить заказанный у него небоскрёб (но, конечно, предусмотрительно не говорит об это клиенту) (прочитал у Бабаевой https://news.1rj.ru/str/changemarketing/718)
⁃ Артемий Лебедев старается брать проекты, где как минимум 50% придется делать впервые (типа зачем делать одно и тоже?)
Получается, там где джун не уверен сможет ли, миддл просто называет срок.
(математики в чате могут сказать, что джун тоже «называет срок» — ∞)
Telegram
Бабаева, к доске!
Героем десятого письма рассылки «Бабаева копает инновации» стал 92-х летний архитектор Френк Гери, которого считают автором всего самого смелого в современной архитектуре. Я влюбилась в него на платформе Masterclass, потом еще поресерчила несколько интервью…
data будни
Не «если», а «когда» когда только начинал, было страшно браться за работу — ведь любая работа делалась впервые. Поднять Постгрес на голой Убунте? → «Ну не знаю, смогу ли…» сейчас с этим проще — во-первых, уже много чего успел поделать, а во-вторых, понял…
выводы из того что надо делать новые проекта
по-любому в работе встретиться новая неведомая хрень — к всему не подготовишься, но важно уметь работать в режиме неопределённости:
1. надо уметь искать ответы — да, пресловутый гугл и стэковерфлоу. Лучше сразу на английском: там по определению больше информации и проще формулировать (язык-то устроен проще).
2. знать, как бывает — какая общая архитектура, какие бывают решения для каждого, как делают в продвинутых компаниях. Соответственно, надо обложиться профильными блогами и обмазаться докладами с конференций — чтобы постепенно знания откладывались на подкорке.
3. знать, к кому обратиться с вопросом — коллеги, кто занимался похожим; эксперты, кто рассказывал про такое же: блогеры, спикеры с конференций, эксперты с рынка, авторы курсов — всем им можно написать и спросить совета (да-да, вот прям взять и написать).
Тут же в тему буду профильные сообщества и чатики в телеграме: там все на одной волне и встречаются с одинаковыми проблемами на своём пути. Вот как раз в чате про дата инжиниринг собрали известные:
- @deordie_chat
- @dataeng_chat
- @hadoopusers
- @moscowspark
и ещё в Слаке есть сообщество проекта DataLearn от Дмитрия Аношина (@rockyourdata) и команды — надо зарегистрироваться на сайте и пришлют ссылку.
по-любому в работе встретиться новая неведомая хрень — к всему не подготовишься, но важно уметь работать в режиме неопределённости:
1. надо уметь искать ответы — да, пресловутый гугл и стэковерфлоу. Лучше сразу на английском: там по определению больше информации и проще формулировать (язык-то устроен проще).
2. знать, как бывает — какая общая архитектура, какие бывают решения для каждого, как делают в продвинутых компаниях. Соответственно, надо обложиться профильными блогами и обмазаться докладами с конференций — чтобы постепенно знания откладывались на подкорке.
3. знать, к кому обратиться с вопросом — коллеги, кто занимался похожим; эксперты, кто рассказывал про такое же: блогеры, спикеры с конференций, эксперты с рынка, авторы курсов — всем им можно написать и спросить совета (да-да, вот прям взять и написать).
Тут же в тему буду профильные сообщества и чатики в телеграме: там все на одной волне и встречаются с одинаковыми проблемами на своём пути. Вот как раз в чате про дата инжиниринг собрали известные:
- @deordie_chat
- @dataeng_chat
- @hadoopusers
- @moscowspark
и ещё в Слаке есть сообщество проекта DataLearn от Дмитрия Аношина (@rockyourdata) и команды — надо зарегистрироваться на сайте и пришлют ссылку.
Recommended Reading, Listening, Watching from Meltano Team
подборка дата- рассылок, блогов, ресурсов и комьюнити
https://meltano.com/handbook/resources/
подборка дата- рассылок, блогов, ресурсов и комьюнити
https://meltano.com/handbook/resources/
Meltano
Recommended Reading, Listening, Watching | Meltano
Meltano: ELT for the DataOps era
Подкаст с Лёшей Никушиным
https://news.1rj.ru/str/internetanalytics/3641
Алексей известен как автор канала Интернет-аналитика ^^ и основатель конференции Матемаркетинг.
Понравился подход к делу:
… новая работа — «знакомьтесь, это Лёша, лучший аналитик страны… Посмотрим что ты умеешь». В пятницу утром получил задание — к понедельнику сделать отчёт по всем диджитал каналам трафика в компании. Руками такой отчёт делать — не то что выходных, месяца не хватит.
И дальше череда событий:
тут же вечером — он проходит курс по программированию на Пайтоне на Степике
утром в субботу — у него созвон с Ильёй Красинским, чтобы тот объяснил ему куда смотреть в Гугл Аналитиксе
днём в субботу — такой же созвон с человеком из Яндекс Метрики — рассказ как работае и помогает в настройке коннектора к АПИ через Пайтон.
в воскресение — созвон с ребятами из канал про эксель, чтобы помогли всё правильно настроить в таблице и собрать отчёт в одно.
в понедельник — готовый отчёт у начальства; «не без недочётов, конечно, но для первого подхода подойдёт».
-----
вот это называется проактивность — встретил новую задачу, пошёл и узнал как это решать, нашёл нужных людей, поговорил, научился.
конкретные инструменты всегда будут меняться, на проектах всегда будет что-то новенькое, поэтому главный навык — это уметь учиться.
… ну и ещё не бояться нового, уметь общаться с людьми, искать нужную информацию, уметь декомпозировать задачу и планировать её выполнение, да.
Слушать подкаст в iTunes и Overcast
https://news.1rj.ru/str/internetanalytics/3641
Алексей известен как автор канала Интернет-аналитика ^^ и основатель конференции Матемаркетинг.
Понравился подход к делу:
… новая работа — «знакомьтесь, это Лёша, лучший аналитик страны… Посмотрим что ты умеешь». В пятницу утром получил задание — к понедельнику сделать отчёт по всем диджитал каналам трафика в компании. Руками такой отчёт делать — не то что выходных, месяца не хватит.
И дальше череда событий:
тут же вечером — он проходит курс по программированию на Пайтоне на Степике
утром в субботу — у него созвон с Ильёй Красинским, чтобы тот объяснил ему куда смотреть в Гугл Аналитиксе
днём в субботу — такой же созвон с человеком из Яндекс Метрики — рассказ как работае и помогает в настройке коннектора к АПИ через Пайтон.
в воскресение — созвон с ребятами из канал про эксель, чтобы помогли всё правильно настроить в таблице и собрать отчёт в одно.
в понедельник — готовый отчёт у начальства; «не без недочётов, конечно, но для первого подхода подойдёт».
-----
вот это называется проактивность — встретил новую задачу, пошёл и узнал как это решать, нашёл нужных людей, поговорил, научился.
конкретные инструменты всегда будут меняться, на проектах всегда будет что-то новенькое, поэтому главный навык — это уметь учиться.
… ну и ещё не бояться нового, уметь общаться с людьми, искать нужную информацию, уметь декомпозировать задачу и планировать её выполнение, да.
Слушать подкаст в iTunes и Overcast
Telegram
Интернет-аналитика
Интервью сразу пошло не по плану. Я копнул в сторону своей университетской жизни и рассказал о том, как когда-то с помощью VBA, Excel, MathCad и прочих json'ов организовал "фабрику расчетных работ" для всего факультета (и организовал аналитику по всем любимым…
реальный мир — единственный источник практических знаний
«Как стать X?» или «Что качать, чтобы прокачаться в Y?»
можно взять гигантский роадмап и пойти по порядку — через год будет результат (если дойдёшь и не умрёшь с голоду).
мне нравится подход из мира стартапов: любая идея — теоретическая туфта, пока не пройдёт испытание на реальных клиентах. Именно конечные клиенты — единственный источник реальных знаний.
если хочешь стать инженером данных — надо найти вакансии и посмотреть что там требуется.
Хоп! и уже первое открытие — везде требуются разные наборы навыков, потому что (сюрприз!) во всех компаниях свой стэк инструментов и свои обычаи. И это всё со временем меняется (быстрее, чем программы курсов).
Следующий шаг — пройти дцать собеседований:
⁃ во-первых, придётся выбрать в какие компании идти: уже надо подумать куда хочется.
⁃ во-вторых, может придётся поделать тестовые — тоже отличный опыт; лучше синтетических задач из интернетов.
⁃ в-третьих, на собеседовании будет технический специалист не ниже миддла, который уже работает по этой специальности — вот он-то и расскажет ЧТО ИМЕННО НУЖНО на эту конкретную должность в этой конкретной компании.
⁃ PROFIT!
Если доводить идею до крайности, то в принципе можно вместо курсов ходить на собеседования: сначала будет жутко страшно, но на сотом собеседовании уже будешь в теме (и как раз пройдёт уже полгода-год).
«Как стать X?» или «Что качать, чтобы прокачаться в Y?»
можно взять гигантский роадмап и пойти по порядку — через год будет результат (если дойдёшь и не умрёшь с голоду).
мне нравится подход из мира стартапов: любая идея — теоретическая туфта, пока не пройдёт испытание на реальных клиентах. Именно конечные клиенты — единственный источник реальных знаний.
если хочешь стать инженером данных — надо найти вакансии и посмотреть что там требуется.
Хоп! и уже первое открытие — везде требуются разные наборы навыков, потому что (сюрприз!) во всех компаниях свой стэк инструментов и свои обычаи. И это всё со временем меняется (быстрее, чем программы курсов).
Следующий шаг — пройти дцать собеседований:
⁃ во-первых, придётся выбрать в какие компании идти: уже надо подумать куда хочется.
⁃ во-вторых, может придётся поделать тестовые — тоже отличный опыт; лучше синтетических задач из интернетов.
⁃ в-третьих, на собеседовании будет технический специалист не ниже миддла, который уже работает по этой специальности — вот он-то и расскажет ЧТО ИМЕННО НУЖНО на эту конкретную должность в этой конкретной компании.
⁃ PROFIT!
Если доводить идею до крайности, то в принципе можно вместо курсов ходить на собеседования: сначала будет жутко страшно, но на сотом собеседовании уже будешь в теме (и как раз пройдёт уже полгода-год).
data будни
реальный мир — единственный источник практических знаний «Как стать X?» или «Что качать, чтобы прокачаться в Y?» можно взять гигантский роадмап и пойти по порядку — через год будет результат (если дойдёшь и не умрёшь с голоду). мне нравится подход из мира…
для примера — вот красивый роадмап инженера данных. Интересно, сколько нужно лет, чтобы это всё выучить попробовать?
источник
источник
когда пишу в SQL запросах GROUP BY 1, 2 вместо полного наименования колонок, меня всегда тревожила мысль, что я халавлю и недоделываю НОРМАЛЬНЫЙ КОД.
Прочитал, что в dbt делают так же и успокоился: писать через «1» проще и понятнее (заскринил пример ^). Если что, буду показывать эту заметку 🌚
So why do I still group by 1? Well, there's a few reasons:
…
- 1 is a single character (and I'm lazy, OK?!).
https://blog.getdbt.com/write-better-sql-a-defense-of-group-by-1/
Прочитал, что в dbt делают так же и успокоился: писать через «1» проще и понятнее (заскринил пример ^). Если что, буду показывать эту заметку 🌚
So why do I still group by 1? Well, there's a few reasons:
…
- 1 is a single character (and I'm lazy, OK?!).
https://blog.getdbt.com/write-better-sql-a-defense-of-group-by-1/