Инжиниринг Данных – Telegram
Инжиниринг Данных
23.4K subscribers
1.98K photos
56 videos
192 files
3.2K links
Делюсь новостями из мира аналитики и карьерными советами.

15 лет в Аналитике и Инжиниринге Данных, 10 лет в MAANG

🛠️ dataengineer.ru | 🏄‍♂️ Surfalytics.com

№5017813306

Реклама:
https://almond-rule-130.notion.site/1199f595f76a8030ba1be1e607c9a8ce
Download Telegram
Новости из мира Spark:
1) Databricks в Spark 3.2 анонсировал Pandas API. Раньше для этого мы использовали Koalas, а теперь можно from pyspark.pandas import read_csv
2) PayPal рассказал о новой библиотеке - Dione - an indexing Library for data on HDFS and Spark.
Если вы используете Juputer Notebooks, то вам будет интересно почитать про движки рендеринга для ваших ноутбуков - nbconvert и Voilà

https://blog.jupyter.org/looking-at-notebooks-from-a-new-perspective-bfd06797f188
Новый перевод для вас: Apache Airflow и будущее инжиниринга данных: вопрос и ответы (В этом посте представлен перевод статьи на Medium от Maxime Beauchemin и Taylor D. Edmiston.)


Автор русской версии: Владимир Метенев, работает аналитиком в Belkacar. Пару лет назад перешел в сферу анализа данных и DS.
Прособеседуйте команду рекламных продуктов Яндекса

13 октября Яндекс проведёт онлайн-встречу Adtech, на которой вам попробуют доказать, что реклама — это прежде всего продукт, который состоит из сложных технологий, интересных задач и вызовов.

Приходите общаться с топовыми спикерами из продуктовых команд Яндекса:

- Руководителем рекламных продуктов Верой Лейзерович
- Руководителем нового рантайма и больших данных Алексеем Шлюнкиным
- Руководителем отдела качества рекламы Алексеем Штоколовым
- Руководителем службы конкурентного и бизнес-анализа Сергеем Линeвым

Если вы захотите присоединиться к команде, то 23 и 24 октября в Яндексе проведут Fast Track — онлайн-встречу, на которой можно будет пройти две технические секции и получить быстрый оффер в компанию.

- Зарегистрироваться на встречу с командой рекламных технологий
- Зарегистрироваться на Fast Track

PS пост поддержал приют для собак Зоорассвет в Москве
Картинка, которую мы заслужили?))
Возможно вам понадобится использовать Scala для вашего аналитического решения. Скорей всего вы будете использовать Apache Spark.

Вот вам необходимые ресурсы, что подтянуть знания:
1. Курс Big Data Analysis with Scala and Spark (бесплатно на курсере)
2. Главный ресурс на гитхабе про Scala для Spark - Just Enough Scala for Spark
3. Еще один курс от Dean Wampler - Apache Spark Scala Tutorial
4. Databricks курс в их GitHub - Just Enough Scala for Spark
5. [Russian Speaking] Scala User Group
6. Телеграм чат @apache_spark
7. Just Enough Scala for Spark with Dean Wampler Spar Summit video

Все бесплатно и от лучших в индустрии.
У всех одинаковые возможность, но не все ими пользуются. Это я к чему? Хотел рассказать про недавний случай из Data Learn. В 3м модуле у нас есть выпускное задание от Романа Бунина, одного из ТОП экспертов по визуализации и Табло в России, у него еще есть отличный канал Reveal The Data, где он, в отличие от меня не спамит читателей так часто😜

Хочу показать пример выполнения задания и фидбек от Романа.

1. Задание:
Использовать данные Airbnb UK и построить дашборд в Табло, с инсайтами, конечно и удобным интефейсом.

2. Решение:
Андрей Созинов создал такой дашборд - https://public.tableau.com/views/airbnb_16332740965890/Dashboard

3. Фидбек от Романа:
Супер молодец, что сделал задание! Кайф.
Что можно улучшить.

Бизнес-польза/Аналитика:
— Нет никакого провала до уровня конкретных объектов → выбрать конкретный объект или сравниться с конкретным объектом не получиться. А это была одни их основных задач.
— Основная метрика анализа — загрузка, а она стоит третей в таблице и её нет на карте. Кажется, что дашборд должен был строиться вокруг неё.
— Просто вынести фильтры с параметрами недостаточно. Это не дает возможность сравнить разное количество спален, например. Чтобы сравнить метрики для 1 и 2 спален, придется перекликивать туда-сюда и запоминать метрики.
Дизайн
— Норм, но в целом всё прям супер просто.
— Зеленные строки пересекаются по цвету с зелёными областями на карте, появляется паразитная логическая связь. Можно подумать что в каких-то районах лучше, чем в других. Для подсветок в таблице и т.п. лучше использовать цвета, которые не привязаны ни к какой метрике/срезу.
— Идея выводить тайтл с районом прикольная, но выгядит не супер понятно, пока района не выбран.
Табло
— Фильтры как-то очень хитро сделаны, не понял зачем сделал сет. Можно было просто эти поля кинуть в фильтр.
Если до этого не работал в Табло, то супер хорошая первая работа. Мой вариант этого дешика на картинке ниже.


PS Роман часто ищет к себе Data Engineers и BI Engineers, спрашивайте его, не стесняйтесь!
Слышали вы про Shopify? Это такой конструктор интернет магазинов, где есть куча интеграцией. Можно продавать свои продукты, а можно делать drop shipping. Я сам создавал интернет магазины на Wix, WordPress и Shopify. Последний самый дорогой, но и самый приятный.

Сегодня увидел новость про появление Enterprise решений в маркетплейс. То есть это уже другой уровень магазинов и сразу подумал, что им не хватает там приложения data warehouse as a service. То есть пару кликов, и у вас готовые отчёты по вашим данным, и ваши данные живут в моей Redshift или Snowflake. Идея очень старая, и многие продукты так и работают. Но может быть кто-нибудь хочет со мной сделать плагин? Я вот только не по плагинам специалист.
Не думайте, что это только вы обманщик, и у вас симптом самозванца. На другой стороне тоже не пушистые зайчики😵
🔥🔥🔥Давайте поприветствуем подписчика #10000 !!!🎊🎉
Дорогой друг, @kender_T ты как нас нашел?🤗

С ноября 2018 года прошло 3 года почти. Изначально я создал канал для лабы под Snowflake+Tableau workshop на 1м матемаркетинге. Ещё тогда про snowflake никто не знал даже в Канаде. А теперь, у всех по снежинке)))
Все приветики! Накидайте плиз материалы по домашнему обучению детей? А то вдруг путешествовать захотим или еще чего🤪
Очень часто существуют препятствия между аналитиками BI, дата инженерами и бизнес пользователями. Как вы решаете такие проблемы?

Для меня как минимум:
1) Документация проектов (автоматическая! - business data catalog)
2) Еженедельные office hours
3) Ежеквартальные опросы (BI survey как в модуле 3 data learn)
4) Onboarding материалы (лабы, туториалы и видео)

Именно этим сейчас и занимаюсь.
Недавно я общался про дата инженера и Спарк, и меня спросили знаю ли я разницу между multithreading and multiprocessing? А я вот не знаю. Но гугл наверно это услышал и подсунул мне вот такую новость в рекомендации:

https://towardsdatascience.com/multithreading-vs-multiprocessing-in-python-3afeb73e105f
Я бы хотел записать модуль datalearn в Half-Life VR. Пример учителя математики - https://youtu.be/R3g9jrqjOZs
Точно учитель года!
Если вы не работали в Амазон, вы никогда не поймете это сообщение. А все очень просто, в Амазон 2х факторная авторизация и они использую USB/USB-C токены - https://www.yubico.com/products/

Чтобы его активировать, надо дотронуться и он нагенерит такую строку, вот и получается, что в чатах все время такие сообщения выскакивают, если случайно дотронулся🤗