Инжиниринг Данных – Telegram
Инжиниринг Данных
23.4K subscribers
1.98K photos
56 videos
192 files
3.2K links
Делюсь новостями из мира аналитики и карьерными советами.

15 лет в Аналитике и Инжиниринге Данных, 10 лет в MAANG

🛠️ dataengineer.ru | 🏄‍♂️ Surfalytics.com

№5017813306

Реклама:
https://almond-rule-130.notion.site/1199f595f76a8030ba1be1e607c9a8ce
Download Telegram
Game Analytics on Azure-1.pdf
1.4 MB
Презентация с конференции gamestack про Azure решения для аналитики игр.
Будет PDF, присылайте! Уверен крутая книга🤠
А вот ещё один отзыв #datalearn ! И это мы ещё только половину сделали из запланированного контента.




Хочу поблагодарить тебя за твой крутейший образовательный проект! Благодаря нему я услышал про дивный мир дата инженеров, вдохновился, начал проходить курс, приобретать новые знания и подтягивать имеющиеся неструктурированные.
В итоге сменил сферу деятельности на ту, которая меня больше драйвит и выглядит более перспективной: продуктовая/ BI аналитика в одной из топовых IT компании РФ, цифровыми продуктами которой большинство из нас пользуется регул(Я)рно.

Не скажу, что я "ворвался в IT", т.к. до этого я уже был системным\бизнесовым аналитиком (тем самым "бизнес-аналитиком", быть которым у нас в РФ означает что угодно).
Тем не менее, сдвиг парадигмы произошел значительный (крупнейший за последнее время), задачи теперь более осмысленные и ежедневная деятельность ощущается по-новому!
Я много писал про delta lake от Databricks. А есть ещё одно интересное решение, и мы о нём узнаем, наш следующий вебинар!

Друзья, завтра (22 апреля) в 19:00 по мск вебинар
Тема: озеро данных
Вещать будет Viktor Kessler, он из самого Dremio, Solution Architect.
Ссылка на вебинар:
https://youtu.be/W9JvqMAc73Y
Не буду говорить, что всем нужно быть, будет прикольно, если вообще никто не придет :)))
Учите эксель? Занятия не должны быть скучными! Мне кажется у такого учителя скучно не бывает))
Виктор Кесслер очень классно рассказал про современный landscape решений и про индустрию. Рассказал про историю продукта Dremio и Apache Arrow, и много другого. Обаятельно посмотрите доклад и узнаете много нового. https://youtu.be/W9JvqMAc73Y
👍1
Orphaned (осиротевшая) Analytics are one-off Machine Learning (ML) models written to address a specific business or operational problem, but never engineered for sharing, re-use and continuous-learning and adapting. То есть модель, которая решает конкретную задачу, но о ней мало кто знает внутри организации. А еще лучше, если человек, который ее создал, просто уволился.

Этот термин отлично подойдет для дашбордов, таблиц фактов, ETL jobs.

А вот сама статья.
Компания Thoughtworks (BI вендор) выпускает интересный digest - Technology Radar. В свежем выпуске они рассказали про тренды в аналитике. Многое мы уже и так знаем, например о популярности SQL, удобстве dbt для T в процессе ELT, data mesh и mainstream machine learning.

Еще они затронули тему monorepo. У кого-то есть соображения по этому вопросу?

PS Кстати, мы готовим очень полезный курс - DevOps для инжиниринга данных на Azure. Автор курса дата инженер Майкрософт из Сиэтла, наша соотечественница. Я сам жду этот курс, чтобы добавить best practices в свою работу.
А тут, автор сравнивает Redshift (для меня это обычно хранилище данных), PrestoDb, Trino (никогда не слышал). И вообще SQL движков очень много, автор решил привлечь внимание к своему продукту. Вы какие SQL движки используете для аналитики? У меня теперь целый арсенал в Synapse:
- Serverless SQL Pool - managed SQL engine (платим только, когда используем)
- Dedicated SQL Pool - аналитическое MPP хранилище данных
- Spark Pool - кластер managed Spark на Azure
Вот как бывает - чувак был BI консультантом, я его даже приглашал в Amazon на BI tech talks года 3 назад, а сейчас он баллотируется в меры))
Backstage модуль 5
Layering Your Data Warehouse with dbt (open source инструмент для T в ELT):
1. Root Layer - The first layer is the landing zone for any initial data ingestion.
2. Logic Layer - The logic layer is where the heavy lifting of your data transformation is done.
3. Dimension and Activity Layer - This layer is where we begin to surface data models for others to use in their own analysis and projects.
4. Reporting Layer - This layer is for your metric calculations and any levels of aggregation you might need for reporting.
Интересный материал.
Forwarded from Дашбордец
Котятки🐱
В Билайне удалось выстроить очень удачный онбординг для аналитиков из бизнеса, - они очень плавно вливаются во внутреннее сообщество Qlik, даже не зная на этапе входа модного слова self-service.
Мне это рассказывали, что называется, "на правах очевидца и участника событий", но тогда, в 2020, верилось мне с трудом.
Теперь прояснилось, - смотрим видео, кайфуем, перенимаем:
https://youtu.be/jhQ2NVgLCu4