🔋 Труба данных – Telegram
🔋 Труба данных
4K subscribers
330 photos
5 videos
9 files
449 links
Авторский канал обо всем, что происходит в мире работы с данными: хранение, обработка, визуализация, как мы принимаем решения и как мы становимся профессионалами в работе с данными.

Автора канала - @SimonOsipov
Download Telegram
Так, помните, были такие две ссылки на статьи у меня в самом начале блога The rise of the Data Engineer и The fall of the Data Engineer, написанные известным в узких кругах Maxime Beauchemin (это тот, кто Airflow накодил).
У него тут прекрасное интервью вышло на тему будущего дата инженеров.

Главные моменты
- Скорость ETL и аналитики сильно возросла
- Единообразие в данных все еще сложно достижимо, но это норм
- Управление изменениями все также проблема, но уже есть инструменты
- Данные должны быть неизменяемыми, иначе хаос придет
- DE роль слишком объемная и начала дробиться на специализации
- Операционка все еще доставляет проблем, просто теперь она распределенная

Нагло подсмотрел ссылку на интервью в DE Annotated https://jb.gg/jg3ggt от @asm0dey
🔋 Труба данных
Так, помните, были такие две ссылки на статьи у меня в самом начале блога The rise of the Data Engineer и The fall of the Data Engineer, написанные известным в узких кругах Maxime Beauchemin (это тот, кто Airflow накодил). У него тут прекрасное интервью вышло…
Как в Википедии, ты тыкаешь на одну ссылку почитать, и все, через 3 часа ты читаешь про то, как разводить кабачки в условиях болтной местности.
Так и я продолжил читать статьи Maxime Beauchemin и наткнулся на свежую How the Modern Data Stack is Reshaping Data Engineering

Вообще, выражение Modern Data Stack это уже баззворд, пихают его везде. Чаще этой фразы я слышу только “Hadoop умер” (нормально он себе живет относительно нишево, ничего он не умер, как и Ruby, не слушайте шарлатанов).
Так вот, основные моменты из статьи

Data infrastructure as a service
Нам пора думать о платформах, потому что без развития платформы, невозможно расти дальше определенного этапа, слишком больно.

Data integration services
Готовые решения по интеграции данных будут заменять постепенно скриптики, которые мы написали для REST API

Mountains of Templated SQL and YAML
Были полотна YAML шаблонов, теперь и полотна SQL. Программисты не любят SQL, говорят про инъекции, грязный код и вот это все, но количество аналитиков всех мастей растет, а для них SQL основной инструмент

ELT > ETL и Reverse ETL
Данные в хранилище мы научились поставлять. А теперь бы нормально научиться отдавать в наши системы.

The rise of the analytics engineer
Ага, DataOps это вот сюда тоже.

Ну и еще несколько пунктов. Сходите почитать, полезное чтиво.


P.S. на картинках можно заметить, что почти во всех пайплайнах есть DBT. 😄

P.S.S. Если лень читать, можно послушать на английском языке его доклад на эту тему https://www.youtube.com/watch?v=EKhYGYrq0eI
https://drecon.org/

На просторах англоязычного интернета нашлась еще одна конференция по Data Engineering, но теперь с модной приставкой Reliability.
Доклады разные, кажется, что есть что послушать, однако это лишь на мой вкус. Поэтому лучше самому составить свое мнение, посмотрев на расписание.

Учтите, конференция по МСК будет вечер/ночь.
Так, во всем этом потоке новых статей и видосиков, как вы ориентируетесь? Напишите в комментарии! (Да-да, я прикрутил обсуждения)

Какие источники использую я?
- RSS. Обычная читалка, типа Feedly, подписываюсь на интересные мне сайты, читаю раз в неделю заголовки и, если нравится предпросмотр, читаю глубже. Из последнего подписался на All Things Distributed.
- Infomate. Продвинутая RSS, материал подобран уже, спасибо всем, кто постарался.
- Telegram. Тут подписан на профильные группы, типа @rockyourdata или @DE_events
- Twitter. Подписываемся на адекватных лидеров мнений (а не шитпостеров) и читаем периодически, что они приносят.
- LinkedIn. Вот тут редко, но все же иногда проскальзывает материал, полезный для чтения.
- Рассылки в стиле Data Engineering Annotated от Паши @asm0dey (бесплатная) или The Pragmatic Engineer от Gergely Orosz (платная)
- Подписчики. Да-да, и такое бывает. Иногда мне приносят что-то интересное прямо в личку почитать, например “Data Driven компания: Как продемонстрировать ценность данных вашим коллегам?” от Жени
Data Engineering Zoomcamp!

Вот такое вот клевое название у ребят из DataTalksClub. Они проводят бесплатные зум-кемпы по разным темам и вот добрались до DE. Начало 17 января 22 и бесплатно.
Может быть кому-нибудь интересно будет послушать / посмотреть

Программа следующая:

1. Data warehousing (BigQuery)
2. Batch processing (Airflow, Spark)
3. Analytics engineering (DBT)
4. Stream processing (Kafka)

Подробнее тут: https://t.co/KpYI2S5aIq

Слак Data Talks Club https://datatalks.club/slack.html
https://www.datanami.com/2021/12/23/2022-big-data-predictions-from-the-cloud/?utm_source=rss&utm_medium=rss&utm_campaign=2022-big-data-predictions-from-the-cloud

Так, тут несколько дней назад на канале @data1984 наткнулся на статью (ссылка выше).
И так вышло, что я совсем не согласен с автором. Решил закинуть ее вам и предложить темку для обсуждения. Что происходит?

Автор (и его респонденты) утверждают, большинство компаний:
а) будут мигрировать не в чистое облако, а в некий гибрид облака и on-prem. Или более того, делать свои private-cloud-on-prem, для того, чтобы получать плюшки работы как с облаком, только уже на своем железе.
б) все очень сильно боятся вендор-лока, поэтому будут делать свои решения на multi-cloud

Каковы мои аргументы?
- Начнем с того, что подавляющее большинство компаний себе не могут позволить (или не имеют такой необходимости) создавать on-prem. Мир не ограничивается FAANG и ВСРАТОСЛАВом (или как там его окрестили? МЯСО?)
- Валидный аргумент про геополитические риски и антимонополию (мол, мы не можем хранить данные во Франции, потому что у нас с ними торговая война) пока применим только в отношении России (привет, закон о персональных данных и необходимости их хранения в РФ) и Китая (ну он всегда шел своим путем). Все остальные страны как-то нашли общий язык в этом всем.
- Мультиклауд как способ избежать вендор-лока. Ну да, два облака, поэтому х2 работы со биллингом, правами и доступами, инфраструктурами и связями, а еще cloud инженеры нужны, которые будут понимать детали и тонкости двух провайдеров.


В одном я с авторами согласен: хадуп катится к закату. Навсегда не умрет, но останется оч нишевым, не для всех.


Залетайте в комменты, давайте обсудим!
Еще одна интересная статья, которую хотелось бы обсудить с вами:

The future history of Data Engineering
https://groupby1.substack.com/p/data-engineering

Вот несколько интересных мыслей из статьи:

...Most businesses' data engineering needs have been solved or will shortly be solved by managed services that 10 years ago would require endless and extensive self-built ETL pipelines, databases and tools...

...The implications are that while Data Engineering is growing rapidly, so too are the forces that will undermine the need for Data Engineers, and the current under-supply of competent engineers will lead to an over-supply of junior engineers...

...Businesses should strive not to have people worrying about managing infrastructure, plumbing, ops etc over and above what is strictly necessary...

...Think about Sysadmins of the mid-2000s, arcane knowledge that is now redundant in almost every business, due to AWS, then Heroku, now Vercel, Supabase etc flying up the stack. (Or hadoop specialists. Big Data DBA anyone?)...

И еще целая кучка прекрасных цитат. Все это заставляет подумать, а куда движется Data Engineering? Или локальный рынок в России это еще не скоро затронет, ибо у нас еще до сих пор Хадуп популярен...
Впрочем, даже и на это в этой статье есть прекрасная цитата:

When the tide turns, there is a definite moment when the tide has indeed turned, but that change in direction becomes apparent to different boats at different times. This depends on context, location, keel depth and distance from both the equator and the moon (not to mention the sun). The gravitational pull has changed, but the water doesn’t start moving everywhere at the same time.


Прочитайте статью и приходите в комментарии обсудить про наше с вами будущее. Мое мнение будет в первом комментарии)
👍2
Да-да, я в последнее время много читаю разных статей, поэтому вот вам еще одна замечательная.

https://erikbern.com/2021/07/07/the-data-team-a-short-story.html

Хороший рассказ, основанный на реальных событиях, про то, как выглядят многие Data Teams в компаниях, какой творится беспорядок и как это все превратить в более-менее работающую машину.
Скажем так, отличное чтиво для тех, кто планирует становиться CDO или что-то в этом роде. Оч похоже на книжку "Проект Феникс" (кстати, тоже советую прочитать).

#инженерные_практики
Хехе, я прошляпил тут. Уже сегодня в 18-30.

У ребят уже 6 митап будет. Очень хочу послушать про Greate Expectations ибо пайплайны строить все научились и DQ сейчас - одна из основных проблем.
Forwarded from Citymobil Tech
🚨25 января в 18:30 у нас пройдет онлайн Citymobil Data Meetup #6.

Олег Стрельников из Ситимобил расскажет, как выбирали фреймворк для DataQuality, что от него ждали и почему остановились на GreatExpectations. Покажет, как встроили его в архитектуру DWH, с какими проблемами столкнулись и как их побороли.
Максим Шевченко из MTS BigData расскажет про интересный и одновременно простой способ проверки некоторых гипотез валидности таргетинга в наружной рекламе и о том, как его можно использовать в других реальных задачах.

🗓Расписание:
👉18:30 - 18:40 – Вступительное слово
Алексей Чернобровов | Head of Data Science | Ситимобил
👉18:40 - 19:10 – Как мы качество данных проверяем
Олег Стрельников | Руководитель команды Data Quality | Ситимобил
👉19:10 – 19:40 – Проверка гипотезы валидности таргетинга в наружной рекламе
👉Максим Шевченко | Ведущий ML разработчик | MTS BigData
19:40 – 20:10 – Дискуссия со спикерами.

Участие бесплатное.

РЕГИСТРАЦИЯ.

Ждем вас!
Ребята, привет!
Тут понял, что хочется написать большой, качественный материал в виде обзора и гайда на какой-нибудь фреймворк / тулзу из мира инженерии данных. 👷

Ибо качественных материалов на русском мало, мне хочется нанести пользу и причинить добро, а вот фигачить контент ради контента не хочется. Не делать же очередное видео на тему: «Junior / Middle / Senior. В чем разница?» (😆 pun intended).

Поэтому нужна ваша помощь! У меня есть наброски для пары тем, но вы можете посоветовать что-нибудь в комментариях)
Какая тема вам более интересна?
anonymous poll

dbt – 90
👍👍👍👍👍👍👍 57%

Trino (оно же Presto) – 38
👍👍👍 24%

Prefect – 23
👍👍 15%

Другое (напишите в комментариях) – 7
👍 4%

👥 158 people voted so far.
В прошлых сериях: я написал заметку о том, что в современном потоке контента, который генерирует интернет становится очень сложно понимать, где что-то новое, полезное и интересное, а где - набор булшита и баззвордов. К сожалению, автор удалил статью и нам не удалось подискутировать.

Но ничего, я принес новое)
https://techcrunch.com/2022/02/09/census-confirms-it-has-raised-a-60m-series-b-on-630m-valuation

Итак, из заголовка видно, что очередной data стартап поднял 60 миллионов на раунде при оценке в 630 миллионов. Что можно прочитать про этот стартап?
“А startup building a data layer between business operations and a company’s data warehouse”

Ничего не понятно, но очень интересно. Почитаем дальше..

CEO Boris Jabes said that from the start he wanted to build something that would allow mostly nontechnical users to build queries that made sense to them and get back data that would help them do their jobs without a middleman driving that access.
Мне казалось, что все кто хоть как-то касается данных, знает SQL, а если нет (какой-нибудь CEO), то все отчеты и данные сделают для него.


Business operations people can pull data from various sources based on data types and build a kind of application to deliver that data to them.
Еще одна тулза в итак набитом до отказа modern data stack? Сколько уже таких, подключашек?


The company reports it has now raised over $80 million, including a $4.3 million seed in 2020 and a $16 million A round in 2021.
80 миллионов, за 2 года, команда в 40 человек и интерес от инвесторов из A-list (ну типа крутых и умных).


Что я не понимаю, чего понимают они?
Это ведь очередная тулза, которая призвана remove the middleman, но на самом деле она становится им. Неужели эти все инвестиции ради игры “вдруг выйдем на IPO и акции выростут или кто-нибудь купит, мы окешимся”?
Это и так красный океан уже (модное слово из биздева), куда еще то?
Вот и сидишь, как с NFT (я не могу отпустить эту шутку, да😁): понимаешь, что вроде бы это бред и истерия с обезьянами, но надо бы потрогать, вдруг за этим будущее, которое оставит тебя без работы?

Сам стартап - https://www.getcensus.com/
Искренне не понимаю, поясните в комментариях, чем это будет полезно пользователю и компании. Как среди этого всего не упустить следующий dbt? Или просто не переживать, хорошие инструменты набирают популярность и ты узнаешь про них естественным путем?
👍1
Ребята из Тинькофф на своем недавнем митапе IT's Tinkoff Data Meetup говорили про устройство и процессы Data warehouse, а так же про инструменты в Data Governance.
Две темы:
- Data Governance в Тинькофф
- Подходы к внедрению платформы управления данными в крупной компании

https://meetup.tinkoff.ru/event/tinkoff-data-meetup/
Записи презентаций и слайды по ссылке выше.
Да, трудное и очень дурацкое время, мы все все понимаем. Но все же…

Ребята из CityMobil проводят очередной Data Meetup.

Темы снова две:

- Сбор и валидация субъективных данных на примере заказов по пути домой

- Антифрод на рынке такси. Определение мошеннических действий через анализ связности графа поездок

Регистрация доступна по ссылке тут
Так, среди всех новостных подписок и ресурсов мне очень нравится The Pragmatic Engineer. Это тот самый, который про 3-modal компании (tier 1, tier 2, tier 3) популярный пост писал и видео снимал.
У него очень много полезного материала в его рассылке, и часть из них платная. Подписка стоит $15 в месяц (12, если платить за год сразу), но если ему написать на почту hello at pragmaticengineer dot com, чесно признаться, что вы из России, то можно получить скидку в 55%.
Вот такой вот хороший оффер! Подписку честно советую!

Можете в письме мягко упомянуть “Hello from Simon” =)
Всем привет!
С 28 числа в этом канале не было сообщений. Сами знаете почему.
Тут недавно в твиттере проскакивало две фразы, которые мне сильно зацепились.

“Ребята, если хотите сохранить кукуху - найдите для себя свой, личный способ выхода энергии. Нестерпимая ситуация рождает боль, боль рождает желание её уменьшить.“

и

"Может ли булочник печь булки во время войны?".

Так вот, у меня есть продолжить желание писать сюда в канал. Мне нужен этот выход энергии.
Странно, конечно, спрашивать “А вы не против, если я продолжу писать сюда?”, ведь это мой канал 😁

Но я понимаю, что есть люди, которые могут не разделить мою позицию, мол “Почему ты продолжаешь писать про айтишку, когда идет специальная военная операция война?”
Наша жизнь продолжается, в каком-то новом измерении, и в этом измерении я все еще хочу быть дата инженером и заниматься своими любимыми вещами. Поэтому я хочу продолжить писать про DE и вокруг.

Поэтому если вы не разделяет мою позицию по прекращению тишины в канале, сейчас самое время отписаться. Я буду скучать по вам, я люблю каждого своего подписчика.

Если вам есть что сказать, приходите в комментарии, там можно меня даже послать куда подальше за такое, никаких репрессий за это не будет =)
Страшные ужасы вендор-лока.
Например, Vertica запретила скачивать драйверы со своего сайта всем, кто заходит с Российского IP.
Конечно, VPN решает проблему, но кто знает, что будет дальше…
🔥1
https://drecon.org/

Открылась регистрация (бесплатная) на очередной Дрекон, кхе-кхе)

Темы, правда, пока не известны…
👍1
Стабильно, несколько раз в неделю мне пишут с запросом на рекламу и денег предлагают.
Но нет, в этом канале платной рекламы не будет никогда, а если я закидываю какую-то ссылку, то это потому, что у меня у самого возник к этому интерес и мне захотелось с вами этим поделиться.

Рубрика #НамБыДжуна давно себя изжила, и мне бы не хотелось превращать свой канал в джоб борд (у нас для этого есть (@datajobs чат и @datajobschannel фид). Но, в виде исключения, хочу запостить две вакансии.