🔋 Труба данных – Telegram
🔋 Труба данных
3.99K subscribers
330 photos
5 videos
9 files
449 links
Авторский канал обо всем, что происходит в мире работы с данными: хранение, обработка, визуализация, как мы принимаем решения и как мы становимся профессионалами в работе с данными.

Автора канала - @SimonOsipov
Download Telegram
SmartData, билеты, купончики, вот это все.

Конечно, как обычно, накидаете мне какашек, но я продолжу сотрудничать с ребятами из SmartDatahttps://jugru.org/) потому что на данный момент они единственные, кто делает профессиональную конференцию в нашей области в РФ. 1-2 доклада про хранилища на Хайлоаде не считаются. Да и уровень организации всегда там очень хорош.

Список докладов очень даже хорош, будет оффлайн в Москве, приходите, это того стоит.

Программа конференции— на сайте.

P.S. как и договаривались про прозрачность всех постов в канале, за этот пост мной получено 0 рублей.

@ohmydataengineer
👍18💩5🥱41
Пятничный тематичный юмор

@ohmydataengineer
👍33🥱1
Гигачад или Лысый из Браззерс

Вот иногда смотришь доклад и думаешь: “Не, ну это какой-то космолет, чет тут очень много фантастики”. Такое ощущение возникает, когда разрыв между тобой, твоим проектом и проектом того презентующего слишком большой.
Но иногда ты смотришь и каждые 40 секунд останавливаешь запись с криком: “Да бля, у нас тоже самое!”. И ты понимаешь, что на деле у многих похожие проблемы и ты знаешь, что они решаются и в видосике тебе даже подсказывают что и как.

Сегодня как раз такой доклад Чада Сандерсона, очень клевый чел, промоутит Data Contracts подходы.

https://www.youtube.com/watch?v=qT-Atu9mfvM

@ohmydataengineer
🔥10👍7
Пятничный юмор

@ohmydataengineer
🔥41
Хайп пройдет, фундаментальные знания останутся

https://blog.devgenius.io/elt-is-dead-and-etlt-will-be-the-end-of-modern-data-processing-architecture-154b87c1cce0

После очередной "прорывной и хайповой" статьи (по ссылке выше) о том, что ETL умер и теперь у нас будет EtLT захотелось немножко блевануть. Очень утомительно среди всего этого посредственного контента находить что-то полезное. В очередной раз кто-то придумал новую концепцию загрузки данных (спойлер, ничего нового, все тоже самое. Даже ETL / ELT это одно и то же в целом) и теперь задвигает про то, что в современных архитектурах будет вот так.
Ах, да, насыпали баззвордов "New Generation Big Data Federation Proliferation of AI Applications", удобрив сверху типичным карго-культом и, конечно же, джоб сесурити.
Появление Snowflake / Databriсks привело к тому, что народ решил снова забрасывать проблемы деньгами и мощностями, следовать концепции OBT (one big table) и не заморачиваться. А смысл? Это ведь потом не наши проблемы =)
Как видно уже сейчас, технологии цикличны и постепенно всего громче и громче слышны голоса про то, что вообще-то data modelling это важно. Особенно забавно это слышать от главных ифлюенсеров линкедина, которые сегодня говорят про то, что давайте все грузить в одну таблицу, а завтра - про то, как моделирование важно.

Короч, что я этим бубнежом хотел сказать: не гонитесь за хайпом, за очередным убийцей питона в Data Engineering, следующим Airflow и вот это все. Фундаментальные знания о передаче и хранении данных, системный дизайн на адекватном уровне - эти навыки вас прокормят до конца жизни.

P.S. В копилку к этому дерьму есть еще одно - Analytics Engineer. Смешали коня и носорога, получился фантастический единорог. Еще и нанимают на такие позиции, где требования, в целом те же, что и к Data Engineer. Название ради названия.🤢
Помните, какое-то время назад я делал презентацию про то, какие бывают data engineers. Я за базовый класс (Data Engineer, куда все эти DWH-разрабы, ETL-девелоперы и dbt-инженеры) входят и некий гибрид, вышедший из DE и DS под названием ML-engineer. Все остальное - от лукавого.

@ohmydataengineer
👍39🔥2💩21
Контент одной картинкой!

Если вам придется когда-нибудь пояснять менеджерам и всяким CTO, почему Data Quality это важно, сохраните эту картинку на случай важных переговоров.


@ohmydataengineer
14🥱9👍7
Forwarded from LEFT JOIN
This media is not supported in your browser
VIEW IN TELEGRAM
👀 Наверное, и мы, и вы уже пересмотрели все рилсы с Тиньковым…

Но версии про аналитику нам пока не встретились, а когда мы не видим какого-то безумия, то обязательно должны его возглавить!

@leftjoin
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥47👍6💩21👎1
Если вы в Израиле 🇮🇱 - приходите на митапчик, будет интересно!
Тем более, что он будет на английском =)

https://lnkd.in/d9chf623

@ohmydataengineer
11💩5
Опросы, опросы, опросы!

Я их читаю, чтобы вам не надо было тратить на это время! У Monte Carlo (это такая софтина для Data Quality и Data Observability) есть опрос по State of the Data за 2023 год.

Что они там нанаблюдали?

- Что DQ приносит больше всего пользы
(очевидно, мы же DQ решение продаем). Справедливости ради, у нас внутри по личным ощущениям те же лидеры топа: качество, коммуникация и документация.

- Денег на дата решения за последнее время стали тратить побольше.
А вот тут у нас наоборот, мы как продолжали не покупать SaaS для этого, так и не покупаем.

- Мое любимое - все команды считают свой ROI и только один герой опроса нет.
Удивительно, при этом, что один из самых главных жалобных аспектов это "Как нам донести ценность нашей команды?". Чет несовпадение какое-то...

Отчет можно найти у них на сайте за рабочий емейл, но, если честно, оно того не стоит. Инсайтов там нет.

@ohmydataengineer
👍7💩4
Отдельный канал про карьеру

Я понял, что пришло время все-таки немного разделить каналы, ибо мне интересны две сферы, а смешивать их в одном канале не очень удобно для вас. В конце концов, вы приходите сюда почитать про data engineering и поставить 💩 под постами, про карьеру это не релевантно для вас.

Да и мне нужно отдельное место, чтобы продолжить рассказывать про свои консультации по карьере. Там парочка прикольных кейсов, в том числе один мой фейл: очень и очень долгий клиент, с которым пока не получается провернуть и достигнуть результата.

Встречайте: «Осторожно, ведутся карьерные работы!» или @career_works.
В канале буду постить про все, что связано с карьерой в IT: поиск, переговоры, зарплаты, софт-скиллы, вот это все.

Пара постов на скриншотах выше, подписываться вот тут —> @career_works
💩26👍3🔥2
Че там у инфлуенсеров

В комментах мне скажут, что у меня подгорает или что я завидую, что я использую тактики "зарубиться с кем-то публично, чтобы все шерили это! Накинь говна на вентиллятор!"

Я лишь нахожу это забавным, что ты можешь рассказывать своей аудитории, какой ты классный инженер, как твои курсы по DE тебе приносят денег больше, чем твой доход в FAANG и всякое такое, а потом просить JetBrains то ли о спонсорстве, то ли о бесплатных лицензиях ("Я бы снял видео...").

В общем, голая правда об инфлуенсерах. В большинстве случаев контент там на уровне "10 самых используемых выражений в SQL" или "15 AI инструментов, которые ускорят ваш пайплайн". Я уже как-то жаловался на это, что в потоке такого низкосортного контента все тяжелей и тяжелей находить интересные статьи, видео и инструменты.

P.S. ах, да, второй скриншот это ChatGPT коммент, очень популярная фигня сейчас в LinkedIn, все друг другу накручивают engagement rate и раскручивают свою "инфлуенсность". Это еще плюс-минус большой коммент, иногда просто без ChatGPT пишут всякие "I like your post!" и таких комментов 3-4 сотни!
👍13🥱4💩2
Залип в этот Miro-борд, очень структурированный подход к потреблению и усвоению знаний. В этом случае хорошее пояснение про Data Mesh
не удивлен, что автор канала @datanature занимается визуализацией данных 😄

За эту "интеграцию" полученое 0 деняк, автор даже не знает, что я сделал этот пост.
Forwarded from Data Nature 🕊 (Alex Barakov)
Data products and Data mesh board

Готовясь к одному новому проекту - начал перекапывать снова тему data products. Здесь как обычно много противоречий в трактовках, но магистральная все-таки концепция data mesh.

Короче залип в статьи Eric Broda по теме. Когда вижу у кого-то такую качественную систематизацию предмета - приходится садиться и встраивать ее в свою картину (очередная обсессия).

Я не во все вник, честно говоря. Мне эта тема всегда была интересна отдельными частями. Но в итоге набросал для себя борд (да опять) из слайдов автора и ссылками на статьи по каждому направлению - может кому пригодится. Много консалтерских абстракций, но местами очень полезно.

Уже потом подумал, что уж раз такая пьянка - надо бы и аналогичные картинки от Zhamak Dehghani (основательница парадигмы Data Mesh) сложить в нагядную систему. Но как нибудь потом.

MIRO - https://miro.com/app/board/uXjVMveo0ls=/
PDF - https://disk.yandex.ru/i/dwqpBV6nG6fsJQ
👍17💩2
Python и Excel

Только ленивый не написал о том, что питончик подвезли в эксель.
Еще больше экселек богу экселек на поддержку!

Но в целом, конечно же, новость хорошая.

https://support.microsoft.com/en-us/office/introduction-to-python-in-excel-55643c2e-ff56-4168-b1ce-9428c8308545

@ohmydataengineer
🔥4💩4
Про тимлидство

У меня было:
- полностью распределенная команда (UK, Кипр, Польша, Болгария, Израиль), 7 разных национальностей, хорошо, что говорим на одном языке - английском
- с разницей в возрасте от самого молодого до самого возрастного в 17 лет
- выросшая с 4 до 11 человек, часть из которых я не нанимал и еще часть в моей команде, но структурно подчиняются другим менеджерам (так сказать, embedded), по скиллам от джунов до сильных сеньоров
- причем один из этих людей еще когда-то был менеджером этой команды, но то ли ему не понравилось, то ли не справился, классический олдскульный инженер
- 8 лет легаси "хуяк-хуяк и в продакшен", с минимумом документации, сделанное все 4 предыдущими поколениями команды
- максимально отсталый стек, где почти все, что можно уже было за гранью поддержки
- забагованная и заброшенная к чертям джира и конфлюенс команды
- 11 рассерженных стейкхолдеров, которым срочно надо вчера и половина времени у меня не было ни продакта, ни проджекта
- огромная параллельно происходящая миграция (aka распил монолита) основного приложения, данные из которого нужны всем
- и еще тыща проблем и затыков, которые просто не попали в список ибо он уже и так большой...

Ничего не развалилось, процессы наладили, джиру почистили, конфлюенс восстановили, со стейкхолдерами договорились, техдолг начали выплачивать словно ипотеку пытаемся закрыть досрочно, бузинес валуе тоже поставляем.
Великолепный коктейль для первого года тимлидства. Мне понравилось, летим дальше!

@ohmydataengineer
🔥79👍177💩2