🔋 Труба данных – Telegram
🔋 Труба данных
3.99K subscribers
330 photos
5 videos
9 files
449 links
Авторский канал обо всем, что происходит в мире работы с данными: хранение, обработка, визуализация, как мы принимаем решения и как мы становимся профессионалами в работе с данными.

Автора канала - @SimonOsipov
Download Telegram
Колесо Сансары, не иначе.

Дагстер, как один из бенефициаров всей этой багадельни под названием Modern Data Stack, теперь будет рассказывать о том, сколько же проблем у MDS и как нам всем избежать этой ловушки. На отдельном эвенте!

How to escape this Modern Data Trap, get back to the initial intent: to deliver a developer experience that is unified, streamlined, collaborative, and where you are in control of costs.

Еще одно прекрасное подтверждение тому, что стоит переживать лишь о фундаментальных навыках, а всю мишуру вокруг в виде фреймворков и тулов - тщательно фильтровать.

https://dagster.io/events/dagster-launch-week-oct-2023

@ohmydataengineer | Поддержать автора на Patreon | на Бусти
👍13💩3
https://x.com/aliafonzy43/status/1705548273233109076

Если вы когда-нибудь переживали про качество своего кода, про баги, которые ваш код генерирует или ваши косяки на проде, сходите в ответы и репосты к твиту, вам станет сильно легче: народ рассказывает как роняли базы, убивали кластеры и вгоняли продакшен на много сотен тысяч юзеров в 50* ошибки на несколько часов.

@ohmydataengineer | Поддержать автора на Patreon | на Бусти
💩7👍31
Статистика канала: Сентябрь 2023

Пост саморефлексии, не ожидайте тут откровений про пайплайны и хранилища, скоре это просто возможность для меня посмотреть на прогресс этого канала в количестве подписчиков, количестве 💩 что вы мне накидываете и в целом просто быть более открытым с вами про то, сколько это времени занимает, какие идеи дальше у меня в голове и вот это все.

Что мы имеем:
- Всего 11 сообщений я запостил в канал
- Канал вырос примерно на 3% человек
- В среднем 1800 людей видят посты (что же с остальными 800 😂)
- Самый топовый пост был анонс про статью на Бусти (на этой неделе уже будет в открытом доступе)
- Сам Бусти и Патрен пока в стартовом состоянии (5 платных подписчиков),

Не самые плохие результаты, но есть куда двигаться. Эпизодически в комментах прилетают хорошие мысли и идеи, которые надо воплощать.
Спасибо большое, что читаете меня, всегда буду рад и благодарен вашей поддержке - https://boosty.to/datapipeline и https://www.patreon.com/DataPipeline (это всего лишь 100 рублей в месяц или 4 евро, если вы с иностранной картой).

"Труба Данных" @ohmydataengineer | Поддержать автора на Patreon | на Бусти
👍12💩123🥱2🔥1
https://aws.amazon.com/certification/certified-data-engineer-associate/

У AWS появилась сертификация по Data Engineering.
Пока только Associate, думаю, Professional / Specialist тоже появится плюс-минус в скором времени.

Наличие сертификата у вас может как и добавить вам плюсов в резюме, а может и вообще никак не повлиять.
Возможно, вы и так уже все знаете, а мб при подготовке узнаете что-то интересное.

@ohmydataengineer | Поддержать автора на Patreon | на Бусти
👍8💩8
New Generative AI Infra Stack

Не знаю, что с этим roadmap делать. Предлагаю просто взглянуть на него, запомнить пару рандомных тулов и сервисов и отложить на годик. Можно еще посмотреть на тулмап от Sequoia - https://www.sequoiacap.com/article/generative-ai-act-two/

Потом принесут на поддержку и интеграцию. А пока можно не тратить на это времени.

@ohmydataengineer | Поддержать автора на Patreon | на Бусти
💩6👍5👎1🔥1
Airflow Summit

https://www.youtube.com/playlist?list=PLGudixcDaxY29qXIXhd90htHp_BFk-Bqf

Выложили видосики с прошедшего Airflow Summit. 36 докладов и выступлений про текущее и будущее Airflow.

@ohmydataengineer | Поддержать автора на Patreon | на Бусти
💩9🔥6👍2
Идеальный пайплайн данных!

@ohmydataengineer
🔥72💩14👍6😢2
How it started (~2012) VS How it is going (2023)

Кстати, текущую карту можно интерактивно покликать вот тут https://mad.firstmark.com/

@ohmydataengineer
😢19🥱9💩7👍4
https://eng.lyft.com/from-big-data-to-better-data-ensuring-data-quality-with-verity-a996b49343f6

У Lyft (это который конкурент Gett 😂) есть собственное решение в Data Quality - называется Verity.
Хорошая описательная статья про то, как это работает у них там.

@ohmydataengineer
🔥15💩4
#пятничныйюмор

Я знаю, вы здесь только ради этого контента!

@ohmydataengineer
👍40🔥14💩5
https://www.youtube.com/watch?v=-YQZUUYOccY

У этого канала непростительно мало просмотров и подписчиков! Челик выкладывает короткие видео (5-10 минут) про базовые концепции, подходы, темы в Data Engineering. Не смотря на очень кликбейтный заголовок, внутри все очень честно: если вы думаете, что везде сноуфлейками обмазались и MDS заадоптили, а только вы, центурион, сидите на своем хадупосраке и ковыряете умерший ORC - вы ошибаетесь.
Отвратительные архитектуры, всратые модели и костыли есть везде, от ООО "Рога и Копыта" до ФААНГа.

Не расстраивайтесь.
(Кстати, если не верите не очень популярному инфлюенсеру, вот вам более популярный говорит про то же самое https://www.youtube.com/watch?v=l58yH2aOoJU)

@ohmydataengineer
👍27💩3
Из новостей, не связанных с данными, но интересных - GitHub Copilot Chat доступен теперь и в JetBrains IDE (раньше был только в VS Code (именно чат, не автодополнение).


https://github.blog/2023-11-08-universe-2023-copilot-transforms-github-into-the-ai-powered-developer-platform/


@ohmydataengineer
👍9💩4🔥1
dbt Labs Appoints Tech Veteran Brandon Sweeney as President and Chief Operating Officer

По заголовку новости и не скажешь, что это особенное или важное событие. Ну назначили какого-то чувака и назначили.
Дьявол кроется в деталях, а именно Брендон до этого занимал позицию Chief Revenue Officer в Hashicorp.

Одно из последних событие, что произошло с Hashicorp, создателем Terraform, и связанное с деньгами - что они заадоптили BSL - Business Source License, "подприкрыли клапан OSS" (цитата из инторнетов😄).
А если точнее, подприкрыли воздух всем, кто поверх Terraform / Vault / Nomad / Consul делал какой-нибудь софт или стартап.
И думаю, что Брендон приложил большую руку к этому событию и теперь он в dbt.

Что это значит для будущего dbt Core? Посмотрим, но для core, думаю, ничего в целом не изменится с приходом Брендона. Возможно, пропорция по сравнению с Cloud изменится.
А может и поменяется...

@ohmydataengineer
💩7👍2
This media is not supported in your browser
VIEW IN TELEGRAM
Пока мы тут жисоны перекладываем...

Одна из вех текущего проекта на работе это уйти от всей старой, накликанной руками в облаке архитектуры и перейти к IaaC и автоматизации. Сейчас по 2-3 командам мы можем развернуть EKS кластер, на нем поднимается ArgoCD, который в свою очередь поднимает всякие Jenkins и подобное (а там конфигурация тоже кодом).

Так вот наткнулся тут на интересный проект (но пока вроде не публичный) - рисуешь архитектуру на салфетке, подкладываешь ее в OpenAI Vision, а тот уже в python diagrams и ChatGPT тебе терраформ код бахает. Для старта и бойлерплейта - самое оно.

Автор - вот

@ohmydataengineer
👍22💩6🔥51
https://sadservers.com/

Если вам вдруг захотелось сменить Data Engineering на что-то другое, например DevOps / SRE - SadServers прикольная штука, позволяет попрактиковаться в стиле LeetCode, но в дебаггинге и поиске проблемы.


@ohmydataengineer
👍173🔥2💩1
Пятничный юмор навеян личным опытом, когда кто-то хочет делать BI в Mixpanel, а кто-то в Tableau, а еще был Power BI, еще графички в Braze есть...

@ohmydataengineer
👍6💩2