🔋 Труба данных – Telegram
🔋 Труба данных
4K subscribers
330 photos
5 videos
9 files
449 links
Авторский канал обо всем, что происходит в мире работы с данными: хранение, обработка, визуализация, как мы принимаем решения и как мы становимся профессионалами в работе с данными.

Автора канала - @SimonOsipov
Download Telegram
https://benn.substack.com/p/how-dbt-fails

“На небесах только и разговоров, что о море о dbt”.
Если вы хоть немного смотрите ютуб и читаете профессиональные статьи, вы могли слышать о dbt. Он был создан, чтобы спасти нас с нашими огромными трансформациями в ETL, навесить проверки качества и чуть ли не линедж делать и документация автоматическая.

Однако не все так очевидно и замечательно, и вот у меня наконец дошли руки до того, чтобы прочитать критику про этот тул.
Но даже при всем этом, пока у него больше плюсов, чем минусов. Хотя мб потому что мы не платим за него и пока его использование только в самом начале?)

Но если вы вдруг хотите его использовать, то в телеграме есть сообщество на русском языке @dbt_users и у самого dbt есть Slack - https://www.getdbt.com/community/join-the-community/

@ohmydataengineer
👍3🔥1
https://www.starburst.io/info/trinosummit/

Для тех, у кого Trino / Presto в продакшене, 10 ноября будет конференция от Starburst (это одни из главных контрибьюторов / внедренцев Trino).

Самое интересное для меня - Iceberg, а там аж целых два доклада на эту тему.

Онлайн и бесплатно.

@ohmydataengineer
👍8
Тут прошел недавно Coalese - конференция по DE и Аналитике.
Видеозаписи, конечно же, доступны на Youtube (на минуточку, 183 записи).

Но мне понравились парочка докладов не связанных напрямую с инжинирингом, а с карьерным развитием.

1. Excel at nothing: How to be an effective generalist
Это как раз про тех специалистов, которые не T-shape, а как расческа, перевернутое Ш 😄

2. Clearing the path: a career progression for individual growth
Про карьерное планирование и как фокусироваться на том, что поможет вам расти.

@ohmydataengineer
👍7🔥2
https://www.deepchannel.com/posts/bringing-autocomplete-to-analytics-engineers


Для всех фанатов dbt: тут вот делают IDE для него, в которой обещают не только автокомплит, но и еще кучку всяких функций прикольных.


@ohmydataengineer
👍8
SmartData 2022

Я скучал по оффлайн конференциям. И пусть сегодня нас не так много, все равно рад всех видеть.

Если вы тут, подходите, дергайте за рукав, давайте знакомиться и общаться!

@ohmydataengineer
🔥11👍1
Две картинки о том, что происходит в IT мире. Точнее в FAANG и около компаниях (это ведь все-таки не весь IT мир). Но некий тренд и куда ветер будет дуть дает понять.

В обоих случаях сравнивается TC (Total Comp) в $350к / год, то есть Base Salary ($200k / год) + Stocks ($150k / год) и то, как оно примерно изменилось.

На первой картинке Март 2021 vs Март 2022

На второй картинке Март 2021 vs Октябрь 2022


@ohmydataengineer
👍8
https://www.wsj.com/articles/meta-is-preparing-to-notify-employees-of-large-scale-layoffs-this-week-11667767794


Кажется, неделя будет очень непростой. Даже Венгр подтверждает, что данное событие случится, Мета впервые за 18 лет проведет сокращения.


@ohmydataengineer
👍2
Все хотят быть Analytics Engineer!

https://benn.substack.com/p/why-do-people-want-to-be-analytics

Вот наткнулся я на такую вот статью. И сходу там такое заявление:

So naturally, ten years later, the new sexiest job of the twenty-first century, the job that analysts want to graduate into, is…the analytics engineer, whose primary responsibility is cleaning and modeling messy data.

For an analytics engineer, success is a humming system, a clean codebase, and the satisfying tick of dbt jobs completing in your terminal.

Сижу и чешу репу, ведь это очень похоже на Data Engineers. Или я окончательно запутался, кто и чем занимается, или наоборот, я еще сильней прав в том, что DWH Engineer, ETL Engineer, Analytics Engineer, DataOps Engineer это все наследование от базового класса Data Engineer, поэтому стоит тратить время на усиление базовых навыков и расширения фунционала. Отсюда, в общем, два вопроса к вам:

- Кто для вас Analytics Engineer?
- I-shape или T-shape, специализация или генерализация навыков? Какой позиции вы придерживаетесь сейчас?


@ohmydataengineer
🔥2
https://boringtechnology.club/


У нас тут в чатиках инженеров главные срачи это что “питухон херня”, “кликхаус надо закопать” и “погромисты что-то наговняколи”. Проблема всех этих споров - они ни к чему не приводят. Людя любят фокусироваться на конкретных технологиях, вместо того , чтобы задавать вопрос “Зачем мы это делаем?”. В тысячный раз повторю, чем больше у вас опыта и вы выше по карьерной лестнице, тем важней стоновятся софт-скиллы, а технические теряют свой вес (конечно, они тож важны, не то, чтобы надо забыть, как писать SQL запрос).

Сейчас выгляжу как ментор в белом пальто, вещая со своей колокольни, конечно же =)

Ну да ладно, по ссылке выше - замечательное решение для всех этих споров. А именно использовать скучные, проверенные технологии, вместо того, чтобы что-то придумывать эдакое и тащить Rust для Data Science.


@ohmydataengineer
👍9🔥3
Я тут в подкаст сходил, в очередной раз рассказать свою историю 😄

Приходите послушать (чтобы послушать, переходите в канал LEFT JOIN, там отдельным сообщением аудио) =)
👍3
Forwarded from LEFT JOIN
Дата инжиниринг – одна из самых сложных и востребованных профессий в области данных. В новом выпуске подкаста Data Heroes мы поговорим с инженерами данных и наконец-то узнаем, чем именно они занимаются 🚀

В этом эпизоде мы поговорим о важности роли дата инженера в бизнес-процессах, а также сложностях и нюансах специализации.
Наши эксперты поделятся своим бесценным опытом и расскажут о:

▪️Своем извилистом пути в профессию
▪️Современном дата инжиниринге и о том, как он отличается от компании к компании
▪️Сходствах и различиях в ролях аналитика и дата инженера и о том, когда эти роли можно совмещать
▪️Важности софт-скиллов для дата инженера

БОНУС: Как и всегда, наши спикеры дадут полезные рекомендации и советы для новичков в специализации 🧑‍🎓

Включайте подкаст и погружайтесь вместе с нами в загадочный мир дата инжиниринга!

СПИКЕРЫ: Семен Осипов, Ксения Томак, Сергей Бойцов, Александр Михайлов

Слушайте подкаст на платформах: Spotify, Anchor, Apple Podcasts, Yandex, Overcast, Mave, Castbox, Telegram (↓)

#подкаст #DataHeroes
👍7🔥1
https://www.youtube.com/watch?v=-DVyjdw4t9I

Кто тут пожаловал в гости к Лексу Фридману, уже второй раз оказывается, сам Гвидо Ван Россум!

Для начала, кто такой Lex Fridman. Чел из MIT, эксперт в ML, AI, Deep Learning и вот этом всем, но не на уровне PowerPoint презентаций, а прям лекций в университетах.
Вот его сайт - https://lexfridman.com/
У него есть подкаст, в который приходят поговорить умные люди из индустрии, немного рядом или вообще далеко. Но всегда слушать интересно. Например, Цукерберг, Маск, Дорси, Карпати, Карлсен (который гроссмейстер), Кармак, Роган, даже Канье Вест залетал.

Так вот, в свежем выпуске создатель Питончика размышляет про будущее программирования. Оч советую послушать и вообще подписаться на челика, у него оч много интересного контента.

@ohmydataengineer
👍10
https://habr.com/ru/company/habr_career/blog/702558/

Очередная статистика по зарплатам в РФ от Хабр Карьеры.
Как ее воспринимать, это решение каждого. Помните, что на карьеро-зарплатные вопросы отвечают люди, которые а) читают этот ресурс и видели пост про опрос (или получили рассылку), б) есть время и желание это заполнять.

Если ваша з/п сильно выбивается из описанных, помните, что вы, возможно, совсем в другом пузыре находитесь и это полезно помнить при любых спорах.

Конкретно про методологию сборки данных для этого исследования - в конце статьи.

@ohmydataengineer
Пост очередного подгорания жопки!

https://towardsdatascience.com/whats-next-for-data-engineering-in-2023-7-predictions-b57e3c1bf2d3

Меня немножко кидает из стороны в сторону, то я ругаюсь на капитанский и откровенно булшитный контент, то наоборот защищаю, потому что у всех разные пузыри и не оч понятно, для кого это очевидно, а для кого нет.
Вот в очередной рассылке про данные, прилетела статья. Автор - Co-Founder and CEO, Monte Carlo, Barr Moses, то есть вроде бы вопросиков к автору не должно быть, человечек знает, что пишет.

Но открываешь статью и видишь следующее:


Currently, data team roles are segmented primarily by data processing stage:

1 )Data engineers pipe the data in,
2) Analytical engineers clean it up, and
3) Data analysts/scientists visualize and glean insights from it.



Most machine learning models (>51%) will successfully make it to production



Predicting data teams will continue to transition toward a data mesh



Data reliability engineers will ensure data quality



As a result, next year’s hottest trends will be less about optimizing or scaling infrastructure, but instead processes for making this enlarged universe more organized, reliable, and accessible.



Заголовок то кликбейтный, типа “Эксперт предсказал тренды в дата инженеринге в 2023”, а потом вот такое. Сижу, и не понимаю, как реагировать на это. То ли лыжи не едут, то ли я… Ну вы поняли.
Поэтому у меня предложение - напишите в комментарии к этому посту 1-2 ваших предположения на ближайшие пару лет касательно DE и вообще “датки” =)
Вы у меня клевые, классные и умные, уверен, что булшита у нас в комментах не будет! 😄

@ohmydataengineer
👍3
https://beeline.jugru.org/?utm_source=jrg_info_partner&utm_medium=ohmydataengineer&utm_campaign=announce_meetup_beeline

Давно у меня не было материала на канале, переезд в другую страну сбил все графики.
Но ничего, вроде все вопросики уладили, поэтому возвращаемся в ритм.

Начем с анонса онлайн-митапа от JUG и Билайна.
В списке тем:
- Как настроить ETL с JSON’ами в Apache NiFi
- Система сквозного логирования с передачей единого идентификатора процесса между независимыми задачами Airflow
- Apache Flink: Flink Table API & SQL

Доклад в середине - то, чего мне не хватало года полтора/два назад, поэтому мы что-то придумывали сами. Теперь интересно узнать, как это делают в других местах.

@ohmydataengineer
👍81💩1
https://iximiuz.com/en/posts/ssh-tunnels/


Хехе, сегодня необычный пост, потому что он не про Data Engineering. По ссылке выше - прекрасный иллюстрируемый гайд про то, как работает SSH тунель.
Когда он мне попался на глаза, немножк всплакнул, потому что вспомнил вот такую историю:

На одном из рабочих мест, ввиду политики информационной безопасности, доступ на продакшен кластер K8S и ко всем продакшен базам данных, расположенным в одой сети, был запрещен снаружи, то есть с рабочего компа из дома не постучаться; То есть только из офисного Wi-Fi.
И нет, с корпоративным VPN тоже нельзя. И да, это уже был Covid, и мы были на удаленке.

Тогда хитрый жук Семен, чтобы не пользоваться RDS (удаленным рабочим столом), сделал хитрый финт ушами:
- поднял в личном облаке машину за $3
- поднял под в неймспейсе своего продукта, который делал Reverse SSH Tunnel на эту машину и Port Forwarding
- все коннекшен стринги (к базам и к кластерам) поменял на адрес машины.

В итоге когда Data Grip исполнял заброс, он летел на машину в моем облаке, по обратному тоннелю уходил в под, который в прод кластере, а уже оттуда - в базенку.

Никто из DevOps и ИБ, за год+ работы этой схемы так и не пришел ругаться 😜

@ohmydataengineer
🔥13👍7💩2
Вас 2000 человек! Спасибо большое, что вы читаете меня!

Для меня это оч большое достижение. Когда я только начинал свой канал, это была просто копилка каких-то идей и интересных статей.
А теперь нас 2000 человек и это уже большоя группа людей, с очень разносторонними мнениями и взглядами на технологии, с которыми прикольно общаться и оч мотивирует, когда вы присылаете 💩, мотивирует искать материал лучше)

В ближайшие дни буду подводить итоги года и писать планы на будущий. Stay tuned, как говориться 🤪

@ohmydataengineer
👍25💩19🔥14
Итоги года.

Если вас еще не достали итоги года во всех остальных социальных сетях, то вот чуток от меня, самые заметные события в моей жизни за этот год.

- Канал “Труба Данных” активно растет и развивается. Для меня это огромная радость и удовольствие, делиться всяким полезным с вами. Много раз в комментах были клевые обсуждения, которые расширяли картину мира. Немного статистики на скриншоте выше. И да, никакой рекламы и канал остается независимым до сих пор, хотя приходят каждый день с запросом на платное размещение 😄 Даже кнопка вверху “На развитие канала" больше для успокоения моей совести (но я всегда рад донатам, конечно же😁).
- Мне досталась новая роль, на этот раз официально - я теперь тимлид. Ага, целая команда из нескольких человек и много стейкхолдеров, которым что-то очень срочно надо всегда. Если раньше мне удавалось “лидить”, но при этом официально у меня не было ответственности, то теперь она есть и приходится отвечать. Очень новый опыт, очень интересный и необычный.
- Релокация. Новое место (я никогда не был на Кипре до релокации), новый удивительный мир (и левостороннее движение). Теперь мой айти-пузырь побольше, картина мира пошире. Очень жду митапов и встреч с коллегами по цеху.
- Конференции, подкасты, митапы. Очень скучал по движухам и очень рад, что в 2022 удалось по конфам походить и повыступать. Не все удалось сделать, что задумывалось, поэтому на следующий год цели еще более амбициозные!

За все неисполненные обещания (например, за Iceberg или DBT) можно напихать автору в комментах!

@ohmydataengineer
👍17🔥3