🔋 Труба данных – Telegram
🔋 Труба данных
3.99K subscribers
330 photos
5 videos
9 files
449 links
Авторский канал обо всем, что происходит в мире работы с данными: хранение, обработка, визуализация, как мы принимаем решения и как мы становимся профессионалами в работе с данными.

Автора канала - @SimonOsipov
Download Telegram
https://github.blog/2023-11-08-the-state-of-open-source-and-ai/

The State of Octoverse

Ежегодно GitHub выпускает Octoverse Report - такое собрание инсайдов о том, куда люди коммитят и как. В этом году он посвящен, конечно же, AI и Cloud.

Из банальных инсайдов:
- проекты про AI растут как грибы после дождя
- очень много cloud native проектов
- еще больше людей коммитят в опен-сорс впервые
- 20.2 миллиона разработчиков и 21% рост их количества (US, Индия обошла Китай, затем Бразилия, Россия на 6 месте, но прогнозируют падение на 9 место)
- JS, Python, затем TypeScript который обошел Java, Ruby вылетел из десятки, его заменил Go

Ну и всякие еще инсайды по ссылке. В целом, интересно посмотреть на state of the industry

@ohmydataengineer
💩6👍4🥱1
Пятничный юмор или мое любимое "А давайте загрузим все данные в эксельку и подключим ее к Trino!"

@ohmydataengineer
12💩9🔥7👍3
https://groupby1.mattarderne.com/p/the-way-of-ways

Начинаем новую неделю с интересного чтива про MDS (так раздражающий меня меня Modern Data Stack). Большая и клевая статья, по большей части, описывающая вехи MDS-хайпа, откуда пришло, какие проблемы пыталось решить, в какую ебурдень свалилось и всякое такое.

Как говориться, если вы не знаете наши модные хадупосраки, то будет интересно.

@ohmydataengineer
🔥6💩5
https://techcrunch.com/2023/12/11/docker-acquires-atomicjar-a-testing-startup-that-raised-25m-in-january

Вот это поворот!
Docker покупает AtomicJar, это те ребята, которые делали TestContainers. Как это скажется и повлияет - я не знаю, я не предсказатель 😄

Но надеюсь, что не обломает мою влажную мечту иметь local end-to-end data testing: сделали pipeline, локально запустили, скачались семплы данных источников, SQL исполнились, получил финальную модельку, прогнались тесты, все классно, локально модель удалилась.

@ohmydataengineer
💩5👍3
https://www.youtube.com/playlist?list=PLSECvWLlUYeF06QK5FOOELvgKdap3cQf0

Netflix Data Engineering Summit


Этим летом Netflix проводил у себя митапчик по DE, вот тут плейлист докладов на Youtube.
Даже Холден Карау смогли затащить!

Ссылка на плейлист выше, а общее описание вот тут - https://netflixtechblog.com/our-first-netflix-data-engineering-summit-f326b0589102

@ohmydataengineer
🔥17💩3👍2
AWS Re:Invent 2023

https://reinvent.awsevents.com/on-demand/?trk=1a3874e6-1ad9-4393-9301-0e2e4b2cc21b

AWS re:Invent прошел (а это чуть ли не главная AWS конфа с презентацией новых фич и т.п.)
По ссылке выше - все записи с конфы. А там их оч много. AI / ML, Storage, Analytics - разделы которые больше всего релевантны DE.

@ohmydataengineer
💩6👍2
https://eng.lyft.com/druid-deprecation-and-clickhouse-adoption-at-lyft-120af37651fd

Редкое явление, но вот уже вторая прекрасная статья на Medium за последнее время. Хорошая она (как и предыдущая), потому что написаны в инженерных блогах компании.

В этот раз про то, как в Lyft пришел Clickhouse и ушел Apache Druid.

@ohmydataengineer
👍8💩3
Пятничный юмор или у моей команды снова пизданулся упал оркестратор 😂

@ohmydataengineer
🔥31💩5👍1
Кому там еще нужен ваш Кимбалл?

https://joereis.substack.com/p/is-kimball-still-relevant

У Joe Reis (тот самый автор прекрасной книжки Data Engineering Fundamentals) есть замечательная заметка про моделирование данных. В комменты к одному из его подкастов набежали клавиатурные "воены" и начали доказывать, что моделирование данных не надо, мы все скормим сноуфлейку и он все прожует.

На что Джо справедливо замечает, что вы пожертвовали моделированием ради скорости и это чаще всего приводит к сложностям у бизнеса как это все использовать, десятки странных OBT и он просто идет и снова юзает Excel.

@ohmydataengineer
👍28💩2
Итак, у меня, конечно же, есть контент план, согласно которому у меня по расписанию выходят посты. И один из типов контента, который я хотел постить - это делать подборки каких-то релевантных каналов. Конечно, лентяй внутри меня побеждал и я не постил это. И, естественно, мне кучку раз предлагали "А хотите заплатить за место в подборке?", на что я любезно отказывался. Но вот ребята из @datacoffee собрали подборку сами (походив по группам и каналам) и предложили закинуть в канал. А мне и не жалко =)

Каналы:
@datacoffee — Подкаст про данные. Кстати, ребят вы могли видеть, например, на последней SmartData

@datavizcomics — Комиксы по датавизу, дата-арт и интересные визуализации. Никогда не знал про этот канал, но материал выглядит приятным и свежим, незамызганным.

@enthusiastech - Analytics Engineering. Небольшой канал как раз про тот стык между аналитикой, DE и тот самый MDS. Буду сам поглядывать, возможно я просто глупый и не понимаю, как там на самом деле клево.

Парочка групп:
@dbt_users — DBT users group. Можно задать вопрос на английском в Slack, а можно на русскому тут, в телеграме.

@ruairflow — Эйрплов! Apache Airflow. Вторая группа, в которую я вступил, когда стал дата-инженером (первая была про Спарк)

@ohmydataengineer - ну это собственно я.

Киллерфича этого сообщения: добавить как папку в Telegram https://news.1rj.ru/str/addlist/B5NbcluX5AJiMTFi
👍10💩95🔥2🥱2
Ко мне в личку заглянул Саша @Aleron Миленькин из @datafeeling и DoDo, говорит "Тебе нужно сменить аватарку на LinkedIn!"

Вот так вот видит меня нейросеточки, мне нравится 😄
Потыкать, кстати, можно тут » @avatar_resume_bot «
А почитать всякое простым языком про ML тут » @datafeeling «

Поболтали чуток за общие боли и темы в DE и рядышком (ML), очень радует, что в индустрии есть люди с совпадающими со мной взглядами. Значит я не совсем "того". Надо бы спросить у моей команды анонимно 😂

P.S. как всегда, преследуя цели прозрачности, за этот "рекламный" пост мной была получена оплата в виде трех сгенерированных фотографий 🤑
💩26👍8🔥52
Вас стало почти на тысячу больше, вы оставили 1.2к комментариев и почти 4 тысячи раз кому-то переслали мои посты!

Спасибо большое, что читаете, что приносите свой взгляд на мир работы с данными!

@ohmydataengineer 💩
🔥28💩6👍43
Итоги года

Куда же публичный канал без итогов года? Все подводят, вот и я тоже! Год получился очень интересным со всех точек зрения, рефлексируя о прошедшем, я могу назвать, что он был успешен:

✔️ Каналы "Труба Данных" @ohmydataengineer и "Осторожно, карьерные работы" @career_works
Тут все замечательно: я продолжал делиться своими мыслями и наблюдениями и люди читали/комментили/спорили. Почти тысяча человек пришла в Трубу и еще 600 -> в Карьерные работы. Я никому не платил за рекламу, ни одно платного рекламного поста я не разместил. Да, были взаимовыгодные посты, но моя совесть и репутация - чисты ❤️

✔️ Работа в Gett
В мае наступающего года у меня будет 2 года, как я руковожу командой дата инженеров. Мы прошли через многое и это просто бесценный опыт. Я очень люблю свою команду, штуки которые мы делаем, одновременно принося пользу бизнесу и получая кайф от того, что мы делаем!
Отдельно хочу сказать спасибо моему начальнику, который дает этот уровень свободы и верит в нас. Ну и 💸 не обижает.

✔️ Релокация на Кипр
Вот уже год я на этом замечательном острове. За весь 2023 я несколько раз себя спрашивал: "Правильный ли это шаг?", пытался понять, куда, как, когда, зачем и так далее. За этот год множество раз убеждался, что все сделал правильно.
Отдельное спасибо Tech-сообществу здесь, за то, что продвигало идеи в правительстве Кипра. Ну а правительству Кипра отдельное спасибо за налоговый рулинг и новый закон об натурализации! Καλη Χρονια!

Отмотал на год назад свои достижения и там было все те же темы: канал, тимлидство, релокация (я тогда только переехал). Задаю себе вопрос: стабильность - признак мастерства или что-то сломалось в датском королевстве?

Проваленные цели:
Невозможно подвести итоге без факапов. Их немного, но они были:

🚫 Начать писать на английском языке.
Черновик статьи лежит (чтобы разместить в корпоративном блоге и у себя), но так и не доходят руки до публикации.

🚫Митапы, конференции и подкасты.
Наверное, скорее провал года, чем достижение. Main stage конференции не попал, митап - тоже нет. Да и подкастов был только один. Уважаемый подкаст "Подлодка", вы же помните, что вам досталось за прошлый выпуск по DE? Я все еще жду =)


@ohmydataengineer
Please open Telegram to view this post
VIEW IN TELEGRAM
18💩8👍2
Цели на 2024 год

Проснулись? Опохмелились? Как всегда, в начале года ставим себе цели на 2024. И в этот раз тоже без исключений =)

⬆️ Рост каналов @ohmydataengineer и @career_works
Для "Карьерных работ" цели поменьше 1000/1500/2000, а для "Труба Данных" -> 3500/4000/5000 подписчиков. Конечно же, без какой-либо платной рекламы как от меня, так и в моих каналах, обычный органический рост.
Продолжить писать стабильно - самое главное.

⬆️ Substack и материалы на английском языке
Очередная попытка начать писать на английском языке. Хочется расширять аудиторию и англоязычная аудитория - это очень большой пласт

⬆️ Выступление на конференции
Как и в прошлом году, цель осталась той же. Однако на этот раз хочется попробовать податься (уже есть наметки) не только на русскоговорящую конференцию, но и англо-говорящую. Начальник сказал, что поддерживает🥰

⬆️ Карьерные консультации
Если в прошлом году это просто шло само по себе, то в этом году уже хочется уделить этому сильно больше времени. На этот год поставим цель 30/50/80 консультаций за год.

⬆️Полноценный релиз Data Catalog, Data Contracts и удалить Jenkins
Это уже чисто рабочая цель - убрать немного легаси, добавить немного полезных штук. Задачи, требующие огромного вовлечения в работу многих команд и межкомандного взаимодействия.

Ну и всякое по мелочи в виде денег, путешествий и здоровья. А вы ставите себе цели на год?

@ohmydataengineer
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥14💩8👍6
🔋 Труба данных
Белград: Call for Papers Meet! Предлагаю собраться и потрещать за всякое в Белграде на этих новогодних праздниках! Перепись желающих собраться в комментариях к посту 🍻
Так, я в Белграде и все еще хочу пообщаться с коммьюнити!

Предлагаю завтра собраться где-нибудь днем, ну, или наоборот, часиков в 21.

В общем, 🇷🇸Белградские - предлагаю обсудить план в комментах
🔥7💩4👎1🥱1
https://dedp.online/about-this-book.html и https://practicaldatamodeling.substack.com/

С тем фактом, что теперь LLM у нас из каждого утюга, проблема нахождения нормальных материалов, статей, и новых годных книг (!) стала очень острой. Народ начал заниматься вот такой фигней: скармливать книжку в LLM, получать "переделанную" и продавать на Amazon! Тревожно настолько, что Amazon выставил лимит, что автор не может выставить на продажу больше 3 книг в день =)

Чтобы не бороться с кучей фейков, авторы стали использовать другие методы поставки контента. Например, выкладывать по главе своей книги каждые N недель, так сказать, делиться прогрессом по книге. А если вы хотите все сразу - вот ссылка купить.
Кто-то делает так с новой книгой, кто-то - уже с существующими.

Из подобных книг, которые мне попались Data Engineering Design Patterns (на автора наткнулся в LinkedIn) и автор Data Engineering Fundamentals (Joe Reis) пишет свою новую книгу Practical Data Modelling, выкладывая ее на Substack. Ссылки на обе книги - в начале поста.

@ohmydataengineer
👍14💩103🔥1
https://databasedesignbook.com/ и https://minimalmodeling.substack.com/

После поста в понедельник со мной связался Алексей @squadette и рассказал, что он тоже пишет книгу про проектирование и моделирование данных.

Взглянув на материал, который он постит, мне показалось это достаточно релевантным и интересным (например, про про то, как множество объяснений джойнов сбивают людей с толку - https://minimalmodeling.substack.com/p/many-explanations-of-join-are-wrong), поэтому будет честным, что я поделюсь и этими ссылками ☺️

@ohmydataengineer
👍24💩2
Пятничный юмор или как мы деплоим новые аттрибуты для проекта с аэропортом ☺️

@ohmydataengineer
21😢3💩2👍1
Инженерные блоги

Несколько постов назад кидал ссылки на <Company Name> Engineering - блог компании про то, как они решают технические проблемы. Кажется, такие посты вам зашли, поэтому вот вам список таких блогов, чтобы вы сами могли следить за постами:

- Meta
- AWS
- Netflix
- LinkedIn
- Uber
- Quora (правда, ребята уже давно не пишут, если честно)
- Pinterest
- Lyft
- Twitter (тоже с приходом Маска перестали писать почти)
- Dropbox
- Spotify
- Github
- Instagram (еще одни забросили)
- Booking
- AirBnB
- Stripe
- Discord
- Microsoft
- Reddit
- Slack
- Cloudflare

И, конечно же, советую подписаться на наш технический блог - Gett Tech - мы там тоже пишем много разного про то, как мы работаем. Скоро и моя статья там будем!

@ohmydataengineer
🔥26💩8👍21