🔋 Труба данных – Telegram
🔋 Труба данных
3.99K subscribers
330 photos
5 videos
9 files
449 links
Авторский канал обо всем, что происходит в мире работы с данными: хранение, обработка, визуализация, как мы принимаем решения и как мы становимся профессионалами в работе с данными.

Автора канала - @SimonOsipov
Download Telegram
Белград: Call for Papers Meet!

Предлагаю собраться и потрещать за всякое в Белграде на этих новогодних праздниках!

Перепись желающих собраться в комментариях к посту 🍻
💩6
Ну сколько можно!

Был у нас тут ETL, потом ELT, потом reverse-ETL, вот теперь нужно придумать еще и ELTP! Причем когда я видел твит автора об этой статье, то он там написал, что это аббревиатура не ради аббревиатуры, но это оно так и есть!

Publish data to downstream users and business applications
Ну так это и есть ваш тот же самый reverse-ELT и просто выгрузка данных куда-то. Зачем, господе, зачем вы придумываете контент ради контента.
Впрочем, читая такой булшит от людей уровня CTO и стафф-инженеров, я спокоен за свой опыт и свою карьеру.

https://airbyte.com/blog/eltp-extending-elt-for-modern-ai-and-analytics - ознакомиться с этой ерундой можно тут.
Запомните, есть просто ETL - откуда-то взяли, что-то с этим сделали, куда-то положили. Порядок (ETL или ELT) глобально сути не меняет, где у вас будет трансформация, по пути или на уровне хранилища. Фундаментально это все те же подходы и концепции, просто место, где вы будете закидывать проблему деньгами меняется.

(простите, просто хотел выругаться)

@ohmydataengineer
👍40💩9🔥4👎2
Хоть я почти перестал постить события, есть тематика, которую я продолжаю ходить активно слушать - это Trino. Потому что основная штука, с которой я сейчас работаю.
Вот и ребята с Авито переезжают с Vertica и очень интересно посмотреть, как у них делишки идут.

Митап - 24 ноября в 18:00. Регистрация на Timepad, ссылку пришлют.

Дмитрий Рейман — «Как пересесть на Trino после Vertica»
Реальный кейс Авито по переводу аналитической платформы с Vertica на Trino с сохранением UX конечных пользователей.

@ohmydataengineer
👍9💩6
Плачу $100 тому, кто сможет объяснить, что они сделали.

@ohmydataengineer
💩16👍1
https://newsletter.pragmaticengineer.com/p/what-is-openai

The Pragmatic Engineer собрал в единое целое весь безумный таймлайн, который происходил с OpenAI во время ухода / прихода Сэма Альтмана. Крайне увлекательное чтиво, очень советую прочитать!

@ohmydataengineer
💩6👍3
https://notion.castordoc.com/catalog-of-catalogs

Для себя мы все решили (DataHub), но вот если вам предстоит делать выбор дата каталога, вот свеженькое сравнение каталогов (безусловно, те, кто его создал, поставили свой каталог на первое место - Castordoc).

@ohmydataengineer
🔥6💩2👍1
https://news.1rj.ru/str/career_works/32

Пользуясь пятницей, вместо мема (ожидаю, что снова накидают 💩, потому что ждете новых мемов), напоминаю, что у меня есть второй канал - "🚜 Осторожно, карьерные работы!".

Я там пишу про всякие аспекты, связанные с карьерой, поиском работы, собесами, обсуждениями зарплат и так далее.

@career_works
💩24👍82
https://github.blog/2023-11-08-the-state-of-open-source-and-ai/

The State of Octoverse

Ежегодно GitHub выпускает Octoverse Report - такое собрание инсайдов о том, куда люди коммитят и как. В этом году он посвящен, конечно же, AI и Cloud.

Из банальных инсайдов:
- проекты про AI растут как грибы после дождя
- очень много cloud native проектов
- еще больше людей коммитят в опен-сорс впервые
- 20.2 миллиона разработчиков и 21% рост их количества (US, Индия обошла Китай, затем Бразилия, Россия на 6 месте, но прогнозируют падение на 9 место)
- JS, Python, затем TypeScript который обошел Java, Ruby вылетел из десятки, его заменил Go

Ну и всякие еще инсайды по ссылке. В целом, интересно посмотреть на state of the industry

@ohmydataengineer
💩6👍4🥱1
Пятничный юмор или мое любимое "А давайте загрузим все данные в эксельку и подключим ее к Trino!"

@ohmydataengineer
12💩9🔥7👍3
https://groupby1.mattarderne.com/p/the-way-of-ways

Начинаем новую неделю с интересного чтива про MDS (так раздражающий меня меня Modern Data Stack). Большая и клевая статья, по большей части, описывающая вехи MDS-хайпа, откуда пришло, какие проблемы пыталось решить, в какую ебурдень свалилось и всякое такое.

Как говориться, если вы не знаете наши модные хадупосраки, то будет интересно.

@ohmydataengineer
🔥6💩5
https://techcrunch.com/2023/12/11/docker-acquires-atomicjar-a-testing-startup-that-raised-25m-in-january

Вот это поворот!
Docker покупает AtomicJar, это те ребята, которые делали TestContainers. Как это скажется и повлияет - я не знаю, я не предсказатель 😄

Но надеюсь, что не обломает мою влажную мечту иметь local end-to-end data testing: сделали pipeline, локально запустили, скачались семплы данных источников, SQL исполнились, получил финальную модельку, прогнались тесты, все классно, локально модель удалилась.

@ohmydataengineer
💩5👍3
https://www.youtube.com/playlist?list=PLSECvWLlUYeF06QK5FOOELvgKdap3cQf0

Netflix Data Engineering Summit


Этим летом Netflix проводил у себя митапчик по DE, вот тут плейлист докладов на Youtube.
Даже Холден Карау смогли затащить!

Ссылка на плейлист выше, а общее описание вот тут - https://netflixtechblog.com/our-first-netflix-data-engineering-summit-f326b0589102

@ohmydataengineer
🔥17💩3👍2
AWS Re:Invent 2023

https://reinvent.awsevents.com/on-demand/?trk=1a3874e6-1ad9-4393-9301-0e2e4b2cc21b

AWS re:Invent прошел (а это чуть ли не главная AWS конфа с презентацией новых фич и т.п.)
По ссылке выше - все записи с конфы. А там их оч много. AI / ML, Storage, Analytics - разделы которые больше всего релевантны DE.

@ohmydataengineer
💩6👍2
https://eng.lyft.com/druid-deprecation-and-clickhouse-adoption-at-lyft-120af37651fd

Редкое явление, но вот уже вторая прекрасная статья на Medium за последнее время. Хорошая она (как и предыдущая), потому что написаны в инженерных блогах компании.

В этот раз про то, как в Lyft пришел Clickhouse и ушел Apache Druid.

@ohmydataengineer
👍8💩3
Пятничный юмор или у моей команды снова пизданулся упал оркестратор 😂

@ohmydataengineer
🔥31💩5👍1
Кому там еще нужен ваш Кимбалл?

https://joereis.substack.com/p/is-kimball-still-relevant

У Joe Reis (тот самый автор прекрасной книжки Data Engineering Fundamentals) есть замечательная заметка про моделирование данных. В комменты к одному из его подкастов набежали клавиатурные "воены" и начали доказывать, что моделирование данных не надо, мы все скормим сноуфлейку и он все прожует.

На что Джо справедливо замечает, что вы пожертвовали моделированием ради скорости и это чаще всего приводит к сложностям у бизнеса как это все использовать, десятки странных OBT и он просто идет и снова юзает Excel.

@ohmydataengineer
👍28💩2
Итак, у меня, конечно же, есть контент план, согласно которому у меня по расписанию выходят посты. И один из типов контента, который я хотел постить - это делать подборки каких-то релевантных каналов. Конечно, лентяй внутри меня побеждал и я не постил это. И, естественно, мне кучку раз предлагали "А хотите заплатить за место в подборке?", на что я любезно отказывался. Но вот ребята из @datacoffee собрали подборку сами (походив по группам и каналам) и предложили закинуть в канал. А мне и не жалко =)

Каналы:
@datacoffee — Подкаст про данные. Кстати, ребят вы могли видеть, например, на последней SmartData

@datavizcomics — Комиксы по датавизу, дата-арт и интересные визуализации. Никогда не знал про этот канал, но материал выглядит приятным и свежим, незамызганным.

@enthusiastech - Analytics Engineering. Небольшой канал как раз про тот стык между аналитикой, DE и тот самый MDS. Буду сам поглядывать, возможно я просто глупый и не понимаю, как там на самом деле клево.

Парочка групп:
@dbt_users — DBT users group. Можно задать вопрос на английском в Slack, а можно на русскому тут, в телеграме.

@ruairflow — Эйрплов! Apache Airflow. Вторая группа, в которую я вступил, когда стал дата-инженером (первая была про Спарк)

@ohmydataengineer - ну это собственно я.

Киллерфича этого сообщения: добавить как папку в Telegram https://news.1rj.ru/str/addlist/B5NbcluX5AJiMTFi
👍10💩95🔥2🥱2
Ко мне в личку заглянул Саша @Aleron Миленькин из @datafeeling и DoDo, говорит "Тебе нужно сменить аватарку на LinkedIn!"

Вот так вот видит меня нейросеточки, мне нравится 😄
Потыкать, кстати, можно тут » @avatar_resume_bot «
А почитать всякое простым языком про ML тут » @datafeeling «

Поболтали чуток за общие боли и темы в DE и рядышком (ML), очень радует, что в индустрии есть люди с совпадающими со мной взглядами. Значит я не совсем "того". Надо бы спросить у моей команды анонимно 😂

P.S. как всегда, преследуя цели прозрачности, за этот "рекламный" пост мной была получена оплата в виде трех сгенерированных фотографий 🤑
💩26👍8🔥52
Вас стало почти на тысячу больше, вы оставили 1.2к комментариев и почти 4 тысячи раз кому-то переслали мои посты!

Спасибо большое, что читаете, что приносите свой взгляд на мир работы с данными!

@ohmydataengineer 💩
🔥28💩6👍43