Ну сколько можно!
Был у нас тут ETL, потом ELT, потом reverse-ETL, вот теперь нужно придумать еще и ELTP! Причем когда я видел твит автора об этой статье, то он там написал, что это аббревиатура не ради аббревиатуры, но это оно так и есть!
Publish data to downstream users and business applications
Ну так это и есть ваш тот же самый reverse-ELT и просто выгрузка данных куда-то. Зачем, господе, зачем вы придумываете контент ради контента.
Впрочем, читая такой булшит от людей уровня CTO и стафф-инженеров, я спокоен за свой опыт и свою карьеру.
https://airbyte.com/blog/eltp-extending-elt-for-modern-ai-and-analytics - ознакомиться с этой ерундой можно тут.
Запомните, есть просто ETL - откуда-то взяли, что-то с этим сделали, куда-то положили. Порядок (ETL или ELT) глобально сути не меняет, где у вас будет трансформация, по пути или на уровне хранилища. Фундаментально это все те же подходы и концепции, просто место, где вы будете закидывать проблему деньгами меняется.
(простите, просто хотел выругаться)
@ohmydataengineer
Был у нас тут ETL, потом ELT, потом reverse-ETL, вот теперь нужно придумать еще и ELTP! Причем когда я видел твит автора об этой статье, то он там написал, что это аббревиатура не ради аббревиатуры, но это оно так и есть!
Publish data to downstream users and business applications
Ну так это и есть ваш тот же самый reverse-ELT и просто выгрузка данных куда-то. Зачем, господе, зачем вы придумываете контент ради контента.
Впрочем, читая такой булшит от людей уровня CTO и стафф-инженеров, я спокоен за свой опыт и свою карьеру.
https://airbyte.com/blog/eltp-extending-elt-for-modern-ai-and-analytics - ознакомиться с этой ерундой можно тут.
Запомните, есть просто ETL - откуда-то взяли, что-то с этим сделали, куда-то положили. Порядок (ETL или ELT) глобально сути не меняет, где у вас будет трансформация, по пути или на уровне хранилища. Фундаментально это все те же подходы и концепции, просто место, где вы будете закидывать проблему деньгами меняется.
(простите, просто хотел выругаться)
@ohmydataengineer
Airbyte
ELTP: Extending ELT for Modern AI and Analytics | Airbyte
Whether you are building the next great AI app, an analytics suite, or a new data warehouse, the ELTP model is a simple and extensible architecture for building robust data pipelines.
👍40💩9🔥4👎2
Хоть я почти перестал постить события, есть тематика, которую я продолжаю ходить активно слушать - это Trino. Потому что основная штука, с которой я сейчас работаю.
Вот и ребята с Авито переезжают с Vertica и очень интересно посмотреть, как у них делишки идут.
Митап - 24 ноября в 18:00. Регистрация на Timepad, ссылку пришлют.
Дмитрий Рейман — «Как пересесть на Trino после Vertica»
Реальный кейс Авито по переводу аналитической платформы с Vertica на Trino с сохранением UX конечных пользователей.
@ohmydataengineer
Вот и ребята с Авито переезжают с Vertica и очень интересно посмотреть, как у них делишки идут.
Митап - 24 ноября в 18:00. Регистрация на Timepad, ссылку пришлют.
Дмитрий Рейман — «Как пересесть на Trino после Vertica»
Реальный кейс Авито по переводу аналитической платформы с Vertica на Trino с сохранением UX конечных пользователей.
@ohmydataengineer
👍9💩6
https://newsletter.pragmaticengineer.com/p/what-is-openai
The Pragmatic Engineer собрал в единое целое весь безумный таймлайн, который происходил с OpenAI во время ухода / прихода Сэма Альтмана. Крайне увлекательное чтиво, очень советую прочитать!
@ohmydataengineer
The Pragmatic Engineer собрал в единое целое весь безумный таймлайн, который происходил с OpenAI во время ухода / прихода Сэма Альтмана. Крайне увлекательное чтиво, очень советую прочитать!
@ohmydataengineer
Pragmaticengineer
What is OpenAI, Really?
It’s been five incredibly turbulent days at the leading AI tech company, with the exit and then return of CEO Sam Altman. As we dig into what went wrong, an even bigger question looms: what is OpenAI?
💩6👍3
https://notion.castordoc.com/catalog-of-catalogs
Для себя мы все решили (DataHub), но вот если вам предстоит делать выбор дата каталога, вот свеженькое сравнение каталогов (безусловно, те, кто его создал, поставили свой каталог на первое место - Castordoc).
@ohmydataengineer
Для себя мы все решили (DataHub), но вот если вам предстоит делать выбор дата каталога, вот свеженькое сравнение каталогов (безусловно, те, кто его создал, поставили свой каталог на первое место - Castordoc).
@ohmydataengineer
Benchmark - Top 10 Data Catalogs
This is a benchmark of the most popular data catalogs both for Entreprise and mid-market companies. You will find the top 10 data discovery tools.
🔥6💩2👍1
https://news.1rj.ru/str/career_works/32
Пользуясь пятницей, вместо мема (ожидаю, что снова накидают 💩, потому что ждете новых мемов), напоминаю, что у меня есть второй канал - "🚜 Осторожно, карьерные работы!".
Я там пишу про всякие аспекты, связанные с карьерой, поиском работы, собесами, обсуждениями зарплат и так далее.
@career_works
Пользуясь пятницей, вместо мема (ожидаю, что снова накидают 💩, потому что ждете новых мемов), напоминаю, что у меня есть второй канал - "🚜 Осторожно, карьерные работы!".
Я там пишу про всякие аспекты, связанные с карьерой, поиском работы, собесами, обсуждениями зарплат и так далее.
@career_works
Telegram
Осторожно, карьерные работы!
How you present your idea often matters more than the idea itself.
Сегодня в одной из рассылок пришло очень замечательное письмо, я не мог удержаться и не перевести и закинуть несколько примеров из него сюда.
Горькая правда заключается в том, что очень…
Сегодня в одной из рассылок пришло очень замечательное письмо, я не мог удержаться и не перевести и закинуть несколько примеров из него сюда.
Горькая правда заключается в том, что очень…
💩24👍8❤2
https://github.blog/2023-11-08-the-state-of-open-source-and-ai/
The State of Octoverse
Ежегодно GitHub выпускает Octoverse Report - такое собрание инсайдов о том, куда люди коммитят и как. В этом году он посвящен, конечно же, AI и Cloud.
Из банальных инсайдов:
- проекты про AI растут как грибы после дождя
- очень много cloud native проектов
- еще больше людей коммитят в опен-сорс впервые
- 20.2 миллиона разработчиков и 21% рост их количества (US, Индия обошла Китай, затем Бразилия, Россия на 6 месте, но прогнозируют падение на 9 место)
- JS, Python, затем TypeScript который обошел Java, Ruby вылетел из десятки, его заменил Go
Ну и всякие еще инсайды по ссылке. В целом, интересно посмотреть на state of the industry
@ohmydataengineer
The State of Octoverse
Ежегодно GitHub выпускает Octoverse Report - такое собрание инсайдов о том, куда люди коммитят и как. В этом году он посвящен, конечно же, AI и Cloud.
Из банальных инсайдов:
- проекты про AI растут как грибы после дождя
- очень много cloud native проектов
- еще больше людей коммитят в опен-сорс впервые
- 20.2 миллиона разработчиков и 21% рост их количества (US, Индия обошла Китай, затем Бразилия, Россия на 6 месте, но прогнозируют падение на 9 место)
- JS, Python, затем TypeScript который обошел Java, Ruby вылетел из десятки, его заменил Go
Ну и всякие еще инсайды по ссылке. В целом, интересно посмотреть на state of the industry
@ohmydataengineer
The GitHub Blog
Octoverse: The state of open source and rise of AI in 2023
In this year’s Octoverse report, we study how open source activity around AI, the cloud, and Git are changing the developer experience.
💩6👍4🥱1
Пятничный юмор или мое любимое "А давайте загрузим все данные в эксельку и подключим ее к Trino!"
@ohmydataengineer
@ohmydataengineer
❤12💩9🔥7👍3
https://groupby1.mattarderne.com/p/the-way-of-ways
Начинаем новую неделю с интересного чтива про MDS (так раздражающий меня меня Modern Data Stack). Большая и клевая статья, по большей части, описывающая вехи MDS-хайпа, откуда пришло, какие проблемы пыталось решить, в какую ебурдень свалилось и всякое такое.
Как говориться, если вы не знаете наши модные хадупосраки, то будет интересно.
@ohmydataengineer
Начинаем новую неделю с интересного чтива про MDS (так раздражающий меня меня Modern Data Stack). Большая и клевая статья, по большей части, описывающая вехи MDS-хайпа, откуда пришло, какие проблемы пыталось решить, в какую ебурдень свалилось и всякое такое.
Как говориться, если вы не знаете наши модные хадупосраки, то будет интересно.
@ohmydataengineer
Mattarderne
THE WAY OF WAYS
The tale of MDS - the Modern Data Stack
🔥6💩5
https://techcrunch.com/2023/12/11/docker-acquires-atomicjar-a-testing-startup-that-raised-25m-in-january
Вот это поворот!
Docker покупает AtomicJar, это те ребята, которые делали TestContainers. Как это скажется и повлияет - я не знаю, я не предсказатель 😄
Но надеюсь, что не обломает мою влажную мечту иметь local end-to-end data testing: сделали pipeline, локально запустили, скачались семплы данных источников, SQL исполнились, получил финальную модельку, прогнались тесты, все классно, локально модель удалилась.
@ohmydataengineer
Вот это поворот!
Docker покупает AtomicJar, это те ребята, которые делали TestContainers. Как это скажется и повлияет - я не знаю, я не предсказатель 😄
Но надеюсь, что не обломает мою влажную мечту иметь local end-to-end data testing: сделали pipeline, локально запустили, скачались семплы данных источников, SQL исполнились, получил финальную модельку, прогнались тесты, все классно, локально модель удалилась.
@ohmydataengineer
TechCrunch
Docker acquires AtomicJar, a testing startup that raised $25M in January
Docker acquired AtomicJar, the commercial company behind Testcontainers, just a year after the company raised $25M.
💩5👍3
https://medium.com/airbnb-engineering/upgrading-data-warehouse-infrastructure-at-airbnb-a4e18f09b6d5
Хорошая обзорная статья про то, как AirBnB на Spark 3 / Iceberg переезжал.
@ohmydataengineer
Хорошая обзорная статья про то, как AirBnB на Spark 3 / Iceberg переезжал.
@ohmydataengineer
Medium
Upgrading Data Warehouse Infrastructure at Airbnb
This blog aims to introduce Airbnb’s experience upgrading Data Warehouse infrastructure to Spark and Iceberg
💩4👍2
https://www.youtube.com/playlist?list=PLSECvWLlUYeF06QK5FOOELvgKdap3cQf0
Netflix Data Engineering Summit
Этим летом Netflix проводил у себя митапчик по DE, вот тут плейлист докладов на Youtube.
Даже Холден Карау смогли затащить!
Ссылка на плейлист выше, а общее описание вот тут - https://netflixtechblog.com/our-first-netflix-data-engineering-summit-f326b0589102
@ohmydataengineer
Netflix Data Engineering Summit
Этим летом Netflix проводил у себя митапчик по DE, вот тут плейлист докладов на Youtube.
Даже Холден Карау смогли затащить!
Ссылка на плейлист выше, а общее описание вот тут - https://netflixtechblog.com/our-first-netflix-data-engineering-summit-f326b0589102
@ohmydataengineer
🔥17💩3👍2
AWS Re:Invent 2023
https://reinvent.awsevents.com/on-demand/?trk=1a3874e6-1ad9-4393-9301-0e2e4b2cc21b
AWS re:Invent прошел (а это чуть ли не главная AWS конфа с презентацией новых фич и т.п.)
По ссылке выше - все записи с конфы. А там их оч много. AI / ML, Storage, Analytics - разделы которые больше всего релевантны DE.
@ohmydataengineer
https://reinvent.awsevents.com/on-demand/?trk=1a3874e6-1ad9-4393-9301-0e2e4b2cc21b
AWS re:Invent прошел (а это чуть ли не главная AWS конфа с презентацией новых фич и т.п.)
По ссылке выше - все записи с конфы. А там их оч много. AI / ML, Storage, Analytics - разделы которые больше всего релевантны DE.
@ohmydataengineer
Awsevents
AWS re:Invent 2024 Watch on demand | Amazon Web Services
Hear insights from AWS and industry-thought leaders, grow your skills, and get inspired. Watch re:Invent 2024 video on demand.
💩6👍2
https://eng.lyft.com/druid-deprecation-and-clickhouse-adoption-at-lyft-120af37651fd
Редкое явление, но вот уже вторая прекрасная статья на Medium за последнее время. Хорошая она (как и предыдущая), потому что написаны в инженерных блогах компании.
В этот раз про то, как в Lyft пришел Clickhouse и ушел Apache Druid.
@ohmydataengineer
Редкое явление, но вот уже вторая прекрасная статья на Medium за последнее время. Хорошая она (как и предыдущая), потому что написаны в инженерных блогах компании.
В этот раз про то, как в Lyft пришел Clickhouse и ушел Apache Druid.
@ohmydataengineer
Medium
Druid Deprecation and ClickHouse Adoption at Lyft
Written by Ritesh Varyani and Jeana Choi at Lyft.
👍8💩3
Кому там еще нужен ваш Кимбалл?
https://joereis.substack.com/p/is-kimball-still-relevant
У Joe Reis (тот самый автор прекрасной книжки Data Engineering Fundamentals) есть замечательная заметка про моделирование данных. В комменты к одному из его подкастов набежали клавиатурные "воены" и начали доказывать, что моделирование данных не надо, мы все скормим сноуфлейку и он все прожует.
На что Джо справедливо замечает, что вы пожертвовали моделированием ради скорости и это чаще всего приводит к сложностям у бизнеса как это все использовать, десятки странных OBT и он просто идет и снова юзает Excel.
@ohmydataengineer
https://joereis.substack.com/p/is-kimball-still-relevant
У Joe Reis (тот самый автор прекрасной книжки Data Engineering Fundamentals) есть замечательная заметка про моделирование данных. В комменты к одному из его подкастов набежали клавиатурные "воены" и начали доказывать, что моделирование данных не надо, мы все скормим сноуфлейку и он все прожует.
На что Джо справедливо замечает, что вы пожертвовали моделированием ради скорости и это чаще всего приводит к сложностям у бизнеса как это все использовать, десятки странных OBT и он просто идет и снова юзает Excel.
@ohmydataengineer
Joe Reis
Is Kimball Still Relevant?
Joe's Nerdy Rants #10 - Weekend reads and other stuff
👍28💩2
Итак, у меня, конечно же, есть контент план, согласно которому у меня по расписанию выходят посты. И один из типов контента, который я хотел постить - это делать подборки каких-то релевантных каналов. Конечно, лентяй внутри меня побеждал и я не постил это. И, естественно, мне кучку раз предлагали "А хотите заплатить за место в подборке?", на что я любезно отказывался. Но вот ребята из @datacoffee собрали подборку сами (походив по группам и каналам) и предложили закинуть в канал. А мне и не жалко =)
Каналы:
• @datacoffee — Подкаст про данные. Кстати, ребят вы могли видеть, например, на последней SmartData
• @datavizcomics — Комиксы по датавизу, дата-арт и интересные визуализации. Никогда не знал про этот канал, но материал выглядит приятным и свежим, незамызганным.
@enthusiastech - Analytics Engineering. Небольшой канал как раз про тот стык между аналитикой, DE и тот самый MDS. Буду сам поглядывать, возможно я просто глупый и не понимаю, как там на самом деле клево.
Парочка групп:
@dbt_users — DBT users group. Можно задать вопрос на английском в Slack, а можно на русскому тут, в телеграме.
@ruairflow — Эйрплов! Apache Airflow. Вторая группа, в которую я вступил, когда стал дата-инженером (первая была про Спарк)
@ohmydataengineer - ну это собственно я.
Киллерфича этого сообщения: добавить как папку в Telegram https://news.1rj.ru/str/addlist/B5NbcluX5AJiMTFi
Каналы:
• @datacoffee — Подкаст про данные. Кстати, ребят вы могли видеть, например, на последней SmartData
• @datavizcomics — Комиксы по датавизу, дата-арт и интересные визуализации. Никогда не знал про этот канал, но материал выглядит приятным и свежим, незамызганным.
@enthusiastech - Analytics Engineering. Небольшой канал как раз про тот стык между аналитикой, DE и тот самый MDS. Буду сам поглядывать, возможно я просто глупый и не понимаю, как там на самом деле клево.
Парочка групп:
@dbt_users — DBT users group. Можно задать вопрос на английском в Slack, а можно на русскому тут, в телеграме.
@ruairflow — Эйрплов! Apache Airflow. Вторая группа, в которую я вступил, когда стал дата-инженером (первая была про Спарк)
@ohmydataengineer - ну это собственно я.
Киллерфича этого сообщения: добавить как папку в Telegram https://news.1rj.ru/str/addlist/B5NbcluX5AJiMTFi
Telegram
Datagram
Alex invites you to add the folder “Datagram”, which includes 6 chats.
👍10💩9❤5🔥2🥱2
Ко мне в личку заглянул Саша @Aleron Миленькин из @datafeeling и DoDo, говорит "Тебе нужно сменить аватарку на LinkedIn!"
Вот так вот видит меня нейросеточки, мне нравится 😄
Потыкать, кстати, можно тут » @avatar_resume_bot «
А почитать всякое простым языком про ML тут » @datafeeling «
Поболтали чуток за общие боли и темы в DE и рядышком (ML), очень радует, что в индустрии есть люди с совпадающими со мной взглядами. Значит я не совсем "того". Надо бы спросить у моей команды анонимно 😂
P.S. как всегда, преследуя цели прозрачности, за этот "рекламный" пост мной была получена оплата в виде трех сгенерированных фотографий 🤑
Вот так вот видит меня нейросеточки, мне нравится 😄
Потыкать, кстати, можно тут » @avatar_resume_bot «
А почитать всякое простым языком про ML тут » @datafeeling «
Поболтали чуток за общие боли и темы в DE и рядышком (ML), очень радует, что в индустрии есть люди с совпадающими со мной взглядами. Значит я не совсем "того". Надо бы спросить у моей команды анонимно 😂
P.S. как всегда, преследуя цели прозрачности, за этот "рекламный" пост мной была получена оплата в виде трех сгенерированных фотографий 🤑
💩26👍8🔥5❤2
Вас стало почти на тысячу больше, вы оставили 1.2к комментариев и почти 4 тысячи раз кому-то переслали мои посты!
Спасибо большое, что читаете, что приносите свой взгляд на мир работы с данными!
@ohmydataengineer 💩
Спасибо большое, что читаете, что приносите свой взгляд на мир работы с данными!
@ohmydataengineer 💩
🔥28💩6👍4❤3