Статистика канала: Сентябрь 2023
Пост саморефлексии, не ожидайте тут откровений про пайплайны и хранилища, скоре это просто возможность для меня посмотреть на прогресс этого канала в количестве подписчиков, количестве 💩 что вы мне накидываете и в целом просто быть более открытым с вами про то, сколько это времени занимает, какие идеи дальше у меня в голове и вот это все.
Что мы имеем:
- Всего 11 сообщений я запостил в канал
- Канал вырос примерно на 3% человек
- В среднем 1800 людей видят посты (что же с остальными 800 😂)
- Самый топовый пост был анонс про статью на Бусти (на этой неделе уже будет в открытом доступе)
- Сам Бусти и Патрен пока в стартовом состоянии (5 платных подписчиков),
Не самые плохие результаты, но есть куда двигаться. Эпизодически в комментах прилетают хорошие мысли и идеи, которые надо воплощать.
Спасибо большое, что читаете меня, всегда буду рад и благодарен вашей поддержке - https://boosty.to/datapipeline и https://www.patreon.com/DataPipeline (это всего лишь 100 рублей в месяц или 4 евро, если вы с иностранной картой).
"Труба Данных" @ohmydataengineer | Поддержать автора на Patreon | на Бусти
Пост саморефлексии, не ожидайте тут откровений про пайплайны и хранилища, скоре это просто возможность для меня посмотреть на прогресс этого канала в количестве подписчиков, количестве 💩 что вы мне накидываете и в целом просто быть более открытым с вами про то, сколько это времени занимает, какие идеи дальше у меня в голове и вот это все.
Что мы имеем:
- Всего 11 сообщений я запостил в канал
- Канал вырос примерно на 3% человек
- В среднем 1800 людей видят посты (что же с остальными 800 😂)
- Самый топовый пост был анонс про статью на Бусти (на этой неделе уже будет в открытом доступе)
- Сам Бусти и Патрен пока в стартовом состоянии (5 платных подписчиков),
Не самые плохие результаты, но есть куда двигаться. Эпизодически в комментах прилетают хорошие мысли и идеи, которые надо воплощать.
Спасибо большое, что читаете меня, всегда буду рад и благодарен вашей поддержке - https://boosty.to/datapipeline и https://www.patreon.com/DataPipeline (это всего лишь 100 рублей в месяц или 4 евро, если вы с иностранной картой).
"Труба Данных" @ohmydataengineer | Поддержать автора на Patreon | на Бусти
👍12💩12❤3🥱2🔥1
https://aws.amazon.com/certification/certified-data-engineer-associate/
У AWS появилась сертификация по Data Engineering.
Пока только Associate, думаю, Professional / Specialist тоже появится плюс-минус в скором времени.
Наличие сертификата у вас может как и добавить вам плюсов в резюме, а может и вообще никак не повлиять.
Возможно, вы и так уже все знаете, а мб при подготовке узнаете что-то интересное.
@ohmydataengineer | Поддержать автора на Patreon | на Бусти
У AWS появилась сертификация по Data Engineering.
Пока только Associate, думаю, Professional / Specialist тоже появится плюс-минус в скором времени.
Наличие сертификата у вас может как и добавить вам плюсов в резюме, а может и вообще никак не повлиять.
Возможно, вы и так уже все знаете, а мб при подготовке узнаете что-то интересное.
@ohmydataengineer | Поддержать автора на Patreon | на Бусти
👍8💩8
New Generative AI Infra Stack
Не знаю, что с этим roadmap делать. Предлагаю просто взглянуть на него, запомнить пару рандомных тулов и сервисов и отложить на годик. Можно еще посмотреть на тулмап от Sequoia - https://www.sequoiacap.com/article/generative-ai-act-two/
Потом принесут на поддержку и интеграцию. А пока можно не тратить на это времени.
@ohmydataengineer | Поддержать автора на Patreon | на Бусти
Не знаю, что с этим roadmap делать. Предлагаю просто взглянуть на него, запомнить пару рандомных тулов и сервисов и отложить на годик. Можно еще посмотреть на тулмап от Sequoia - https://www.sequoiacap.com/article/generative-ai-act-two/
Потом принесут на поддержку и интеграцию. А пока можно не тратить на это времени.
@ohmydataengineer | Поддержать автора на Patreon | на Бусти
💩6👍5👎1🔥1
Airflow Summit
https://www.youtube.com/playlist?list=PLGudixcDaxY29qXIXhd90htHp_BFk-Bqf
Выложили видосики с прошедшего Airflow Summit. 36 докладов и выступлений про текущее и будущее Airflow.
@ohmydataengineer | Поддержать автора на Patreon | на Бусти
https://www.youtube.com/playlist?list=PLGudixcDaxY29qXIXhd90htHp_BFk-Bqf
Выложили видосики с прошедшего Airflow Summit. 36 докладов и выступлений про текущее и будущее Airflow.
@ohmydataengineer | Поддержать автора на Patreon | на Бусти
💩9🔥6👍2
How it started (~2012) VS How it is going (2023)
Кстати, текущую карту можно интерактивно покликать вот тут https://mad.firstmark.com/
@ohmydataengineer
Кстати, текущую карту можно интерактивно покликать вот тут https://mad.firstmark.com/
@ohmydataengineer
😢19🥱9💩7👍4
https://eng.lyft.com/from-big-data-to-better-data-ensuring-data-quality-with-verity-a996b49343f6
У Lyft (это который конкурент Gett 😂) есть собственное решение в Data Quality - называется Verity.
Хорошая описательная статья про то, как это работает у них там.
@ohmydataengineer
У Lyft (это который конкурент Gett 😂) есть собственное решение в Data Quality - называется Verity.
Хорошая описательная статья про то, как это работает у них там.
@ohmydataengineer
Medium
From Big Data to Better Data: Ensuring Data Quality with Verity
Author: Michael McPhillips, Tech Lead at Lyft
🔥15💩4
https://www.youtube.com/watch?v=-YQZUUYOccY
У этого канала непростительно мало просмотров и подписчиков! Челик выкладывает короткие видео (5-10 минут) про базовые концепции, подходы, темы в Data Engineering. Не смотря на очень кликбейтный заголовок, внутри все очень честно: если вы думаете, что везде сноуфлейками обмазались и MDS заадоптили, а только вы, центурион, сидите на своем хадупосраке и ковыряете умерший ORC - вы ошибаетесь.
Отвратительные архитектуры, всратые модели и костыли есть везде, от ООО "Рога и Копыта" до ФААНГа.
Не расстраивайтесь.
(Кстати, если не верите не очень популярному инфлюенсеру, вот вам более популярный говорит про то же самое https://www.youtube.com/watch?v=l58yH2aOoJU)
@ohmydataengineer
У этого канала непростительно мало просмотров и подписчиков! Челик выкладывает короткие видео (5-10 минут) про базовые концепции, подходы, темы в Data Engineering. Не смотря на очень кликбейтный заголовок, внутри все очень честно: если вы думаете, что везде сноуфлейками обмазались и MDS заадоптили, а только вы, центурион, сидите на своем хадупосраке и ковыряете умерший ORC - вы ошибаетесь.
Отвратительные архитектуры, всратые модели и костыли есть везде, от ООО "Рога и Копыта" до ФААНГа.
Не расстраивайтесь.
(Кстати, если не верите не очень популярному инфлюенсеру, вот вам более популярный говорит про то же самое https://www.youtube.com/watch?v=l58yH2aOoJU)
@ohmydataengineer
YouTube
Avoid These Mistakes in Realistic Data Architectures
⏯RELATED VIDEOS⏯
Levels of Data Engineering Solutions: https://youtu.be/vVsegN1tWVw
In this video, we're going to be discussing realistic data architectures and the choices you need to make when designing your data architectures. We'll go over some of the…
Levels of Data Engineering Solutions: https://youtu.be/vVsegN1tWVw
In this video, we're going to be discussing realistic data architectures and the choices you need to make when designing your data architectures. We'll go over some of the…
👍27💩3
Из новостей, не связанных с данными, но интересных - GitHub Copilot Chat доступен теперь и в JetBrains IDE (раньше был только в VS Code (именно чат, не автодополнение).
https://github.blog/2023-11-08-universe-2023-copilot-transforms-github-into-the-ai-powered-developer-platform/
@ohmydataengineer
https://github.blog/2023-11-08-universe-2023-copilot-transforms-github-into-the-ai-powered-developer-platform/
@ohmydataengineer
👍9💩4🔥1
dbt Labs Appoints Tech Veteran Brandon Sweeney as President and Chief Operating Officer
По заголовку новости и не скажешь, что это особенное или важное событие. Ну назначили какого-то чувака и назначили.
Дьявол кроется в деталях, а именно Брендон до этого занимал позицию Chief Revenue Officer в Hashicorp.
Одно из последних событие, что произошло с Hashicorp, создателем Terraform, и связанное с деньгами - что они заадоптили BSL - Business Source License, "подприкрыли клапан OSS" (цитата из инторнетов😄).
А если точнее, подприкрыли воздух всем, кто поверх Terraform / Vault / Nomad / Consul делал какой-нибудь софт или стартап.
И думаю, что Брендон приложил большую руку к этому событию и теперь он в dbt.
Что это значит для будущего dbt Core? Посмотрим, но для core, думаю, ничего в целом не изменится с приходом Брендона. Возможно, пропорция по сравнению с Cloud изменится.
А может и поменяется...
@ohmydataengineer
По заголовку новости и не скажешь, что это особенное или важное событие. Ну назначили какого-то чувака и назначили.
Дьявол кроется в деталях, а именно Брендон до этого занимал позицию Chief Revenue Officer в Hashicorp.
Одно из последних событие, что произошло с Hashicorp, создателем Terraform, и связанное с деньгами - что они заадоптили BSL - Business Source License, "подприкрыли клапан OSS" (цитата из инторнетов😄).
А если точнее, подприкрыли воздух всем, кто поверх Terraform / Vault / Nomad / Consul делал какой-нибудь софт или стартап.
И думаю, что Брендон приложил большую руку к этому событию и теперь он в dbt.
Что это значит для будущего dbt Core? Посмотрим, но для core, думаю, ничего в целом не изменится с приходом Брендона. Возможно, пропорция по сравнению с Cloud изменится.
А может и поменяется...
@ohmydataengineer
dbt Labs
dbt Labs Appoints Tech Veteran Brandon Sweeney as President and Chief Operating Officer | dbt Labs
Sweeney’s appointment comes as the data transformation leader expands its executive team to support significant customer growth and momentum
💩7👍2
This media is not supported in your browser
VIEW IN TELEGRAM
Пока мы тут жисоны перекладываем...
Одна из вех текущего проекта на работе это уйти от всей старой, накликанной руками в облаке архитектуры и перейти к IaaC и автоматизации. Сейчас по 2-3 командам мы можем развернуть EKS кластер, на нем поднимается ArgoCD, который в свою очередь поднимает всякие Jenkins и подобное (а там конфигурация тоже кодом).
Так вот наткнулся тут на интересный проект (но пока вроде не публичный) - рисуешь архитектуру на салфетке, подкладываешь ее в OpenAI Vision, а тот уже в python diagrams и ChatGPT тебе терраформ код бахает. Для старта и бойлерплейта - самое оно.
Автор - вот
@ohmydataengineer
Одна из вех текущего проекта на работе это уйти от всей старой, накликанной руками в облаке архитектуры и перейти к IaaC и автоматизации. Сейчас по 2-3 командам мы можем развернуть EKS кластер, на нем поднимается ArgoCD, который в свою очередь поднимает всякие Jenkins и подобное (а там конфигурация тоже кодом).
Так вот наткнулся тут на интересный проект (но пока вроде не публичный) - рисуешь архитектуру на салфетке, подкладываешь ее в OpenAI Vision, а тот уже в python diagrams и ChatGPT тебе терраформ код бахает. Для старта и бойлерплейта - самое оно.
Автор - вот
@ohmydataengineer
👍22💩6🔥5❤1
https://sadservers.com/
Если вам вдруг захотелось сменить Data Engineering на что-то другое, например DevOps / SRE - SadServers прикольная штука, позволяет попрактиковаться в стиле LeetCode, но в дебаггинге и поиске проблемы.
@ohmydataengineer
Если вам вдруг захотелось сменить Data Engineering на что-то другое, например DevOps / SRE - SadServers прикольная штука, позволяет попрактиковаться в стиле LeetCode, но в дебаггинге и поиске проблемы.
@ohmydataengineer
Sadservers
SadServers - Linux & DevOps Troubleshooting Interviews
Linux Troubleshooting Interview DevOps SRE
👍17❤3🔥2💩1
Пятничный юмор навеян личным опытом, когда кто-то хочет делать BI в Mixpanel, а кто-то в Tableau, а еще был Power BI, еще графички в Braze есть...
@ohmydataengineer
@ohmydataengineer
👍6💩2
https://openai.com/blog/openai-announces-leadership-transition
Ждем миллиард рилсов с заголовками «ChatGPT все…?»
Еще буквально неделю назад OpenAI анонсировали маркетплейс GPT, спрос был такой, что пришлось остановить возможность покупки премиума, а сегодня вот такая фигня:
Mr. Altman’s departure follows a deliberative review process by the board, which concluded that he was not consistently candid in his communications with the board, hindering its ability to exercise its responsibilities. The board no longer has confidence in his ability to continue leading OpenAI.
Для CEO оч плохая характеристика на выход + насколько я помню (но тут могу ошибиться), стоков у Сэма почти не было.
@ohmydataengineer
Ждем миллиард рилсов с заголовками «ChatGPT все…?»
Еще буквально неделю назад OpenAI анонсировали маркетплейс GPT, спрос был такой, что пришлось остановить возможность покупки премиума, а сегодня вот такая фигня:
Mr. Altman’s departure follows a deliberative review process by the board, which concluded that he was not consistently candid in his communications with the board, hindering its ability to exercise its responsibilities. The board no longer has confidence in his ability to continue leading OpenAI.
Для CEO оч плохая характеристика на выход + насколько я помню (но тут могу ошибиться), стоков у Сэма почти не было.
@ohmydataengineer
Openai
OpenAI announces leadership transition
💩5👍1🔥1
Новость настолько горячая, что ее выпустили перед днем благодарения, на выходные, чтобы рынок не сошел с ума.
Не могу держать в себе, этот заголовок, конечно, достоин Пулитцера 😀
Что по теориям самого громкого увольнения CEO за последние овердофига лет?
- и правда сделал что-то очень shady
- совет директоров хочет больше фокуса на деньгах
- Адам Данжело творит ту же дичь, что и Quora (которая с его приходом скатилась, хотя до этого процветала)
- старая история от 2021 про sex offence по отношению к его сестре
- просто личная неприязнь
- другое…
Вы уж простите, в лайфстайл блог превращать «Трубу» не буду, но уж очень хотелось запостить…
@ohmydataengineer
Не могу держать в себе, этот заголовок, конечно, достоин Пулитцера 😀
Что по теориям самого громкого увольнения CEO за последние овердофига лет?
- и правда сделал что-то очень shady
- совет директоров хочет больше фокуса на деньгах
- Адам Данжело творит ту же дичь, что и Quora (которая с его приходом скатилась, хотя до этого процветала)
- старая история от 2021 про sex offence по отношению к его сестре
- просто личная неприязнь
- другое…
Вы уж простите, в лайфстайл блог превращать «Трубу» не буду, но уж очень хотелось запостить…
@ohmydataengineer
👍8💩6🥱1
Ну сколько можно!
Был у нас тут ETL, потом ELT, потом reverse-ETL, вот теперь нужно придумать еще и ELTP! Причем когда я видел твит автора об этой статье, то он там написал, что это аббревиатура не ради аббревиатуры, но это оно так и есть!
Publish data to downstream users and business applications
Ну так это и есть ваш тот же самый reverse-ELT и просто выгрузка данных куда-то. Зачем, господе, зачем вы придумываете контент ради контента.
Впрочем, читая такой булшит от людей уровня CTO и стафф-инженеров, я спокоен за свой опыт и свою карьеру.
https://airbyte.com/blog/eltp-extending-elt-for-modern-ai-and-analytics - ознакомиться с этой ерундой можно тут.
Запомните, есть просто ETL - откуда-то взяли, что-то с этим сделали, куда-то положили. Порядок (ETL или ELT) глобально сути не меняет, где у вас будет трансформация, по пути или на уровне хранилища. Фундаментально это все те же подходы и концепции, просто место, где вы будете закидывать проблему деньгами меняется.
(простите, просто хотел выругаться)
@ohmydataengineer
Был у нас тут ETL, потом ELT, потом reverse-ETL, вот теперь нужно придумать еще и ELTP! Причем когда я видел твит автора об этой статье, то он там написал, что это аббревиатура не ради аббревиатуры, но это оно так и есть!
Publish data to downstream users and business applications
Ну так это и есть ваш тот же самый reverse-ELT и просто выгрузка данных куда-то. Зачем, господе, зачем вы придумываете контент ради контента.
Впрочем, читая такой булшит от людей уровня CTO и стафф-инженеров, я спокоен за свой опыт и свою карьеру.
https://airbyte.com/blog/eltp-extending-elt-for-modern-ai-and-analytics - ознакомиться с этой ерундой можно тут.
Запомните, есть просто ETL - откуда-то взяли, что-то с этим сделали, куда-то положили. Порядок (ETL или ELT) глобально сути не меняет, где у вас будет трансформация, по пути или на уровне хранилища. Фундаментально это все те же подходы и концепции, просто место, где вы будете закидывать проблему деньгами меняется.
(простите, просто хотел выругаться)
@ohmydataengineer
Airbyte
ELTP: Extending ELT for Modern AI and Analytics | Airbyte
Whether you are building the next great AI app, an analytics suite, or a new data warehouse, the ELTP model is a simple and extensible architecture for building robust data pipelines.
👍40💩9🔥4👎2
Хоть я почти перестал постить события, есть тематика, которую я продолжаю ходить активно слушать - это Trino. Потому что основная штука, с которой я сейчас работаю.
Вот и ребята с Авито переезжают с Vertica и очень интересно посмотреть, как у них делишки идут.
Митап - 24 ноября в 18:00. Регистрация на Timepad, ссылку пришлют.
Дмитрий Рейман — «Как пересесть на Trino после Vertica»
Реальный кейс Авито по переводу аналитической платформы с Vertica на Trino с сохранением UX конечных пользователей.
@ohmydataengineer
Вот и ребята с Авито переезжают с Vertica и очень интересно посмотреть, как у них делишки идут.
Митап - 24 ноября в 18:00. Регистрация на Timepad, ссылку пришлют.
Дмитрий Рейман — «Как пересесть на Trino после Vertica»
Реальный кейс Авито по переводу аналитической платформы с Vertica на Trino с сохранением UX конечных пользователей.
@ohmydataengineer
👍9💩6