https://eng.lyft.com/from-big-data-to-better-data-ensuring-data-quality-with-verity-a996b49343f6
У Lyft (это который конкурент Gett 😂) есть собственное решение в Data Quality - называется Verity.
Хорошая описательная статья про то, как это работает у них там.
@ohmydataengineer
У Lyft (это который конкурент Gett 😂) есть собственное решение в Data Quality - называется Verity.
Хорошая описательная статья про то, как это работает у них там.
@ohmydataengineer
Medium
From Big Data to Better Data: Ensuring Data Quality with Verity
Author: Michael McPhillips, Tech Lead at Lyft
🔥15💩4
https://www.youtube.com/watch?v=-YQZUUYOccY
У этого канала непростительно мало просмотров и подписчиков! Челик выкладывает короткие видео (5-10 минут) про базовые концепции, подходы, темы в Data Engineering. Не смотря на очень кликбейтный заголовок, внутри все очень честно: если вы думаете, что везде сноуфлейками обмазались и MDS заадоптили, а только вы, центурион, сидите на своем хадупосраке и ковыряете умерший ORC - вы ошибаетесь.
Отвратительные архитектуры, всратые модели и костыли есть везде, от ООО "Рога и Копыта" до ФААНГа.
Не расстраивайтесь.
(Кстати, если не верите не очень популярному инфлюенсеру, вот вам более популярный говорит про то же самое https://www.youtube.com/watch?v=l58yH2aOoJU)
@ohmydataengineer
У этого канала непростительно мало просмотров и подписчиков! Челик выкладывает короткие видео (5-10 минут) про базовые концепции, подходы, темы в Data Engineering. Не смотря на очень кликбейтный заголовок, внутри все очень честно: если вы думаете, что везде сноуфлейками обмазались и MDS заадоптили, а только вы, центурион, сидите на своем хадупосраке и ковыряете умерший ORC - вы ошибаетесь.
Отвратительные архитектуры, всратые модели и костыли есть везде, от ООО "Рога и Копыта" до ФААНГа.
Не расстраивайтесь.
(Кстати, если не верите не очень популярному инфлюенсеру, вот вам более популярный говорит про то же самое https://www.youtube.com/watch?v=l58yH2aOoJU)
@ohmydataengineer
YouTube
Avoid These Mistakes in Realistic Data Architectures
⏯RELATED VIDEOS⏯
Levels of Data Engineering Solutions: https://youtu.be/vVsegN1tWVw
In this video, we're going to be discussing realistic data architectures and the choices you need to make when designing your data architectures. We'll go over some of the…
Levels of Data Engineering Solutions: https://youtu.be/vVsegN1tWVw
In this video, we're going to be discussing realistic data architectures and the choices you need to make when designing your data architectures. We'll go over some of the…
👍27💩3
Из новостей, не связанных с данными, но интересных - GitHub Copilot Chat доступен теперь и в JetBrains IDE (раньше был только в VS Code (именно чат, не автодополнение).
https://github.blog/2023-11-08-universe-2023-copilot-transforms-github-into-the-ai-powered-developer-platform/
@ohmydataengineer
https://github.blog/2023-11-08-universe-2023-copilot-transforms-github-into-the-ai-powered-developer-platform/
@ohmydataengineer
👍9💩4🔥1
dbt Labs Appoints Tech Veteran Brandon Sweeney as President and Chief Operating Officer
По заголовку новости и не скажешь, что это особенное или важное событие. Ну назначили какого-то чувака и назначили.
Дьявол кроется в деталях, а именно Брендон до этого занимал позицию Chief Revenue Officer в Hashicorp.
Одно из последних событие, что произошло с Hashicorp, создателем Terraform, и связанное с деньгами - что они заадоптили BSL - Business Source License, "подприкрыли клапан OSS" (цитата из инторнетов😄).
А если точнее, подприкрыли воздух всем, кто поверх Terraform / Vault / Nomad / Consul делал какой-нибудь софт или стартап.
И думаю, что Брендон приложил большую руку к этому событию и теперь он в dbt.
Что это значит для будущего dbt Core? Посмотрим, но для core, думаю, ничего в целом не изменится с приходом Брендона. Возможно, пропорция по сравнению с Cloud изменится.
А может и поменяется...
@ohmydataengineer
По заголовку новости и не скажешь, что это особенное или важное событие. Ну назначили какого-то чувака и назначили.
Дьявол кроется в деталях, а именно Брендон до этого занимал позицию Chief Revenue Officer в Hashicorp.
Одно из последних событие, что произошло с Hashicorp, создателем Terraform, и связанное с деньгами - что они заадоптили BSL - Business Source License, "подприкрыли клапан OSS" (цитата из инторнетов😄).
А если точнее, подприкрыли воздух всем, кто поверх Terraform / Vault / Nomad / Consul делал какой-нибудь софт или стартап.
И думаю, что Брендон приложил большую руку к этому событию и теперь он в dbt.
Что это значит для будущего dbt Core? Посмотрим, но для core, думаю, ничего в целом не изменится с приходом Брендона. Возможно, пропорция по сравнению с Cloud изменится.
А может и поменяется...
@ohmydataengineer
dbt Labs
dbt Labs Appoints Tech Veteran Brandon Sweeney as President and Chief Operating Officer | dbt Labs
Sweeney’s appointment comes as the data transformation leader expands its executive team to support significant customer growth and momentum
💩7👍2
This media is not supported in your browser
VIEW IN TELEGRAM
Пока мы тут жисоны перекладываем...
Одна из вех текущего проекта на работе это уйти от всей старой, накликанной руками в облаке архитектуры и перейти к IaaC и автоматизации. Сейчас по 2-3 командам мы можем развернуть EKS кластер, на нем поднимается ArgoCD, который в свою очередь поднимает всякие Jenkins и подобное (а там конфигурация тоже кодом).
Так вот наткнулся тут на интересный проект (но пока вроде не публичный) - рисуешь архитектуру на салфетке, подкладываешь ее в OpenAI Vision, а тот уже в python diagrams и ChatGPT тебе терраформ код бахает. Для старта и бойлерплейта - самое оно.
Автор - вот
@ohmydataengineer
Одна из вех текущего проекта на работе это уйти от всей старой, накликанной руками в облаке архитектуры и перейти к IaaC и автоматизации. Сейчас по 2-3 командам мы можем развернуть EKS кластер, на нем поднимается ArgoCD, который в свою очередь поднимает всякие Jenkins и подобное (а там конфигурация тоже кодом).
Так вот наткнулся тут на интересный проект (но пока вроде не публичный) - рисуешь архитектуру на салфетке, подкладываешь ее в OpenAI Vision, а тот уже в python diagrams и ChatGPT тебе терраформ код бахает. Для старта и бойлерплейта - самое оно.
Автор - вот
@ohmydataengineer
👍22💩6🔥5❤1
https://sadservers.com/
Если вам вдруг захотелось сменить Data Engineering на что-то другое, например DevOps / SRE - SadServers прикольная штука, позволяет попрактиковаться в стиле LeetCode, но в дебаггинге и поиске проблемы.
@ohmydataengineer
Если вам вдруг захотелось сменить Data Engineering на что-то другое, например DevOps / SRE - SadServers прикольная штука, позволяет попрактиковаться в стиле LeetCode, но в дебаггинге и поиске проблемы.
@ohmydataengineer
Sadservers
SadServers - Linux & DevOps Troubleshooting Interviews
Linux Troubleshooting Interview DevOps SRE
👍17❤3🔥2💩1
Пятничный юмор навеян личным опытом, когда кто-то хочет делать BI в Mixpanel, а кто-то в Tableau, а еще был Power BI, еще графички в Braze есть...
@ohmydataengineer
@ohmydataengineer
👍6💩2
https://openai.com/blog/openai-announces-leadership-transition
Ждем миллиард рилсов с заголовками «ChatGPT все…?»
Еще буквально неделю назад OpenAI анонсировали маркетплейс GPT, спрос был такой, что пришлось остановить возможность покупки премиума, а сегодня вот такая фигня:
Mr. Altman’s departure follows a deliberative review process by the board, which concluded that he was not consistently candid in his communications with the board, hindering its ability to exercise its responsibilities. The board no longer has confidence in his ability to continue leading OpenAI.
Для CEO оч плохая характеристика на выход + насколько я помню (но тут могу ошибиться), стоков у Сэма почти не было.
@ohmydataengineer
Ждем миллиард рилсов с заголовками «ChatGPT все…?»
Еще буквально неделю назад OpenAI анонсировали маркетплейс GPT, спрос был такой, что пришлось остановить возможность покупки премиума, а сегодня вот такая фигня:
Mr. Altman’s departure follows a deliberative review process by the board, which concluded that he was not consistently candid in his communications with the board, hindering its ability to exercise its responsibilities. The board no longer has confidence in his ability to continue leading OpenAI.
Для CEO оч плохая характеристика на выход + насколько я помню (но тут могу ошибиться), стоков у Сэма почти не было.
@ohmydataengineer
Openai
OpenAI announces leadership transition
💩5👍1🔥1
Новость настолько горячая, что ее выпустили перед днем благодарения, на выходные, чтобы рынок не сошел с ума.
Не могу держать в себе, этот заголовок, конечно, достоин Пулитцера 😀
Что по теориям самого громкого увольнения CEO за последние овердофига лет?
- и правда сделал что-то очень shady
- совет директоров хочет больше фокуса на деньгах
- Адам Данжело творит ту же дичь, что и Quora (которая с его приходом скатилась, хотя до этого процветала)
- старая история от 2021 про sex offence по отношению к его сестре
- просто личная неприязнь
- другое…
Вы уж простите, в лайфстайл блог превращать «Трубу» не буду, но уж очень хотелось запостить…
@ohmydataengineer
Не могу держать в себе, этот заголовок, конечно, достоин Пулитцера 😀
Что по теориям самого громкого увольнения CEO за последние овердофига лет?
- и правда сделал что-то очень shady
- совет директоров хочет больше фокуса на деньгах
- Адам Данжело творит ту же дичь, что и Quora (которая с его приходом скатилась, хотя до этого процветала)
- старая история от 2021 про sex offence по отношению к его сестре
- просто личная неприязнь
- другое…
Вы уж простите, в лайфстайл блог превращать «Трубу» не буду, но уж очень хотелось запостить…
@ohmydataengineer
👍8💩6🥱1
Ну сколько можно!
Был у нас тут ETL, потом ELT, потом reverse-ETL, вот теперь нужно придумать еще и ELTP! Причем когда я видел твит автора об этой статье, то он там написал, что это аббревиатура не ради аббревиатуры, но это оно так и есть!
Publish data to downstream users and business applications
Ну так это и есть ваш тот же самый reverse-ELT и просто выгрузка данных куда-то. Зачем, господе, зачем вы придумываете контент ради контента.
Впрочем, читая такой булшит от людей уровня CTO и стафф-инженеров, я спокоен за свой опыт и свою карьеру.
https://airbyte.com/blog/eltp-extending-elt-for-modern-ai-and-analytics - ознакомиться с этой ерундой можно тут.
Запомните, есть просто ETL - откуда-то взяли, что-то с этим сделали, куда-то положили. Порядок (ETL или ELT) глобально сути не меняет, где у вас будет трансформация, по пути или на уровне хранилища. Фундаментально это все те же подходы и концепции, просто место, где вы будете закидывать проблему деньгами меняется.
(простите, просто хотел выругаться)
@ohmydataengineer
Был у нас тут ETL, потом ELT, потом reverse-ETL, вот теперь нужно придумать еще и ELTP! Причем когда я видел твит автора об этой статье, то он там написал, что это аббревиатура не ради аббревиатуры, но это оно так и есть!
Publish data to downstream users and business applications
Ну так это и есть ваш тот же самый reverse-ELT и просто выгрузка данных куда-то. Зачем, господе, зачем вы придумываете контент ради контента.
Впрочем, читая такой булшит от людей уровня CTO и стафф-инженеров, я спокоен за свой опыт и свою карьеру.
https://airbyte.com/blog/eltp-extending-elt-for-modern-ai-and-analytics - ознакомиться с этой ерундой можно тут.
Запомните, есть просто ETL - откуда-то взяли, что-то с этим сделали, куда-то положили. Порядок (ETL или ELT) глобально сути не меняет, где у вас будет трансформация, по пути или на уровне хранилища. Фундаментально это все те же подходы и концепции, просто место, где вы будете закидывать проблему деньгами меняется.
(простите, просто хотел выругаться)
@ohmydataengineer
Airbyte
ELTP: Extending ELT for Modern AI and Analytics | Airbyte
Whether you are building the next great AI app, an analytics suite, or a new data warehouse, the ELTP model is a simple and extensible architecture for building robust data pipelines.
👍40💩9🔥4👎2
Хоть я почти перестал постить события, есть тематика, которую я продолжаю ходить активно слушать - это Trino. Потому что основная штука, с которой я сейчас работаю.
Вот и ребята с Авито переезжают с Vertica и очень интересно посмотреть, как у них делишки идут.
Митап - 24 ноября в 18:00. Регистрация на Timepad, ссылку пришлют.
Дмитрий Рейман — «Как пересесть на Trino после Vertica»
Реальный кейс Авито по переводу аналитической платформы с Vertica на Trino с сохранением UX конечных пользователей.
@ohmydataengineer
Вот и ребята с Авито переезжают с Vertica и очень интересно посмотреть, как у них делишки идут.
Митап - 24 ноября в 18:00. Регистрация на Timepad, ссылку пришлют.
Дмитрий Рейман — «Как пересесть на Trino после Vertica»
Реальный кейс Авито по переводу аналитической платформы с Vertica на Trino с сохранением UX конечных пользователей.
@ohmydataengineer
👍9💩6
https://newsletter.pragmaticengineer.com/p/what-is-openai
The Pragmatic Engineer собрал в единое целое весь безумный таймлайн, который происходил с OpenAI во время ухода / прихода Сэма Альтмана. Крайне увлекательное чтиво, очень советую прочитать!
@ohmydataengineer
The Pragmatic Engineer собрал в единое целое весь безумный таймлайн, который происходил с OpenAI во время ухода / прихода Сэма Альтмана. Крайне увлекательное чтиво, очень советую прочитать!
@ohmydataengineer
Pragmaticengineer
What is OpenAI, Really?
It’s been five incredibly turbulent days at the leading AI tech company, with the exit and then return of CEO Sam Altman. As we dig into what went wrong, an even bigger question looms: what is OpenAI?
💩6👍3
https://notion.castordoc.com/catalog-of-catalogs
Для себя мы все решили (DataHub), но вот если вам предстоит делать выбор дата каталога, вот свеженькое сравнение каталогов (безусловно, те, кто его создал, поставили свой каталог на первое место - Castordoc).
@ohmydataengineer
Для себя мы все решили (DataHub), но вот если вам предстоит делать выбор дата каталога, вот свеженькое сравнение каталогов (безусловно, те, кто его создал, поставили свой каталог на первое место - Castordoc).
@ohmydataengineer
Benchmark - Top 10 Data Catalogs
This is a benchmark of the most popular data catalogs both for Entreprise and mid-market companies. You will find the top 10 data discovery tools.
🔥6💩2👍1
https://news.1rj.ru/str/career_works/32
Пользуясь пятницей, вместо мема (ожидаю, что снова накидают 💩, потому что ждете новых мемов), напоминаю, что у меня есть второй канал - "🚜 Осторожно, карьерные работы!".
Я там пишу про всякие аспекты, связанные с карьерой, поиском работы, собесами, обсуждениями зарплат и так далее.
@career_works
Пользуясь пятницей, вместо мема (ожидаю, что снова накидают 💩, потому что ждете новых мемов), напоминаю, что у меня есть второй канал - "🚜 Осторожно, карьерные работы!".
Я там пишу про всякие аспекты, связанные с карьерой, поиском работы, собесами, обсуждениями зарплат и так далее.
@career_works
Telegram
Осторожно, карьерные работы!
How you present your idea often matters more than the idea itself.
Сегодня в одной из рассылок пришло очень замечательное письмо, я не мог удержаться и не перевести и закинуть несколько примеров из него сюда.
Горькая правда заключается в том, что очень…
Сегодня в одной из рассылок пришло очень замечательное письмо, я не мог удержаться и не перевести и закинуть несколько примеров из него сюда.
Горькая правда заключается в том, что очень…
💩24👍8❤2
https://github.blog/2023-11-08-the-state-of-open-source-and-ai/
The State of Octoverse
Ежегодно GitHub выпускает Octoverse Report - такое собрание инсайдов о том, куда люди коммитят и как. В этом году он посвящен, конечно же, AI и Cloud.
Из банальных инсайдов:
- проекты про AI растут как грибы после дождя
- очень много cloud native проектов
- еще больше людей коммитят в опен-сорс впервые
- 20.2 миллиона разработчиков и 21% рост их количества (US, Индия обошла Китай, затем Бразилия, Россия на 6 месте, но прогнозируют падение на 9 место)
- JS, Python, затем TypeScript который обошел Java, Ruby вылетел из десятки, его заменил Go
Ну и всякие еще инсайды по ссылке. В целом, интересно посмотреть на state of the industry
@ohmydataengineer
The State of Octoverse
Ежегодно GitHub выпускает Octoverse Report - такое собрание инсайдов о том, куда люди коммитят и как. В этом году он посвящен, конечно же, AI и Cloud.
Из банальных инсайдов:
- проекты про AI растут как грибы после дождя
- очень много cloud native проектов
- еще больше людей коммитят в опен-сорс впервые
- 20.2 миллиона разработчиков и 21% рост их количества (US, Индия обошла Китай, затем Бразилия, Россия на 6 месте, но прогнозируют падение на 9 место)
- JS, Python, затем TypeScript который обошел Java, Ruby вылетел из десятки, его заменил Go
Ну и всякие еще инсайды по ссылке. В целом, интересно посмотреть на state of the industry
@ohmydataengineer
The GitHub Blog
Octoverse: The state of open source and rise of AI in 2023
In this year’s Octoverse report, we study how open source activity around AI, the cloud, and Git are changing the developer experience.
💩6👍4🥱1
Пятничный юмор или мое любимое "А давайте загрузим все данные в эксельку и подключим ее к Trino!"
@ohmydataengineer
@ohmydataengineer
❤12💩9🔥7👍3
https://groupby1.mattarderne.com/p/the-way-of-ways
Начинаем новую неделю с интересного чтива про MDS (так раздражающий меня меня Modern Data Stack). Большая и клевая статья, по большей части, описывающая вехи MDS-хайпа, откуда пришло, какие проблемы пыталось решить, в какую ебурдень свалилось и всякое такое.
Как говориться, если вы не знаете наши модные хадупосраки, то будет интересно.
@ohmydataengineer
Начинаем новую неделю с интересного чтива про MDS (так раздражающий меня меня Modern Data Stack). Большая и клевая статья, по большей части, описывающая вехи MDS-хайпа, откуда пришло, какие проблемы пыталось решить, в какую ебурдень свалилось и всякое такое.
Как говориться, если вы не знаете наши модные хадупосраки, то будет интересно.
@ohmydataengineer
Mattarderne
THE WAY OF WAYS
The tale of MDS - the Modern Data Stack
🔥6💩5
https://techcrunch.com/2023/12/11/docker-acquires-atomicjar-a-testing-startup-that-raised-25m-in-january
Вот это поворот!
Docker покупает AtomicJar, это те ребята, которые делали TestContainers. Как это скажется и повлияет - я не знаю, я не предсказатель 😄
Но надеюсь, что не обломает мою влажную мечту иметь local end-to-end data testing: сделали pipeline, локально запустили, скачались семплы данных источников, SQL исполнились, получил финальную модельку, прогнались тесты, все классно, локально модель удалилась.
@ohmydataengineer
Вот это поворот!
Docker покупает AtomicJar, это те ребята, которые делали TestContainers. Как это скажется и повлияет - я не знаю, я не предсказатель 😄
Но надеюсь, что не обломает мою влажную мечту иметь local end-to-end data testing: сделали pipeline, локально запустили, скачались семплы данных источников, SQL исполнились, получил финальную модельку, прогнались тесты, все классно, локально модель удалилась.
@ohmydataengineer
TechCrunch
Docker acquires AtomicJar, a testing startup that raised $25M in January
Docker acquired AtomicJar, the commercial company behind Testcontainers, just a year after the company raised $25M.
💩5👍3