Smart Data 2024
В этом году, к моему сожалению, не попадаю ни на оффлайн часть, нет возможности и поработать в ПК. Поэтому в этом году я - простой зритель.
За 2 года вне РФ пока не натыкался на хорошо организованную конференцию по DE, зато маркетинговых около-MDS - тонна.
Поэтому рад из чего выбирать: из интересующих меня докладов выбрал вот эти 6 как самые знакомые больные темы, но вроде бы должно еще появиться что-то в программе. Программа тут https://smartdataconf.ru/schedule/days/, билеты там же.
Еще из забавного: когда у BestDoctor не было никаких DWH и вообще ничего, я помогал их CTO и Head of Dev с DE роадмапом и первой вакансией дата-инженера. Как давно это было... 😂
P.S. как вы видите - у ссылок нет никаких UTM меток, меня никто не просит ничего рекламировать и ничего мне не платит (я знаю, что вы накидаете 💩 все равно). Промокоды - не знаю, есть ли, но если очень надо - я могу спросить, контакты остались. Пишите в личку тогда, но ничего гарантировать не могу.
@ohmydataengineer
В этом году, к моему сожалению, не попадаю ни на оффлайн часть, нет возможности и поработать в ПК. Поэтому в этом году я - простой зритель.
За 2 года вне РФ пока не натыкался на хорошо организованную конференцию по DE, зато маркетинговых около-MDS - тонна.
Поэтому рад из чего выбирать: из интересующих меня докладов выбрал вот эти 6 как самые знакомые больные темы, но вроде бы должно еще появиться что-то в программе. Программа тут https://smartdataconf.ru/schedule/days/, билеты там же.
Еще из забавного: когда у BestDoctor не было никаких DWH и вообще ничего, я помогал их CTO и Head of Dev с DE роадмапом и первой вакансией дата-инженера. Как давно это было... 😂
P.S. как вы видите - у ссылок нет никаких UTM меток, меня никто не просит ничего рекламировать и ничего мне не платит (я знаю, что вы накидаете 💩 все равно). Промокоды - не знаю, есть ли, но если очень надо - я могу спросить, контакты остались. Пишите в личку тогда, но ничего гарантировать не могу.
@ohmydataengineer
💩38❤17👍13🔥4
https://db.cs.cmu.edu/papers/2024/whatgoesaround-sigmodrec2024.pdf
What Goes Around Comes Around... And Around... или SQL Forever.
Удивительно, но я давно не читал пейперов, а тут вывалился случайно в ленте и я с удовольствием прочитал.
Как вы могли догадаться из названия, исследование касается того, что происходило с SQL / NoSQL и как первый так и не помер, не смотря на все попытки сделать no-code / low-code штуки, а второй не сильно прижился и почти все инструменты заимели поддержку SQL в том или ином виде.
В итоге:
- это либо выпиливают как MapReduce
- или это получило поддержку транзакций как у Mongo
- или можно писать как SQL запрос, например, у DynamoDB или Mongo
- было заменено на Redis и подобное
В общем, почитайте, чтиво небольшое, но оч прикольное.
@ohmydataengineer
What Goes Around Comes Around... And Around... или SQL Forever.
Удивительно, но я давно не читал пейперов, а тут вывалился случайно в ленте и я с удовольствием прочитал.
Как вы могли догадаться из названия, исследование касается того, что происходило с SQL / NoSQL и как первый так и не помер, не смотря на все попытки сделать no-code / low-code штуки, а второй не сильно прижился и почти все инструменты заимели поддержку SQL в том или ином виде.
В итоге:
- это либо выпиливают как MapReduce
- или это получило поддержку транзакций как у Mongo
- или можно писать как SQL запрос, например, у DynamoDB или Mongo
- было заменено на Redis и подобное
В общем, почитайте, чтиво небольшое, но оч прикольное.
@ohmydataengineer
👍9🔥5❤4💩4👎1🥱1
Начнем неделю со слухов!
(пост для сбора 💩)
Мб это просто ошибка фронтендеров, но насколько я успел почитать расследования твиттер-журналистов, CEO Snowflake посрался с CEO dbt labs (их чуть ли не главным revenue driver) и теперь dbt labs больше не технологический партнер Snowflake. Какие последствия - ну вы поняли 😂
Ну а акции Snowflake продолжают лететь на дно.
@ohmydataengineer
(пост для сбора 💩)
Мб это просто ошибка фронтендеров, но насколько я успел почитать расследования твиттер-журналистов, CEO Snowflake посрался с CEO dbt labs (их чуть ли не главным revenue driver) и теперь dbt labs больше не технологический партнер Snowflake. Какие последствия - ну вы поняли 😂
Ну а акции Snowflake продолжают лететь на дно.
@ohmydataengineer
👍17💩9😢6🔥3
https://xuanwo.io/2024/07-rewrite-bigdata-in-rust
Тред "Rust все заменит в DE" продолжает существовать и если ну уж очень интересно, вот небольшая подборка DE-related тулзов и библиотек, написанных на Rust.
Из самого интересного это Apache DataFusion и daft
@ohmydataengineer
Тред "Rust все заменит в DE" продолжает существовать и если ну уж очень интересно, вот небольшая подборка DE-related тулзов и библиотек, написанных на Rust.
Из самого интересного это Apache DataFusion и daft
@ohmydataengineer
xuanwo.io
Rewrite Bigdata in Rust
Achieving Data Freedom Through Open Source and Rust
👍16💩9👎2
https://vutr.substack.com/p/how-clickhouse-built-their-internal
Одна из технологий, с которой я очень люблю работать - Clickhouse. О том, как сам Clickhouse строит у себя DWH - по ссылке в статье.
Все очень просто: CH, S3, Airflow, Superset и никаких дата волтов.
@ohmydataengineer - канал "🕯 Труба Данных" про работу с данными
Одна из технологий, с которой я очень люблю работать - Clickhouse. О том, как сам Clickhouse строит у себя DWH - по ссылке в статье.
Все очень просто: CH, S3, Airflow, Superset и никаких дата волтов.
@ohmydataengineer - канал "
Please open Telegram to view this post
VIEW IN TELEGRAM
Substack
I spent 5 hours learning how ClickHouse built their internal data warehouse.
19 data sources and a total of 470 TB of compressed data.
🔥25❤10💩6👍2👎1
https://clickhouse.com/blog/clickhouse-release-24-08
И в продолжении темы Clickhouse, последний релиз принес прям очень хорошую фичу - JSON as native type.
По ссылке - релиз-ноуты с примерами
@ohmydataengineer - канал "🕯 Труба Данных" про работу с данными
И в продолжении темы Clickhouse, последний релиз принес прям очень хорошую фичу - JSON as native type.
По ссылке - релиз-ноуты с примерами
@ohmydataengineer - канал "
Please open Telegram to view this post
VIEW IN TELEGRAM
ClickHouse
ClickHouse Release 24.8 LTS
ClickHouse 24.8 LTS is available. In this post, you will learn about the new JOIN datatype and TimeSeries table engine.
🔥13❤5👍2💩1
https://archive.apache.org/dist/spark/spark-4.0.0-preview2/
А я помню времена, когда мы всем селом переезжали с Spark 2 на Spark 3, а оно вон как уже - Spark 4 на подходе!
Все новые фичи:
- видос от Databricks https://www.youtube.com/watch?v=WwVE_be2JuA
- их же слайды (много слайдов) https://drive.google.com/viewerng/viewer?url=https://microsites.databricks.com/sites/default/files/dais/2024/D242404B_2024.06.17.What%25E2%2580%2599s%2520Next%2520for%2520the%2520Upcoming%2520Apache%2520Spark%25204.0_1718511032810001JGNS.pdf
@ohmydataengineer - канал "🕯 Труба Данных" про ток, как мигрировать данные!
А я помню времена, когда мы всем селом переезжали с Spark 2 на Spark 3, а оно вон как уже - Spark 4 на подходе!
Все новые фичи:
- видос от Databricks https://www.youtube.com/watch?v=WwVE_be2JuA
- их же слайды (много слайдов) https://drive.google.com/viewerng/viewer?url=https://microsites.databricks.com/sites/default/files/dais/2024/D242404B_2024.06.17.What%25E2%2580%2599s%2520Next%2520for%2520the%2520Upcoming%2520Apache%2520Spark%25204.0_1718511032810001JGNS.pdf
@ohmydataengineer - канал "
Please open Telegram to view this post
VIEW IN TELEGRAM
YouTube
What’s Next for the Upcoming Apache Spark 4.0?
"The upcoming release of Apache Spark 4.0 delivers substantial enhancements that refine the functionality and augment the developer experience with the unified analytics engine. This presentation will highlight: Spark Connect’s GA for enhanced usability and…
👍14💩2
https://new.mta.info/article/mta-open-data-challenge
Если вы в поисках какого-нибудь пет-проекта или датасета, который можно покрутить, то MTA (Metropolitan Transportation Authority в USA), проводит свой первый Open Data Challenge.
Без каких-либо супер огромных денежных призов, ручка/кружка и пост в блоге☺️ Но датасеты клевые, покрутить можно всякое.
@ohmydataengineer - канал "🕯 Труба Данных", который расскажет про публичные датасеты интересно
Если вы в поисках какого-нибудь пет-проекта или датасета, который можно покрутить, то MTA (Metropolitan Transportation Authority в USA), проводит свой первый Open Data Challenge.
Participants will develop a project that creatively utilizes at least one MTA open dataset.
Whether you're passionate about transportation, technology, or urban planning, this is your chance to dig deeper into MTA’s open data and make a meaningful impact.
Без каких-либо супер огромных денежных призов, ручка/кружка и пост в блоге☺️ Но датасеты клевые, покрутить можно всякое.
@ohmydataengineer - канал "
Please open Telegram to view this post
VIEW IN TELEGRAM
MTA
MTA Open Data Challenge
The MTA is excited to announce our first-ever Open Data Challenge! This month-long competition invites community members, developers, and data enthusiasts to harness the power of MTA's open data.
👍15💩3❤1🔥1
Simon Osipov
https://new.mta.info/article/mta-open-data-challenge Если вы в поисках какого-нибудь пет-проекта или датасета, который можно покрутить, то MTA (Metropolitan Transportation Authority в USA), проводит свой первый Open Data Challenge. Participants will develop…
Мне справедливо заметили, что чтобы официально поучавствовать и подать свой проект - нужно быть резидентом USA.
Придется выкладывать "на сетку" бесплатно 😄
Придется выкладывать "на сетку" бесплатно 😄
💩15