🔋 Труба данных – Telegram
🔋 Труба данных
3.99K subscribers
330 photos
5 videos
9 files
449 links
Авторский канал обо всем, что происходит в мире работы с данными: хранение, обработка, визуализация, как мы принимаем решения и как мы становимся профессионалами в работе с данными.

Автора канала - @SimonOsipov
Download Telegram
https://www.databricks.com/blog/databricks-tabular

Databricks to acquire Tabulario, a data platform from the original creators of Apache Iceberg.

Какой вывод из этой новости сделать - я не знаю, честно, чего ожидать от Бриксов. Но, кажется, в связи с последними событиями у Snowflake, их позиция на рынке стала посильней.

@ohmydataengineer
💩6👍2
https://www.youtube.com/watch?v=Ik0voaZmf5A&t=30316s (видео с PyCon Italia 2024) и расшифровка https://vickiboykis.com/2024/05/20/dont-worry-about-llms/

Don't Worry About LLM.
Одновременно смешной и технически фундаментальный доклад про то, что происходит с LLM и стоит ли сильно переживать и испытывать FOMO из-за происходящего

@ohmydataengineer
💩3👍2
Пятничный юмор!

@ohmydataengineer
💩20👍12😢8🔥1
https://www.definite.app/blog/duckdb-datawarehouse

А какой был заголовок!
Я уже приготовился ко всякой вкусняшке внутри, про плюсы и минусы, ну и DuckDB, распиаренный не меньше Snowflake...

Но ларчик просто открывался, достаточно смотреть детали: Size of data: 1TB
Ну и, конечно же, DuckDB is designed for single-user workloads and becomes locked and un-queryable during data writes or table edits. To work around this issue, we set up two DuckDB instances, a write-to database and a read-only database...

Как сказали у меня в ленте в твитторе, "Это не Warehouse, это кладовка какая-то"

@ohmydataengineer
👍9🥱92🔥2💩1
Что там по Apache Iceberg?

Несколько новостей, связанных с этим популярным форматом:

- Dremio и REST Catalog - https://www.youtube.com/watch?v=Bkpj7M6yVdQ&list=PL-gIUf9e9CCtmCcXDWkZJob7SLdgEm3ia&index=5
- Snowflake и Polaris Catalog - https://www.snowflake.com/blog/introducing-polaris-catalog/
- Databrics купили Tabular - https://tabular.io/blog/tabular-is-joining-databricks (писал про это ранее)
- Microsoft Fabric добавят Iceberg Support в рамках партнерства с Snowflake - https://www.microsoft.com/en-us/microsoft-fabric/blog/2024/05/22/snowflake-and-microsoft-announce-expansion-of-their-partnership


Собственно, если вы все пропустили и не поняли, а что этот Iceberg такое, то вот прекрасная книжка от O'Reilly, еще и бесплатно - https://hello.dremio.com/wp-apache-iceberg-the-definitive-guide-reg.html

@ohmydataengineer
7💩5🔥2👍1
Пятничный юмор или самый частый вопрос в DE😄

@ohmydataengineer
🔥47😢16👍4💩42
Сколько их уже было: Pandas, Dask, Ray, Polars. Вот еще прибыло - Daft

https://www.getdaft.io/

@ohmydataengineer
🥱21👍7💩4🔥2
Журнал "Зарплатник" @zarplatnik_media

Вот это название, конечно 😄
Ко мне пришел Тагир с канала @tagir_analyzes, попросил рассказать про его канал "Зарплатник" @zarplatnik_media

И раз уж у меня канал на русскоговорящую аудиторию, знания про рынок РФ (условия работы, зарплаты и так далее) - штука актуальная. В канале описываются анонимно позиции в компаниях, бенефиты, условия работы и так далее. Какое-то представление о текущем рынке можно составить.

НО помните, что любая смена работы - штука индивидуальная и ваша компенсация может сильно отличаться (в обе стороны).

@ohmydataengineer
18💩8👍7👎2🔥2
https://medium.com/@fengruohang/database-in-kubernetes-is-that-a-good-idea-daf5775b5c1f

Оч большое внятное чтиво про то, хорошо ли пихать базы данных в кубирнетис (с) или нет.

@ohmydataengineer
👍7💩51🔥1
Пятничный юмор 😄

@ohmydataengineer
🔥325💩3
https://www.notion.so/blog/building-and-scaling-notions-data-lake

О том как Notion стоил свой data lake. Спойлер: начинали также, как Figma, с одного большого Postgres. Потом много шардов Postgres, и только потом Snowflake.
А потом их он заколебал 💩

@ohmydataengineer
🔥15💩4
Пятничный юмор!☺️
👍30💩20🥱1
https://www.canva.dev/blog/engineering/product-analytics-event-collection/

Небольшая статья с поверхностным описанием того, как у Canva (ага, той самой которая жила с одним большим кликом) ведется работа с эвентами.

@ohmydataengineer
💩5👍1
https://www.checklyhq.com/blog/300ms-from-every-pod-startup-with-a-single-grafana-query

Статья не про data engineering, но удивительная борьба за 300ms и savings в $5.5к.

Напомнило историю про бекдор через ssh, когда один из инженеров заметил, что команда выполняется на 0.1 сек дольше


@ohmydataengineer
💩5👍2🔥2
Пятничный юмор☺️
😢13💩6🔥3
Пятничный юмор в виде текста на английском... 😂

@ohmydataengineer
😢24🔥22💩2
https://github.com/Netflix/maestro

Нетфликс выложил свой Workflow as as Service (или просто оркестратор) в open source.
Как, зачем, почему, и другие ответы на вопросы доступны в их статье - https://netflixtechblog.com/maestro-netflixs-workflow-orchestrator-ee13a06f9c78

@ohmydataengineer
🔥12💩41