NEW BOT Телеграм, страница - 679579172

🔋 Труба данных

@ohmydataengineer

4.05K subscribers

330 photos

5 videos

9 files

451 links

Авторский канал обо всем, что происходит в мире работы с данными: хранение, обработка, визуализация, как мы принимаем решения и как мы становимся профессионалами в работе с данными.

Автора канала - @SimonOsipov

Download Telegram

About

Blog

Apps

Platform

🔋 Труба данных

4.05K subscribers

🔋 Труба данных

Forwarded from В IT чудес не бывает (Maxim Shulga)

Тема недели в #it_memes

🔥15💩4👍3❤2

3.34K viewsSimon Osipov, 06:28

🔋 Труба данных

https://medium.com/intuit-engineering/how-intuit-data-analysts-write-sql-2x-faster-with-internal-genai-tool-c3b9d482208a

В продолжении прошлого пятничного мема, количество платформ и сервисов, которые за денюжку, подключиться к DWH и делать там запросики - увеличилось в 10 раз. И стоит это много, а вот поднять простенький https://huggingface.co/tsdocode/text-to-sql и натравить на мету - не, спасибо.

В статье, кстати, описан второй подход и оч даже хорошие результаты.

@ohmydataengineer

How Intuit data analysts write SQL 2x faster with internal GenAI tool

Reporting on the productivity impact of SQL generation with generative AI.

👍6💩3

3.38K viewsSimon Osipov, 08:18

🔋 Труба данных

https://github.com/airbnb/chronon

Airbnb выложил в открытый доступ то ли фичастор, то ли аггрегатор семантического слоя, то ли что то для AI 😂

Chronon is a platform that abstracts away the complexity of data computation and serving for AI/ML applications. Users define features as transformation of raw data, then Chronon can perform batch and streaming computation, scalable backfills, low-latency serving, guaranteed correctness and consistency, as well as a host of observability and monitoring tools.

It allows you to utilize all of the data within your organization, from batch tables, event streams or services to power your AI/ML projects, without needing to worry about all the complex orchestration that this would usually entail.

More information about Chronon can be found at chronon.ai.

@ohmydataengineer

GitHub - airbnb/chronon: Chronon is a data platform for serving for AI/ML applications.

Chronon is a data platform for serving for AI/ML applications. - airbnb/chronon

💩8❤2🔥2👍1

3.33K viewsSimon Osipov, 08:50

🔋 Труба данных

Коллеги делятся прекрасным из IL рынка бихдаты!

@ohmydataengineer

💩14😢11❤1🔥1

3.98K viewsSimon Osipov, 08:54

🔋 Труба данных

Пятничный юмор!

Не постил ничего почти месяц. А вас стало только больше 😱
Пора возвращаться в ритм.

@ohmydataengineer

🔥20😢11👍6❤4💩3

3.19K viewsSimon Osipov, 08:10

🔋 Труба данных

https://blog.picnic.nl/7-antifragile-principles-for-a-successful-data-warehouse-574b655f0bc6

В последнее время приходится много делать архитектурных задач, поэтому вытаскиваю из списка "Прочитать позже" всякие статейки про архитектуру и подходы в проектировании.

@ohmydataengineer

7 Antifragile Principles for a Successful Data Warehouse

The best of two worlds — the structure and quality of a centralized data warehouse combined with the agility of antifragile processes

👍6🔥4❤3💩3

4.5K viewsSimon Osipov, 08:24

🔋 Труба данных

https://mattermost.com/blog/making-a-postgres-query-1000-times-faster/

Обычно мне кидают какашонков на то, что статьи оч поверхностные или, еще хуже, не релевантные.
Сегодня, надеюсь, не такая 😂

На деле, конечно, ничего необычного и без серебрянных пуль, просто было приятно и полезно читать ход чужих мыслей, когда люди дебажат долгие запросы.

@ohmydataengineer

Making a Postgres query 1,000 times faster

Learn how we discovered what was slowing down large database queries, and what we did to make Postgres queries 1000x faster.

👍15💩15

2.8K viewsSimon Osipov, 08:23

🔋 Труба данных

https://habr.com/ru/companies/lamoda/articles/810705/

К сожалению, в России инженерные блоги компаний ведутся на Хабре, а не на stand-alone ресурсах.
Однако это не мешает появлению там интересных статей с деталями и разборами.

Например, у Lamoda про Spark & Airflow.

@ohmydataengineer

Рулим запуском Spark-приложений в Airflow с помощью самописного оператора

Airflow в Lamoda Tech играет роль оркестратора процессов обработки данных. Ежедневно с его помощью мы запускаем 1 800+ тасок на проде, примерно половина из которых являются Spark-приложениями. Все...

👍9🔥4💩4👎1🥱1

4.23K viewsSimon Osipov, edited 08:31

🔋 Труба данных

https://www.thdpth.com/p/whats-wrong-with-bi

Достаточно простой, но очень верный текст про текущее состояние BI. Главные пункты из статьи:

- Self-serve это красивая идея с очень фиговой реализацией
- BI используется теми, кто умеет им пользоваться, а не теми, кто должен (привет, эксельки для C-level)
- BI это дашборды и репорты, а должно быть support in decision making. Дашборды ради дашбордов, минимальное понимание зачем появляется на экране та или иная метрика и что с ней делать, если она изменяется.

@ohmydataengineer

👍12🔥5❤2💩2😢1

2.75K viewsSimon Osipov, 07:58

🔋 Труба данных

https://tech.instacart.com/real-time-fraud-detection-with-yoda-and-clickhouse-bd08e9dbe3f4

Чем больше я смотрю и читаю про Clickhouse, тем больше я впечатляюсь его скоростью и работоспособностью прожевывать все и вся на гигантских объемах.

@ohmydataengineer

Real-time Fraud Detection with Yoda and ClickHouse

Authors: Nick Shieh, Shen Zhu, Xiaobing Xia

💩12👍5🔥1

2.71K viewsSimon Osipov, 08:02

🔋 Труба данных

Media is too big

VIEW IN TELEGRAM

Media is too big

VIEW IN TELEGRAM

Пятничный юмор

Кажется, технические конференции и презентации свернули куда-то не туда.

Первое видео с презентации Canva, второе - Google I/O.

(дед кричит на облако: дурацкое GenZ)

@ohmydataengineer

💩10😢7❤2👎1

2.44K viewsSimon Osipov, 07:43

🔋 Труба данных

https://www.bbc.com/news/articles/c6ppv06e3n8o

Santander, Ticketmaster и еще у кучки других компаний украли данные из-за Snowflake. Последние, конечно, многое отрицают, но также есть и официальное заявление про всякое. https://medium.com/snowflake/detecting-and-preventing-unauthorized-user-access-d67be8bd66f6

Не говоря уже про то, что всем админам разослали уведомление про включение MFA.

P.S. Больше подробностей по ссылке тут https://doublepulsar.com/snowflake-at-central-of-worlds-largest-data-breach-939fc400912e

@ohmydataengineer

Santander staff and '30 million' customers hacked

Their data is being sold online by the same gang who this week claimed to have hacked Ticketmaster.

😢9💩4🥱2👍1

2.41K viewsSimon Osipov, edited 09:44

🔋 Труба данных

https://www.wsj.com/articles/sorry-ai-old-school-spreadsheets-are-still-king-cbb99936

WSJ повторяет примерно тоже самое, о чем я думал последние N-месяцев: Excel никуда не исчезнет и если вы думаете, что натравив LLM на эксельки и вы получите супермозг, вы ошибаетесь.
Вы же помните, сколько экселек было нагенерированно, как они меняются, как они поддерживаются и так далее?

@ohmydataengineer

The Wall Street Journal

Sorry AI, Old-School Spreadsheets Are Still King

Organizations aren’t moving away from decades-old tools like Microsoft Excel anytime soon. Some say that hampers their ability to make the most of AI.

👍12💩6❤1

2.34K viewsSimon Osipov, 07:19

🔋 Труба данных

https://www.cnews.ru/news/line/2024-05-31_situatsiya_s_greenplum_ne_okazhet

Ну и вот еще из новостей - Broadcom сделала все репозитории с Greenplum архивными и, кажется, что развитие GP теперь будет происходить за пределами Open Source.
Например, у Arenadata остался свой форк.

@ohmydataengineer

Ситуация с Greenplum не окажет негативного влияния на развитие Arenadata DB - CNews

Статус всех публичных репозиториев GPDB (международный проект с открытым исходным кодом Greenplum) на GitHub изменен...

😢17💩6❤2👍1🔥1

2.7K viewsSimon Osipov, 10:02

🔋 Труба данных

https://www.databricks.com/blog/databricks-tabular

Databricks to acquire Tabulario, a data platform from the original creators of Apache Iceberg.

Какой вывод из этой новости сделать - я не знаю, честно, чего ожидать от Бриксов. Но, кажется, в связи с последними событиями у Snowflake, их позиция на рынке стала посильней.

@ohmydataengineer

💩6👍2

2.58K viewsSimon Osipov, 06:37

🔋 Труба данных

https://www.youtube.com/watch?v=Ik0voaZmf5A&t=30316s (видео с PyCon Italia 2024) и расшифровка https://vickiboykis.com/2024/05/20/dont-worry-about-llms/

Don't Worry About LLM.
Одновременно смешной и технически фундаментальный доклад про то, что происходит с LLM и стоит ли сильно переживать и испытывать FOMO из-за происходящего

@ohmydataengineer

PyCon Italia 2024 - Lasagna - Saturday

💩3👍2

2.75K viewsSimon Osipov, 07:37

🔋 Труба данных

Пятничный юмор!

@ohmydataengineer

💩20👍12😢9🔥1

3.48K viewsSimon Osipov, 08:26

🔋 Труба данных

https://www.definite.app/blog/duckdb-datawarehouse

А какой был заголовок!
Я уже приготовился ко всякой вкусняшке внутри, про плюсы и минусы, ну и DuckDB, распиаренный не меньше Snowflake...

Но ларчик просто открывался, достаточно смотреть детали: Size of data: 1TB
Ну и, конечно же, DuckDB is designed for single-user workloads and becomes locked and un-queryable during data writes or table edits. To work around this issue, we set up two DuckDB instances, a write-to database and a read-only database...

Как сказали у меня в ленте в твитторе, "Это не Warehouse, это кладовка какая-то"

@ohmydataengineer

How We Migrated Our Data Warehouse from Snowflake to DuckDB | Definite

👍9🥱9❤2🔥2💩1

2.85K viewsSimon Osipov, 07:41

🔋 Труба данных

Что там по Apache Iceberg?

Несколько новостей, связанных с этим популярным форматом:

- Dremio и REST Catalog - https://www.youtube.com/watch?v=Bkpj7M6yVdQ&list=PL-gIUf9e9CCtmCcXDWkZJob7SLdgEm3ia&index=5
- Snowflake и Polaris Catalog - https://www.snowflake.com/blog/introducing-polaris-catalog/
- Databrics купили Tabular - https://tabular.io/blog/tabular-is-joining-databricks (писал про это ранее)
- Microsoft Fabric добавят Iceberg Support в рамках партнерства с Snowflake - https://www.microsoft.com/en-us/microsoft-fabric/blog/2024/05/22/snowflake-and-microsoft-announce-expansion-of-their-partnership

Собственно, если вы все пропустили и не поняли, а что этот Iceberg такое, то вот прекрасная книжка от O'Reilly, еще и бесплатно - https://hello.dremio.com/wp-apache-iceberg-the-definitive-guide-reg.html

@ohmydataengineer

❤7💩5🔥2👍1

2.89K viewsSimon Osipov, 09:57

🔋 Труба данных

Пятничный юмор или самый частый вопрос в DE😄

@ohmydataengineer

🔥48😢16👍4💩4❤2

3.21K viewsSimon Osipov, 08:51