🔋 Труба данных – Telegram
🔋 Труба данных
3.99K subscribers
330 photos
5 videos
9 files
449 links
Авторский канал обо всем, что происходит в мире работы с данными: хранение, обработка, визуализация, как мы принимаем решения и как мы становимся профессионалами в работе с данными.

Автора канала - @SimonOsipov
Download Telegram
Рекрутеры используют AI, чтобы отсеивать нерелевантные отклики.

А можно просто фильтровать по словам и сразу всех "автоматизаторов откликов" выявить 😂

@ohmydataengineer - канал "🕯Труба Данных" и пятничный юмор!
Please open Telegram to view this post
VIEW IN TELEGRAM
13💩4👍1😢1
https://www.astronomer.io/ebooks/apache-airflow-best-practices-etl-elt-pipelines/

Астрономер (главный контрибьютор Airflow) раздает книжку по best practices в Airflow. Ничего сверхестественного, но кажется вполне себе годным чтивом, обновить знания.

@ohmydataengineer - канал "🕯Труба Данных" любит Airflow, как бы его не хейтили
Please open Telegram to view this post
VIEW IN TELEGRAM
15👍7🔥2💩2
https://www.warpstream.com

Warpstream
Кстати, забыл рассказать, что я наткнулся на прикольный продукт от Confluent: Kafka, только вместо памяти на машинах - датка лежит в бакетах.
Да, скорость будет поменьше, но и ценник сильно меньше 😏

@ohmydataengineer - канал "🕯Труба Данных" радуется прикольным незнакомым инструментам!
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥7💩2
https://medium.com/strava-engineering/rain-a-key-value-store-for-stravas-scale-7f580f5b4848

У меня love / hate relationships с бегом: когда-то я его любил, бегал марафоны, потом ненавидел, потом снова любил, потом снова ненавидел, ну вы поняли =)
И каждый раз я продолжал загружать свои пробежки в Strava.

Наткнулся тут на их инженерный блог и прикольную статью о том, что они там изобрели в качестве хранилищ для определенного типа данных и вообще как там у них устроено.

@ohmydataengineer - канал "🕯Труба Данных" про технологии в продуктах, которыми пользуемся ежедневно!
Please open Telegram to view this post
VIEW IN TELEGRAM
👍96💩3
https://clickhouse.com/blog/json-bench-clickhouse-vs-mongodb-elasticsearch-duckdb-postgresql

Вы будете кидать 💩, но я опять про Clickhouse
Огромная статья с технической мяготкой про 1 Billion JSON Challenge и насколько новый нативный тип JSON в клике работает быстрей и эффективней по памяти и стораджу по сравнению с другими базами данных.


@ohmydataengineer - канал "🕯Труба Данных" в очередной раз про одно и то же!
Please open Telegram to view this post
VIEW IN TELEGRAM
💩18👍121🔥1
Нам тут обещают, что скоро AI agents нас всех заменят.

Так вроде бы уже такие системы работают....

@ohmydataengineer - канал "🕯Труба Данных" и пятничный юмор!
Please open Telegram to view this post
VIEW IN TELEGRAM
😢7👍2💩2🔥1🥱1
https://www.gable.ai/data-contracts-book

ГигаЧад и O'Reilly выкатывают в открытый доступ (правда надо оставить емейл) первую версию книжки про дата контракты.
Как по мне, хайп на эту штуку прошел и чет даже не сильно зудит это применять. Но, возможно, вы что-то подчерпнете для себя!

@ohmydataengineer - канал "🕯Труба Данных" в сомнения про дата контракты
Please open Telegram to view this post
VIEW IN TELEGRAM
💩6👍52
https://vutr.substack.com/p/8-minutes-to-understand-presto

Большая пояснительная статья про работу Presto (ну и в целом Trino работает похожим образом). Все еще сильно советую подписаться на этого парня, он хорошие статьи пишет

@ohmydataengineer - канал "🕯Труба Данных", который ничего умного в этот раз не придумал.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍162💩1
https://www.latent.space/p/2025-papers

Если вы угораете по white-papers и хорошим техническим статьям и публикациям (а не постам в блогах), вот отличный список из 50 статей пол AI Engineering.
Читать не перечитать!

@ohmydataengineer - канал "🕯Труба Данных" набрал себе чтива на недели вперед!
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥7💩4
@ohmydataengineer - канал "🕯Труба Данных" и пятничный юмор!
Please open Telegram to view this post
VIEW IN TELEGRAM
1👍24🔥5😢2💩1
https://www.pracdata.io/p/open-source-data-engineering-landscape-2025

Все вы помните огромные картинки, на которых 17 миллионов логотипов сервисов для данных. Вот эта статья - одна из таких, но тут главная особенность - здесь ТОЛЬКО open source решения, и причем в адекватном количестве. С понятными пояснениями, почему тот или иной инструмент попал в список.

Как всегда, читать эту картинку нужно следующим образом "А что еще есть на рынке в этой сфере кроме X?"


@ohmydataengineer - канал "🕯Труба Данных" и ставшие уже классическими landscapes картинки!
Please open Telegram to view this post
VIEW IN TELEGRAM
1👍23💩52
Когда я отправлял в календарь этот пост, DeepSeek и Mistral еще не взрывали пуканы обычных обывателей интернета.

@ohmydataengineer - канал "🕯Труба Данных" и пятничный юмор!
Please open Telegram to view this post
VIEW IN TELEGRAM
2💩13
Всегда рад помочь хорошим и интересным проектам, чтобы про них узнала аудитория. Сегодня - один из таких случаев!

Привет, это Артемий @onepx, я создатель rushdb.com - передовой базы данных, построенной на базе Neo4j, не требующей конфигурации, моделирования данных и какой-либо нормализации данных.

Это позволяет использовать ее для быстрого прототипирования и разработки agentic решений и приложений без привлечения дорогостоящей backend экспертизы. Вы просто отправляете любые JSON / CSV данные, а RushDB берет на себя всю рутину по нормализации, лэйблингу, установке связей между сущностями и типизации входных данных.

Сегодня у нас случился публичный запуск и мы опубликовали краткий анонс всех возможностей и преимуществ нашего решения.

https://rushdb.com/blog/rushdb-the-zero-config-database-for-modern-apps-and-ai-solutions

RushDB доступен в open-source и в cloud managed варианте.


@ohmydataengineer - канал "🕯Труба Данных" рассказывает про новые базы данных!
Please open Telegram to view this post
VIEW IN TELEGRAM
112
А помните нашумевшую историю, в которой Klarna сократила на 80% штат customer support, потому что заменила всех своим AI?

Все инфлюенсеры предрекали смерть customer support позиций, каждый сервис на своем сайте чат-ботов повнедрял, вся фигня.

Так вот Klarna откатывает это решение и снова набирает персонал🐻‍❄️

(скриншот и новость подсмотрел у сами знаете кого)

@ohmydataengineer - канал "🕯Труба Данных" все еще не заменен на AI
Please open Telegram to view this post
VIEW IN TELEGRAM
👍21💩32🔥1😢1
https://github.com/sinaptik-ai/pandas-ai

Удивительная вещь, которая прошла мимо меня (а существует аж с апреля 2023 года)

Pandas + LLM + BI в одной опенсорс коробке, главное датасет отдай нормальный!🙂

@ohmydataengineer - канал "🕯Труба Данных" немного меньше недолюбливает Pandas
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
💩13🔥6
@ohmydataengineer - канал "🕯Труба Данных" видел всякое дерьмо опытный!
Please open Telegram to view this post
VIEW IN TELEGRAM
👍29💩5🔥1
https://www.sqlnoir.com

Прикольный интерактив по изучению SQL - вы детектив и расследуете криминальные дела.
У вас есть датасет и возможность делать к нему запросы.
🔥251👍1
@ohmydataengineer - канал "🕯Труба Данных" и Вьетнамские флешбеки!
Please open Telegram to view this post
VIEW IN TELEGRAM
😢21👍10💩43
Жаба, гадюка, литкод...

Следите за руками:

- Челик сделал тулзу, чтобы хакать литкод интервью (на самом деле таких много уже, отличаются подходами, где-то опираются на голос и распознавание речи, где-то на видео-поток или скриншоты)

- Прошел с ее помощью в Амазон, снял всё на видео и выложил в Ютуб.

- Амазон обиделся и требует отчисления чувака из универа


Ссылку на конкретно эту тулзу увидите на скриншоте.
Еще пара похожих: ParakeetAI и Final Round AI

Что с этим делать - решать вам =)


А еще

https://x.com/im_roy_lee/status/1895726775185129555
Правда чел говорит, что получил еще кучку офферов, но не планирует ни один принимать и вообще планировал это все давно и литкод интервью это зло. И так как история взорвала твиттур, тут же начали отзывать свои офферы все остальные компании.


@ohmydataengineer - канал "🕯Труба Данных" верил, что время литкода пройдет!
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥275🥱5💩2
https://debezium.io/blog/2025/02/01/real-time-data-replication-with-debezium-and-python/

Говорим Debezium, подразумеваем Kafka как точка, в которую у нас льются эвенты CDC. Казалось бы, самое стандартное и классическое решение, проверенное сотнями разных сетапов.
А вот нет, оказывается можно и без Kafka.

Debezium + CDC + Python + dlt → Real-time PostgreSQL replication

@ohmydataengineer - канал "🕯Труба Данных" удивлен новым подходам!
Please open Telegram to view this post
VIEW IN TELEGRAM
👍231💩1