🔋 Труба данных – Telegram
🔋 Труба данных
3.99K subscribers
330 photos
5 videos
9 files
449 links
Авторский канал обо всем, что происходит в мире работы с данными: хранение, обработка, визуализация, как мы принимаем решения и как мы становимся профессионалами в работе с данными.

Автора канала - @SimonOsipov
Download Telegram
https://www.gable.ai/data-contracts-book

ГигаЧад и O'Reilly выкатывают в открытый доступ (правда надо оставить емейл) первую версию книжки про дата контракты.
Как по мне, хайп на эту штуку прошел и чет даже не сильно зудит это применять. Но, возможно, вы что-то подчерпнете для себя!

@ohmydataengineer - канал "🕯Труба Данных" в сомнения про дата контракты
Please open Telegram to view this post
VIEW IN TELEGRAM
💩6👍52
https://vutr.substack.com/p/8-minutes-to-understand-presto

Большая пояснительная статья про работу Presto (ну и в целом Trino работает похожим образом). Все еще сильно советую подписаться на этого парня, он хорошие статьи пишет

@ohmydataengineer - канал "🕯Труба Данных", который ничего умного в этот раз не придумал.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍162💩1
https://www.latent.space/p/2025-papers

Если вы угораете по white-papers и хорошим техническим статьям и публикациям (а не постам в блогах), вот отличный список из 50 статей пол AI Engineering.
Читать не перечитать!

@ohmydataengineer - канал "🕯Труба Данных" набрал себе чтива на недели вперед!
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥7💩4
@ohmydataengineer - канал "🕯Труба Данных" и пятничный юмор!
Please open Telegram to view this post
VIEW IN TELEGRAM
1👍24🔥5😢2💩1
https://www.pracdata.io/p/open-source-data-engineering-landscape-2025

Все вы помните огромные картинки, на которых 17 миллионов логотипов сервисов для данных. Вот эта статья - одна из таких, но тут главная особенность - здесь ТОЛЬКО open source решения, и причем в адекватном количестве. С понятными пояснениями, почему тот или иной инструмент попал в список.

Как всегда, читать эту картинку нужно следующим образом "А что еще есть на рынке в этой сфере кроме X?"


@ohmydataengineer - канал "🕯Труба Данных" и ставшие уже классическими landscapes картинки!
Please open Telegram to view this post
VIEW IN TELEGRAM
1👍23💩52
Когда я отправлял в календарь этот пост, DeepSeek и Mistral еще не взрывали пуканы обычных обывателей интернета.

@ohmydataengineer - канал "🕯Труба Данных" и пятничный юмор!
Please open Telegram to view this post
VIEW IN TELEGRAM
2💩13
Всегда рад помочь хорошим и интересным проектам, чтобы про них узнала аудитория. Сегодня - один из таких случаев!

Привет, это Артемий @onepx, я создатель rushdb.com - передовой базы данных, построенной на базе Neo4j, не требующей конфигурации, моделирования данных и какой-либо нормализации данных.

Это позволяет использовать ее для быстрого прототипирования и разработки agentic решений и приложений без привлечения дорогостоящей backend экспертизы. Вы просто отправляете любые JSON / CSV данные, а RushDB берет на себя всю рутину по нормализации, лэйблингу, установке связей между сущностями и типизации входных данных.

Сегодня у нас случился публичный запуск и мы опубликовали краткий анонс всех возможностей и преимуществ нашего решения.

https://rushdb.com/blog/rushdb-the-zero-config-database-for-modern-apps-and-ai-solutions

RushDB доступен в open-source и в cloud managed варианте.


@ohmydataengineer - канал "🕯Труба Данных" рассказывает про новые базы данных!
Please open Telegram to view this post
VIEW IN TELEGRAM
112
А помните нашумевшую историю, в которой Klarna сократила на 80% штат customer support, потому что заменила всех своим AI?

Все инфлюенсеры предрекали смерть customer support позиций, каждый сервис на своем сайте чат-ботов повнедрял, вся фигня.

Так вот Klarna откатывает это решение и снова набирает персонал🐻‍❄️

(скриншот и новость подсмотрел у сами знаете кого)

@ohmydataengineer - канал "🕯Труба Данных" все еще не заменен на AI
Please open Telegram to view this post
VIEW IN TELEGRAM
👍21💩32🔥1😢1
https://github.com/sinaptik-ai/pandas-ai

Удивительная вещь, которая прошла мимо меня (а существует аж с апреля 2023 года)

Pandas + LLM + BI в одной опенсорс коробке, главное датасет отдай нормальный!🙂

@ohmydataengineer - канал "🕯Труба Данных" немного меньше недолюбливает Pandas
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
💩13🔥6
@ohmydataengineer - канал "🕯Труба Данных" видел всякое дерьмо опытный!
Please open Telegram to view this post
VIEW IN TELEGRAM
👍29💩5🔥1
https://www.sqlnoir.com

Прикольный интерактив по изучению SQL - вы детектив и расследуете криминальные дела.
У вас есть датасет и возможность делать к нему запросы.
🔥251👍1
@ohmydataengineer - канал "🕯Труба Данных" и Вьетнамские флешбеки!
Please open Telegram to view this post
VIEW IN TELEGRAM
😢21👍10💩43
Жаба, гадюка, литкод...

Следите за руками:

- Челик сделал тулзу, чтобы хакать литкод интервью (на самом деле таких много уже, отличаются подходами, где-то опираются на голос и распознавание речи, где-то на видео-поток или скриншоты)

- Прошел с ее помощью в Амазон, снял всё на видео и выложил в Ютуб.

- Амазон обиделся и требует отчисления чувака из универа


Ссылку на конкретно эту тулзу увидите на скриншоте.
Еще пара похожих: ParakeetAI и Final Round AI

Что с этим делать - решать вам =)


А еще

https://x.com/im_roy_lee/status/1895726775185129555
Правда чел говорит, что получил еще кучку офферов, но не планирует ни один принимать и вообще планировал это все давно и литкод интервью это зло. И так как история взорвала твиттур, тут же начали отзывать свои офферы все остальные компании.


@ohmydataengineer - канал "🕯Труба Данных" верил, что время литкода пройдет!
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥275🥱5💩2
https://debezium.io/blog/2025/02/01/real-time-data-replication-with-debezium-and-python/

Говорим Debezium, подразумеваем Kafka как точка, в которую у нас льются эвенты CDC. Казалось бы, самое стандартное и классическое решение, проверенное сотнями разных сетапов.
А вот нет, оказывается можно и без Kafka.

Debezium + CDC + Python + dlt → Real-time PostgreSQL replication

@ohmydataengineer - канал "🕯Труба Данных" удивлен новым подходам!
Please open Telegram to view this post
VIEW IN TELEGRAM
👍231💩1
https://stackoverflow.blog/2025/02/27/our-next-phase-q-and-a-was-just-the-beginning/

SO, хоть и был источником ответов на вопросы (я прекрасно помню что буквально 3 года назад мы первым делом делали поиск в нем, когда пытались исправить баг), но медленно помирал из-за токсичности, gate-keeping и налета элитизма местных бородачей.
А с появлением LLM траффик туда вообще упал до минимума.

Так вот ребята затеяли изменение своей модели и вообще смысла в своем проекте:
The new Stack Overflow will be one built to feel like a personalized homepage—your own technical aggregator. It might collect videos, blogs, Q&A, war stories, jokes, educational materials, jobs, all these formats (or maybe others, we would love to hear your ideas!), and fold them together into one personalized destination. We want this place to be your “third screen”—your entry point to your own neighborhood on the internet.


Что из этого получится?

@ohmydataengineer - канал "🕯Труба Данных", который чуть не забанили за первый вопрос на SO!
Please open Telegram to view this post
VIEW IN TELEGRAM
👍9💩8😢1🥱1
https://newsletter.pragmaticengineer.com/p/trimodal

Обновленная версия той самой известной статьи про три-модальную категоризацию компаний и зарплат в них.
Теперь дополнена данными из levels.fyi

Огромное и наглядное чтиво!

@ohmydataengineer - канал "🕯Труба Данных" подсказывает про зарплаты!
Please open Telegram to view this post
VIEW IN TELEGRAM
👍14💩2
Мы выяснили много классных инсайтов, например:
👉 Главные выводы
👉 Какие задачи решают аналитики
👉 Что с релокацией у аналитиков
👉 Где работают и как работают (удалёнка/офис)
👉 ЗАРПЛАТЫ: как менялись за год и сколько получают аналитики + мы дополнили исследование нашей экспертизой: что повышает или снижает стоимость аналитиков
👉 Откуда пришли в профессию и куда идут дальше
👉 Как ищут работу
👉 ТОП и Анти-ТОП компаний для аналитиков
👉 Что ценят в аналитической культуре
👉 Каких экспертов котируют и за кем следят


Вот такое вот большое исследование у NewHR вышло по аналитикам данных, которое я когда-то вас давно просил помочь заполнить.

▶️ Ссылка на сайт с полными результатами
https://newhr.org/data/research-analysts-2024

С удовольствием делюсь всеми результатами (и безбожно скопировав текст, который мне ребята прислали с важными фактами) 😁


@ohmydataengineer - канал "🕯Труба Данных" сегодня про аналитиков!
Please open Telegram to view this post
VIEW IN TELEGRAM
👍9💩6
Это что за новый зверь?

Были Data Engineers, потом MDS популяризировал лычку Analytics Engineer. А это что за зверь?

https://efds.fa.em5.oraclecloud.com/hcmUI/CandidateExperience/en/sites/CX_1/job/42523

@ohmydataengineer - канал "🕯Труба Данных" говорит об Data Software Developers!
Please open Telegram to view this post
VIEW IN TELEGRAM
💩21🔥5😢4
https://github.com/deepseek-ai/smallpond

Там из каждого утюга уже написали про новый фреймворк который использовал DeepSeek для себя, где они сделали мультинодовый DuckDB и какие-то фантастические цифры якобы показали по обработке (https://github.com/deepseek-ai/3FS?tab=readme-ov-file#2-graysort)

Ну и я тоже напишу об этом 😁

@ohmydataengineer - канал "🕯Труба Данных" почти вовремя пишет новости!
Please open Telegram to view this post
VIEW IN TELEGRAM
💩7👍4
https://arrow.apache.org/blog/2025/01/10/arrow-result-transfer/. и https://arrow.apache.org/blog/2025/02/28/data-wants-to-be-free/

Хорошая парочка технических статей (и будет потом еще несколько) про Apache Arrow и вообще как оно там под капотом.

@ohmydataengineer - канал "🕯Труба Данных" про Apache, но не Airflow!
Please open Telegram to view this post
VIEW IN TELEGRAM
👍12💩2