Баг в отчёте — классика. Вопросы всегда одни и те же:
Без data lineage всё это — ручной форензик в стиле "гуляем по кодовой базе и гадаем".
Что даёт нормальная линейность:
Многие современные тулзы уже умеют в lineage из коробки (dbt, SQLMesh и не только).
Но главный пойнт такой:
Если у тебя нет наглядной lineage-картинки, каждая проблема в данных будет стоить тебе или твоей команде человеко-дней, а не часов.
Порядок в DWH
#dev #de #dwh
Please open Telegram to view this post
VIEW IN TELEGRAM
1 6 3❤🔥1
Со временем в компании становится:
Без единого источника правды ты получаешь войну дашбордов: у маркетинга один LTV, у продукта другой, у финансов третий.
Критически важно держаться одной из двух стратегий (или гибрида):
Общее правило:
Порядок в DWH
#dev #de #dwh
Please open Telegram to view this post
VIEW IN TELEGRAM
1 8 1
Нейродроны от neiry
🚀 Новая эра дронов — живых дронов. Neiry представила своих первых "птиц-биодронов" — реальных голубей с вживлёнными нейроинтерфейсами.
🧠 Как это работает: в мозг птицы имплантируют электроды, подключённые к контроллеру и стимулятору, который размещается в маленьком рюкзачке на спине. С его помощью оператор может задавать маршрут — и птица летит туда, куда нужно.
🌍 Зачем это нужно: такие живые дроны могут использоваться для мониторинга инфраструктуры (линии электропередач, газовые узлы), экологического и промышленного контроля, поисково-спасательных операций, охраны и наблюдения.
🔥 Преимущества перед обычными БПЛА: биодроны автономны — птица ведёт обычную жизнь, а электроника питается от солнечных батарей. Дальность полётов, выносливость и скрытность сильно выше.
❗️ По словам Neiry, проект уже переходит к реальным испытаниям и внедрению — возможно, подобные живые беспилотники мы увидим в деле совсем скоро.
#pigeon #drone #biodrone #bird #neiry
#pigeon #drone #biodrone #bird #neiry
Please open Telegram to view this post
VIEW IN TELEGRAM
neiry.ru
Neiry представляет птиц-биодронов
Соберём картинку целиком.
Если ты хочешь строить быстрые и стабильные модели, которые уважают и бизнес, и инженерию, у тебя должны появиться:
чтобы показывать бизнесу прогресс в их координатах: процессы × разрезы.
чтобы каждая продовая таблица была продуктом с понятными ожиданиями.
чтобы пайплайны были простыми, а история — честной.
constraints, референциальная целостность, reconciliation, variance.
чтобы дебаг был техзадчей, а не расследованием.
чтобы в компании была одна реальность, а не десять.
Это тот редкий случай, когда набор простых практик:
Порядок в DWH
#dev #de #dwh
Please open Telegram to view this post
VIEW IN TELEGRAM
2 5👏2 2 2
DE
pandas 2.0.0 Встречаем новый pandas с Apache Arrow, теперь очень быстро 🐼
Apache Arrow — это попытка решить главные внутренние проблемы pandas, связанные с производительностью, памятью и масштабируемостью. Он даёт эффективное, колонное, близкое к металлу представление данных, что открывает путь к работе с наборами, которые раньше были просто нереалистичны в pandas.
Автор статьи считает, что pandas «сдулся» для тяжёлых задач:
🔘 Когда автор начинал писать pandas в 2008, задачи были проще, рамок не было для анализа сотен гигабайт — внутренности pandas (через BlockManager, NumPy и Python-объекты) были адекватны.
🔘 Современные сценарии часто подразумевают большие данные. По грубой оценке автора, чтобы безопасно работать с датасетом ~10 ГБ, нужно 64–128 ГБ RAM.
🔘 Кроме того, представление строк и других типов через отдельные Python-объекты размазывает данные по куче — жёстко бьёт по памяти и скорости.
В следующих постах расскажу:
🔘 Плюсы Apache Arrow
🔘 Что даёт на практике
🔘 Когда Arrow даёт преимущество
#apache #arrow #pandas #bigdata
Автор статьи считает, что pandas «сдулся» для тяжёлых задач:
В следующих постах расскажу:
#apache #arrow #pandas #bigdata
Please open Telegram to view this post
VIEW IN TELEGRAM
Apache Arrow
The universal columnar format and multi-language toolbox for fast data interchange and in-memory analytics
1 5❤🔥3👏2😁1
Плюсы Apache Arrow
Arrow закладывает новый memory-уровень — колонное, компактное, соседнее в памяти хранение всех значений столбца. Это даёт сразу несколько плюсов:
🟣 Данные хранятся contiguously — т.е. подряд в памяти, что снижает количество промахов кэша и повышает производительность при сканировании столбцов.
🟣 Поддержка null / пропусков (missing data) на уровне битовой маски: отдельная карта битов, быстрая проверка, оптимизация путей, когда null отсутствуют.
🟣 Возможность мемаппинга больших датасетов — работать с таблицами, превышающими RAM, как с mmap-файлами, читать куски данных без загрузки всего.
🟣 Эффективная поддержка категориальных данных (categorical / dictionary types) — не костыли, а родной тип.
🟣 Более "нормальное" добавление данных / апенд — благодаря chunked/streamed колонной структуре, можно делать append без жёсткого переписывания всего столбца.
🟣 Широкая типизация и возможность добавлять новые типы данных с гибким мета-описанием, расширяемое.
То есть Arrow — это фундамент, на котором можно строить более масштабируемые, быстрые и "бигдатаподобные" аналоги pandas-подходов.
Apache Arrow❓
#apache #arrow #pandas #bigdata
Arrow закладывает новый memory-уровень — колонное, компактное, соседнее в памяти хранение всех значений столбца. Это даёт сразу несколько плюсов:
То есть Arrow — это фундамент, на котором можно строить более масштабируемые, быстрые и "бигдатаподобные" аналоги pandas-подходов.
Apache Arrow
#apache #arrow #pandas #bigdata
Please open Telegram to view this post
VIEW IN TELEGRAM
Telegram
DE
Apache Arrow — это попытка решить главные внутренние проблемы pandas, связанные с производительностью, памятью и масштабируемостью. Он даёт эффективное, колонное, близкое к металлу представление данных, что открывает путь к работе с наборами, которые раньше…
2 6❤🔥1 1
Что даёт на практике Arrow
🟢 Быстрая загрузка / выгрузка больших табличных данных — поскольку Arrow ориентирован на колоночное, бинарное хранение, это хорошо подходит для интеграций с базами и форматами вроде Parquet / Feather.
🟢 Возможность работы с данными больше RAM — благодаря памяти-маппингу и chunked-формату, реально обрабатывать большие датасеты, не загружая всё в RAM.
🟢 Более стабильное — и иногда быстрее — создание pandas-объектов при использовании Arrow как промежуточного формата (например, через pyarrow 🔜 pandas) вместо прямого
🟢 Возможность построения более продвинутых вычислительных движков: с query-planning, ленивыми выражениями, многопоточностью, оптимизированной аллокацией памяти — в духе того, как устроены современные БД или big-data фреймворки. Это путь к
Apache Arrow❓
#apache #arrow #pandas #bigdata
pd.DataFrame(...). Есть реальные бенчмарки с 20–35% ускорением в ряде случаев. pandas v2 / next-gen DataFrame-средам.Apache Arrow
#apache #arrow #pandas #bigdata
Please open Telegram to view this post
VIEW IN TELEGRAM
Telegram
DE
Apache Arrow — это попытка решить главные внутренние проблемы pandas, связанные с производительностью, памятью и масштабируемостью. Он даёт эффективное, колонное, близкое к металлу представление данных, что открывает путь к работе с наборами, которые раньше…
Forwarded from 5 minutes of data
DBHub
DBHub — это универсальный сервер баз данных MCP, реализующий интерфейс сервера Model Context Protocol (MCP).
Этот шлюз позволяет клиентам, совместимым с MCP, подключаться и исследовать различные базы данных:
Универсальный шлюз: Единый интерфейс для PostgreSQL, MySQL, MariaDB, SQL Server и SQLite
Безопасный доступ: Режим только для чтения, туннелирование SSH и поддержка шифрования SSL/TLS
Мультибазы данных: Подключение к нескольким базам данных одновременно с конфигурацией TOML
Готов к продакшену: Ограничение строк, контроль таймаута блокировок и пул соединений
Нативный MCP: Полная реализация Model Context Protocol с ресурсами, инструментами и промптами
Теперь можно не костылить Text-to-SQL а использовать готовый MCP.
Но как и всегда с AI инструментами, нужно быть осторожным, так как DBHub может
@five_minutes_of_data
DBHub — это универсальный сервер баз данных MCP, реализующий интерфейс сервера Model Context Protocol (MCP).
Этот шлюз позволяет клиентам, совместимым с MCP, подключаться и исследовать различные базы данных:
Универсальный шлюз: Единый интерфейс для PostgreSQL, MySQL, MariaDB, SQL Server и SQLite
Безопасный доступ: Режим только для чтения, туннелирование SSH и поддержка шифрования SSL/TLS
Мультибазы данных: Подключение к нескольким базам данных одновременно с конфигурацией TOML
Готов к продакшену: Ограничение строк, контроль таймаута блокировок и пул соединений
Нативный MCP: Полная реализация Model Context Protocol с ресурсами, инструментами и промптами
Теперь можно не костылить Text-to-SQL а использовать готовый MCP.
Но как и всегда с AI инструментами, нужно быть осторожным, так как DBHub может
Execute SQL queries directly from AI tools:
- Run SELECT queries for data analysis
- Execute DDL/DML in read-write mode
- Support for parameterized queries
- Multi-statement execution with transaction support
@five_minutes_of_data
DBHub
Introduction - DBHub
1 5❤🔥2👏2
Когда Arrow даёт преимущество
Реальный плюс ты увидишь в таких задачах, где:
🔵 наборы данных большие — десятки/сотни ГБ;
🔵 есть необходимость частых чтений/записей, обменов с БД, файлами, потоками данных;
🔵 важна память и скорость — например, в системах ML, аналитики, ETL-конвейерах;
🔵 нужно interop между разными языками / системами;
🔵 хочется масштабировать (мемаппинг, параллельность, out-of-core).
То есть — во многих real-world сценариях, где pandas переходит из удобной игрушки» в узкое место.
Если ты работаешь с большими данными, ETL, перемещениями между системами, хранением в Parquet/Feather, или просто хочешь, чтобы твоё Python-data-решение было максимально надёжным и масштабируемым — Arrow однозначно стоит держать в арсенале. Это как сменить инструменты для анализа на ноутбуке на инструменты для продакшн-данных.
Apache Arrow❓
#apache #arrow #pandas #bigdata
Реальный плюс ты увидишь в таких задачах, где:
То есть — во многих real-world сценариях, где pandas переходит из удобной игрушки» в узкое место.
Если ты работаешь с большими данными, ETL, перемещениями между системами, хранением в Parquet/Feather, или просто хочешь, чтобы твоё Python-data-решение было максимально надёжным и масштабируемым — Arrow однозначно стоит держать в арсенале. Это как сменить инструменты для анализа на ноутбуке на инструменты для продакшн-данных.
Apache Arrow
#apache #arrow #pandas #bigdata
Please open Telegram to view this post
VIEW IN TELEGRAM
Telegram
DE
Apache Arrow — это попытка решить главные внутренние проблемы pandas, связанные с производительностью, памятью и масштабируемостью. Он даёт эффективное, колонное, близкое к металлу представление данных, что открывает путь к работе с наборами, которые раньше…
Forwarded from 5 minutes of data
🎄 Сегодня стартовал Advent of Code 2025
Если вдруг не слышали — это цифровой адвент-календарь для разработчиков.
Каждый день до Рождества выходит новый пазл, который можно решить на любом языке программирования.
Mногие используют AOC как повод наконец-то потрогать язык, который давно хотел попробовать.
Кто-то вообще решает задачи на SQL.
Для многих Advent of Code — зимний ритуал: кофе, уют и ежедневная задачка, от которой иногда приятно плавится мозг.
Если искали причину попробовать новый язык — она появилась.
А если просто хочется немного игровой мотивации в декабре — тоже отлично подходит.
А вот тут можно посмотреть, как решают первый день на bash
Happy coding! 🎁
Если вдруг не слышали — это цифровой адвент-календарь для разработчиков.
Каждый день до Рождества выходит новый пазл, который можно решить на любом языке программирования.
Mногие используют AOC как повод наконец-то потрогать язык, который давно хотел попробовать.
Кто-то вообще решает задачи на SQL.
Для многих Advent of Code — зимний ритуал: кофе, уют и ежедневная задачка, от которой иногда приятно плавится мозг.
Если искали причину попробовать новый язык — она появилась.
А если просто хочется немного игровой мотивации в декабре — тоже отлично подходит.
А вот тут можно посмотреть, как решают первый день на bash
Happy coding! 🎁
YouTube
Advent of Code 2025 - Day 1! Racing Badcop
Yo what's up everyone my name's dave and you suck at programming.
🔗 More Links
Website → https://ysap.sh
Twitch → https://ysap.sh/twitch
Discord → https://ysap.sh/discord
Instagram → https://ysap.sh/instagram
TikTok → https://ysap.sh/tiktok
YouTube → ht…
🔗 More Links
Website → https://ysap.sh
Twitch → https://ysap.sh/twitch
Discord → https://ysap.sh/discord
Instagram → https://ysap.sh/instagram
TikTok → https://ysap.sh/tiktok
YouTube → ht…