Соберём картинку целиком.
Если ты хочешь строить быстрые и стабильные модели, которые уважают и бизнес, и инженерию, у тебя должны появиться:
чтобы показывать бизнесу прогресс в их координатах: процессы × разрезы.
чтобы каждая продовая таблица была продуктом с понятными ожиданиями.
чтобы пайплайны были простыми, а история — честной.
constraints, референциальная целостность, reconciliation, variance.
чтобы дебаг был техзадчей, а не расследованием.
чтобы в компании была одна реальность, а не десять.
Это тот редкий случай, когда набор простых практик:
Порядок в DWH
#dev #de #dwh
Please open Telegram to view this post
VIEW IN TELEGRAM
2 5👏2 2 2
DE
pandas 2.0.0 Встречаем новый pandas с Apache Arrow, теперь очень быстро 🐼
Apache Arrow — это попытка решить главные внутренние проблемы pandas, связанные с производительностью, памятью и масштабируемостью. Он даёт эффективное, колонное, близкое к металлу представление данных, что открывает путь к работе с наборами, которые раньше были просто нереалистичны в pandas.
Автор статьи считает, что pandas «сдулся» для тяжёлых задач:
🔘 Когда автор начинал писать pandas в 2008, задачи были проще, рамок не было для анализа сотен гигабайт — внутренности pandas (через BlockManager, NumPy и Python-объекты) были адекватны.
🔘 Современные сценарии часто подразумевают большие данные. По грубой оценке автора, чтобы безопасно работать с датасетом ~10 ГБ, нужно 64–128 ГБ RAM.
🔘 Кроме того, представление строк и других типов через отдельные Python-объекты размазывает данные по куче — жёстко бьёт по памяти и скорости.
В следующих постах расскажу:
🔘 Плюсы Apache Arrow
🔘 Что даёт на практике
🔘 Когда Arrow даёт преимущество
#apache #arrow #pandas #bigdata
Автор статьи считает, что pandas «сдулся» для тяжёлых задач:
В следующих постах расскажу:
#apache #arrow #pandas #bigdata
Please open Telegram to view this post
VIEW IN TELEGRAM
Apache Arrow
The universal columnar format and multi-language toolbox for fast data interchange and in-memory analytics
1 5❤🔥3👏2😁1
Плюсы Apache Arrow
Arrow закладывает новый memory-уровень — колонное, компактное, соседнее в памяти хранение всех значений столбца. Это даёт сразу несколько плюсов:
🟣 Данные хранятся contiguously — т.е. подряд в памяти, что снижает количество промахов кэша и повышает производительность при сканировании столбцов.
🟣 Поддержка null / пропусков (missing data) на уровне битовой маски: отдельная карта битов, быстрая проверка, оптимизация путей, когда null отсутствуют.
🟣 Возможность мемаппинга больших датасетов — работать с таблицами, превышающими RAM, как с mmap-файлами, читать куски данных без загрузки всего.
🟣 Эффективная поддержка категориальных данных (categorical / dictionary types) — не костыли, а родной тип.
🟣 Более "нормальное" добавление данных / апенд — благодаря chunked/streamed колонной структуре, можно делать append без жёсткого переписывания всего столбца.
🟣 Широкая типизация и возможность добавлять новые типы данных с гибким мета-описанием, расширяемое.
То есть Arrow — это фундамент, на котором можно строить более масштабируемые, быстрые и "бигдатаподобные" аналоги pandas-подходов.
Apache Arrow❓
#apache #arrow #pandas #bigdata
Arrow закладывает новый memory-уровень — колонное, компактное, соседнее в памяти хранение всех значений столбца. Это даёт сразу несколько плюсов:
То есть Arrow — это фундамент, на котором можно строить более масштабируемые, быстрые и "бигдатаподобные" аналоги pandas-подходов.
Apache Arrow
#apache #arrow #pandas #bigdata
Please open Telegram to view this post
VIEW IN TELEGRAM
Telegram
DE
Apache Arrow — это попытка решить главные внутренние проблемы pandas, связанные с производительностью, памятью и масштабируемостью. Он даёт эффективное, колонное, близкое к металлу представление данных, что открывает путь к работе с наборами, которые раньше…
2 6❤🔥1 1
Что даёт на практике Arrow
🟢 Быстрая загрузка / выгрузка больших табличных данных — поскольку Arrow ориентирован на колоночное, бинарное хранение, это хорошо подходит для интеграций с базами и форматами вроде Parquet / Feather.
🟢 Возможность работы с данными больше RAM — благодаря памяти-маппингу и chunked-формату, реально обрабатывать большие датасеты, не загружая всё в RAM.
🟢 Более стабильное — и иногда быстрее — создание pandas-объектов при использовании Arrow как промежуточного формата (например, через pyarrow 🔜 pandas) вместо прямого
🟢 Возможность построения более продвинутых вычислительных движков: с query-planning, ленивыми выражениями, многопоточностью, оптимизированной аллокацией памяти — в духе того, как устроены современные БД или big-data фреймворки. Это путь к
Apache Arrow❓
#apache #arrow #pandas #bigdata
pd.DataFrame(...). Есть реальные бенчмарки с 20–35% ускорением в ряде случаев. pandas v2 / next-gen DataFrame-средам.Apache Arrow
#apache #arrow #pandas #bigdata
Please open Telegram to view this post
VIEW IN TELEGRAM
Telegram
DE
Apache Arrow — это попытка решить главные внутренние проблемы pandas, связанные с производительностью, памятью и масштабируемостью. Он даёт эффективное, колонное, близкое к металлу представление данных, что открывает путь к работе с наборами, которые раньше…
Forwarded from 5 minutes of data
DBHub
DBHub — это универсальный сервер баз данных MCP, реализующий интерфейс сервера Model Context Protocol (MCP).
Этот шлюз позволяет клиентам, совместимым с MCP, подключаться и исследовать различные базы данных:
Универсальный шлюз: Единый интерфейс для PostgreSQL, MySQL, MariaDB, SQL Server и SQLite
Безопасный доступ: Режим только для чтения, туннелирование SSH и поддержка шифрования SSL/TLS
Мультибазы данных: Подключение к нескольким базам данных одновременно с конфигурацией TOML
Готов к продакшену: Ограничение строк, контроль таймаута блокировок и пул соединений
Нативный MCP: Полная реализация Model Context Protocol с ресурсами, инструментами и промптами
Теперь можно не костылить Text-to-SQL а использовать готовый MCP.
Но как и всегда с AI инструментами, нужно быть осторожным, так как DBHub может
@five_minutes_of_data
DBHub — это универсальный сервер баз данных MCP, реализующий интерфейс сервера Model Context Protocol (MCP).
Этот шлюз позволяет клиентам, совместимым с MCP, подключаться и исследовать различные базы данных:
Универсальный шлюз: Единый интерфейс для PostgreSQL, MySQL, MariaDB, SQL Server и SQLite
Безопасный доступ: Режим только для чтения, туннелирование SSH и поддержка шифрования SSL/TLS
Мультибазы данных: Подключение к нескольким базам данных одновременно с конфигурацией TOML
Готов к продакшену: Ограничение строк, контроль таймаута блокировок и пул соединений
Нативный MCP: Полная реализация Model Context Protocol с ресурсами, инструментами и промптами
Теперь можно не костылить Text-to-SQL а использовать готовый MCP.
Но как и всегда с AI инструментами, нужно быть осторожным, так как DBHub может
Execute SQL queries directly from AI tools:
- Run SELECT queries for data analysis
- Execute DDL/DML in read-write mode
- Support for parameterized queries
- Multi-statement execution with transaction support
@five_minutes_of_data
DBHub
Introduction - DBHub
1 5❤🔥2👏2
Когда Arrow даёт преимущество
Реальный плюс ты увидишь в таких задачах, где:
🔵 наборы данных большие — десятки/сотни ГБ;
🔵 есть необходимость частых чтений/записей, обменов с БД, файлами, потоками данных;
🔵 важна память и скорость — например, в системах ML, аналитики, ETL-конвейерах;
🔵 нужно interop между разными языками / системами;
🔵 хочется масштабировать (мемаппинг, параллельность, out-of-core).
То есть — во многих real-world сценариях, где pandas переходит из удобной игрушки» в узкое место.
Если ты работаешь с большими данными, ETL, перемещениями между системами, хранением в Parquet/Feather, или просто хочешь, чтобы твоё Python-data-решение было максимально надёжным и масштабируемым — Arrow однозначно стоит держать в арсенале. Это как сменить инструменты для анализа на ноутбуке на инструменты для продакшн-данных.
Apache Arrow❓
#apache #arrow #pandas #bigdata
Реальный плюс ты увидишь в таких задачах, где:
То есть — во многих real-world сценариях, где pandas переходит из удобной игрушки» в узкое место.
Если ты работаешь с большими данными, ETL, перемещениями между системами, хранением в Parquet/Feather, или просто хочешь, чтобы твоё Python-data-решение было максимально надёжным и масштабируемым — Arrow однозначно стоит держать в арсенале. Это как сменить инструменты для анализа на ноутбуке на инструменты для продакшн-данных.
Apache Arrow
#apache #arrow #pandas #bigdata
Please open Telegram to view this post
VIEW IN TELEGRAM
Telegram
DE
Apache Arrow — это попытка решить главные внутренние проблемы pandas, связанные с производительностью, памятью и масштабируемостью. Он даёт эффективное, колонное, близкое к металлу представление данных, что открывает путь к работе с наборами, которые раньше…
Forwarded from 5 minutes of data
🎄 Сегодня стартовал Advent of Code 2025
Если вдруг не слышали — это цифровой адвент-календарь для разработчиков.
Каждый день до Рождества выходит новый пазл, который можно решить на любом языке программирования.
Mногие используют AOC как повод наконец-то потрогать язык, который давно хотел попробовать.
Кто-то вообще решает задачи на SQL.
Для многих Advent of Code — зимний ритуал: кофе, уют и ежедневная задачка, от которой иногда приятно плавится мозг.
Если искали причину попробовать новый язык — она появилась.
А если просто хочется немного игровой мотивации в декабре — тоже отлично подходит.
А вот тут можно посмотреть, как решают первый день на bash
Happy coding! 🎁
Если вдруг не слышали — это цифровой адвент-календарь для разработчиков.
Каждый день до Рождества выходит новый пазл, который можно решить на любом языке программирования.
Mногие используют AOC как повод наконец-то потрогать язык, который давно хотел попробовать.
Кто-то вообще решает задачи на SQL.
Для многих Advent of Code — зимний ритуал: кофе, уют и ежедневная задачка, от которой иногда приятно плавится мозг.
Если искали причину попробовать новый язык — она появилась.
А если просто хочется немного игровой мотивации в декабре — тоже отлично подходит.
А вот тут можно посмотреть, как решают первый день на bash
Happy coding! 🎁
YouTube
Advent of Code 2025 - Day 1! Racing Badcop
Yo what's up everyone my name's dave and you suck at programming.
🔗 More Links
Website → https://ysap.sh
Twitch → https://ysap.sh/twitch
Discord → https://ysap.sh/discord
Instagram → https://ysap.sh/instagram
TikTok → https://ysap.sh/tiktok
YouTube → ht…
🔗 More Links
Website → https://ysap.sh
Twitch → https://ysap.sh/twitch
Discord → https://ysap.sh/discord
Instagram → https://ysap.sh/instagram
TikTok → https://ysap.sh/tiktok
YouTube → ht…
Andrej Karpathy выпустил LLM Council — "БЯМ совет", где несколько моделей вместе думают над ответом и выбирают лучший.🚀
❓ Что это такое:
Ты задаёшь вопрос🔜 сразу несколько LLM отвечают ➡️ они анонимно оценивают ответы друг друга 🔜 "председатель совета" собирает финальный лучший вариант.
🤔 Зачем нужно:
🟢 меньше галлюцинаций
🟢 более взвешенные ответы
🟢 сразу несколько точек зрения
🟢 удобно тестить разные модели в одном интерфейсе
⭐️ Open-source, работает через OpenRouter, легко кастомизируется.
GitHub: https://github.com/karpathy/llm-council
#бям #ии #dev #ai #llm
Ты задаёшь вопрос
GitHub: https://github.com/karpathy/llm-council
#бям #ии #dev #ai #llm
Please open Telegram to view this post
VIEW IN TELEGRAM
GitHub
GitHub - karpathy/llm-council: LLM Council works together to answer your hardest questions
LLM Council works together to answer your hardest questions - karpathy/llm-council
1 6❤🔥2👏1
Forwarded from epsilon correct
Breakneck: China's Quest to Engineer the Future – Dan Wang, 2025.
#book_review
Какое фундаментальное отличие китайского и американского обществ? Дэн Ван, который прожил в Китае несколько последних лет, нашёл новый тезис, вокруг которого построена вся книга. По его словам,
Как пример, в текущей американской администрации большинство – юристы, тогда как в Политбюро ЦК КПК – почти все инженеры. Это приводит к существенным различиям в государственной политике, результаты которой мы можем видеть, например, в Сан-Диего, где общественная инфраструктура проиграет многим китайским деревням. Первая часть книги посвящена контрасту таких различий, и читать её максимально интересно.
Отдельная часть посвящена демографической политике в Китае (политика одного ребенка) как пример того, где инженерное государство с его возможностями планирования не может сравниться с государством, где юристы будут биться за индивидуальные права.
К концу книга немного скатывается из аналитики в описание личного опыта автора, его друзей-эмигрантов из Китая, родителей, что, если честно, быстро становится довольно размазано. Но первую половину (до 5 главы) прочитать точно стоит.
Сейчас на нипсе много мл-стартапов нанимают на возрождение производства – роборуки, создание новых материалов и лекарств. Интересно, смогут ли юристы оперативно решить регуляторные барьеры или всё-таки государство инженеров на его поле побить не получится.
#book_review
Какое фундаментальное отличие китайского и американского обществ? Дэн Ван, который прожил в Китае несколько последних лет, нашёл новый тезис, вокруг которого построена вся книга. По его словам,
Америкой управляют юристы, а Китаем — инженеры.
Как пример, в текущей американской администрации большинство – юристы, тогда как в Политбюро ЦК КПК – почти все инженеры. Это приводит к существенным различиям в государственной политике, результаты которой мы можем видеть, например, в Сан-Диего, где общественная инфраструктура проиграет многим китайским деревням. Первая часть книги посвящена контрасту таких различий, и читать её максимально интересно.
Отдельная часть посвящена демографической политике в Китае (политика одного ребенка) как пример того, где инженерное государство с его возможностями планирования не может сравниться с государством, где юристы будут биться за индивидуальные права.
К концу книга немного скатывается из аналитики в описание личного опыта автора, его друзей-эмигрантов из Китая, родителей, что, если честно, быстро становится довольно размазано. Но первую половину (до 5 главы) прочитать точно стоит.
Сейчас на нипсе много мл-стартапов нанимают на возрождение производства – роборуки, создание новых материалов и лекарств. Интересно, смогут ли юристы оперативно решить регуляторные барьеры или всё-таки государство инженеров на его поле побить не получится.
❤🔥6
Django Project
Django 6.0 released
Posted by Natalia Bidart on Dec. 3, 2025
{% partialdef %} / {% partial %}), что делает шаблоны чище и модульнее. EmailMessage стал более современным, с поддержкой Unicode и новых MIME-типов.#django #dev #py #backend
Please open Telegram to view this post
VIEW IN TELEGRAM