DataEng – Telegram
DataEng
4.33K subscribers
40 photos
9 files
537 links
Канал про Data Engineering & Distributed Systems.

Всё, что вы хотели знать про построение инфраструктуры для хранения, обработки и эффективного анализа гигантского объёма данных.

Автор @adilkhash
Download Telegram
Нашел в сети пост мини-книгу от небезызвестной Chip Huyen: Building A Generative AI Platform
Пожалуй, это одно из самых подробных руководств про построение Generative AI платформ своими руками, или как сейчас говорят RAG in Production.
2👍11🔥3
В блоге базы данных ClickHouse вышел интересный пост, направленный на PostgreSQL юзеров, в нём показаны ключевые различия между моделированием данных в ClickHouse и PostgreSQL: https://clickhouse.com/blog/postgres-to-clickhouse-data-modeling-tips
👍24🔥7
Building and scaling Notion’s data lake

В июле этого года в блоге Notion вышла подробная статья об их опыте построении data lake: https://www.notion.so/blog/building-and-scaling-notions-data-lake
👍12
Организовали с ребятами подборку ламповых каналов про дата инжиниринг 💡

https://news.1rj.ru/str/addlist/a1B07iwrPxUxNWIy

Подписывайтесь 😎
Please open Telegram to view this post
VIEW IN TELEGRAM
1🔥11👍3
The Ultimate Guide to Apache Airflow DAGs.pdf
4.5 MB
The Ultimate Guide to Apache Airflow® DAGs

E-book от ребят из Astronomer про Apache Airflow. 135 страниц концентрированной информации "без воды". Рекомендую! Заходит как справочник в самый раз 👍🏻
2🔥34👍16💯5
AI Agent Course

На следующей неделе (10 февраля) стартует бесплатный курс Hugging Face Agents. Курс рассчитан на обучение в течение 6 недель, новый материал будет публиковаться раз в две недели. Цель курса научить вас создавать и деплоить ИИ Агентов в продакшен.
🔥11👍5💯1
Deep Dive into LLMs like ChatGPT

На канале Andrej Karpathy вышло 3-х часовое видео с разбором как работают LLM модели на примере ChatGPT. Более того, чуть больше года назад он уже выпускал часовой ролик Intro to Large Language Models, который уже набрал более 2.5 миллионов просмотров!
1👍8🔥2
Прямо в сердце 😄
Please open Telegram to view this post
VIEW IN TELEGRAM
👍30💯12🔥2
Привет!

За два месяца ни одного нового поста. Признаться, мне стало неинтересно делиться ссылками на материал по теме и превращать канал в ссылкопомойку, но тем не менее я продолжаю активно читать и искать новые статьи/видео/лекции по темам:

— data engineering
— data processing
— distributed systems
— ml/ai engineering

У меня возникла идея сделать аналог hackernews только по нашей теме. Там мы вместе сможем делиться интересным материалом, обсуждать и коллективно оценивать его.

Я даже наговновайбкодил прототип 🤓, он сверху 🔝

Что скажете? Накидайте мнений в комментах.
💯31👍12🔥12
Курс AI Agents от Microsoft

Нашел на просторах сети бесплатный курс по AI Агентам от Microsoft: https://microsoft.github.io/ai-agents-for-beginners/
Помимо текстового материала есть и видео лекции на Ютубе.
🔥12
На злобу дня

Трамп раскрыл тарифы на производительность популярных библиотек для анализа данных 😁

Так вот в чем кроется секрет успеха pandas 🐼
👍22🔥1
Ахтунг! Про Apache Iceberg

Как то не заметил, что легенда Tim Berglund вернулся в Confluent, и теперь снова вещает нам с экранов.
На этот раз Тим разбирает Apache Iceberg: Apache Iceberg | What It Is and Why Everyone’s Talking About It

А вы уже использовали его у себя?
🔥15👍8💯3
Релиз Airflow 3.0

Час назад вышла мажорная версия Apache Airflow 3.0: https://github.com/apache/airflow/releases/tag/3.0.0

Помимо полностью обновлённого интерфейса там ещё куча разных ништяков:

— DAG Versioning (в сообществе долго ждали эту фичу, но мне она не особо нужна)
— Code agnostic execution (появятся т.н. TaskSDK под разные языки программирования, начнут с Go)
— Event-driven scheduling and Data Assets (под капотом всё те же триггеры, но механизм немного изменён)

Подробности читайте здесь.
👍19🔥18
MANNING_Practical_Guide_to_Apache_Airflow_3.pdf
14 MB
The Practical Guide to Airflow 3 🚀

Дорогие друзья, я вижу как вам нравятся посты про Apache Airflow. В этот раз очередной пост про него любимого 😊

Прошла неделя с релиза Apache Airflow 3, и вот в сети от ребят из Astronomer выходит небольшая книга The Practical Guide to Airflow 3 за авторством Tamara Janina Fingerlin, Developer Advocate, Astronomer. Книга издательства Manning, доступна бесплатно в электронном формате. Книга заточена под новшества новой версии, и будет полезна как начинающим так и опытным дата инженерам, планирующим переход на тройку.

У меня пока не дошли руки потестировать новую версию, планирую это сделать на выходных. А вы уже попробовали?
👍17🔥11💯1
Релиз Apache Airflow 2.11.0

Я уже не думал, что будут обновления для 2-й ветки Airflow, а тут релиз 2.11.0: https://github.com/apache/airflow/releases/tag/2.11.0

Причем это не какой-то релиз с багфиксами, там есть новые фишки:

— DeltaTriggerTimetable (trigger-based scheduling)
— Consistent timing metrics across all backends
— Более плавная подготовка к миграции на Airflow 3.0 (добавили команды airflow config lint и airflow config update)
👍8🔥3
Доклады с PyCon US 2025 🐍🐍🐍

Когда я был на PyCon US в 2016 году в Портленде, то записи докладов в сети появлялись в тот же день, но последние года 4 организаторы решили на этом зарабатывать, и записи с конференций появляются со значительной задержкой (несколько месяцев и больше). В этот раз ситуация немного лучше, и на официальном Ютуб канале уже доступны спонсорские доклады для просмотра:

High-Performance Python: Faster Type Checking and Free Threaded Execution

Building AI Applications the Pydantic Way

Building Scalable AI Tool Servers with Model Context Protocol (MCP) and Heroku

Evolving Django: What We Learned by Integrating MongoDB

Accelerated Python: The Community and Ecosystem

Полный список можно посмотреть в плейлисте (сейчас доступно 11 докладов)

Я так понимаю, что все записи уже доступны, но скрыты от нежелательных глаз. Когда именно появятся все доклады неизвестно, но надеюсь в самое ближайшее время. В этот раз было много интересных тем.
👍3🔥1