DataEng – Telegram
DataEng
4.35K subscribers
40 photos
9 files
537 links
Канал про Data Engineering & Distributed Systems.

Всё, что вы хотели знать про построение инфраструктуры для хранения, обработки и эффективного анализа гигантского объёма данных.

Автор @adilkhash
Download Telegram
Нашел новый венчурный фонд, инвестирующий в инженеров-основателей в области данных: аналитика, инфраструктура, AI/DL.
Сайт фонда https://www.dcf1.vc/, если у вас есть идея или прототип, то можно попробовать подать заявку на получение инвестиций. Основатель фонда Pete Soderling, он же основатель Data Council. Насколько я понял, сейчас цель фонда это проинвестировать в 1 тысячу инженеров-основателей.
Устали от многоэтапных собеседований, скринингов и тестовых заданий? Тинькофф готов дать оффер за 1 день

Если вы — опытный системный аналитик DWH, работающий с базами данных и умеющий писать SQL-запросы, то присоединяйтесь к комьюнити DWH из более чем 300 человек. В Тинькофф 20 команд работают над 50 проектами, поэтому вы легко найдете интересное направление. Работайте удаленно или в офисе: комфортно пройти онбординг помогут менторы, общие встречи, внутреннее обучение и мероприятия.

Все секции пройдут онлайн в Zoom 4 декабря. Вы узнаете о проектах, задачах, условиях работы и сможете задать любые, даже самые каверзные вопросы.

Успейте оставить заявку до 1 декабря. Фидбэк об участии пришлют в течение 3 дней: https://u.tinkoff.ru/onedayoffer-dwh
Фейсбук (а ныне Мета) провели интересный саммит на тему Data Observability, так и называется Data Observability Learning Summit 2021. Доклады уже доступны в сети без регистрации и смс: https://www.facebook.com/watch/9445547199/490224945331402

Список отдельных докладов:

- Data Quality at Uber
- Data and ML observability in the public cloud
- Data observability: Through a practitioner's lens
- Observability: How to eliminate data downtime and start trusting your data
- Defining reliability: SLAs for data platform teams
- Multi-dimensional DO for modern data infra: Why today's AI and analytics workloads require E2E DO

Тема интересная и актуальная, сегодня посмотрю парочку докладов.
Учебник по машинному обучению от Школы Анализа Данных, Яндекс: https://ml-handbook.ru/
Хотел порекомендовать вам канал Олега (@oleg_agapov) — Папка "Избранное" https://news.1rj.ru/str/folder_favorites, сам также подписан на него.
Олег работает BI-инженером, делится опытом и знаниями. Я как то уже писал про его труд https://github.com/oleg-agapov/data-engineering-book, это бесплатная книга (ещё в процессе написания) про дата инжиниринг.
👍1
Всем привет! 🫂

Сегодня, в последнюю пятницу ноября, я решил сделать большие скидки на своей учебной платформе:

Введение в Data Engineering: дата-пайплайны, по промокоду BLACKFRIDAY скидка 50%, 345 RUB
Анализ медицинских изображений в Python по промокоду BLACKFRIDAY скидка 50%, 250 RUB

Промокод необходимо вводить в момент оформления заказа.
Всем приятной учебы и выходных!
Также решил сделать скидку в 35% на курс Apache Airflow 2.0: практический курс.

Промокод BLACKFRIDAY, действует до 28.11
Приглашаем Data и DevOps-специалистов уровня Middle+ принять участие в Data&DevOps Hiring Weeks и стать частью команды EPAM. Регистрация уже открыта: epa.ms/devops-hw-tg-17

Что дает участие в Hiring Weeks?

Оффер в течение 48 часов
Welcome-бонус в размере оклада, если вы примете оффер в течение 7 дней
Можно выбрать удобную дату выхода в EPAM

В числе клиентов EPAM крупнейшие международные фармацевтические и биофармацевтические компании, розничные сети и телекоммуникационные компании. Кандидатам предстоит решать масштабные задачи и использовать современный технологический стек.
Узнать более подробную информацию о проектах и вакансиях вы можете на сайте!

Что еще мы предлагаем?

📌Прозрачные условия карьерного роста: матрицы компетенций, фидбэк-сессии, ассессмент
📌Бенефиты: доступ к 1700+ курсов и тренингов, бесплатные курсы английского, ДМС со стоматологией с первого дня работы
📌Профессиональные комьюнити
📌Возможность релокации в 35+ стран

Регистрируйтесь прямо сейчас👉 epa.ms/devops-hw-tg-17
👍1
🔥 Kubernetes отлично подойдет на роль центрального звена платформы для работы с данными. Не слышали о таком подходе?

На VK Kubernetes Conference мы покажем, что K8s - это технология, которая не только способна помирить Dev, Sec и Ops, но и может быть интересна Data Scientist и инженерам данных.

Когда: 9 декабря, 10:00 MSK
📍 Регистрация: https://cutt.ly/ST99xgZ

Из докладов вы узнаете:
🔹 Какие инструменты дата инженера можно запустить в K8s и какие тонкости стоит при этом учитывать.
🔹Сравнение классических и облачных архитектур при работе с данными.
🔹 Инструменты для построения DWH и Data Lake в облаках.

В программе — доклады, воркшопы и, конечно же, нетворкинг, во время которого у самых активных зрителей будет возможность поделиться собственным крутым опытом!


👉 Зарегистрироваться: https://cutt.ly/ST99xgZ
​​Митап для сообщества MongoDB в России
9 декабря в 18:00 очно и онлайн

На митапе архитектор MongoDB Inc расскажет о новых возможностях MongoDB 5.0. Также руководители ИТ-команд из apteka.ru, kp.ru, Urent поделятся своим опытом: какую архитектуру проектов на MongoDB выбрали, с чем столкнулись при росте нагрузок. Команда Yandex.Cloud расскажет о Performance Diagnostics кластеров MongoDB и сценариях репликации и миграции данных с помощью Yandex Data Transfer.

📍Место проведения — г. Москва, ул. Льва Толстого, д. 16. Для посещения мероприятия необходимо иметь QR-код.
📡 Будет онлайн-трансляция, и для участия нужна регистрация.

🚀Программа и регистрация »
Прикольная визуализация работы pandas: https://pandastutor.com/index.html
Удобно при изучении этой крутой библиотеки.
Нашел интересную балалайку для потоковой репликации базы SQLite в другой файл или сразу на S3: https://github.com/benbjohnson/litestream
Документация: https://litestream.io/getting-started/
Проект написан на Go, запускается как отдельный демон без регистрации и смс.

Девиз проекта: Stop building slow, complex, fragile software systems. Safely run your application on a single server. 😍
Раз уж заговорили про SQLite, то вот вам ещё одна батарейка — rqlite.

rqlite это распределенная реляционная база данных на основе SQLite. Эдакий etcd или Consul только с реляционной начинкой. Консенсус в распределённой системе реализован через Raft. Также частью системы является т.н. raft log, в котором хранится вся история SQL команд, некий аналог WAL в PostgreSQL. По умолчанию база хранится в памяти, но можно настроить хранение на диске. Каждый раз при запуске rqlited база заново воссоздаётся из raft log.

Подробнее про дизайн системы можно почитать в блоге автора:

RQLITE – REPLICATED SQLITE WITH NEW RAFT CONSENSUS AND API
REPLICATING SQLITE USING RAFT CONSENSUS

Update: автор делал доклад в рамках CMU Database: https://www.youtube.com/watch?v=JLlIAWjvHxM
Wes McKinney в рамках Database talks от CMU рассказывает про Apache Arrow: https://youtu.be/YhF8YR0OEFk
Apache Arrow это новый вид колоночного in-memory формата данных. Более подробно про сам формат можно узнать из доклада или сайта https://arrow.apache.org/overview/
В догонку про доклады. На канале конференции Hydra стали доступны доклады с прошедшей Hydra 2021

На конференции выступали именитые спикеры, например, есть доклад от Andy Pavlo про ретроспективу NewSQL баз данных за прошедшее десятилетие. Меня также заинтересовал доклад про распределённые транзакции, я не понимаю как возможно добиться транзакционности в распределённой среде, поэтому буду "курить".

Загляните в их плейлист, наверняка найдёте что-то интересное для себя.
💥 DWHard митап
21 декабря / вторник
17:00 - 20:00 (мск)

Три часа - три темы:
👉🏻 Data Mesh
Поговорим про применение микросервисной архитектуры в DWH. Как применяли данный подход в Яндекс Go, стоит ли это того, и как сохранить единообразие и управлять таким разрозненным гетерогенным хранилищем?

👉🏻 История озера данных, которое зацвело
Поговорим про адаптацию Vertica в Ozon как технологической основы для DataLake. Рассмотрим, какие шишки набивали, что получилось хорошо, а что - не очень. Обсудим нюансы поддержки пользователей и соблюдение границ применимости даталейка под их нужды.

👉🏻 Недетальный неслой хранилища
Поговорим про выбор модели для создания хранилища данных (Data Vault, Anchor modeling или 3-я нормальная форма), про создание детального слоя в Сибур Диджитал, разберём ключевые ошибки и поделимся выходом, который мы нашли.

Больше информации по ссылке внизу
📌 Подробности и регистрация

Регистрируйся и уже сейчас задай вопросы спикерам митапа!