DataEng – Telegram
DataEng
4.35K subscribers
40 photos
9 files
537 links
Канал про Data Engineering & Distributed Systems.

Всё, что вы хотели знать про построение инфраструктуры для хранения, обработки и эффективного анализа гигантского объёма данных.

Автор @adilkhash
Download Telegram
Forwarded from DevBrain
Прошлый пост касался архитектуры Redis, а сейчас предлагаю вам познакомиться с кишками memcached: https://bit.ly/3czb6eQ

Лет 5-6 назад я был активным пользователем memcached, использовал его во всех проектах как основной кэш-бэкенд, но с бурным развитием Redis я переключился на него. Тем не менее, memcached поддерживается (последняя версия вышла 26 августа 2022 года), видео считаю очень полезным (как и канал автора в целом).
👍4👎2
Forwarded from How to DWH with Python
#article #ethereum Exporting the full history of Ethereum into S3
https://medium.com/@tony.bryzgaloff/how-to-dump-full-ethereum-history-to-s3-296fb3ad175 (author: @bryzgaloff)

What's inside:
— BigQuery public datasets with Ethereum data: how to transfer to S3 quickly.
— Alternative approach: exporting data from a public Ethereum node. No need to run your own node!
— Processing uint256 with AWS Athena.
— Processing realtime updates from Ethereum.
Best Data Engineering practices to process Ethereum data.

A short summary inside 👇
👍3
Вышел релиз Airflow 2.4: https://bit.ly/3eUmC57
Много всяких плюшек о которых подготовлю отдельный пост и обновлю контент курса 🎉
👍19🔥8🐳1🍾1
Вы слышали про новый тренд по Data Contracts?
Anonymous Poll
9%
Да
91%
Нет
Forwarded from DevBrain
Релиз Python 3.11

Вчера вышел долгожданный (как минимум мною) релиз Python 3.11
Новая версия быстрее предыдущей на 10-60%, а в среднем на 22%, но помимо буста в производительности релиз содержит ряд крутых фич:

— TaskGroup, можно забыть про asyncio.gather
— ExceptionGroups
— Читабельные traceback с подчеркиваниями

Мне особенно зашла фича с группами исключений, даже накидал небольшой демо-пример.

Когда стоит переводить проект на Python 3.11?
Торопиться не стоит, т.к. далеко не все пакеты в вашем проекте могут иметь работающие колёса (wheel). Прямо сейчас, например, нет колёс для библиотеки psycopg2 для python3.11 под Windows. Я бы рекомендовал подождать пару минорных версий с исправлениями и уже после готовиться к миграции.

Все хорошего кодинга! 🐍
👍8🍾5🕊31👏1🤬1
Data Engineer (senior/lead)

🏢 в классном офисе в Москве;
💳 от 300К руб., белая ЗП или ИП;
🗂 большой датасет, интересные задачи, возможность влиять на продукт.

Ищем Data Engineer в команду PREDICTO. Будем разрабатывать CDP (costumer data platform), для сегментации пользователей на аудитории и многих других интересных задач.
Нет долгих согласований, стремимся к быстрому внедрению в production и итеративной работой над улучшениями.

Что нужно делать:

• Проектировать, разрабатывать и поддерживать пайплайны для сбора и обработки данных;
• Обеспечивать SLA и качество данных;
• Готовить данные для моделей машинного обучения и участвовать в их продукционализации совместно с data science командой.

Что ждем от кандидата:

• Хорошее знание технологий из стека: Python, SQL, Spark, Airflow;
• Опыт работы на проектах с большими данными, понимание принципов распределенной обработки данных;
• Опыт продуктовой разработки в технологических компаниях.

Будет плюсом:

• Опыт работы с облаками, особенно, с Яндекс.Облаком;
• Опыт разработки высоконагруженных бэкенд сервисов на Java, Scala или Python;
• Опыт работы с моделями машинного обучения в продакшене;
• Опыт работы с базами данных для аналитики, особенно, с ClickHouse.

Если Вас заинтересовала вакансия, пожалуйста, дайте обратную связь и резюме в Telegram: @fedosovaAS
🤮5👍4🖕1
Ко мне обратилась IT-компания с просьбой провести анонимный опрос среди подписчиков моего канала. Если у вас есть пара минут, порефлексируйте, пожалуйста, с нами о новой реальности в небольшом опросе. Ваши ответы помогут крупной IT-компании понять, где теперь лучше организовывать профессиональные мероприятия и оказывать помощь и поддержку комьюнити.

Пройти опрос.

Опрос актуален для граждан РФ
🤮14👍4😢2
На ютуб-канале SmartData начали появляться доклады с одноимённой конференции, которая проходила в конце октября: https://bit.ly/3zOHh2h
🔥8👍1
Как использовать легковесные кластеры Apache Spark для гибкого управления ресурсами?

1 декабря мы расскажем о возможностях сервиса Yandex Data Proc, где вы можете развернуть кластеры Apache Spark. Узнайте, как одновременно достичь высокой производительности в пиковые периоды и экономить затраты во время простоя.

Также мы покажем, как организовать хранение данных в S3 и преобразовывать их с помощью SQL-запросов. Поделимся планами и направлениями развития сервиса.

Участие бесплатное.
➡️ Регистрируйтесь на вебинар
👍6👎3
Релиз Apache Airflow 2.5.0 🎉

Вчера вечером вышла новая версия Apache Airflow - 2.5. В последнее время меня удивляет с какой скоростью выходят обновления у этого инструмента.

Полный список новых фич смотрите тут.

Из примечательного на мой взгляд:

— Возможность очистить через UI всю таск группу (TaskGroup) для перезапуска всех операторов внутри.

Декоратор-сенсор (task.sensor). Теперь легко можно превратить функцию в сенсор.

— Поиск по датасетам

Автообновление логов в UI. Отныне можно забыть про F5 в разделе логов 😎
👍13
На главной странице HackerNews нашел ссылку на бесплатный курс по основам Natural Language Processing (NLP) - Natural Language Processing
Demystified
. Эта тема меня давно интересует, но я никак не могу выделить время, чтобы основательно погрузиться туда. Курс состоит из серии видео роликов на YouTube.

Ссылка на тред с обсуждение на HN.
👍4
У ребят из Airbyte вышла интересная подборка самых популярных рассылок по теме данных: http://bit.ly/3FncX1L

Я же подписан на Seattle Data Guy, Benn Stancil и Data Engineering Weekly. От себя добавлю, что вашего внимания также заслуживает SF Data Weekly: http://weekly.sfdata.io/
👍5
На Хабре вышла статья о разных способах развёртывания Apache Superset (Docker, ВМ, Kubernetes). Автор рассказал обо всех плюсах и минусах и поделился подробной инструкцией на примере облака VK Cloud.

Это очень актуально, учитывая вставшую перед компаниями задачу по полному перестраиванию системы бизнес-аналитики. В современных реалиях развитие BI-решений российских вендоров осуществляются максимально быстро и качественно. У них есть лицензионная поддержка, регулярные обновления и возможность влиять на roadmap.

Читать
👍6
Вышло новое издание знаменитой книги про распределенные системы: Distributed Systems 4th Edition
Электронную версию книги можно бесплатно скачать на сайте по ссылке выше.

3-е бумажное издание этой книги лежит у меня на полке, но, к сожалению, я постоянно откладываю её прочтение (читал отрывками). Надеюсь в 2023 году доберусь до неё 🤞
👍14
Чтобы поиграть с БД ClickHouse отныне её не нужно устанавливать себе, появился официальный ClickHouse Fiddle

Дока про сам проект: https://clickhouse.com/blog/clickhouse-fiddle-sql-playground
👍20
pandas 2.0

Вчера вышла новая мажорная версия pandas — 2.0.0
В новую версию добавили бэкенд Apache Arrow для повышения производительности. Более подробно про изменения можно прочитать в статье pandas 2.0 and the Arrow revolution.
👍13
Аналитик в 360
#вакансия #Москва #Армения #Казахстан #Сербия #гибрид
#middle #senior

Яндекс 360 — это набор сервисов для решения повседневных задач: от хранения личных воспоминаний до деловой переписки в любое время и на любом устройстве.
Команда аналитики Яндекс 360 ищет сильного и инициативного аналитика, который взял бы на себя роль эксперта по экспериментам. Вы будете вместе с нами развивать функциональность наших сервисов и улучшать их, основываясь на анализе данных, помогать команде внедрять только те изменения, которые несут понятную и доказанную пользу для продукта и бизнеса.

Что нужно делать:
— формировать приёмочные метрики для A/B-тестов, выбирать необходимый размер выборки, ограничения и срок проведения эксперимента;
— управлять всем потоком наших экспериментов: включать и выключать, доводить каждый A/B-тест от этапа идеи до принятия решения;
— анализировать результаты экспериментов, давать рекомендации по внедрению или отключению, расследовать аномалии;
— вырабатывать единые гайды для проведения экспериментов, помогать продуктовой команде.

Мы ждем, что вы:
— проводили A/B-тесты, понимаете область их применения;
— прекрасно владеете теорией вероятности и математической статистикой и можете на пальцах объяснить, зачем и кому нужен p-value;
— знаете SQL и Python.

Условия:
— команда экспертов, которая любит своё дело;
— выстроенные процессы взаимодействия и планирования;
— работа над проектами, которые отражены в общих целях бизнеса;
— прозрачная коммуникация, возможность влиять на процесс и результат;

Подробнее о вакансии и отклики: https://goo.su/FqEaEmT
👎7👍6
Аналитик - разработчик

#вакансия #Москва #гибрид #middle #senior

Yandex Cloud — это облачная платформа, которую используют тысячи компаний и предпринимателей, от технических специалистов до международных корпораций. Наши сервисы позволяют быстро и просто получить доступ к современным технологиям обработки и хранения данных – виртуальным машинам, управляемым базам данных, распознаванию и синтезу речи.
Мы ищем аналитика-разработчика. Ждём вдумчивых кандидатов с глубокими знаниями Python и желанием развиваться в сфере аналитики.

Что нужно делать:
— собрать юнит-экономику бизнеса;
— заниматься построением прогнозной модели бизнеса (бизнес-моделирование процессов, форкастинг временных рядов);
— работать над воронкой (гипотезы, эксперименты, оценка непрямых эффектов).

Мы ждем, что вы:
— получили техническое или математическое образование;
— уверенно владеете Python (можете провести EDA, построить несколько моделей), -можете на SQL написать сложную бизнес-логику в удобном для чтения виде;
— умеете перевести в ТЗ нечетко сформулированные задачи;
— аккуратны и внимательны к деталям;
— самостоятельны и инициативны.
— понимаете реальные потребности бизнеса, ставите себя на место заказчика;
— знаете английский язык;
— умеете понятно объяснять результаты исследований.

Будет плюсом, если вы:
— работали в сфере облачных технологий.

Условия:
— сильная команда, с которой можно расти;
— возможность влиять на процесс и результат;
— помощь с переездом иногородним сотрудникам;
— высокий совокупный доход и премии каждые полгода для всех, кто успешно прошел ревью;
— расширенная программа ДМС: стоматология, обследования, вызов врача на дом и многое другое;
— оплата 80% стоимости ДМС для супругов и детей;
— компенсация оплаты питания на территории офиса;
— скидки в бассейнах, фитнес-центрах и магазинах;
— курсы, тренинги, участие в конференциях;
— гибкий график работы;
— парковка для сотрудников.

Подробнее о вакансии и отклики: https://goo.su/nLJTvFn
👎3👍1