DataEng – Telegram
DataEng
4.35K subscribers
40 photos
9 files
537 links
Канал про Data Engineering & Distributed Systems.

Всё, что вы хотели знать про построение инфраструктуры для хранения, обработки и эффективного анализа гигантского объёма данных.

Автор @adilkhash
Download Telegram
Аналитик - разработчик

#вакансия #Москва #гибрид #middle #senior

Yandex Cloud — это облачная платформа, которую используют тысячи компаний и предпринимателей, от технических специалистов до международных корпораций. Наши сервисы позволяют быстро и просто получить доступ к современным технологиям обработки и хранения данных – виртуальным машинам, управляемым базам данных, распознаванию и синтезу речи.
Мы ищем аналитика-разработчика. Ждём вдумчивых кандидатов с глубокими знаниями Python и желанием развиваться в сфере аналитики.

Что нужно делать:
— собрать юнит-экономику бизнеса;
— заниматься построением прогнозной модели бизнеса (бизнес-моделирование процессов, форкастинг временных рядов);
— работать над воронкой (гипотезы, эксперименты, оценка непрямых эффектов).

Мы ждем, что вы:
— получили техническое или математическое образование;
— уверенно владеете Python (можете провести EDA, построить несколько моделей), -можете на SQL написать сложную бизнес-логику в удобном для чтения виде;
— умеете перевести в ТЗ нечетко сформулированные задачи;
— аккуратны и внимательны к деталям;
— самостоятельны и инициативны.
— понимаете реальные потребности бизнеса, ставите себя на место заказчика;
— знаете английский язык;
— умеете понятно объяснять результаты исследований.

Будет плюсом, если вы:
— работали в сфере облачных технологий.

Условия:
— сильная команда, с которой можно расти;
— возможность влиять на процесс и результат;
— помощь с переездом иногородним сотрудникам;
— высокий совокупный доход и премии каждые полгода для всех, кто успешно прошел ревью;
— расширенная программа ДМС: стоматология, обследования, вызов врача на дом и многое другое;
— оплата 80% стоимости ДМС для супругов и детей;
— компенсация оплаты питания на территории офиса;
— скидки в бассейнах, фитнес-центрах и магазинах;
— курсы, тренинги, участие в конференциях;
— гибкий график работы;
— парковка для сотрудников.

Подробнее о вакансии и отклики: https://goo.su/nLJTvFn
👎3👍1
Аналитик-разработчик

Монорепозиторий Аркадии хранит исходный код большинства сервисов Яндекса. Каждый день разработчики Яндекса создают в нём тысячи пул-реквестов. Для репозиториев такого масштаба не существует готовых решений, и мы развиваем свои: систему контроля версий, веб-портал разработчика, плагины для среды разработки, сервис для разработки в облачном окружении. Наша служба постоянно работает над тем, чтобы делать наши системы удобнее, надёжнее, быстрее и понятнее.
Мы ищем опытного аналитика, который поможет разработать систему метрик для наших внутренних продуктов и внедрить A/B-эксперименты, найдёт пути улучшения наших систем.

Что нужно делать:
-разрабатывать систему метрик качества для инструментов репозитория;
-анализировать и улучшать продуктовые метрики наших систем;
-внедрять метрики качества и A/B-эксперименты в наши продукты;
-помогать строить хранилища данных репозитория и смежных систем для разработки метрик личной и командной активности и производительности.

Мы ждем, что вы:
-работали продуктовым аналитиком не менее трёх лет;
-хорошо знаете Python и SQL;
-знаете математическую статистику и теорию вероятностей;
-проводили A/B-эксперименты и анализировали их результаты;
-самостоятельны и не боитесь нестандартных задач;
-готовы быстро усваивать много новой информации.

Условия:
-команда экспертов, которые любят своё дело;
-выстроенные процессы взаимодействия и планирования;
-работа над проектами, которые отражены в общих целях бизнеса;
-прозрачная коммуникация, возможность влиять на процесс и результат;
-расширенная программа ДМС: оплата 80% стоимости ДМС для супругов и детей;
-гибкий график;
-работа из офисов в Москве, Санкт-Петербурге, Сербии, Армении.

Откликнуться: @Oksidgi
Ребята из PostHog (сервис продуктовой аналитики) выложили в Open Source интересную балалайку HouseWatch.

Это веб-сервис, разработанный на Django и React для управления и мониторинга ClickHouse-кластером. PostHog активный пользователь ClickHouse, у них в блоге есть даже занятный пост про сравнение Apache Druid и ClickHouse. Если вы активно используете ClickHouse в продакшене, то рекомендую присмотреться и попробовать в деле.
👍9👎2
Видите ли вы целостно все составные части системы, которую разрабатываете?

Если нет — научиться этому поможет курс System Design
от Валерия Бабушкина, Vice President, Data Science в Blockchainꓸcom.

За 4 недели вы поймёте, как дизайнить сервис такси, приложение для знакомств и разные другие виды высоконагруженных систем.

Научитесь собирать требования, оценивать нагрузку, выбирать подходящие СУБД, масштабировать системы и повышать их надёжность и отзывчивость, а также выделять и последовательно проектировать подсистемы для хранения данных, поиска и аналитики как своими силами, так и с помощью готовых продуктов.

А также поймёте, как устроены собеседования в Big Tech, и получите детальный план ответа на собеседовании.

Новый поток стартует уже 17 июля! Ждем вас!
[Зарегистрироваться]
👍1
Podlodka #329 – Data-engineering

Чтобы принимать разумные решения, нужны данные. А чтобы данные были качественные и своевременные – нужны дата-инженеры! Кто они, чем занимаются и при чем тут биг дата – выясняем с Глебом Кантеровым.

🎧 Слушать выпуск
👍7🔥1
В AWS Big Data блоге вышла статья про Dimension Modeling по Кимбалу в Amazon Redshift: https://aws.amazon.com/ru/blogs/big-data/dimensional-modeling-in-amazon-redshift/.
Мне б эту статью в 2019 году, когда я мучился со снежинкой на Redshift, а в итоге забил и денормализовал всё.
👍12
В блоге у Werner Vogels (тех. дир Amazon), я наткнулся на гостевой пост (автор Andrew Warfield) про историю популярного распределенного хранилища Amazon S3: Building and operating a pretty big storage system called S3
👍7
Airflow 2.7.0

Вчера состоялся большой релиз новой версии самого популярного Workflow менеджера в Python: Apache Airflow 2.7.0

Из новых фишечек:

Setup and Teardown tasks
Cluster Activity UI
OpenLineage built-in integration

Улучшения:
— Убрали поддержку Python 3.7
В рамках улучшения безопасности Airflow запретили функцию проверки Connections в UI
— Новый Graph View теперь используется по умолчанию, старую версию удалили
— При обновлении версии рекомендуется накатывать миграции через команду airflow db migrate

Полный список можно посмотреть тут.
👍18
Яндекс выложил в опенсорс свой BI тул DataLens: https://github.com/datalens-tech
👍20🔥3👎1
На Ютубе появились доклады с прошедшей конференции Airflow Summit 2023 в Канаде: https://bit.ly/3LGdPkQ
🔥10👍4💯1
PyCon PT 2023

День богат на новые доклады. Сейчас появились видео с прошедшей конфы PyCon Portugal 2023: https://bit.ly/3PYOHY7
👍1🔥1
Релиз Python 3.12

Релиз преимущественно связан с повышением производительности, в среднем улучшения около 5%. Из значительных фич это появление отдельного GIL на т.н. субинтерпретаторы. Эта фича пока доступна только в С API, а с версии Python 3.13 будет доступна и в Python API.

Подробнее о релизе: https://pythoninsider.blogspot.com/2023/10/python-3120-final-now-available.html
👍4🔥3
Курс по соревновательному Data Science👨‍💻

🏆 Хочешь покорить Kaggle и научиться выигрывать соревнования по анализу данных? Тогда курс "Введение в соревновательный Data Science" - это именно то, что тебе нужно!

🎯 В отличие от большинства курсов по машинному обучению, этот сконцентрирован на практике. Поэтому на нем будет более 200 практических заданий, интервью с Kaggle Grand Masters и, конечно же, внутренние соревнования для отработки техник.

⚡️В программе курса тебя ждет:
* Продвинутая работа с pandas и numpy
* Генерация, визуализация и фильтрация признаков
* Модуль про SOTA градиентные бустинги и то как их тюнить
и еще 6 других блоков.

🚀 Также, ребята проводят еженедельные открытые вебинары, на которых разбирают решения победителей с чемпионатов и делают обзоры предстоящих соревнование.

🔗 Подписывайся на их телеграмм канал, там они делятся полезным контентом, рассказывают про курс и анонсят новые стримы.
👍5
Человек на 60% состоит из воды, а Тинькофф на 100% из масштабных ИТ-задач и ежедневных вызовов

Если ты опытный ИТ-спец, этот вызов для тебя. А решение бытовых забот берем на себя: от ультра расширенной медстраховки и юридической поддержки до компенсации питания, спорта и дополнительного обучения.

Выбрать вакансию и стать частью ИТ-команды можно тут:
https://u.tinkoff.ru/itcareer

АО «Тинькофф Банк», ИНН 7710140679
👍1
Run periodic jobs in PostgreSQL

Недавно открыл для себя интересное расширение для БД PostgreSQL: pg_cron. Балалайка позволяет запускать периодические задачи внутри базы данных: SQL запросы, процедуры и т.д. Удобно, вдруг кому пригодится 💡
👍11
На Хабре вышла статья про Airflow в Kubernetes. Статья мне понравилась, целевая аудитория это новички в кубах, которые хотят развернуть Airflow. Сам я такой деплой не использую, но мне было полезно знать как оно там работает. Напомню, что у Airflow есть официальный helm chart: https://airflow.apache.org/docs/helm-chart/stable/index.html, если вдруг вы решите копнуть эту тему чуть глубже.
👍21
Машинное обучение для начинающих

Классный бесплатный курс о машинном обучении от Microsoft: https://bit.ly/3MQmyl1
👍2🔥2💯1