Бесплатные лекции про распределённые системы от профессора Lindsey Kuper: https://www.youtube.com/playlist?list=PLNPUF5QyWU8O0Wd8QDh9KaM1ggsxspJ31
В сети стали доступны доклады с прошедшего Airflow Summit 2020.
Безусловно все докладчики выступали удалённо (мы этот год запомним навсегда)
Из докладов, которые хотелось бы отметить:
- Advanced Apache Superset for Data Engineers
- Data engineering hierarchy of needs
- Airflow the perfect match in our analytics pipeline
- Data flow with Airflow @ PayPal
Смотреть весь плейлист
Безусловно все докладчики выступали удалённо (мы этот год запомним навсегда)
Из докладов, которые хотелось бы отметить:
- Advanced Apache Superset for Data Engineers
- Data engineering hierarchy of needs
- Airflow the perfect match in our analytics pipeline
- Data flow with Airflow @ PayPal
Смотреть весь плейлист
YouTube
Advanced Apache Superset for Data Engineers
Maxime Beauchemin
Superset is the leading open source data exploration and visualization platform. In this talk, we’ll be presenting Superset with a focus on advanced topics that are most relevant to Data Engineers. The presentation will be largely a live…
Superset is the leading open source data exploration and visualization platform. In this talk, we’ll be presenting Superset with a focus on advanced topics that are most relevant to Data Engineers. The presentation will be largely a live…
Интересный пост от подписчика @bryzgaloff про построение своего веб-трекера на ClickHouse: https://tproger.ru/articles/tproger-tracker-yandex-cloud/
Tproger
Как отследить активность пользователя: свой трекер в Яндекс.Облаке
В Tproger разработали аналитический веб-трекер, чтобы следить за активностью пользователей. Рассказываем о поставленных задачах и их решении.
В блоге Confluent появился пост-кейс с компанией Tencent по использованию Apache Kafka: https://www.confluent.io/blog/tencent-kafka-process-10-trillion-messages-per-day/
Tencent, к слову, причастна к PUBG, Call of Duty, WeChat и многим другим творениям. Нагрузка на кафку составляет 4 миллиона сообщений в секунду 😲
Tencent, к слову, причастна к PUBG, Call of Duty, WeChat и многим другим творениям. Нагрузка на кафку составляет 4 миллиона сообщений в секунду 😲
Confluent
How Tencent PCG Scales Massive Data Pipelines with Apache Kafka
Learn how Tencent uses Apache Kafka as a gigantic, real-time, multi-tenant pub/sub system to process hundreds of Gb/s of data and 10 trillion+ messages per day.
Forwarded from DevBrain
В 2016 году во время PyCon US 2016 в Портленде я встретил Гвидо ван Россума во время networking-сессии в холле. Первый вопрос, который я ему тогда задал относился к реализации интерфейсов в Python (just like in Java). Есть ли шанс, что в будущих версиях Python мы увидим реализацию интерфейсов? На что был получен однозначный ответ, что этого не стоит ждать, для таких целей можно использовать абстрактные классы (модуль abc). После я поинтересовался его мнением про zope.interfaces, на что также была получена рекомендация их не использовать 😢
Но не так давно, шерстя просторы официальной документации, я наткнулся на интересную штуку, а именно на typing.Protocol. По своей сущности это самый настоящий интерфейс. А не так давно нашел и обзор этой штуки, статья must read: I Want A New Duck.
Если кратко, то Protocol в первую очередь нужен, если вы активно используете mypy для статического анализа кода. Наверняка вы могли сталкиваться с аннотациями на кастомные классы, когда в функцию или метод могут передаваться разные объекты, протокол/интерфейс (читай, общие методы) которых одинаковый.
Но не так давно, шерстя просторы официальной документации, я наткнулся на интересную штуку, а именно на typing.Protocol. По своей сущности это самый настоящий интерфейс. А не так давно нашел и обзор этой штуки, статья must read: I Want A New Duck.
Если кратко, то Protocol в первую очередь нужен, если вы активно используете mypy для статического анализа кода. Наверняка вы могли сталкиваться с аннотациями на кастомные классы, когда в функцию или метод могут передаваться разные объекты, протокол/интерфейс (читай, общие методы) которых одинаковый.
Twistedmatrix
I Want A New Duck
typing.Protocol and the future of duck typing
Компания Amazon открыла доступ к курсам по машинному обучению для всех желающих: https://www.amazon.science/latest-news/machine-learning-course-free-online-from-amazon-machine-learning-university
Amazon Science
Amazon's Machine Learning University is making its online courses available to the public
Classes previously only available to Amazon employees will now be available to the community.
Пример работы с aws-data-wrangler: https://aws.amazon.com/ru/blogs/big-data/optimize-python-etl-by-extending-pandas-with-aws-data-wrangler/
Amazon
Optimize Python ETL by extending Pandas with AWS Data Wrangler | Amazon Web Services
April 2024: This post was reviewed for accuracy. Developing extract, transform, and load (ETL) data pipelines is one of the most time-consuming steps to keep data lakes, data warehouses, and databases up to date and ready to provide business insights. You…
CAP теорема для дата инженеров: https://www.analyticsvidhya.com/blog/2020/08/a-beginners-guide-to-cap-theorem-for-data-engineering/
Analytics Vidhya
A Beginner's Guide to CAP Theorem for Data Engineering
CAP theorem helps to handle your distributed database systems when a few database servers refuse to communicate with each other.
Mastering a data pipeline with Python / Robson Luis Monteiro Junior (Microsoft)
https://youtu.be/25fUlUsmg38
https://youtu.be/25fUlUsmg38
YouTube
Mastering a data pipeline with Python / Robson Luis Monteiro Junior (Microsoft)
Python Conf++ 2020 Online
Тезисы и презентация:
https://conf.python.ru/moscow/2020/abstracts/6316
Building data pipelines are a consolidated task, there are a vast number of tools that automate and help developers to create data pipelines with few clicks…
Тезисы и презентация:
https://conf.python.ru/moscow/2020/abstracts/6316
Building data pipelines are a consolidated task, there are a vast number of tools that automate and help developers to create data pipelines with few clicks…
Forwarded from DevBrain
DataCamp в очередной раз устраивают бесплатную неделю: https://www.datacamp.com/freeweek
Datacamp
DataCamp Sale 2025 | DataCamp Promo & Discount
Get the latest DataCamp promos and discounts for 2025. Take advantage of our latest sales and discounts to learn data science today, no promo codes needed.
Карта навыков современного дата инженера: https://github.com/datastacktv/data-engineer-roadmap
Неплохо дополняет мою статью: https://khashtamov.com/ru/data-engineer/
Неплохо дополняет мою статью: https://khashtamov.com/ru/data-engineer/
GitHub
GitHub - datastacktv/data-engineer-roadmap: Roadmap to becoming a data engineer in 2021
Roadmap to becoming a data engineer in 2021. Contribute to datastacktv/data-engineer-roadmap development by creating an account on GitHub.
Forwarded from LEFT JOIN
Диалог @a_nikushin и @data_karpov о доступном образовании для аналитиков на Youtube вдохновил меня рассказать одну свою историю и поделиться ссылками.
Так сложилось, что в Университете мне очень повезло с преподавателями (от линейной алгебры до баз данных и языков программирования). Один из них, В. Л. Аббакумов, разжег настоящую страсть к методам анализа данных своими лекциями и лабораторными заданиями. В. Л. — практик и был моим научным руководителем по дипломной работе (мы делали кластеризацию данных Ленты), а затем и по кандидатской диссертации (строили нейронную сеть специальной архитектуры, тогда еще в Matlab).
Уже несколько лет назад в рамках ШАД и Computer Science Яндекса у него был записан курс Анализ данных на Python в примерах и задачах в двух частях. Настало время поделиться ссылками на первый и второй плейлисты на Youtube.
Первая часть посвящена описательным статистикам, проверке статистических гипотез, иерархическому кластерному анализу и кластерному анализу методом к-средних, классификационным моделям (деревья, Random Forest, GBM). В целом, весь плейлист достоин внимания без отрыва 🤓
Во второй части более глубокое погружение в нейронные сети, keras, deep learning, xgboost и снова все лекции крайне рекомендованы.🎖
Смотреть можно смело на 1.5x.
Материалы к видео:
— Часть 1. Занятия и материалы
— Часть 2. Занятия и материалы
Так сложилось, что в Университете мне очень повезло с преподавателями (от линейной алгебры до баз данных и языков программирования). Один из них, В. Л. Аббакумов, разжег настоящую страсть к методам анализа данных своими лекциями и лабораторными заданиями. В. Л. — практик и был моим научным руководителем по дипломной работе (мы делали кластеризацию данных Ленты), а затем и по кандидатской диссертации (строили нейронную сеть специальной архитектуры, тогда еще в Matlab).
Уже несколько лет назад в рамках ШАД и Computer Science Яндекса у него был записан курс Анализ данных на Python в примерах и задачах в двух частях. Настало время поделиться ссылками на первый и второй плейлисты на Youtube.
Первая часть посвящена описательным статистикам, проверке статистических гипотез, иерархическому кластерному анализу и кластерному анализу методом к-средних, классификационным моделям (деревья, Random Forest, GBM). В целом, весь плейлист достоин внимания без отрыва 🤓
Во второй части более глубокое погружение в нейронные сети, keras, deep learning, xgboost и снова все лекции крайне рекомендованы.🎖
Смотреть можно смело на 1.5x.
Материалы к видео:
— Часть 1. Занятия и материалы
— Часть 2. Занятия и материалы
YouTube
Лекция 1. Описательные статистики. Квантили, квартили. Гистограммы
https://compscicenter.ru/
Описательные статистики. Квантили, квартили. Гистограммы. Ядерные оценки плотности.
Лекция №1 в курсе "Анализ данных на Python в примерах и задачах. Часть 1" (весна 2018).
Преподаватель курса: Вадим Леонардович Аббакумов
Описательные статистики. Квантили, квартили. Гистограммы. Ядерные оценки плотности.
Лекция №1 в курсе "Анализ данных на Python в примерах и задачах. Часть 1" (весна 2018).
Преподаватель курса: Вадим Леонардович Аббакумов
Сервис онлайн-образования Яндекс.Практикум в поиске Наставников на факультеты Аналитики и Data Science. Необходимо знание Python.
Наш девиз: «Каждый может». Каждый может менять свою жизнь, каждый может научиться новому, каждый может начать сегодня. Даже если раньше не получалось. Если вы считаете так же — вы уже часть нашей команды.
✔️Что делает наставник?
Наставник помогает студентам учиться: отвечает на вопросы и помогает с трудностями. Каждый наставник курирует группу студентов: общается с ними в Slack, проводит групповые и индивидуальные звонки. Все наставники перед работой проходят Школу наставников от Яндекс.Практикума.
✔️Чтобы стать наставником на факультете Аналитики потребуется владение библиотеками Pandas, NumPy, Matplotlib, Seaborn и, желательно, Plotly. Откликнуться на вакансию можно здесь: https://clck.ru/QkkjQ
✔️Если вдобавок к вышеперечисленному вы работали с проектами из сферы машинного обучения, то рассмотрите для себя наставничество на факультете Data Science: https://clck.ru/QkkmN
Кстати, наставничество возможно совмещать с основной работой, это частичная удалённая занятость.
Наш девиз: «Каждый может». Каждый может менять свою жизнь, каждый может научиться новому, каждый может начать сегодня. Даже если раньше не получалось. Если вы считаете так же — вы уже часть нашей команды.
✔️Что делает наставник?
Наставник помогает студентам учиться: отвечает на вопросы и помогает с трудностями. Каждый наставник курирует группу студентов: общается с ними в Slack, проводит групповые и индивидуальные звонки. Все наставники перед работой проходят Школу наставников от Яндекс.Практикума.
✔️Чтобы стать наставником на факультете Аналитики потребуется владение библиотеками Pandas, NumPy, Matplotlib, Seaborn и, желательно, Plotly. Откликнуться на вакансию можно здесь: https://clck.ru/QkkjQ
✔️Если вдобавок к вышеперечисленному вы работали с проектами из сферы машинного обучения, то рассмотрите для себя наставничество на факультете Data Science: https://clck.ru/QkkmN
Кстати, наставничество возможно совмещать с основной работой, это частичная удалённая занятость.
Станьте наставником на курсе «Аналитик данных»
Присоединяйтесь к команде Яндекс Практикума в роли наставника на курсе «Аналитик данных» — делитесь опытом со студентами и получайте дополнительный доход.
В Amazon Redshift стал доступен функционал работы с БД поверх HTTPS: https://aws.amazon.com/ru/about-aws/whats-new/2020/09/announcing-data-api-for-amazon-redshift/
Amazon
Announcing Data API for Amazon Redshift