Forwarded from DevBrain
В 2016 году во время PyCon US 2016 в Портленде я встретил Гвидо ван Россума во время networking-сессии в холле. Первый вопрос, который я ему тогда задал относился к реализации интерфейсов в Python (just like in Java). Есть ли шанс, что в будущих версиях Python мы увидим реализацию интерфейсов? На что был получен однозначный ответ, что этого не стоит ждать, для таких целей можно использовать абстрактные классы (модуль abc). После я поинтересовался его мнением про zope.interfaces, на что также была получена рекомендация их не использовать 😢
Но не так давно, шерстя просторы официальной документации, я наткнулся на интересную штуку, а именно на typing.Protocol. По своей сущности это самый настоящий интерфейс. А не так давно нашел и обзор этой штуки, статья must read: I Want A New Duck.
Если кратко, то Protocol в первую очередь нужен, если вы активно используете mypy для статического анализа кода. Наверняка вы могли сталкиваться с аннотациями на кастомные классы, когда в функцию или метод могут передаваться разные объекты, протокол/интерфейс (читай, общие методы) которых одинаковый.
Но не так давно, шерстя просторы официальной документации, я наткнулся на интересную штуку, а именно на typing.Protocol. По своей сущности это самый настоящий интерфейс. А не так давно нашел и обзор этой штуки, статья must read: I Want A New Duck.
Если кратко, то Protocol в первую очередь нужен, если вы активно используете mypy для статического анализа кода. Наверняка вы могли сталкиваться с аннотациями на кастомные классы, когда в функцию или метод могут передаваться разные объекты, протокол/интерфейс (читай, общие методы) которых одинаковый.
Twistedmatrix
I Want A New Duck
typing.Protocol and the future of duck typing
Компания Amazon открыла доступ к курсам по машинному обучению для всех желающих: https://www.amazon.science/latest-news/machine-learning-course-free-online-from-amazon-machine-learning-university
Amazon Science
Amazon's Machine Learning University is making its online courses available to the public
Classes previously only available to Amazon employees will now be available to the community.
Пример работы с aws-data-wrangler: https://aws.amazon.com/ru/blogs/big-data/optimize-python-etl-by-extending-pandas-with-aws-data-wrangler/
Amazon
Optimize Python ETL by extending Pandas with AWS Data Wrangler | Amazon Web Services
April 2024: This post was reviewed for accuracy. Developing extract, transform, and load (ETL) data pipelines is one of the most time-consuming steps to keep data lakes, data warehouses, and databases up to date and ready to provide business insights. You…
CAP теорема для дата инженеров: https://www.analyticsvidhya.com/blog/2020/08/a-beginners-guide-to-cap-theorem-for-data-engineering/
Analytics Vidhya
A Beginner's Guide to CAP Theorem for Data Engineering
CAP theorem helps to handle your distributed database systems when a few database servers refuse to communicate with each other.
Mastering a data pipeline with Python / Robson Luis Monteiro Junior (Microsoft)
https://youtu.be/25fUlUsmg38
https://youtu.be/25fUlUsmg38
YouTube
Mastering a data pipeline with Python / Robson Luis Monteiro Junior (Microsoft)
Python Conf++ 2020 Online
Тезисы и презентация:
https://conf.python.ru/moscow/2020/abstracts/6316
Building data pipelines are a consolidated task, there are a vast number of tools that automate and help developers to create data pipelines with few clicks…
Тезисы и презентация:
https://conf.python.ru/moscow/2020/abstracts/6316
Building data pipelines are a consolidated task, there are a vast number of tools that automate and help developers to create data pipelines with few clicks…
Forwarded from DevBrain
DataCamp в очередной раз устраивают бесплатную неделю: https://www.datacamp.com/freeweek
Datacamp
DataCamp Sale 2025 | DataCamp Promo & Discount
Get the latest DataCamp promos and discounts for 2025. Take advantage of our latest sales and discounts to learn data science today, no promo codes needed.
Карта навыков современного дата инженера: https://github.com/datastacktv/data-engineer-roadmap
Неплохо дополняет мою статью: https://khashtamov.com/ru/data-engineer/
Неплохо дополняет мою статью: https://khashtamov.com/ru/data-engineer/
GitHub
GitHub - datastacktv/data-engineer-roadmap: Roadmap to becoming a data engineer in 2021
Roadmap to becoming a data engineer in 2021. Contribute to datastacktv/data-engineer-roadmap development by creating an account on GitHub.
Forwarded from LEFT JOIN
Диалог @a_nikushin и @data_karpov о доступном образовании для аналитиков на Youtube вдохновил меня рассказать одну свою историю и поделиться ссылками.
Так сложилось, что в Университете мне очень повезло с преподавателями (от линейной алгебры до баз данных и языков программирования). Один из них, В. Л. Аббакумов, разжег настоящую страсть к методам анализа данных своими лекциями и лабораторными заданиями. В. Л. — практик и был моим научным руководителем по дипломной работе (мы делали кластеризацию данных Ленты), а затем и по кандидатской диссертации (строили нейронную сеть специальной архитектуры, тогда еще в Matlab).
Уже несколько лет назад в рамках ШАД и Computer Science Яндекса у него был записан курс Анализ данных на Python в примерах и задачах в двух частях. Настало время поделиться ссылками на первый и второй плейлисты на Youtube.
Первая часть посвящена описательным статистикам, проверке статистических гипотез, иерархическому кластерному анализу и кластерному анализу методом к-средних, классификационным моделям (деревья, Random Forest, GBM). В целом, весь плейлист достоин внимания без отрыва 🤓
Во второй части более глубокое погружение в нейронные сети, keras, deep learning, xgboost и снова все лекции крайне рекомендованы.🎖
Смотреть можно смело на 1.5x.
Материалы к видео:
— Часть 1. Занятия и материалы
— Часть 2. Занятия и материалы
Так сложилось, что в Университете мне очень повезло с преподавателями (от линейной алгебры до баз данных и языков программирования). Один из них, В. Л. Аббакумов, разжег настоящую страсть к методам анализа данных своими лекциями и лабораторными заданиями. В. Л. — практик и был моим научным руководителем по дипломной работе (мы делали кластеризацию данных Ленты), а затем и по кандидатской диссертации (строили нейронную сеть специальной архитектуры, тогда еще в Matlab).
Уже несколько лет назад в рамках ШАД и Computer Science Яндекса у него был записан курс Анализ данных на Python в примерах и задачах в двух частях. Настало время поделиться ссылками на первый и второй плейлисты на Youtube.
Первая часть посвящена описательным статистикам, проверке статистических гипотез, иерархическому кластерному анализу и кластерному анализу методом к-средних, классификационным моделям (деревья, Random Forest, GBM). В целом, весь плейлист достоин внимания без отрыва 🤓
Во второй части более глубокое погружение в нейронные сети, keras, deep learning, xgboost и снова все лекции крайне рекомендованы.🎖
Смотреть можно смело на 1.5x.
Материалы к видео:
— Часть 1. Занятия и материалы
— Часть 2. Занятия и материалы
YouTube
Лекция 1. Описательные статистики. Квантили, квартили. Гистограммы
https://compscicenter.ru/
Описательные статистики. Квантили, квартили. Гистограммы. Ядерные оценки плотности.
Лекция №1 в курсе "Анализ данных на Python в примерах и задачах. Часть 1" (весна 2018).
Преподаватель курса: Вадим Леонардович Аббакумов
Описательные статистики. Квантили, квартили. Гистограммы. Ядерные оценки плотности.
Лекция №1 в курсе "Анализ данных на Python в примерах и задачах. Часть 1" (весна 2018).
Преподаватель курса: Вадим Леонардович Аббакумов
Сервис онлайн-образования Яндекс.Практикум в поиске Наставников на факультеты Аналитики и Data Science. Необходимо знание Python.
Наш девиз: «Каждый может». Каждый может менять свою жизнь, каждый может научиться новому, каждый может начать сегодня. Даже если раньше не получалось. Если вы считаете так же — вы уже часть нашей команды.
✔️Что делает наставник?
Наставник помогает студентам учиться: отвечает на вопросы и помогает с трудностями. Каждый наставник курирует группу студентов: общается с ними в Slack, проводит групповые и индивидуальные звонки. Все наставники перед работой проходят Школу наставников от Яндекс.Практикума.
✔️Чтобы стать наставником на факультете Аналитики потребуется владение библиотеками Pandas, NumPy, Matplotlib, Seaborn и, желательно, Plotly. Откликнуться на вакансию можно здесь: https://clck.ru/QkkjQ
✔️Если вдобавок к вышеперечисленному вы работали с проектами из сферы машинного обучения, то рассмотрите для себя наставничество на факультете Data Science: https://clck.ru/QkkmN
Кстати, наставничество возможно совмещать с основной работой, это частичная удалённая занятость.
Наш девиз: «Каждый может». Каждый может менять свою жизнь, каждый может научиться новому, каждый может начать сегодня. Даже если раньше не получалось. Если вы считаете так же — вы уже часть нашей команды.
✔️Что делает наставник?
Наставник помогает студентам учиться: отвечает на вопросы и помогает с трудностями. Каждый наставник курирует группу студентов: общается с ними в Slack, проводит групповые и индивидуальные звонки. Все наставники перед работой проходят Школу наставников от Яндекс.Практикума.
✔️Чтобы стать наставником на факультете Аналитики потребуется владение библиотеками Pandas, NumPy, Matplotlib, Seaborn и, желательно, Plotly. Откликнуться на вакансию можно здесь: https://clck.ru/QkkjQ
✔️Если вдобавок к вышеперечисленному вы работали с проектами из сферы машинного обучения, то рассмотрите для себя наставничество на факультете Data Science: https://clck.ru/QkkmN
Кстати, наставничество возможно совмещать с основной работой, это частичная удалённая занятость.
Станьте наставником на курсе «Аналитик данных»
Присоединяйтесь к команде Яндекс Практикума в роли наставника на курсе «Аналитик данных» — делитесь опытом со студентами и получайте дополнительный доход.
В Amazon Redshift стал доступен функционал работы с БД поверх HTTPS: https://aws.amazon.com/ru/about-aws/whats-new/2020/09/announcing-data-api-for-amazon-redshift/
Amazon
Announcing Data API for Amazon Redshift
Нашел тут давеча data engineering вебинар-митап про утилиту dbt: https://www.youtube.com/watch?v=7ClMYCWOekk
YouTube
DBT & DataEng Meetup - September
Hi All, to keep you going with your monthly fill of data engineering, we will be bringing you an online edition this month.
🏠Platform Host: DataEngBytes - https://www.youtube.com/dataengau
🍕Food and Drink: You 😊
💬 Join our Slack Group here: https://goo.…
🏠Platform Host: DataEngBytes - https://www.youtube.com/dataengau
🍕Food and Drink: You 😊
💬 Join our Slack Group here: https://goo.…
Apache Arrow это новый колоночный in-memory формат хранения данных от создателя pandas: https://youtu.be/SBy1WtA3b6o
YouTube
Wes McKinney - Apache Arrow: Present & Future
For more talks and to view corresponding slides, go to scaledml.org, select [media archive].
Presented at the 5th Annual Scaled Machine Learning Conference 2020
Venue: Computer History Museum
scaledml.org | #scaledml2020
Presented at the 5th Annual Scaled Machine Learning Conference 2020
Venue: Computer History Museum
scaledml.org | #scaledml2020
По аналогии с DataCamp ребята из DataQuest решили открыть доступ ко всем курсам своей платформы бесплатно на 1 неделю.
Ссылка — https://bit.ly/33IqIny
P.S. на платформе есть целый трек, посвященный дата инжинирингу
Ссылка — https://bit.ly/33IqIny
P.S. на платформе есть целый трек, посвященный дата инжинирингу
Dataquest
Dataquest: Data Science Courses: Learn 10x Faster
98% of learners recommend Dataquest for learning Python, R programming, SQL, data engineering, data science, and more.
Forwarded from Mikhail Kumachev
Коллеги, приветствую!
Мы рады анонсировать очередной митап: DE or DIE #4.
Дата и время: 01.10.2020, начало в 18:00 MSK
Формат: online.
На этот раз нас ждут две контрастные темы, так что вне зависимости от того, занимаетесь ли вы прокладкой ETL-пайплайнов или менеджментом в области данных, вы найдете для себя что-то интересное.
Что в программе:
1. «Своя песочница – как сделать кластер для инженера данных», Артем Селезнев, Senior Data Engineer, Сбербанк
2. «Data governance – что это, зачем, и с чего начать», Андрей Вихров, Главный системный аналитик, Связной
Зарегистрироваться можно здесь:
https://deordie.timepad.ru/event/1435939/
Мы рады анонсировать очередной митап: DE or DIE #4.
Дата и время: 01.10.2020, начало в 18:00 MSK
Формат: online.
На этот раз нас ждут две контрастные темы, так что вне зависимости от того, занимаетесь ли вы прокладкой ETL-пайплайнов или менеджментом в области данных, вы найдете для себя что-то интересное.
Что в программе:
1. «Своя песочница – как сделать кластер для инженера данных», Артем Селезнев, Senior Data Engineer, Сбербанк
2. «Data governance – что это, зачем, и с чего начать», Андрей Вихров, Главный системный аналитик, Связной
Зарегистрироваться можно здесь:
https://deordie.timepad.ru/event/1435939/
deordie.timepad.ru
DE or DIE #4 / События на TimePad.ru
DE or DIE – митап, сделанный дата инженерами для дата инженеров
Дневник дата инженера: https://lakefs.io/2020/09/14/diary-of-a-data-engineer/
Git for Data - lakeFS
Diary of a Data Engineer: Glimpse into the Daily Life
Get a glimpse into the daily life of a data engineer. Explore the passion for data quality and solving complex data problems at scale with lakeFS.