CAP теорема для дата инженеров: https://www.analyticsvidhya.com/blog/2020/08/a-beginners-guide-to-cap-theorem-for-data-engineering/
Analytics Vidhya
A Beginner's Guide to CAP Theorem for Data Engineering
CAP theorem helps to handle your distributed database systems when a few database servers refuse to communicate with each other.
Mastering a data pipeline with Python / Robson Luis Monteiro Junior (Microsoft)
https://youtu.be/25fUlUsmg38
https://youtu.be/25fUlUsmg38
YouTube
Mastering a data pipeline with Python / Robson Luis Monteiro Junior (Microsoft)
Python Conf++ 2020 Online
Тезисы и презентация:
https://conf.python.ru/moscow/2020/abstracts/6316
Building data pipelines are a consolidated task, there are a vast number of tools that automate and help developers to create data pipelines with few clicks…
Тезисы и презентация:
https://conf.python.ru/moscow/2020/abstracts/6316
Building data pipelines are a consolidated task, there are a vast number of tools that automate and help developers to create data pipelines with few clicks…
Forwarded from DevBrain
DataCamp в очередной раз устраивают бесплатную неделю: https://www.datacamp.com/freeweek
Datacamp
DataCamp Sale 2025 | DataCamp Promo & Discount
Get the latest DataCamp promos and discounts for 2025. Take advantage of our latest sales and discounts to learn data science today, no promo codes needed.
Карта навыков современного дата инженера: https://github.com/datastacktv/data-engineer-roadmap
Неплохо дополняет мою статью: https://khashtamov.com/ru/data-engineer/
Неплохо дополняет мою статью: https://khashtamov.com/ru/data-engineer/
GitHub
GitHub - datastacktv/data-engineer-roadmap: Roadmap to becoming a data engineer in 2021
Roadmap to becoming a data engineer in 2021. Contribute to datastacktv/data-engineer-roadmap development by creating an account on GitHub.
Forwarded from LEFT JOIN
Диалог @a_nikushin и @data_karpov о доступном образовании для аналитиков на Youtube вдохновил меня рассказать одну свою историю и поделиться ссылками.
Так сложилось, что в Университете мне очень повезло с преподавателями (от линейной алгебры до баз данных и языков программирования). Один из них, В. Л. Аббакумов, разжег настоящую страсть к методам анализа данных своими лекциями и лабораторными заданиями. В. Л. — практик и был моим научным руководителем по дипломной работе (мы делали кластеризацию данных Ленты), а затем и по кандидатской диссертации (строили нейронную сеть специальной архитектуры, тогда еще в Matlab).
Уже несколько лет назад в рамках ШАД и Computer Science Яндекса у него был записан курс Анализ данных на Python в примерах и задачах в двух частях. Настало время поделиться ссылками на первый и второй плейлисты на Youtube.
Первая часть посвящена описательным статистикам, проверке статистических гипотез, иерархическому кластерному анализу и кластерному анализу методом к-средних, классификационным моделям (деревья, Random Forest, GBM). В целом, весь плейлист достоин внимания без отрыва 🤓
Во второй части более глубокое погружение в нейронные сети, keras, deep learning, xgboost и снова все лекции крайне рекомендованы.🎖
Смотреть можно смело на 1.5x.
Материалы к видео:
— Часть 1. Занятия и материалы
— Часть 2. Занятия и материалы
Так сложилось, что в Университете мне очень повезло с преподавателями (от линейной алгебры до баз данных и языков программирования). Один из них, В. Л. Аббакумов, разжег настоящую страсть к методам анализа данных своими лекциями и лабораторными заданиями. В. Л. — практик и был моим научным руководителем по дипломной работе (мы делали кластеризацию данных Ленты), а затем и по кандидатской диссертации (строили нейронную сеть специальной архитектуры, тогда еще в Matlab).
Уже несколько лет назад в рамках ШАД и Computer Science Яндекса у него был записан курс Анализ данных на Python в примерах и задачах в двух частях. Настало время поделиться ссылками на первый и второй плейлисты на Youtube.
Первая часть посвящена описательным статистикам, проверке статистических гипотез, иерархическому кластерному анализу и кластерному анализу методом к-средних, классификационным моделям (деревья, Random Forest, GBM). В целом, весь плейлист достоин внимания без отрыва 🤓
Во второй части более глубокое погружение в нейронные сети, keras, deep learning, xgboost и снова все лекции крайне рекомендованы.🎖
Смотреть можно смело на 1.5x.
Материалы к видео:
— Часть 1. Занятия и материалы
— Часть 2. Занятия и материалы
YouTube
Лекция 1. Описательные статистики. Квантили, квартили. Гистограммы
https://compscicenter.ru/
Описательные статистики. Квантили, квартили. Гистограммы. Ядерные оценки плотности.
Лекция №1 в курсе "Анализ данных на Python в примерах и задачах. Часть 1" (весна 2018).
Преподаватель курса: Вадим Леонардович Аббакумов
Описательные статистики. Квантили, квартили. Гистограммы. Ядерные оценки плотности.
Лекция №1 в курсе "Анализ данных на Python в примерах и задачах. Часть 1" (весна 2018).
Преподаватель курса: Вадим Леонардович Аббакумов
Сервис онлайн-образования Яндекс.Практикум в поиске Наставников на факультеты Аналитики и Data Science. Необходимо знание Python.
Наш девиз: «Каждый может». Каждый может менять свою жизнь, каждый может научиться новому, каждый может начать сегодня. Даже если раньше не получалось. Если вы считаете так же — вы уже часть нашей команды.
✔️Что делает наставник?
Наставник помогает студентам учиться: отвечает на вопросы и помогает с трудностями. Каждый наставник курирует группу студентов: общается с ними в Slack, проводит групповые и индивидуальные звонки. Все наставники перед работой проходят Школу наставников от Яндекс.Практикума.
✔️Чтобы стать наставником на факультете Аналитики потребуется владение библиотеками Pandas, NumPy, Matplotlib, Seaborn и, желательно, Plotly. Откликнуться на вакансию можно здесь: https://clck.ru/QkkjQ
✔️Если вдобавок к вышеперечисленному вы работали с проектами из сферы машинного обучения, то рассмотрите для себя наставничество на факультете Data Science: https://clck.ru/QkkmN
Кстати, наставничество возможно совмещать с основной работой, это частичная удалённая занятость.
Наш девиз: «Каждый может». Каждый может менять свою жизнь, каждый может научиться новому, каждый может начать сегодня. Даже если раньше не получалось. Если вы считаете так же — вы уже часть нашей команды.
✔️Что делает наставник?
Наставник помогает студентам учиться: отвечает на вопросы и помогает с трудностями. Каждый наставник курирует группу студентов: общается с ними в Slack, проводит групповые и индивидуальные звонки. Все наставники перед работой проходят Школу наставников от Яндекс.Практикума.
✔️Чтобы стать наставником на факультете Аналитики потребуется владение библиотеками Pandas, NumPy, Matplotlib, Seaborn и, желательно, Plotly. Откликнуться на вакансию можно здесь: https://clck.ru/QkkjQ
✔️Если вдобавок к вышеперечисленному вы работали с проектами из сферы машинного обучения, то рассмотрите для себя наставничество на факультете Data Science: https://clck.ru/QkkmN
Кстати, наставничество возможно совмещать с основной работой, это частичная удалённая занятость.
Станьте наставником на курсе «Аналитик данных»
Присоединяйтесь к команде Яндекс Практикума в роли наставника на курсе «Аналитик данных» — делитесь опытом со студентами и получайте дополнительный доход.
В Amazon Redshift стал доступен функционал работы с БД поверх HTTPS: https://aws.amazon.com/ru/about-aws/whats-new/2020/09/announcing-data-api-for-amazon-redshift/
Amazon
Announcing Data API for Amazon Redshift
Нашел тут давеча data engineering вебинар-митап про утилиту dbt: https://www.youtube.com/watch?v=7ClMYCWOekk
YouTube
DBT & DataEng Meetup - September
Hi All, to keep you going with your monthly fill of data engineering, we will be bringing you an online edition this month.
🏠Platform Host: DataEngBytes - https://www.youtube.com/dataengau
🍕Food and Drink: You 😊
💬 Join our Slack Group here: https://goo.…
🏠Platform Host: DataEngBytes - https://www.youtube.com/dataengau
🍕Food and Drink: You 😊
💬 Join our Slack Group here: https://goo.…
Apache Arrow это новый колоночный in-memory формат хранения данных от создателя pandas: https://youtu.be/SBy1WtA3b6o
YouTube
Wes McKinney - Apache Arrow: Present & Future
For more talks and to view corresponding slides, go to scaledml.org, select [media archive].
Presented at the 5th Annual Scaled Machine Learning Conference 2020
Venue: Computer History Museum
scaledml.org | #scaledml2020
Presented at the 5th Annual Scaled Machine Learning Conference 2020
Venue: Computer History Museum
scaledml.org | #scaledml2020
По аналогии с DataCamp ребята из DataQuest решили открыть доступ ко всем курсам своей платформы бесплатно на 1 неделю.
Ссылка — https://bit.ly/33IqIny
P.S. на платформе есть целый трек, посвященный дата инжинирингу
Ссылка — https://bit.ly/33IqIny
P.S. на платформе есть целый трек, посвященный дата инжинирингу
Dataquest
Dataquest: Data Science Courses: Learn 10x Faster
98% of learners recommend Dataquest for learning Python, R programming, SQL, data engineering, data science, and more.
Forwarded from Mikhail Kumachev
Коллеги, приветствую!
Мы рады анонсировать очередной митап: DE or DIE #4.
Дата и время: 01.10.2020, начало в 18:00 MSK
Формат: online.
На этот раз нас ждут две контрастные темы, так что вне зависимости от того, занимаетесь ли вы прокладкой ETL-пайплайнов или менеджментом в области данных, вы найдете для себя что-то интересное.
Что в программе:
1. «Своя песочница – как сделать кластер для инженера данных», Артем Селезнев, Senior Data Engineer, Сбербанк
2. «Data governance – что это, зачем, и с чего начать», Андрей Вихров, Главный системный аналитик, Связной
Зарегистрироваться можно здесь:
https://deordie.timepad.ru/event/1435939/
Мы рады анонсировать очередной митап: DE or DIE #4.
Дата и время: 01.10.2020, начало в 18:00 MSK
Формат: online.
На этот раз нас ждут две контрастные темы, так что вне зависимости от того, занимаетесь ли вы прокладкой ETL-пайплайнов или менеджментом в области данных, вы найдете для себя что-то интересное.
Что в программе:
1. «Своя песочница – как сделать кластер для инженера данных», Артем Селезнев, Senior Data Engineer, Сбербанк
2. «Data governance – что это, зачем, и с чего начать», Андрей Вихров, Главный системный аналитик, Связной
Зарегистрироваться можно здесь:
https://deordie.timepad.ru/event/1435939/
deordie.timepad.ru
DE or DIE #4 / События на TimePad.ru
DE or DIE – митап, сделанный дата инженерами для дата инженеров
Дневник дата инженера: https://lakefs.io/2020/09/14/diary-of-a-data-engineer/
Git for Data - lakeFS
Diary of a Data Engineer: Glimpse into the Daily Life
Get a glimpse into the daily life of a data engineer. Explore the passion for data quality and solving complex data problems at scale with lakeFS.
Forwarded from Data1984
Great thread on Python 3 cool features.
https://twitter.com/svpino/status/1308632185113579522?s=19
https://twitter.com/svpino/status/1308632185113579522?s=19
Twitter
Santiago 🎃
Are you taking full advantage of Python 3? Are you sure? Here are 10 Python 3 features that will change the way you are writing code today. 🧵👇
Нашел прикольную базу TinyDB на Python, она документоориентированная (типа MongoDB). Написана без внешних зависимостей и интересна мне в первую очередь как предмет изучения основ проектирования БД: https://github.com/msiemens/tinydb
А вот дока к ней: https://tinydb.readthedocs.io/en/latest/
А вот дока к ней: https://tinydb.readthedocs.io/en/latest/