На хабре вышла полезная статья про построение кластера на Dask: https://habr.com/ru/post/499086/
Хабр
Домашний кластер на Dask
Я недавно проводил исследование, в рамках которого было необходимо обработать несколько сотен тысяч наборов входных данных. Для каждого набора — провести некото...
Появились доклады с прошедших двух митапов по Data Engineering, последний, к слову, проходил онлайн 🦠:
— Николай Марков – Какие дата инженеры бывают и чего от них все хотят?
— Евгений Ермаков – Что под капотом у Яндекс.Такси?
— Егор Матешук – Обзор Lambda- и Kappa-архитектур
— Денис Хуртин – Как устроена платформа управления данными в Яндекс.Маркет?
Приятного просмотра!
— Николай Марков – Какие дата инженеры бывают и чего от них все хотят?
— Евгений Ермаков – Что под капотом у Яндекс.Такси?
— Егор Матешук – Обзор Lambda- и Kappa-архитектур
— Денис Хуртин – Как устроена платформа управления данными в Яндекс.Маркет?
Приятного просмотра!
YouTube
DE or DIE #1. Николай Марков – Какие дата инженеры бывают и чего от них все хотят?
Материалы всех наших митапов доступны на GitHub: https://github.com/deordie/deordie-meetups
Наш чат в Telegram: https://news.1rj.ru/str/deordie_chat
Новые события сообщества DE or DIE: https://deordie.timepad.ru/events/
Автор доклада: Николай Марков, Principal Architect…
Наш чат в Telegram: https://news.1rj.ru/str/deordie_chat
Новые события сообщества DE or DIE: https://deordie.timepad.ru/events/
Автор доклада: Николай Марков, Principal Architect…
В блоге Confluent вышла интересная статья про построение Telegram бота на Python и ksqlDB: https://www.confluent.io/blog/building-a-telegram-bot-powered-by-kafka-and-ksqldb/
Confluent
Building a Telegram Bot Powered by Kafka and ksqlDB
ksqlDB use case: see how apps can use ksqlDB to ingest, filter, enrich, aggregate, and query data directly with Kafka—no complex architectures or data stores needed.
Вчера прошел онлайн митап на тему, что нового нас ждёт в предстоящем релизе Apache Airflow 2.0
- Слайды
- Запись митапа
Когда именно состоится релиз версии 2.0 точно не известно, но разработчики надеются, что он будет в 3-ем квартале 2020 года. Пожелаем ребятам удачи! 🍀
А вы чем пользуетесь для построение пайплайнов? Напишите, пожалуйста, в комментариях к посту.
- Слайды
- Запись митапа
Когда именно состоится релиз версии 2.0 точно не известно, но разработчики надеются, что он будет в 3-ем квартале 2020 года. Пожелаем ребятам удачи! 🍀
А вы чем пользуетесь для построение пайплайнов? Напишите, пожалуйста, в комментариях к посту.
В прошлом посте я давал ссылку на какой-то стриминговый сервис, который требовал регистрацию перед просмотром.
Сегодня обнаружил, что запись митапа выложена на ютубе
Сегодня обнаружил, что запись митапа выложена на ютубе
YouTube
What's coming in Airflow 2.0?
Presented during the NYC Apache Airflow Meetup may 2020
----
We are thrilled to welcome a group of Airflow core committers to talk about what's coming with Airflow 2.0! Participating will be Jarek Potiuk, Tomasz Urbaszek, Ash Berlin-Taylor, Daniel Imberman…
----
We are thrilled to welcome a group of Airflow core committers to talk about what's coming with Airflow 2.0! Participating will be Jarek Potiuk, Tomasz Urbaszek, Ash Berlin-Taylor, Daniel Imberman…
Forwarded from DevBrain
DataCamp дают бесплатный доступ ко всем их материалам на 1 неделю, с 15 по 22 мая — https://bit.ly/2Z670Sb
Сам периодически прохожу там курсы, очень доволен.
Сам периодически прохожу там курсы, очень доволен.
Datacamp
DataCamp Sale 2023 | DataCamp Promo & Discount
Get the latest DataCamp promos and discounts for 2023. Take advantage of our latest sales and discounts to learn data science today, no promo codes needed.
Гайд от AWS про дата пайплайны в индустрии GameTech: https://aws.amazon.com/ru/solutions/implementations/game-analytics-pipeline/
Amazon
Game Analytics Pipeline | Implementations | AWS Solutions
Deploy a solution that helps game developers launch a scalable serverless data pipeline to ingest, store, and analyze telemetry data generated from games and services.
Forwarded from DevBrain
Совсем забыл. Не так давно писал пост про оконные функции SQL. Рассмотрел далеко не все функции, но постарался основную идею передать, надеюсь, что мне это удалось 🍀
Ссылка на пост: https://khashtamov.com/ru/window-functions-sql/
Ссылка на пост: https://khashtamov.com/ru/window-functions-sql/
Khashtamov
Оконные функции SQL
Оконные функции SQL это, пожалуй, самая мистическая часть SQL для многих веб-разработчиков. Нередко встретишь и тех, кто и вовсе никогда о них не слышал. Да что греха таить, я сам продолжительное вре…
Window_Functions_Cheat_Sheet.pdf
116.5 KB
крутой cheatsheet по оконным функциям SQL 😎
Дмитрий с канала @rockyourdata запустил бесплатный курс по дата инженерии у себя на ютуб-канале: https://www.youtube.com/channel/UCWki7GBUE5lDMJCbn4e1XMg
YouTube
DataLearn
Канал по обучению Big Data, Data Engineering
58d6e45a-1752-4515-a6ed-50b4bafa1fae
58d6e45a-1752-4515-a6ed-50b4bafa1fae
Статья про внутреннее устройство pandas, а если быть точнее, то про BlockManager: https://uwekorn.com/2020/05/24/the-one-pandas-internal.html
Uwe’s Blog
The one pandas internal I teach all my new colleagues: the BlockManager
When new members join our team, they usually are already fluent in data analysis with pandas and know their way around the typical quirks. They know that they should use vectorised functions where possible and avoid using apply with a slow Python callable.…
В современных компаниях накапливается большой объем данных, из которых можно извлекать важную аналитику, строить гипотезы или модели прогнозирования.
Data Engineer — это специалист, который как раз и собирает данные из разных источников, структурирует и передает аналитикам для принятия бизнес-решений.
Потребность в специалистах Data Engineering сейчас очень высокая и, по прогнозам, будет расти. По версии кадрового агентства Glassdoor, профессия Data Engineer входит в топ-10 в рейтинге самых лучших профессий Америки.
В SkillFactory идет набор на курс Data Engineer. Курс предназначен для людей, которым нужно освоить основные инструменты и методы по работе с Big Data. Программа рассчитана на тех, кто знаком с Python и построена по принципу от простого к сложному. Вы узнаете и освоите самое важное о Data Engineering, что нужно знать аналитику данных. И как итог, в конце курса вы завершите собственный проект по настройке пайплайнов и хранилища данных
🧨Прямо сейчас на курс дают скидку 50%. Торопитесь: https://clc.to/S1GeJw
Data Engineer — это специалист, который как раз и собирает данные из разных источников, структурирует и передает аналитикам для принятия бизнес-решений.
Потребность в специалистах Data Engineering сейчас очень высокая и, по прогнозам, будет расти. По версии кадрового агентства Glassdoor, профессия Data Engineer входит в топ-10 в рейтинге самых лучших профессий Америки.
В SkillFactory идет набор на курс Data Engineer. Курс предназначен для людей, которым нужно освоить основные инструменты и методы по работе с Big Data. Программа рассчитана на тех, кто знаком с Python и построена по принципу от простого к сложному. Вы узнаете и освоите самое важное о Data Engineering, что нужно знать аналитику данных. И как итог, в конце курса вы завершите собственный проект по настройке пайплайнов и хранилища данных
🧨Прямо сейчас на курс дают скидку 50%. Торопитесь: https://clc.to/S1GeJw
Кратко о том, что будет в Apache Airflow 2.0: https://www.youtube.com/watch?v=FLlO3QTIrUI
YouTube
Airflow 2.0: What to expect?
👍 SMASH THE LIKE BUTTON
❤️ SUBSCRIBE TO MY CHANNEL TO STAY UP TO DATE
🏆 THE COURSE : https://www.udemy.com/course/the-ultimate-hands-on-course-to-master-apache-airflow/?couponCode=WEBSITE-13
(SPECIAL PROMOTION)
🚨 PATREON: https://www.patreon.com/marclamberti…
❤️ SUBSCRIBE TO MY CHANNEL TO STAY UP TO DATE
🏆 THE COURSE : https://www.udemy.com/course/the-ultimate-hands-on-course-to-master-apache-airflow/?couponCode=WEBSITE-13
(SPECIAL PROMOTION)
🚨 PATREON: https://www.patreon.com/marclamberti…
Обзор альтернатив pandas https://towardsdatascience.com/beyond-pandas-spark-dask-vaex-and-other-big-data-technologies-battling-head-to-head-a453a1f8cc13
Medium
Beyond Pandas: Spark, Dask, Vaex and other big data technologies battling head to head
API and performance comparison on a billion-rows dataset. What should you use?
Введение в ksqlDB: https://www.youtube.com/watch?v=7mGBxG2NhVQ
YouTube
An introduction to ksqlDB
You've got streams of data that you want to process and store? You've got events from which you'd like to derive state or build aggregates? And you want to do all of this in a scalable and fault-tolerant manner? It's just as well that Kafka and ksqlDB exist!…
В подкасте Software Engineering Daily вышел эпизод про исследования в области распределённых систем. Гостем выпуска стал Peter Alvaro: https://softwareengineeringdaily.com/2020/05/28/distributed-systems-research-with-peter-alvaro/
Uber зарелизил библиотеку для работы с Amazon Athena на языке Go: https://eng.uber.com/introducing-athenadriver/
Для тех, кто не знает что такое Amazon Athena, велком читать мой пост про построение озера данных в AWS: https://khashtamov.com/ru/aws-data-lake/
В Python для работы с Athena можно использовать boto3, пример кода https://github.com/adilkhash/aws-meetup-almaty-2019-data-lake/blob/master/athena_query.py
Для тех, кто не знает что такое Amazon Athena, велком читать мой пост про построение озера данных в AWS: https://khashtamov.com/ru/aws-data-lake/
В Python для работы с Athena можно использовать boto3, пример кода https://github.com/adilkhash/aws-meetup-almaty-2019-data-lake/blob/master/athena_query.py
Состоялся мажорный выпуск новой версии ETL инструмента Luigi - luigi 3.0. Из глобальных изменений там только отказ от поддержки Python2 по понятным причинам. Из новых фишечек добавили лишь более удобную визуализацию статуса работы воркера (при условии, что вы обновляете прогресс).
Для тех, кто не знаком с инструментом, велком почитать мой старый пост: Строим Data Pipeline на Python и Luigi.
Несколько месяцев назад я закончил создание курса про построение дата-пайплайнов на Luigi, он находится на платформе stepik: Введение в Data Engineering: дата-пайплайны. Его купили уже более 50 специалистов, отзывы о курсе можно почитать тут
Для тех, кто не знаком с инструментом, велком почитать мой старый пост: Строим Data Pipeline на Python и Luigi.
Несколько месяцев назад я закончил создание курса про построение дата-пайплайнов на Luigi, он находится на платформе stepik: Введение в Data Engineering: дата-пайплайны. Его купили уже более 50 специалистов, отзывы о курсе можно почитать тут
GitHub
Release 3.0.0 · spotify/luigi
3.0.0
This is a major release without many feature changes compared to 2.8.13. The reason we decided to give it a major bump is the drop of Python2 support. From this version on, Luigi stops suppor...
This is a major release without many feature changes compared to 2.8.13. The reason we decided to give it a major bump is the drop of Python2 support. From this version on, Luigi stops suppor...
Случайно в поиске нашел интересный блог про изучением data engineering. Автор в основном пишет про инструменты: dbt, Kafka, debezium, airflow и т.д. Но есть статьи про поиск работы и даже практические проекты на которых можно потренировать свой скилл.
Также он ведёт свой ютуб-канал StartDataEngineering, где в основном выкладывает туториалы по теме.
Огромное уважение автору за титанический труд!
Также он ведёт свой ютуб-канал StartDataEngineering, где в основном выкладывает туториалы по теме.
Огромное уважение автору за титанический труд!
Startdataengineering
Posts
А вот ещё набор из мини-курсов от Kaggle:
- Python
- Intro to Machine Learning
- Intermediate Machine Learning
- Data Visualization
- Pandas
- Feature Engineering
- Deep Learning
- Intro to SQL
- Advanced SQL
- Geospatial Analysis
- Microchallenges
- Machine Learning Explainability
- Natual Language Processing
- Into to Game AI and Reinforcement Learning
- Python
- Intro to Machine Learning
- Intermediate Machine Learning
- Data Visualization
- Pandas
- Feature Engineering
- Deep Learning
- Intro to SQL
- Advanced SQL
- Geospatial Analysis
- Microchallenges
- Machine Learning Explainability
- Natual Language Processing
- Into to Game AI and Reinforcement Learning
Kaggle
Learn Python, Data Viz, Pandas & More | Tutorials | Kaggle
Practical data skills you can apply immediately: that's what you'll learn in these no-cost courses. They're the fastest (and most fun) way to become a data scientist or improve your current skills.
Скрещивание OLAP БД ClickHouse и стриминговых инструментов Apache Kafka и ksqlDB: https://medium.com/streamthoughts/how-to-build-a-real-time-analytical-platform-using-kafka-ksqldb-and-clickhouse-bfabd65d05e4
Medium
How to build a real-time analytics platform using Kafka, ksqlDB and ClickHouse ?
Recently at StreamThoughts, we have looked at different open-source OLAP database solutions that we could quickly experiment in a…