Forwarded from DevBrain
Совсем забыл. Не так давно писал пост про оконные функции SQL. Рассмотрел далеко не все функции, но постарался основную идею передать, надеюсь, что мне это удалось 🍀
Ссылка на пост: https://khashtamov.com/ru/window-functions-sql/
Ссылка на пост: https://khashtamov.com/ru/window-functions-sql/
Khashtamov
Оконные функции SQL
Оконные функции SQL это, пожалуй, самая мистическая часть SQL для многих веб-разработчиков. Нередко встретишь и тех, кто и вовсе никогда о них не слышал. Да что греха таить, я сам продолжительное вре…
Window_Functions_Cheat_Sheet.pdf
116.5 KB
крутой cheatsheet по оконным функциям SQL 😎
Дмитрий с канала @rockyourdata запустил бесплатный курс по дата инженерии у себя на ютуб-канале: https://www.youtube.com/channel/UCWki7GBUE5lDMJCbn4e1XMg
YouTube
DataLearn
Канал по обучению Big Data, Data Engineering
58d6e45a-1752-4515-a6ed-50b4bafa1fae
58d6e45a-1752-4515-a6ed-50b4bafa1fae
Статья про внутреннее устройство pandas, а если быть точнее, то про BlockManager: https://uwekorn.com/2020/05/24/the-one-pandas-internal.html
Uwe’s Blog
The one pandas internal I teach all my new colleagues: the BlockManager
When new members join our team, they usually are already fluent in data analysis with pandas and know their way around the typical quirks. They know that they should use vectorised functions where possible and avoid using apply with a slow Python callable.…
В современных компаниях накапливается большой объем данных, из которых можно извлекать важную аналитику, строить гипотезы или модели прогнозирования.
Data Engineer — это специалист, который как раз и собирает данные из разных источников, структурирует и передает аналитикам для принятия бизнес-решений.
Потребность в специалистах Data Engineering сейчас очень высокая и, по прогнозам, будет расти. По версии кадрового агентства Glassdoor, профессия Data Engineer входит в топ-10 в рейтинге самых лучших профессий Америки.
В SkillFactory идет набор на курс Data Engineer. Курс предназначен для людей, которым нужно освоить основные инструменты и методы по работе с Big Data. Программа рассчитана на тех, кто знаком с Python и построена по принципу от простого к сложному. Вы узнаете и освоите самое важное о Data Engineering, что нужно знать аналитику данных. И как итог, в конце курса вы завершите собственный проект по настройке пайплайнов и хранилища данных
🧨Прямо сейчас на курс дают скидку 50%. Торопитесь: https://clc.to/S1GeJw
Data Engineer — это специалист, который как раз и собирает данные из разных источников, структурирует и передает аналитикам для принятия бизнес-решений.
Потребность в специалистах Data Engineering сейчас очень высокая и, по прогнозам, будет расти. По версии кадрового агентства Glassdoor, профессия Data Engineer входит в топ-10 в рейтинге самых лучших профессий Америки.
В SkillFactory идет набор на курс Data Engineer. Курс предназначен для людей, которым нужно освоить основные инструменты и методы по работе с Big Data. Программа рассчитана на тех, кто знаком с Python и построена по принципу от простого к сложному. Вы узнаете и освоите самое важное о Data Engineering, что нужно знать аналитику данных. И как итог, в конце курса вы завершите собственный проект по настройке пайплайнов и хранилища данных
🧨Прямо сейчас на курс дают скидку 50%. Торопитесь: https://clc.to/S1GeJw
Кратко о том, что будет в Apache Airflow 2.0: https://www.youtube.com/watch?v=FLlO3QTIrUI
YouTube
Airflow 2.0: What to expect?
👍 SMASH THE LIKE BUTTON
❤️ SUBSCRIBE TO MY CHANNEL TO STAY UP TO DATE
🏆 THE COURSE : https://www.udemy.com/course/the-ultimate-hands-on-course-to-master-apache-airflow/?couponCode=WEBSITE-13
(SPECIAL PROMOTION)
🚨 PATREON: https://www.patreon.com/marclamberti…
❤️ SUBSCRIBE TO MY CHANNEL TO STAY UP TO DATE
🏆 THE COURSE : https://www.udemy.com/course/the-ultimate-hands-on-course-to-master-apache-airflow/?couponCode=WEBSITE-13
(SPECIAL PROMOTION)
🚨 PATREON: https://www.patreon.com/marclamberti…
Обзор альтернатив pandas https://towardsdatascience.com/beyond-pandas-spark-dask-vaex-and-other-big-data-technologies-battling-head-to-head-a453a1f8cc13
Medium
Beyond Pandas: Spark, Dask, Vaex and other big data technologies battling head to head
API and performance comparison on a billion-rows dataset. What should you use?
Введение в ksqlDB: https://www.youtube.com/watch?v=7mGBxG2NhVQ
YouTube
An introduction to ksqlDB
You've got streams of data that you want to process and store? You've got events from which you'd like to derive state or build aggregates? And you want to do all of this in a scalable and fault-tolerant manner? It's just as well that Kafka and ksqlDB exist!…
В подкасте Software Engineering Daily вышел эпизод про исследования в области распределённых систем. Гостем выпуска стал Peter Alvaro: https://softwareengineeringdaily.com/2020/05/28/distributed-systems-research-with-peter-alvaro/
Uber зарелизил библиотеку для работы с Amazon Athena на языке Go: https://eng.uber.com/introducing-athenadriver/
Для тех, кто не знает что такое Amazon Athena, велком читать мой пост про построение озера данных в AWS: https://khashtamov.com/ru/aws-data-lake/
В Python для работы с Athena можно использовать boto3, пример кода https://github.com/adilkhash/aws-meetup-almaty-2019-data-lake/blob/master/athena_query.py
Для тех, кто не знает что такое Amazon Athena, велком читать мой пост про построение озера данных в AWS: https://khashtamov.com/ru/aws-data-lake/
В Python для работы с Athena можно использовать boto3, пример кода https://github.com/adilkhash/aws-meetup-almaty-2019-data-lake/blob/master/athena_query.py
Состоялся мажорный выпуск новой версии ETL инструмента Luigi - luigi 3.0. Из глобальных изменений там только отказ от поддержки Python2 по понятным причинам. Из новых фишечек добавили лишь более удобную визуализацию статуса работы воркера (при условии, что вы обновляете прогресс).
Для тех, кто не знаком с инструментом, велком почитать мой старый пост: Строим Data Pipeline на Python и Luigi.
Несколько месяцев назад я закончил создание курса про построение дата-пайплайнов на Luigi, он находится на платформе stepik: Введение в Data Engineering: дата-пайплайны. Его купили уже более 50 специалистов, отзывы о курсе можно почитать тут
Для тех, кто не знаком с инструментом, велком почитать мой старый пост: Строим Data Pipeline на Python и Luigi.
Несколько месяцев назад я закончил создание курса про построение дата-пайплайнов на Luigi, он находится на платформе stepik: Введение в Data Engineering: дата-пайплайны. Его купили уже более 50 специалистов, отзывы о курсе можно почитать тут
GitHub
Release 3.0.0 · spotify/luigi
3.0.0
This is a major release without many feature changes compared to 2.8.13. The reason we decided to give it a major bump is the drop of Python2 support. From this version on, Luigi stops suppor...
This is a major release without many feature changes compared to 2.8.13. The reason we decided to give it a major bump is the drop of Python2 support. From this version on, Luigi stops suppor...
Случайно в поиске нашел интересный блог про изучением data engineering. Автор в основном пишет про инструменты: dbt, Kafka, debezium, airflow и т.д. Но есть статьи про поиск работы и даже практические проекты на которых можно потренировать свой скилл.
Также он ведёт свой ютуб-канал StartDataEngineering, где в основном выкладывает туториалы по теме.
Огромное уважение автору за титанический труд!
Также он ведёт свой ютуб-канал StartDataEngineering, где в основном выкладывает туториалы по теме.
Огромное уважение автору за титанический труд!
Startdataengineering
Posts
А вот ещё набор из мини-курсов от Kaggle:
- Python
- Intro to Machine Learning
- Intermediate Machine Learning
- Data Visualization
- Pandas
- Feature Engineering
- Deep Learning
- Intro to SQL
- Advanced SQL
- Geospatial Analysis
- Microchallenges
- Machine Learning Explainability
- Natual Language Processing
- Into to Game AI and Reinforcement Learning
- Python
- Intro to Machine Learning
- Intermediate Machine Learning
- Data Visualization
- Pandas
- Feature Engineering
- Deep Learning
- Intro to SQL
- Advanced SQL
- Geospatial Analysis
- Microchallenges
- Machine Learning Explainability
- Natual Language Processing
- Into to Game AI and Reinforcement Learning
Kaggle
Learn Python, Data Viz, Pandas & More | Tutorials | Kaggle
Practical data skills you can apply immediately: that's what you'll learn in these no-cost courses. They're the fastest (and most fun) way to become a data scientist or improve your current skills.
Скрещивание OLAP БД ClickHouse и стриминговых инструментов Apache Kafka и ksqlDB: https://medium.com/streamthoughts/how-to-build-a-real-time-analytical-platform-using-kafka-ksqldb-and-clickhouse-bfabd65d05e4
Medium
How to build a real-time analytics platform using Kafka, ksqlDB and ClickHouse ?
Recently at StreamThoughts, we have looked at different open-source OLAP database solutions that we could quickly experiment in a…
https://www.youtube.com/watch?v=MxiKfMocXxM & Python 🐍
YouTube
Building a Telegram bot with Apache Kafka and ksqlDB
✍️Read more: https://rmoff.dev/5e9d4
👾Try it out: https://github.com/confluentinc/demo-scene/tree/master/ksqldb-twitter/telegram_ksqldb_bots
Imagine you’ve got a stream of data; it’s not “big data,” but it’s certainly a lot. Within the data, you’ve got…
👾Try it out: https://github.com/confluentinc/demo-scene/tree/master/ksqldb-twitter/telegram_ksqldb_bots
Imagine you’ve got a stream of data; it’s not “big data,” but it’s certainly a lot. Within the data, you’ve got…
В @dataeng_chat не так давно затрагивали тему про OLAP базы, упомянул Apache Pinot, тёмную лошадку среди распределенных аналитических БД. И вот на просторах сети вышла интересная статья про анализ текста средствами Apache Pinot: https://medium.com/apache-pinot-developer-blog/text-analytics-on-apache-pinot-cbf5c45d282c
Medium
Creating a full-text search engine in Apache Pinot
Apache Pinot is a real-time distributed OLAP datastore, built to deliver scalable real time analytics with low latency.
Вполне валидный пост про сравнение Apache Pulsar с Apache Kafka: https://www.kai-waehner.de/blog/2020/06/09/apache-kafka-versus-apache-pulsar-event-streaming-comparison-features-myths-explored/
Kai Waehner
Pulsar vs Kafka - Comparison and Myths Explored - Kai Waehner
Apache Kafka versus Apache Pulsar - which one to choose? Pros and cons, popular myths, and non-technical criteria explained to solve your business problem.