Случайно в поиске нашел интересный блог про изучением data engineering. Автор в основном пишет про инструменты: dbt, Kafka, debezium, airflow и т.д. Но есть статьи про поиск работы и даже практические проекты на которых можно потренировать свой скилл.
Также он ведёт свой ютуб-канал StartDataEngineering, где в основном выкладывает туториалы по теме.
Огромное уважение автору за титанический труд!
Также он ведёт свой ютуб-канал StartDataEngineering, где в основном выкладывает туториалы по теме.
Огромное уважение автору за титанический труд!
Startdataengineering
Posts
А вот ещё набор из мини-курсов от Kaggle:
- Python
- Intro to Machine Learning
- Intermediate Machine Learning
- Data Visualization
- Pandas
- Feature Engineering
- Deep Learning
- Intro to SQL
- Advanced SQL
- Geospatial Analysis
- Microchallenges
- Machine Learning Explainability
- Natual Language Processing
- Into to Game AI and Reinforcement Learning
- Python
- Intro to Machine Learning
- Intermediate Machine Learning
- Data Visualization
- Pandas
- Feature Engineering
- Deep Learning
- Intro to SQL
- Advanced SQL
- Geospatial Analysis
- Microchallenges
- Machine Learning Explainability
- Natual Language Processing
- Into to Game AI and Reinforcement Learning
Kaggle
Learn Python, Data Viz, Pandas & More | Tutorials | Kaggle
Practical data skills you can apply immediately: that's what you'll learn in these no-cost courses. They're the fastest (and most fun) way to become a data scientist or improve your current skills.
Скрещивание OLAP БД ClickHouse и стриминговых инструментов Apache Kafka и ksqlDB: https://medium.com/streamthoughts/how-to-build-a-real-time-analytical-platform-using-kafka-ksqldb-and-clickhouse-bfabd65d05e4
Medium
How to build a real-time analytics platform using Kafka, ksqlDB and ClickHouse ?
Recently at StreamThoughts, we have looked at different open-source OLAP database solutions that we could quickly experiment in a…
https://www.youtube.com/watch?v=MxiKfMocXxM & Python 🐍
YouTube
Building a Telegram bot with Apache Kafka and ksqlDB
✍️Read more: https://rmoff.dev/5e9d4
👾Try it out: https://github.com/confluentinc/demo-scene/tree/master/ksqldb-twitter/telegram_ksqldb_bots
Imagine you’ve got a stream of data; it’s not “big data,” but it’s certainly a lot. Within the data, you’ve got…
👾Try it out: https://github.com/confluentinc/demo-scene/tree/master/ksqldb-twitter/telegram_ksqldb_bots
Imagine you’ve got a stream of data; it’s not “big data,” but it’s certainly a lot. Within the data, you’ve got…
В @dataeng_chat не так давно затрагивали тему про OLAP базы, упомянул Apache Pinot, тёмную лошадку среди распределенных аналитических БД. И вот на просторах сети вышла интересная статья про анализ текста средствами Apache Pinot: https://medium.com/apache-pinot-developer-blog/text-analytics-on-apache-pinot-cbf5c45d282c
Medium
Creating a full-text search engine in Apache Pinot
Apache Pinot is a real-time distributed OLAP datastore, built to deliver scalable real time analytics with low latency.
Вполне валидный пост про сравнение Apache Pulsar с Apache Kafka: https://www.kai-waehner.de/blog/2020/06/09/apache-kafka-versus-apache-pulsar-event-streaming-comparison-features-myths-explored/
Kai Waehner
Pulsar vs Kafka - Comparison and Myths Explored - Kai Waehner
Apache Kafka versus Apache Pulsar - which one to choose? Pros and cons, popular myths, and non-technical criteria explained to solve your business problem.
как распараллелить ваш python код на лямбды? очень просто — используйте http://pywren.io/
pywren
pywren -- run your python code on thousands of cores
Pywren uses AWS Lambda to effortlessly run your existing python code on thousands of machines in the cloud
Интересный обзор новых БД от автора книги Seven databases in seven weeks. Автор планирует написать 3 поста с небольшими обзорами главных фич.
Первая часть посвящена: TileDB, Materialize и Prisma. Во второй части будут разобраны EdgeDB, Tremor и Debezium (CDC). И в финальной части автор обещает сделать выводы.
Ссылка на статью: https://lucperkins.dev/blog/new-db-tech-1/
Первая часть посвящена: TileDB, Materialize и Prisma. Во второй части будут разобраны EdgeDB, Tremor и Debezium (CDC). И в финальной части автор обещает сделать выводы.
Ссылка на статью: https://lucperkins.dev/blog/new-db-tech-1/
A Brief History of Dask: https://coiled.io/blog/history-dask.html
Dask может быть лучшей альтернативой Apache Spark
Dask может быть лучшей альтернативой Apache Spark
Если вы сейчас рассматриваете предложения о работе и в частности в сфере data engineering, то на сайте remotelist.ru есть отдельная категория DataOps: https://remotelist.ru/category/dataops-jobs/
Если лень постоянно заходить на сайт, то можно подписаться на RSS этой категории: https://remotelist.ru/feed/category/dataops/
Также есть телеграм канал: @remotelist и бот @RemoteListBot
P.S. проект мой, пожелания и предложения можно оставлять в комментариях 😊
Если лень постоянно заходить на сайт, то можно подписаться на RSS этой категории: https://remotelist.ru/feed/category/dataops/
Также есть телеграм канал: @remotelist и бот @RemoteListBot
P.S. проект мой, пожелания и предложения можно оставлять в комментариях 😊
remotelist.ru
Вакансии DataOps на Remotelist.ru
Вакансии DataOps. Вакансии удалённой работы на remotelist.ru
Вышла новая версия Apache Spark 3: https://spark.apache.org/releases/spark-release-3-0-0.html
Всем привет!
Нужна ваша помощь. Я решил в виде Twitter треда собрать список полезных материалов для изучения data engineering: https://twitter.com/adilkhash/status/1274757239488774144
Если вы пользуетесь Twitter, то просьба поставить лайк/сделать ретвит, это поможет распространить этот тред на большее количество людей.
Спасибо!
Нужна ваша помощь. Я решил в виде Twitter треда собрать список полезных материалов для изучения data engineering: https://twitter.com/adilkhash/status/1274757239488774144
Если вы пользуетесь Twitter, то просьба поставить лайк/сделать ретвит, это поможет распространить этот тред на большее количество людей.
Спасибо!
Twitter
Adil 🇰🇿
Wanna dive into Data Engineering? Here is the list of subjects and corresponding resources you can follow. Thread 👇
Forwarded from DevBrain
YouTube
Scikit-Learn Course - Machine Learning in Python Tutorial
Scikit-learn is a free software machine learning library for the Python programming language. Learn about machine learning using scikit-learn in this full course.
💻 Code: https://github.com/DL-Academy/MachineLearningSKLearn
🔗 Scikit-learn website: https://scikit…
💻 Code: https://github.com/DL-Academy/MachineLearningSKLearn
🔗 Scikit-learn website: https://scikit…
Намечается очередной онлайн-митап про data engineering на русском: https://deordie.timepad.ru/event/1350632/
deordie.timepad.ru
DE or DIE #3 / События на TimePad.ru
DE or DIE – митап, сделанный дата инженерами для дата инженеров.