В @dataeng_chat не так давно затрагивали тему про OLAP базы, упомянул Apache Pinot, тёмную лошадку среди распределенных аналитических БД. И вот на просторах сети вышла интересная статья про анализ текста средствами Apache Pinot: https://medium.com/apache-pinot-developer-blog/text-analytics-on-apache-pinot-cbf5c45d282c
Medium
Creating a full-text search engine in Apache Pinot
Apache Pinot is a real-time distributed OLAP datastore, built to deliver scalable real time analytics with low latency.
Вполне валидный пост про сравнение Apache Pulsar с Apache Kafka: https://www.kai-waehner.de/blog/2020/06/09/apache-kafka-versus-apache-pulsar-event-streaming-comparison-features-myths-explored/
Kai Waehner
Pulsar vs Kafka - Comparison and Myths Explored - Kai Waehner
Apache Kafka versus Apache Pulsar - which one to choose? Pros and cons, popular myths, and non-technical criteria explained to solve your business problem.
как распараллелить ваш python код на лямбды? очень просто — используйте http://pywren.io/
pywren
pywren -- run your python code on thousands of cores
Pywren uses AWS Lambda to effortlessly run your existing python code on thousands of machines in the cloud
Интересный обзор новых БД от автора книги Seven databases in seven weeks. Автор планирует написать 3 поста с небольшими обзорами главных фич.
Первая часть посвящена: TileDB, Materialize и Prisma. Во второй части будут разобраны EdgeDB, Tremor и Debezium (CDC). И в финальной части автор обещает сделать выводы.
Ссылка на статью: https://lucperkins.dev/blog/new-db-tech-1/
Первая часть посвящена: TileDB, Materialize и Prisma. Во второй части будут разобраны EdgeDB, Tremor и Debezium (CDC). И в финальной части автор обещает сделать выводы.
Ссылка на статью: https://lucperkins.dev/blog/new-db-tech-1/
A Brief History of Dask: https://coiled.io/blog/history-dask.html
Dask может быть лучшей альтернативой Apache Spark
Dask может быть лучшей альтернативой Apache Spark
Если вы сейчас рассматриваете предложения о работе и в частности в сфере data engineering, то на сайте remotelist.ru есть отдельная категория DataOps: https://remotelist.ru/category/dataops-jobs/
Если лень постоянно заходить на сайт, то можно подписаться на RSS этой категории: https://remotelist.ru/feed/category/dataops/
Также есть телеграм канал: @remotelist и бот @RemoteListBot
P.S. проект мой, пожелания и предложения можно оставлять в комментариях 😊
Если лень постоянно заходить на сайт, то можно подписаться на RSS этой категории: https://remotelist.ru/feed/category/dataops/
Также есть телеграм канал: @remotelist и бот @RemoteListBot
P.S. проект мой, пожелания и предложения можно оставлять в комментариях 😊
remotelist.ru
Вакансии DataOps на Remotelist.ru
Вакансии DataOps. Вакансии удалённой работы на remotelist.ru
Вышла новая версия Apache Spark 3: https://spark.apache.org/releases/spark-release-3-0-0.html
Всем привет!
Нужна ваша помощь. Я решил в виде Twitter треда собрать список полезных материалов для изучения data engineering: https://twitter.com/adilkhash/status/1274757239488774144
Если вы пользуетесь Twitter, то просьба поставить лайк/сделать ретвит, это поможет распространить этот тред на большее количество людей.
Спасибо!
Нужна ваша помощь. Я решил в виде Twitter треда собрать список полезных материалов для изучения data engineering: https://twitter.com/adilkhash/status/1274757239488774144
Если вы пользуетесь Twitter, то просьба поставить лайк/сделать ретвит, это поможет распространить этот тред на большее количество людей.
Спасибо!
Twitter
Adil 🇰🇿
Wanna dive into Data Engineering? Here is the list of subjects and corresponding resources you can follow. Thread 👇
Forwarded from DevBrain
YouTube
Scikit-Learn Course - Machine Learning in Python Tutorial
Scikit-learn is a free software machine learning library for the Python programming language. Learn about machine learning using scikit-learn in this full course.
💻 Code: https://github.com/DL-Academy/MachineLearningSKLearn
🔗 Scikit-learn website: https://scikit…
💻 Code: https://github.com/DL-Academy/MachineLearningSKLearn
🔗 Scikit-learn website: https://scikit…
Намечается очередной онлайн-митап про data engineering на русском: https://deordie.timepad.ru/event/1350632/
deordie.timepad.ru
DE or DIE #3 / События на TimePad.ru
DE or DIE – митап, сделанный дата инженерами для дата инженеров.
Forwarded from DevBrain
Годный доклад от Гриши Петрова про навыки написания читаемого кода: https://www.youtube.com/watch?v=Sge_hycXb6E
YouTube
Как писать читаемый код / Григорий Петров (Evrone)
Приглашаем на TechLead Conf X 2025, которая пройдет 5 июня в Москве.
Программа, подробности и билеты по ссылке https://bit.ly/3PZN1hk
---------
Онлайн-конференция, полностью посвященная инженерным процессам и практикам TechLeadConf 2020
Тезисы и презентация:…
Программа, подробности и билеты по ссылке https://bit.ly/3PZN1hk
---------
Онлайн-конференция, полностью посвященная инженерным процессам и практикам TechLeadConf 2020
Тезисы и презентация:…