Forwarded from Ivan Begtin (Ivan Begtin)
Для тех кто интересуется данными не только с точки зрения Data Science, но и в более прикладных задачах работы с данными относящимися к дата инженерии.
Несколько полезных ресурсов:
- Data Engineering Cookbook [1] - поваренная книга по инженерии данных, много о том как системы работы с данными разворачиваются и используются
- Awesome Data Engineering - неплохой список ссылок на проекты по инженерии данных на Github
- Data Engineering How-to [3] - подборка ссылок на курсы и иные ресурсы по инжинерии данных
- What is Data Engineer [4] - ответ на вопрос кто такой инженер данных (для тех кто ещё об этом не знает)
- Who Is a Data Engineer & How to Become a Data Engineer? - подробно о том кто такие инженеры данных
В России вот уже много лет ажиотажный спрос на data science, но подготовка дата инженеров ушла на 2-й и 3-й план и это особенно чувствуется когда вопросы о том где взять данные и как настроить инфраструктуру звучат всё чаще.
То чем занимаюсь я лично - это чистая дата инженерия, с очень и очень небольшой долей науки о данных. Найти данные, создать инфраструктуру их обработки и очистки - всё это должен уметь дата инженер. Если Вы знаете хорошие курсы по этой теме на русском языке, поделитесь ими, например в чате.
Ссылки:
[1] https://github.com/andkret/Cookbook
[2] https://github.com/igorbarinov/awesome-data-engineering
[3] https://github.com/adilkhash/Data-Engineering-HowTo
[4] https://towardsdatascience.com/who-is-a-data-engineer-how-to-become-a-data-engineer-1167ddc12811
#data #opendata #dataengineering #dataengineer
Несколько полезных ресурсов:
- Data Engineering Cookbook [1] - поваренная книга по инженерии данных, много о том как системы работы с данными разворачиваются и используются
- Awesome Data Engineering - неплохой список ссылок на проекты по инженерии данных на Github
- Data Engineering How-to [3] - подборка ссылок на курсы и иные ресурсы по инжинерии данных
- What is Data Engineer [4] - ответ на вопрос кто такой инженер данных (для тех кто ещё об этом не знает)
- Who Is a Data Engineer & How to Become a Data Engineer? - подробно о том кто такие инженеры данных
В России вот уже много лет ажиотажный спрос на data science, но подготовка дата инженеров ушла на 2-й и 3-й план и это особенно чувствуется когда вопросы о том где взять данные и как настроить инфраструктуру звучат всё чаще.
То чем занимаюсь я лично - это чистая дата инженерия, с очень и очень небольшой долей науки о данных. Найти данные, создать инфраструктуру их обработки и очистки - всё это должен уметь дата инженер. Если Вы знаете хорошие курсы по этой теме на русском языке, поделитесь ими, например в чате.
Ссылки:
[1] https://github.com/andkret/Cookbook
[2] https://github.com/igorbarinov/awesome-data-engineering
[3] https://github.com/adilkhash/Data-Engineering-HowTo
[4] https://towardsdatascience.com/who-is-a-data-engineer-how-to-become-a-data-engineer-1167ddc12811
#data #opendata #dataengineering #dataengineer
GitHub
GitHub - andkret/Cookbook: The Data Engineering Cookbook
The Data Engineering Cookbook. Contribute to andkret/Cookbook development by creating an account on GitHub.
The AI research field clusters around seven main research areas.
https://www.elsevier.com/connect/using-ai-to-map-ai
https://www.elsevier.com/connect/using-ai-to-map-ai
Elsevier Connect
Using AI to map … AI?
Elsevier’s new report sheds light on the future of global artificial intelligence research
Machine Learning and Data Science Applications in Industry
https://github.com/firmai/industry-machine-learning
https://github.com/firmai/industry-machine-learning
GitHub
GitHub - firmai/industry-machine-learning: A curated list of applied machine learning and data science notebooks and libraries…
A curated list of applied machine learning and data science notebooks and libraries across different industries (by @firmai) - firmai/industry-machine-learning
DevOps Pipeline for a Machine Learning Project
(Applying machine learning to DevOps)
#ML #DevOps
https://blog.statsbot.co/machine-learning-devops-611210393c1a
(Applying machine learning to DevOps)
#ML #DevOps
https://blog.statsbot.co/machine-learning-devops-611210393c1a
Demystifying the Data Science job families.
A layman’s guide to understanding the differences between Data Scientist, Research Scientist, Applied Scientist, and Business Intelligence Engineer
https://towardsdatascience.com/demystifying-the-data-science-job-families-c74f2294b1bd
A layman’s guide to understanding the differences between Data Scientist, Research Scientist, Applied Scientist, and Business Intelligence Engineer
https://towardsdatascience.com/demystifying-the-data-science-job-families-c74f2294b1bd
Medium
Demystifying the Data Science job families
A layman’s guide to understanding the differences between Data Scientist, Research Scientist, Applied Scientist, and Business Intelligence…
Forwarded from Ivan Begtin (Ivan Begtin)
Git для данных - это давняя мечта многих разработчиков и дата-инженеров. Как организовать хранение и передачу данных так чтобы было похоже на систему контроля версий и учитывало объёмы и изменения в наборах данных.
Несколько проектов существуют для решения этой задачи, например такие:
- Dolt [1] [2] - умеет многое, объединять данные, сравнивать, делать таблицы сравнения, разрешать конфликты и тд. плюс многое из возможностей git'а
- Daff [3] позволяет работать с таблицами CSV и также сравнивать их, объединять и тд. Интегрирован с git
- DVC [4] система контроля версиями для проектов по машинному обучению. Довольно популярна и умеет многое связанное с проектами именно по ML
Ссылки:
[1] https://github.com/liquidata-inc/dolt
[2] https://www.dolthub.com/
[3] https://github.com/paulfitz/daff
[4] https://dvc.org/
#opendata #data #git #datatools
Несколько проектов существуют для решения этой задачи, например такие:
- Dolt [1] [2] - умеет многое, объединять данные, сравнивать, делать таблицы сравнения, разрешать конфликты и тд. плюс многое из возможностей git'а
- Daff [3] позволяет работать с таблицами CSV и также сравнивать их, объединять и тд. Интегрирован с git
- DVC [4] система контроля версиями для проектов по машинному обучению. Довольно популярна и умеет многое связанное с проектами именно по ML
Ссылки:
[1] https://github.com/liquidata-inc/dolt
[2] https://www.dolthub.com/
[3] https://github.com/paulfitz/daff
[4] https://dvc.org/
#opendata #data #git #datatools
GitHub
GitHub - dolthub/dolt: Dolt – Git for Data
Dolt – Git for Data. Contribute to dolthub/dolt development by creating an account on GitHub.
Forwarded from Pusheen Machine
Заметки, сверстанные в LaTeX с конференции ICML-2019
https://david-abel.github.io/notes/icml_2019.pdf
Дэвид Абель, PhD студент из Брауновского университета, сделал офигенный документ об International Conference on Machine Learning, которая прошла 9 июня недалеко от Лос-Анджелеса. В основном, он делал упор на лекции о reinforcement learning, но и другие темы там тоже есть. Он даже формулы все сверстал!
Вот бы с каждой конференции были такие документы 😌
https://david-abel.github.io/notes/icml_2019.pdf
Дэвид Абель, PhD студент из Брауновского университета, сделал офигенный документ об International Conference on Machine Learning, которая прошла 9 июня недалеко от Лос-Анджелеса. В основном, он делал упор на лекции о reinforcement learning, но и другие темы там тоже есть. Он даже формулы все сверстал!
Вот бы с каждой конференции были такие документы 😌
Diving into Data Journalism: Strategies for getting started or going deeper
https://www.americanpressinstitute.org/publications/reports/strategy-studies/data-journalism/single-page/
https://www.americanpressinstitute.org/publications/reports/strategy-studies/data-journalism/single-page/
American Press Institute
Diving into Data Journalism: Strategies for your newsroom
Technology enables journalists to use numbers less anecdotally, more authoritatively, and to uncover otherwise invisible stories. This paper shows you how.
Creating a Retweet Network for Gephi from a local file with Python
https://lucahammer.com/2019/11/05/creating-a-retweet-network-for-gephi-from-a-local-file-with-python/
https://lucahammer.com/2019/11/05/creating-a-retweet-network-for-gephi-from-a-local-file-with-python/
Luca Hammer
Creating a Retweet Network for Gephi from a local file with Python - Luca Hammer
In the last tutorial I showed how you can collect old Tweets through the Premium API.…
Forwarded from DevOps&SRE Library
Free for developers
Список полезных бесплатных облачных сервисов для разработчиков.
https://free-for.dev
Список полезных бесплатных облачных сервисов для разработчиков.
https://free-for.dev
Top Machine Learning Certificates
https://www.springboard.com/blog/machine-learning-certificates/
https://www.springboard.com/blog/machine-learning-certificates/
Springboard Blog
10 Best Machine Learning Certifications to Boost Your Career
If you want to transition to the exciting & cutting-edge field of machine learning, a certificate can help you make the move. Here we have curated the list of the top 10 machine learning certificates to boost your career.
What are the best websites to learn to code?
https://www.slant.co/topics/965/~best-websites-to-learn-to-code
https://www.slant.co/topics/965/~best-websites-to-learn-to-code
Slant
54 Best websites to learn to code as of 2023
Learning how to code is becoming far more accessible thanks to a large increase in learning resources available online.
Having a goal in mind will be a huge help in picking the best website for learning to code. Do you want to develop apps, or websites?…
Having a goal in mind will be a huge help in picking the best website for learning to code. Do you want to develop apps, or websites?…
AWS launches SageMaker Studio, a web-based IDE for machine learning
https://techcrunch.com/2019/12/03/aws-launches-sagemaker-studio-a-web-based-ide-for-machine-learning/
https://techcrunch.com/2019/12/03/aws-launches-sagemaker-studio-a-web-based-ide-for-machine-learning/
TechCrunch
AWS launches SageMaker Studio, a web-based IDE for machine learning
At its re:Invent conference, AWS CEO Andy Jassy today announced the launch of SageMaker Studio, a web-based IDE for building and training machine learning workflows. It includes everything a data scientist would need to get started, including ways to organize…
New Amazon tool simplifies delivery of containerized machine learning models
(речь идет о Amazon SageMaker Operators for Kubernetes)
https://techcrunch.com/2019/12/02/new-amazon-tool-simplifies-delivery-of-containerized-machine-learning-models/
(речь идет о Amazon SageMaker Operators for Kubernetes)
https://techcrunch.com/2019/12/02/new-amazon-tool-simplifies-delivery-of-containerized-machine-learning-models/
TechCrunch
New Amazon tool simplifies delivery of containerized machine learning models
As part of the flurry of announcements coming this week out of AWS re:Invent, Amazon announced the release of Amazon SageMaker Operators for Kubernetes, a way for data scientists and developers to simplify training, tuning and deploying containerized machine…
Alibaba Cloud releases AI algorithms to GitHub.
This is a link to GitHub: https://github.com/aliyun
https://sg.channelasia.tech/article/669243/alibaba-cloud-releases-ai-algorithms-github/
This is a link to GitHub: https://github.com/aliyun
https://sg.channelasia.tech/article/669243/alibaba-cloud-releases-ai-algorithms-github/
GitHub
Alibaba Cloud
More Than Just Cloud. Alibaba Cloud has 616 repositories available. Follow their code on GitHub.
FastMRI initiative releases neuroimaging data set
https://ai.facebook.com/blog/fastmri-releases-neuroimaging-data-set/
https://ai.facebook.com/blog/fastmri-releases-neuroimaging-data-set/
Facebook
FastMRI initiative releases neuroimaging dataset
As part of the fastMRI research project to use AI to speed up MRI scans, NYU Langone Health is making a new dataset of de-identified brain MRIs available to researchers and Facebook AI is sharing additional tools and resources.