Forwarded from Ivan Begtin (Ivan Begtin)
Git для данных - это давняя мечта многих разработчиков и дата-инженеров. Как организовать хранение и передачу данных так чтобы было похоже на систему контроля версий и учитывало объёмы и изменения в наборах данных.
Несколько проектов существуют для решения этой задачи, например такие:
- Dolt [1] [2] - умеет многое, объединять данные, сравнивать, делать таблицы сравнения, разрешать конфликты и тд. плюс многое из возможностей git'а
- Daff [3] позволяет работать с таблицами CSV и также сравнивать их, объединять и тд. Интегрирован с git
- DVC [4] система контроля версиями для проектов по машинному обучению. Довольно популярна и умеет многое связанное с проектами именно по ML
Ссылки:
[1] https://github.com/liquidata-inc/dolt
[2] https://www.dolthub.com/
[3] https://github.com/paulfitz/daff
[4] https://dvc.org/
#opendata #data #git #datatools
Несколько проектов существуют для решения этой задачи, например такие:
- Dolt [1] [2] - умеет многое, объединять данные, сравнивать, делать таблицы сравнения, разрешать конфликты и тд. плюс многое из возможностей git'а
- Daff [3] позволяет работать с таблицами CSV и также сравнивать их, объединять и тд. Интегрирован с git
- DVC [4] система контроля версиями для проектов по машинному обучению. Довольно популярна и умеет многое связанное с проектами именно по ML
Ссылки:
[1] https://github.com/liquidata-inc/dolt
[2] https://www.dolthub.com/
[3] https://github.com/paulfitz/daff
[4] https://dvc.org/
#opendata #data #git #datatools
GitHub
GitHub - dolthub/dolt: Dolt – Git for Data
Dolt – Git for Data. Contribute to dolthub/dolt development by creating an account on GitHub.
Forwarded from Pusheen Machine
Заметки, сверстанные в LaTeX с конференции ICML-2019
https://david-abel.github.io/notes/icml_2019.pdf
Дэвид Абель, PhD студент из Брауновского университета, сделал офигенный документ об International Conference on Machine Learning, которая прошла 9 июня недалеко от Лос-Анджелеса. В основном, он делал упор на лекции о reinforcement learning, но и другие темы там тоже есть. Он даже формулы все сверстал!
Вот бы с каждой конференции были такие документы 😌
https://david-abel.github.io/notes/icml_2019.pdf
Дэвид Абель, PhD студент из Брауновского университета, сделал офигенный документ об International Conference on Machine Learning, которая прошла 9 июня недалеко от Лос-Анджелеса. В основном, он делал упор на лекции о reinforcement learning, но и другие темы там тоже есть. Он даже формулы все сверстал!
Вот бы с каждой конференции были такие документы 😌
Diving into Data Journalism: Strategies for getting started or going deeper
https://www.americanpressinstitute.org/publications/reports/strategy-studies/data-journalism/single-page/
https://www.americanpressinstitute.org/publications/reports/strategy-studies/data-journalism/single-page/
American Press Institute
Diving into Data Journalism: Strategies for your newsroom
Technology enables journalists to use numbers less anecdotally, more authoritatively, and to uncover otherwise invisible stories. This paper shows you how.
Creating a Retweet Network for Gephi from a local file with Python
https://lucahammer.com/2019/11/05/creating-a-retweet-network-for-gephi-from-a-local-file-with-python/
https://lucahammer.com/2019/11/05/creating-a-retweet-network-for-gephi-from-a-local-file-with-python/
Luca Hammer
Creating a Retweet Network for Gephi from a local file with Python - Luca Hammer
In the last tutorial I showed how you can collect old Tweets through the Premium API.…
Forwarded from DevOps&SRE Library
Free for developers
Список полезных бесплатных облачных сервисов для разработчиков.
https://free-for.dev
Список полезных бесплатных облачных сервисов для разработчиков.
https://free-for.dev
Top Machine Learning Certificates
https://www.springboard.com/blog/machine-learning-certificates/
https://www.springboard.com/blog/machine-learning-certificates/
Springboard Blog
10 Best Machine Learning Certifications to Boost Your Career
If you want to transition to the exciting & cutting-edge field of machine learning, a certificate can help you make the move. Here we have curated the list of the top 10 machine learning certificates to boost your career.
What are the best websites to learn to code?
https://www.slant.co/topics/965/~best-websites-to-learn-to-code
https://www.slant.co/topics/965/~best-websites-to-learn-to-code
Slant
54 Best websites to learn to code as of 2023
Learning how to code is becoming far more accessible thanks to a large increase in learning resources available online.
Having a goal in mind will be a huge help in picking the best website for learning to code. Do you want to develop apps, or websites?…
Having a goal in mind will be a huge help in picking the best website for learning to code. Do you want to develop apps, or websites?…
AWS launches SageMaker Studio, a web-based IDE for machine learning
https://techcrunch.com/2019/12/03/aws-launches-sagemaker-studio-a-web-based-ide-for-machine-learning/
https://techcrunch.com/2019/12/03/aws-launches-sagemaker-studio-a-web-based-ide-for-machine-learning/
TechCrunch
AWS launches SageMaker Studio, a web-based IDE for machine learning
At its re:Invent conference, AWS CEO Andy Jassy today announced the launch of SageMaker Studio, a web-based IDE for building and training machine learning workflows. It includes everything a data scientist would need to get started, including ways to organize…
New Amazon tool simplifies delivery of containerized machine learning models
(речь идет о Amazon SageMaker Operators for Kubernetes)
https://techcrunch.com/2019/12/02/new-amazon-tool-simplifies-delivery-of-containerized-machine-learning-models/
(речь идет о Amazon SageMaker Operators for Kubernetes)
https://techcrunch.com/2019/12/02/new-amazon-tool-simplifies-delivery-of-containerized-machine-learning-models/
TechCrunch
New Amazon tool simplifies delivery of containerized machine learning models
As part of the flurry of announcements coming this week out of AWS re:Invent, Amazon announced the release of Amazon SageMaker Operators for Kubernetes, a way for data scientists and developers to simplify training, tuning and deploying containerized machine…
Alibaba Cloud releases AI algorithms to GitHub.
This is a link to GitHub: https://github.com/aliyun
https://sg.channelasia.tech/article/669243/alibaba-cloud-releases-ai-algorithms-github/
This is a link to GitHub: https://github.com/aliyun
https://sg.channelasia.tech/article/669243/alibaba-cloud-releases-ai-algorithms-github/
GitHub
Alibaba Cloud
More Than Just Cloud. Alibaba Cloud has 616 repositories available. Follow their code on GitHub.
FastMRI initiative releases neuroimaging data set
https://ai.facebook.com/blog/fastmri-releases-neuroimaging-data-set/
https://ai.facebook.com/blog/fastmri-releases-neuroimaging-data-set/
Facebook
FastMRI initiative releases neuroimaging dataset
As part of the fastMRI research project to use AI to speed up MRI scans, NYU Langone Health is making a new dataset of de-identified brain MRIs available to researchers and Facebook AI is sharing additional tools and resources.
Deep Fake Science, кризис воспроизводимости и откуда берутся пустые репозитории
https://habr.com/en/post/480348/deep/
https://habr.com/en/post/480348/deep/
Cerebras’s Giant Chip Will Smash Deep Learning’s Speed Barrier.
Computers using Cerebras’s chip will train these AI systems in hours instead of weeks
https://spectrum.ieee.org/semiconductors/processors/cerebrass-giant-chip-will-smash-deep-learnings-speed-barrier
Computers using Cerebras’s chip will train these AI systems in hours instead of weeks
https://spectrum.ieee.org/semiconductors/processors/cerebrass-giant-chip-will-smash-deep-learnings-speed-barrier
IEEE Spectrum
Cerebras’s Giant Chip Will Smash Deep Learning’s Speed Barrier
Computers using Cerebras’s chip will train these AI systems in hours instead of weeks
Forwarded from Типичный программист
Вот уже 57 лет 82-летний Дональд Кнут работает над своей книгой по алгоритмам «Искусство программирования». Это лучшая книга по алгоритмам, которая признана Стэнфордским университетом одним из лучших научных трудов века.
Не забывает Дональд Кнут и общаться со студентами. В начале декабря он провёл юбилейную 25-ю лекцию «У рождественской ёлки». Здесь можно посмотреть запись лекции и её краткий текстовый обзор:
https://tprg.ru/PIU2
#кнут #математика
Не забывает Дональд Кнут и общаться со студентами. В начале декабря он провёл юбилейную 25-ю лекцию «У рождественской ёлки». Здесь можно посмотреть запись лекции и её краткий текстовый обзор:
https://tprg.ru/PIU2
#кнут #математика
GitHub: The top 10 programming languages for machine learning
https://www.techrepublic.com/article/github-the-top-10-programming-languages-for-machine-learning/
https://www.techrepublic.com/article/github-the-top-10-programming-languages-for-machine-learning/
TechRepublic
GitHub: The top 10 programming languages for machine learning
Online code repository GitHub has pulled together the 10 most popular programming languages used for machine learning hosted on its service, and, while Python tops the list, there's a few surprises.
Using Agile Methodologies in Data Science
https://medium.com/better-programming/using-agile-methodologies-in-data-science-82534bd047c8
https://medium.com/better-programming/using-agile-methodologies-in-data-science-82534bd047c8
Medium
Using Agile Methodologies in Data Science
The pros and cons