Forwarded from Ivan Begtin (Ivan Begtin)
Для тех кто любит работать с данными, но всё что касается государственных данных надоело и вообще хочется быть поближе к технологиям и исследованиям подборка ссылок.
GHTorrent [1] - база всего что есть в открытом доступе в Github'е собранное через их открытое API. Распространяется в виде дампов в MySQL и MongoDB, по 70 гигабайт каждый дамп
DNSCensus [2] - огромная база DNS записей на 2013 год, более 2.5 миллиардов записей объёмом в 157 гигабайт.
911Datasets [3] коллекция наборов данных по теме терракта 11 сентября 2001 года в США.
Wikimedia Dumps [4] - десятки терабайт дампов Википедии и других проектов Викимедии
LibGen Torrents [5] более миллиона научных книг через торренты
Archive.org datasets [6] коллекции наборов данных загруженные в Интернет-архив
Academic Torrents [7] более 25 терабайт научных данных раздаваемых через торренты
Ссылки:
[1] http://ghtorrent.org/
[2] https://dnscensus2013.neocities.org/index.html
[3] http://911datasets.org/index.php/Main_Page
[4] http://libgen.io/libgen/repository_torrent/
[5] https://meta.wikimedia.org/wiki/Data_dump_torrents
[6] https://archive.org/search.php?query=datasets
[7] http://academictorrents.com
#opendata #datasets
GHTorrent [1] - база всего что есть в открытом доступе в Github'е собранное через их открытое API. Распространяется в виде дампов в MySQL и MongoDB, по 70 гигабайт каждый дамп
DNSCensus [2] - огромная база DNS записей на 2013 год, более 2.5 миллиардов записей объёмом в 157 гигабайт.
911Datasets [3] коллекция наборов данных по теме терракта 11 сентября 2001 года в США.
Wikimedia Dumps [4] - десятки терабайт дампов Википедии и других проектов Викимедии
LibGen Torrents [5] более миллиона научных книг через торренты
Archive.org datasets [6] коллекции наборов данных загруженные в Интернет-архив
Academic Torrents [7] более 25 терабайт научных данных раздаваемых через торренты
Ссылки:
[1] http://ghtorrent.org/
[2] https://dnscensus2013.neocities.org/index.html
[3] http://911datasets.org/index.php/Main_Page
[4] http://libgen.io/libgen/repository_torrent/
[5] https://meta.wikimedia.org/wiki/Data_dump_torrents
[6] https://archive.org/search.php?query=datasets
[7] http://academictorrents.com
#opendata #datasets
15 популярных библиотек на языке Python
https://www.upwork.com/hiring/data/15-python-libraries-data-science/
https://www.upwork.com/hiring/data/15-python-libraries-data-science/
Полезные статьи по статистике простым языком: http://k-tree.ru/articles/statistika/
Полезная книга по статистическому анализу на английском языке: http://www.statsref.com/HTML/index.html
Визуализация при помощи Pairs Plots в Python (быстрое создание EDA-визуализации): https://towardsdatascience.com/visualizing-data-with-pair-plots-in-python-f228cf529166
Medium
Visualizing Data with Pairs Plots in Python
How to quickly create a powerful exploratory data analysis visualization
Forwarded from Pusheen Machine
Я ненавижу Spark
Поэтому хочу опубликовать тут список хороших ресурсов, которые, помогут мне (и возможно вам) его узнать лучше, чем сейчас, и я не буду рвать на голове волосы, когда джоба падает.
Первые две книги уже скачала - осталось только прочитать.
💥 Learning Spark: Lightning-Fast Big Data Analysis
http://shop.oreilly.com/product/0636920028512.do
💥 Advanced Analytics with Spark: Patterns for Learning from Data at Scale
https://www.amazon.com/Advanced-Analytics-Spark-Patterns-Learning/dp/1491912766
💥 Spark in a day
https://www.amazon.com/Spark-Ultimate-Learning-Development-Beginners-ebook/dp/B013GQP702/httpwwwtuto0a-20
💥 Apache Spark Tutorial
https://www.tutorialspoint.com/apache_spark/index.htm
💥 Apache Spark Scala Tutorial
https://github.com/deanwampler/spark-scala-tutorial
💥 Python For Data Science Cheat Sheet (by DataCamp)
https://s3.amazonaws.com/assets.datacamp.com/blog_assets/PySpark_Cheat_Sheet_Python.pdf
💥 Spark documentation - там много других полезных ссылок на видео/книги/лекции
https://spark.apache.org/documentation.html
Поэтому хочу опубликовать тут список хороших ресурсов, которые, помогут мне (и возможно вам) его узнать лучше, чем сейчас, и я не буду рвать на голове волосы, когда джоба падает.
Первые две книги уже скачала - осталось только прочитать.
💥 Learning Spark: Lightning-Fast Big Data Analysis
http://shop.oreilly.com/product/0636920028512.do
💥 Advanced Analytics with Spark: Patterns for Learning from Data at Scale
https://www.amazon.com/Advanced-Analytics-Spark-Patterns-Learning/dp/1491912766
💥 Spark in a day
https://www.amazon.com/Spark-Ultimate-Learning-Development-Beginners-ebook/dp/B013GQP702/httpwwwtuto0a-20
💥 Apache Spark Tutorial
https://www.tutorialspoint.com/apache_spark/index.htm
💥 Apache Spark Scala Tutorial
https://github.com/deanwampler/spark-scala-tutorial
💥 Python For Data Science Cheat Sheet (by DataCamp)
https://s3.amazonaws.com/assets.datacamp.com/blog_assets/PySpark_Cheat_Sheet_Python.pdf
💥 Spark documentation - там много других полезных ссылок на видео/книги/лекции
https://spark.apache.org/documentation.html
Список полезных ресурсов для изучения в рамках Data Science: https://chadwgardner.com/resources/
Chad W Gardner
Resources
Welcome the my resource page! Here is a mostly random, hopefully useful hodgepodge of resources, articles, podcasts and more that I have collected over the last few months. Happy digging, and check…
Очень полезная книга Data Science livebook. Ее писали усилиями Data Science-сообщества в течение года:
https://livebook.datascienceheroes.com/
https://livebook.datascienceheroes.com/
Datascienceheroes
Data Science Live Book
An intuitive and practical approach to data analysis, data preparation and machine learning, suitable for all ages!
Это не про данные, но тоже полезно: https://habrahabr.ru/post/353194/.me
habrahabr.ru
Для чего программисту Continuous Integration и с чего начинать
Представьте что в Роскосмосе решили собрать новую ракету не имея при этом чертежей и четкого понимания как ракета должна быть устроена. Отдельный завод...
Время заняться PySpark-ом: http://spark.apache.org/docs/2.1.0/api/python/pyspark.html
PySpark Cheat Sheet: Spark in Python:
https://www.datacamp.com/community/blog/pyspark-cheat-sheet-python
Еще парочка полезных ссылок по PySpark:
1. https://blog.sicara.com/get-started-pyspark-jupyter-guide-tutorial-ae2fe84f594f
2. https://www.tutorialspoint.com/pyspark/index.htm
PySpark Cheat Sheet: Spark in Python:
https://www.datacamp.com/community/blog/pyspark-cheat-sheet-python
Еще парочка полезных ссылок по PySpark:
1. https://blog.sicara.com/get-started-pyspark-jupyter-guide-tutorial-ae2fe84f594f
2. https://www.tutorialspoint.com/pyspark/index.htm
Datacamp
PySpark Cheat Sheet: Spark in Python
This PySpark cheat sheet with code samples covers the basics like initializing Spark in Python, loading data, sorting, and repartitioning.
Интервью (с транскриптом) с Nathan Marz о лямбда-архитектуре: https://www.infoq.com/interviews/marz-lambda-architecture
Его же книга Big Data: Principles and best practices of scalable realtime data systems: https://www.goodreads.com/book/show/13421400-big-data
Его же книга Big Data: Principles and best practices of scalable realtime data systems: https://www.goodreads.com/book/show/13421400-big-data
InfoQ
Nathan Marz on Storm, Immutability in the Lambda Architecture, Clojure
Nathan Marz explains the ideas behind the Lambda Architecture and how it combines the strengths of both batch and realtime processing as well as immutability. Also: Storm, Clojure, and much more.
Forwarded from Machinelearning
Список с полезными ссылками по теме CRISP-DM (версия 1, 13 мая 2018 г.):
https://medium.com/@iradche/crisp-dm-cross-industry-standard-process-for-data-mining-45e1756483cd
https://medium.com/@iradche/crisp-dm-cross-industry-standard-process-for-data-mining-45e1756483cd
Medium
CRISP-DM (Cross-industry standard process for data mining)
Cross-industry standard process for data mining, known as CRISP-DM, is an open standard process model that describes common approaches used…
Machine Learning Yearning от Andrew Ng: https://gallery.mailchimp.com/dc3a7ef4d750c0abfc19202a3/files/aacac1fd-b6bf-4ddc-9571-c9f1054891b6/Ng_MLY05.pdf
Полезные ссылки по библиотекам визуализации на Питоне.
1. HoloViews 1.10 Release: http://blog.pyviz.org/release_1.10.html
2. GeoViews 1.5 Release: http://blog.pyviz.org/release_1.5.html
3. Bokeh: https://bokeh.pydata.org/en/latest/
4. Plotly: https://plot.ly/python/
5. VisPy: http://vispy.org/gallery.html
Больше ссылок на библиотеки можно посмотреть в моем блоге на Medium: https://medium.com/@iradche/python-and-data-visualization-3ad94a9f313c
1. HoloViews 1.10 Release: http://blog.pyviz.org/release_1.10.html
2. GeoViews 1.5 Release: http://blog.pyviz.org/release_1.5.html
3. Bokeh: https://bokeh.pydata.org/en/latest/
4. Plotly: https://plot.ly/python/
5. VisPy: http://vispy.org/gallery.html
Больше ссылок на библиотеки можно посмотреть в моем блоге на Medium: https://medium.com/@iradche/python-and-data-visualization-3ad94a9f313c
Bokeh
Bokeh documentation
Bokeh is a Python library for creating interactive visualizations for modern web browsers. It helps you build beautiful graphics, ranging from simple plots to complex dashboards with streaming data...