Data Place – Telegram
Data Place
550 subscribers
34 photos
2 files
212 links
Канал про данные, науку о данных и про обучение работе с данными.
Автор: Ирина Радченко, доцент, канд. техн. наук, любитель данных и Computer Science, в Телеграме -- @dadaistka
Download Telegram
Forwarded from Ivan Begtin (Ivan Begtin)
Для тех кто любит работать с данными, но всё что касается государственных данных надоело и вообще хочется быть поближе к технологиям и исследованиям подборка ссылок.
GHTorrent [1] - база всего что есть в открытом доступе в Github'е собранное через их открытое API. Распространяется в виде дампов в MySQL и MongoDB, по 70 гигабайт каждый дамп

DNSCensus [2] - огромная база DNS записей на 2013 год, более 2.5 миллиардов записей объёмом в 157 гигабайт.

911Datasets [3] коллекция наборов данных по теме терракта 11 сентября 2001 года в США.

Wikimedia Dumps [4] - десятки терабайт дампов Википедии и других проектов Викимедии

LibGen Torrents [5] более миллиона научных книг через торренты

Archive.org datasets [6] коллекции наборов данных загруженные в Интернет-архив

Academic Torrents [7] более 25 терабайт научных данных раздаваемых через торренты

Ссылки:
[1] http://ghtorrent.org/
[2] https://dnscensus2013.neocities.org/index.html
[3] http://911datasets.org/index.php/Main_Page
[4] http://libgen.io/libgen/repository_torrent/
[5] https://meta.wikimedia.org/wiki/Data_dump_torrents
[6] https://archive.org/search.php?query=datasets
[7] http://academictorrents.com

#opendata #datasets
15 популярных библиотек на языке Python

https://www.upwork.com/hiring/data/15-python-libraries-data-science/
Полезные статьи по статистике простым языком: http://k-tree.ru/articles/statistika/
Полезная книга по статистическому анализу на английском языке: http://www.statsref.com/HTML/index.html
Визуализация при помощи Pairs Plots в Python (быстрое создание EDA-визуализации): https://towardsdatascience.com/visualizing-data-with-pair-plots-in-python-f228cf529166
Forwarded from Pusheen Machine
Я ненавижу Spark

Поэтому хочу опубликовать тут список хороших ресурсов, которые, помогут мне (и возможно вам) его узнать лучше, чем сейчас, и я не буду рвать на голове волосы, когда джоба падает.
Первые две книги уже скачала - осталось только прочитать.

💥 Learning Spark: Lightning-Fast Big Data Analysis
http://shop.oreilly.com/product/0636920028512.do

💥 Advanced Analytics with Spark: Patterns for Learning from Data at Scale
https://www.amazon.com/Advanced-Analytics-Spark-Patterns-Learning/dp/1491912766

💥 Spark in a day
https://www.amazon.com/Spark-Ultimate-Learning-Development-Beginners-ebook/dp/B013GQP702/httpwwwtuto0a-20

💥 Apache Spark Tutorial
https://www.tutorialspoint.com/apache_spark/index.htm

💥 Apache Spark Scala Tutorial
https://github.com/deanwampler/spark-scala-tutorial

💥 Python For Data Science Cheat Sheet (by DataCamp)
https://s3.amazonaws.com/assets.datacamp.com/blog_assets/PySpark_Cheat_Sheet_Python.pdf

💥 Spark documentation - там много других полезных ссылок на видео/книги/лекции
https://spark.apache.org/documentation.html
Очень полезная книга Data Science livebook. Ее писали усилиями Data Science-сообщества в течение года:
https://livebook.datascienceheroes.com/
Forwarded from Pusheen Machine
Схема Spark (взято из DataCamp)
Полезные ссылки по библиотекам визуализации на Питоне.
1. HoloViews 1.10 Release: http://blog.pyviz.org/release_1.10.html
2. GeoViews 1.5 Release: http://blog.pyviz.org/release_1.5.html
3. Bokeh: https://bokeh.pydata.org/en/latest/
4. Plotly: https://plot.ly/python/
5. VisPy: http://vispy.org/gallery.html

Больше ссылок на библиотеки можно посмотреть в моем блоге на Medium: https://medium.com/@iradche/python-and-data-visualization-3ad94a9f313c