Простые, но полезные лайфхаки по работе с Excel.
1. https://lifehacker.ru/2014/06/10/20-sekretov-excel/
2. https://lifehacker.ru/2014/07/10/uskorennaja-rabota-v-excel/
1. https://lifehacker.ru/2014/06/10/20-sekretov-excel/
2. https://lifehacker.ru/2014/07/10/uskorennaja-rabota-v-excel/
Лайфхакер
20 секретов Excel, которые помогут упростить работу
Пользуетесь ли вы Excel? Мы выбрали 20 советов, которые помогут вам узнать его получше и оптимизировать свою работу с ним.
По ссылке можно найти множество полезных наборов сетевых данных.
Весьма полезный инфоресурс для тех, кто решил освоить анализ соцсетей.
http://konect.uni-koblenz.de/
Весьма полезный инфоресурс для тех, кто решил освоить анализ соцсетей.
http://konect.uni-koblenz.de/
Библиотека красивых интерактивных диаграмм Bokeh (Python): https://github.com/bokeh/bokeh
А также Bokeh Cheat Sheet: https://www.datacamp.com/community/blog/bokeh-cheat-sheet-python
Памятка по синтаксису библиотеки.
А также Bokeh Cheat Sheet: https://www.datacamp.com/community/blog/bokeh-cheat-sheet-python
Памятка по синтаксису библиотеки.
GitHub
GitHub - bokeh/bokeh: Interactive Data Visualization in the browser, from Python
Interactive Data Visualization in the browser, from Python - bokeh/bokeh
Forwarded from Ivan Begtin (Ivan Begtin)
Для тех кто любит работать с данными, но всё что касается государственных данных надоело и вообще хочется быть поближе к технологиям и исследованиям подборка ссылок.
GHTorrent [1] - база всего что есть в открытом доступе в Github'е собранное через их открытое API. Распространяется в виде дампов в MySQL и MongoDB, по 70 гигабайт каждый дамп
DNSCensus [2] - огромная база DNS записей на 2013 год, более 2.5 миллиардов записей объёмом в 157 гигабайт.
911Datasets [3] коллекция наборов данных по теме терракта 11 сентября 2001 года в США.
Wikimedia Dumps [4] - десятки терабайт дампов Википедии и других проектов Викимедии
LibGen Torrents [5] более миллиона научных книг через торренты
Archive.org datasets [6] коллекции наборов данных загруженные в Интернет-архив
Academic Torrents [7] более 25 терабайт научных данных раздаваемых через торренты
Ссылки:
[1] http://ghtorrent.org/
[2] https://dnscensus2013.neocities.org/index.html
[3] http://911datasets.org/index.php/Main_Page
[4] http://libgen.io/libgen/repository_torrent/
[5] https://meta.wikimedia.org/wiki/Data_dump_torrents
[6] https://archive.org/search.php?query=datasets
[7] http://academictorrents.com
#opendata #datasets
GHTorrent [1] - база всего что есть в открытом доступе в Github'е собранное через их открытое API. Распространяется в виде дампов в MySQL и MongoDB, по 70 гигабайт каждый дамп
DNSCensus [2] - огромная база DNS записей на 2013 год, более 2.5 миллиардов записей объёмом в 157 гигабайт.
911Datasets [3] коллекция наборов данных по теме терракта 11 сентября 2001 года в США.
Wikimedia Dumps [4] - десятки терабайт дампов Википедии и других проектов Викимедии
LibGen Torrents [5] более миллиона научных книг через торренты
Archive.org datasets [6] коллекции наборов данных загруженные в Интернет-архив
Academic Torrents [7] более 25 терабайт научных данных раздаваемых через торренты
Ссылки:
[1] http://ghtorrent.org/
[2] https://dnscensus2013.neocities.org/index.html
[3] http://911datasets.org/index.php/Main_Page
[4] http://libgen.io/libgen/repository_torrent/
[5] https://meta.wikimedia.org/wiki/Data_dump_torrents
[6] https://archive.org/search.php?query=datasets
[7] http://academictorrents.com
#opendata #datasets
15 популярных библиотек на языке Python
https://www.upwork.com/hiring/data/15-python-libraries-data-science/
https://www.upwork.com/hiring/data/15-python-libraries-data-science/
Полезные статьи по статистике простым языком: http://k-tree.ru/articles/statistika/
Полезная книга по статистическому анализу на английском языке: http://www.statsref.com/HTML/index.html
Визуализация при помощи Pairs Plots в Python (быстрое создание EDA-визуализации): https://towardsdatascience.com/visualizing-data-with-pair-plots-in-python-f228cf529166
Medium
Visualizing Data with Pairs Plots in Python
How to quickly create a powerful exploratory data analysis visualization
Forwarded from Pusheen Machine
Я ненавижу Spark
Поэтому хочу опубликовать тут список хороших ресурсов, которые, помогут мне (и возможно вам) его узнать лучше, чем сейчас, и я не буду рвать на голове волосы, когда джоба падает.
Первые две книги уже скачала - осталось только прочитать.
💥 Learning Spark: Lightning-Fast Big Data Analysis
http://shop.oreilly.com/product/0636920028512.do
💥 Advanced Analytics with Spark: Patterns for Learning from Data at Scale
https://www.amazon.com/Advanced-Analytics-Spark-Patterns-Learning/dp/1491912766
💥 Spark in a day
https://www.amazon.com/Spark-Ultimate-Learning-Development-Beginners-ebook/dp/B013GQP702/httpwwwtuto0a-20
💥 Apache Spark Tutorial
https://www.tutorialspoint.com/apache_spark/index.htm
💥 Apache Spark Scala Tutorial
https://github.com/deanwampler/spark-scala-tutorial
💥 Python For Data Science Cheat Sheet (by DataCamp)
https://s3.amazonaws.com/assets.datacamp.com/blog_assets/PySpark_Cheat_Sheet_Python.pdf
💥 Spark documentation - там много других полезных ссылок на видео/книги/лекции
https://spark.apache.org/documentation.html
Поэтому хочу опубликовать тут список хороших ресурсов, которые, помогут мне (и возможно вам) его узнать лучше, чем сейчас, и я не буду рвать на голове волосы, когда джоба падает.
Первые две книги уже скачала - осталось только прочитать.
💥 Learning Spark: Lightning-Fast Big Data Analysis
http://shop.oreilly.com/product/0636920028512.do
💥 Advanced Analytics with Spark: Patterns for Learning from Data at Scale
https://www.amazon.com/Advanced-Analytics-Spark-Patterns-Learning/dp/1491912766
💥 Spark in a day
https://www.amazon.com/Spark-Ultimate-Learning-Development-Beginners-ebook/dp/B013GQP702/httpwwwtuto0a-20
💥 Apache Spark Tutorial
https://www.tutorialspoint.com/apache_spark/index.htm
💥 Apache Spark Scala Tutorial
https://github.com/deanwampler/spark-scala-tutorial
💥 Python For Data Science Cheat Sheet (by DataCamp)
https://s3.amazonaws.com/assets.datacamp.com/blog_assets/PySpark_Cheat_Sheet_Python.pdf
💥 Spark documentation - там много других полезных ссылок на видео/книги/лекции
https://spark.apache.org/documentation.html
Список полезных ресурсов для изучения в рамках Data Science: https://chadwgardner.com/resources/
Chad W Gardner
Resources
Welcome the my resource page! Here is a mostly random, hopefully useful hodgepodge of resources, articles, podcasts and more that I have collected over the last few months. Happy digging, and check…
Очень полезная книга Data Science livebook. Ее писали усилиями Data Science-сообщества в течение года:
https://livebook.datascienceheroes.com/
https://livebook.datascienceheroes.com/
Datascienceheroes
Data Science Live Book
An intuitive and practical approach to data analysis, data preparation and machine learning, suitable for all ages!
Это не про данные, но тоже полезно: https://habrahabr.ru/post/353194/.me
habrahabr.ru
Для чего программисту Continuous Integration и с чего начинать
Представьте что в Роскосмосе решили собрать новую ракету не имея при этом чертежей и четкого понимания как ракета должна быть устроена. Отдельный завод...
Время заняться PySpark-ом: http://spark.apache.org/docs/2.1.0/api/python/pyspark.html
PySpark Cheat Sheet: Spark in Python:
https://www.datacamp.com/community/blog/pyspark-cheat-sheet-python
Еще парочка полезных ссылок по PySpark:
1. https://blog.sicara.com/get-started-pyspark-jupyter-guide-tutorial-ae2fe84f594f
2. https://www.tutorialspoint.com/pyspark/index.htm
PySpark Cheat Sheet: Spark in Python:
https://www.datacamp.com/community/blog/pyspark-cheat-sheet-python
Еще парочка полезных ссылок по PySpark:
1. https://blog.sicara.com/get-started-pyspark-jupyter-guide-tutorial-ae2fe84f594f
2. https://www.tutorialspoint.com/pyspark/index.htm
Datacamp
PySpark Cheat Sheet: Spark in Python
This PySpark cheat sheet with code samples covers the basics like initializing Spark in Python, loading data, sorting, and repartitioning.
Интервью (с транскриптом) с Nathan Marz о лямбда-архитектуре: https://www.infoq.com/interviews/marz-lambda-architecture
Его же книга Big Data: Principles and best practices of scalable realtime data systems: https://www.goodreads.com/book/show/13421400-big-data
Его же книга Big Data: Principles and best practices of scalable realtime data systems: https://www.goodreads.com/book/show/13421400-big-data
InfoQ
Nathan Marz on Storm, Immutability in the Lambda Architecture, Clojure
Nathan Marz explains the ideas behind the Lambda Architecture and how it combines the strengths of both batch and realtime processing as well as immutability. Also: Storm, Clojure, and much more.
Forwarded from Machinelearning