Forwarded from Pusheen Machine
Я ненавижу Spark
Поэтому хочу опубликовать тут список хороших ресурсов, которые, помогут мне (и возможно вам) его узнать лучше, чем сейчас, и я не буду рвать на голове волосы, когда джоба падает.
Первые две книги уже скачала - осталось только прочитать.
💥 Learning Spark: Lightning-Fast Big Data Analysis
http://shop.oreilly.com/product/0636920028512.do
💥 Advanced Analytics with Spark: Patterns for Learning from Data at Scale
https://www.amazon.com/Advanced-Analytics-Spark-Patterns-Learning/dp/1491912766
💥 Spark in a day
https://www.amazon.com/Spark-Ultimate-Learning-Development-Beginners-ebook/dp/B013GQP702/httpwwwtuto0a-20
💥 Apache Spark Tutorial
https://www.tutorialspoint.com/apache_spark/index.htm
💥 Apache Spark Scala Tutorial
https://github.com/deanwampler/spark-scala-tutorial
💥 Python For Data Science Cheat Sheet (by DataCamp)
https://s3.amazonaws.com/assets.datacamp.com/blog_assets/PySpark_Cheat_Sheet_Python.pdf
💥 Spark documentation - там много других полезных ссылок на видео/книги/лекции
https://spark.apache.org/documentation.html
Поэтому хочу опубликовать тут список хороших ресурсов, которые, помогут мне (и возможно вам) его узнать лучше, чем сейчас, и я не буду рвать на голове волосы, когда джоба падает.
Первые две книги уже скачала - осталось только прочитать.
💥 Learning Spark: Lightning-Fast Big Data Analysis
http://shop.oreilly.com/product/0636920028512.do
💥 Advanced Analytics with Spark: Patterns for Learning from Data at Scale
https://www.amazon.com/Advanced-Analytics-Spark-Patterns-Learning/dp/1491912766
💥 Spark in a day
https://www.amazon.com/Spark-Ultimate-Learning-Development-Beginners-ebook/dp/B013GQP702/httpwwwtuto0a-20
💥 Apache Spark Tutorial
https://www.tutorialspoint.com/apache_spark/index.htm
💥 Apache Spark Scala Tutorial
https://github.com/deanwampler/spark-scala-tutorial
💥 Python For Data Science Cheat Sheet (by DataCamp)
https://s3.amazonaws.com/assets.datacamp.com/blog_assets/PySpark_Cheat_Sheet_Python.pdf
💥 Spark documentation - там много других полезных ссылок на видео/книги/лекции
https://spark.apache.org/documentation.html
Список полезных ресурсов для изучения в рамках Data Science: https://chadwgardner.com/resources/
Chad W Gardner
Resources
Welcome the my resource page! Here is a mostly random, hopefully useful hodgepodge of resources, articles, podcasts and more that I have collected over the last few months. Happy digging, and check…
Очень полезная книга Data Science livebook. Ее писали усилиями Data Science-сообщества в течение года:
https://livebook.datascienceheroes.com/
https://livebook.datascienceheroes.com/
Datascienceheroes
Data Science Live Book
An intuitive and practical approach to data analysis, data preparation and machine learning, suitable for all ages!
Это не про данные, но тоже полезно: https://habrahabr.ru/post/353194/.me
habrahabr.ru
Для чего программисту Continuous Integration и с чего начинать
Представьте что в Роскосмосе решили собрать новую ракету не имея при этом чертежей и четкого понимания как ракета должна быть устроена. Отдельный завод...
Время заняться PySpark-ом: http://spark.apache.org/docs/2.1.0/api/python/pyspark.html
PySpark Cheat Sheet: Spark in Python:
https://www.datacamp.com/community/blog/pyspark-cheat-sheet-python
Еще парочка полезных ссылок по PySpark:
1. https://blog.sicara.com/get-started-pyspark-jupyter-guide-tutorial-ae2fe84f594f
2. https://www.tutorialspoint.com/pyspark/index.htm
PySpark Cheat Sheet: Spark in Python:
https://www.datacamp.com/community/blog/pyspark-cheat-sheet-python
Еще парочка полезных ссылок по PySpark:
1. https://blog.sicara.com/get-started-pyspark-jupyter-guide-tutorial-ae2fe84f594f
2. https://www.tutorialspoint.com/pyspark/index.htm
Datacamp
PySpark Cheat Sheet: Spark in Python
This PySpark cheat sheet with code samples covers the basics like initializing Spark in Python, loading data, sorting, and repartitioning.
Интервью (с транскриптом) с Nathan Marz о лямбда-архитектуре: https://www.infoq.com/interviews/marz-lambda-architecture
Его же книга Big Data: Principles and best practices of scalable realtime data systems: https://www.goodreads.com/book/show/13421400-big-data
Его же книга Big Data: Principles and best practices of scalable realtime data systems: https://www.goodreads.com/book/show/13421400-big-data
InfoQ
Nathan Marz on Storm, Immutability in the Lambda Architecture, Clojure
Nathan Marz explains the ideas behind the Lambda Architecture and how it combines the strengths of both batch and realtime processing as well as immutability. Also: Storm, Clojure, and much more.
Forwarded from Machinelearning
Список с полезными ссылками по теме CRISP-DM (версия 1, 13 мая 2018 г.):
https://medium.com/@iradche/crisp-dm-cross-industry-standard-process-for-data-mining-45e1756483cd
https://medium.com/@iradche/crisp-dm-cross-industry-standard-process-for-data-mining-45e1756483cd
Medium
CRISP-DM (Cross-industry standard process for data mining)
Cross-industry standard process for data mining, known as CRISP-DM, is an open standard process model that describes common approaches used…
Machine Learning Yearning от Andrew Ng: https://gallery.mailchimp.com/dc3a7ef4d750c0abfc19202a3/files/aacac1fd-b6bf-4ddc-9571-c9f1054891b6/Ng_MLY05.pdf
Полезные ссылки по библиотекам визуализации на Питоне.
1. HoloViews 1.10 Release: http://blog.pyviz.org/release_1.10.html
2. GeoViews 1.5 Release: http://blog.pyviz.org/release_1.5.html
3. Bokeh: https://bokeh.pydata.org/en/latest/
4. Plotly: https://plot.ly/python/
5. VisPy: http://vispy.org/gallery.html
Больше ссылок на библиотеки можно посмотреть в моем блоге на Medium: https://medium.com/@iradche/python-and-data-visualization-3ad94a9f313c
1. HoloViews 1.10 Release: http://blog.pyviz.org/release_1.10.html
2. GeoViews 1.5 Release: http://blog.pyviz.org/release_1.5.html
3. Bokeh: https://bokeh.pydata.org/en/latest/
4. Plotly: https://plot.ly/python/
5. VisPy: http://vispy.org/gallery.html
Больше ссылок на библиотеки можно посмотреть в моем блоге на Medium: https://medium.com/@iradche/python-and-data-visualization-3ad94a9f313c
Bokeh
Bokeh documentation
Bokeh is a Python library for creating interactive visualizations for modern web browsers. It helps you build beautiful graphics, ranging from simple plots to complex dashboards with streaming data...
Пара статей Deep Learning With Apache Spark от Favio Vázquez.
1. https://towardsdatascience.com/deep-learning-with-apache-spark-part-1-6d397c16abd
2. https://towardsdatascience.com/deep-learning-with-apache-spark-part-2-2a2938a36d35
1. https://towardsdatascience.com/deep-learning-with-apache-spark-part-1-6d397c16abd
2. https://towardsdatascience.com/deep-learning-with-apache-spark-part-2-2a2938a36d35
Medium
Deep Learning With Apache Spark — Part 1
First part on a full discussion on how to do Distributed Deep Learning with Apache Spark. This part: What is Spark, basics on Spark+DL and…
Краткий обзор 10 популярных алгоритмов машинного обучения для новичков (A Tour of The Top 10 Algorithms for Machine Learning Newbies):https://towardsdatascience.com/a-tour-of-the-top-10-algorithms-for-machine-learning-newbies-dde4edffae11
Библиотека Keras – А. Джулли, С. Пал (ru) 2017
Краткое, но обстоятельное введение в современные нейронные сети, искусственный интеллект и технологии глубокого обучения.
Краткое, но обстоятельное введение в современные нейронные сети, искусственный интеллект и технологии глубокого обучения.
Список питоновских библиотек для обработки естественного языка.
https://kleiber.me/blog/2018/02/25/top-10-python-nlp-libraries-2018/
https://kleiber.me/blog/2018/02/25/top-10-python-nlp-libraries-2018/
kleiber.me - Ingo Kleiber
Top 10 Python Libraries for Natural Language Processing (2018)
There are various Python libraries for natural language processing (NLP). This article discusses ten of the most important Python libraries and modules for analyzing language computationally.
Forwarded from Machinelearning
MachineLearningMastery.com
How to Transform Data to Better Fit The Normal Distribution - MachineLearningMastery.com
A large portion of the field of statistics is concerned with methods that assume a Gaussian distribution: the familiar bell curve. If your data has a Gaussian distribution, the parametric methods are powerful and well understood. This gives some incentive…
Очень интересная и полезная книга по глубокому обучению (Deep Learning. A Practitioner's Approach).
В ней также рассматривается библиотека Deeplearning4j (DL4J) и DataVec.
В издательстве ДМК вышел ее перевод на русском языке.
В русском переводе она называется "Глубокое обучение с точки зрения практика".
В ней также рассматривается библиотека Deeplearning4j (DL4J) и DataVec.
В издательстве ДМК вышел ее перевод на русском языке.
В русском переводе она называется "Глубокое обучение с точки зрения практика".