"Около месяца назад Google сервис Colaboratory, предоставляющий доступ к Jupyter ноутбукам, включил возможность бесплатно использовать GPU Tesla K80 с 13G видеопамяти. Если до сих пор единственным препятствием для погружения в мир нейросетей могло быть отсутствие доступа к GPU, теперь Вы можете смело сказать, “Держись Deep Learning, я иду!”.
https://habrahabr.ru/post/348058/
https://habrahabr.ru/post/348058/
Habr
Бесплатная GPU Tesla K80 для ваших экспериментов с нейросетями
Около месяца назад Google сервис Colaboratory, предоставляющий доступ к Jupyter ноутбукам, включил возможность бесплатно использовать GPU Tesla K80 с 13 Гб видеопамяти на борту. Если до сих пор...
Forwarded from Ivan Begtin (Ivan Begtin)
Где прочитать про открытые данные, большие данные и технологии в Телеграме
Про данные
@urbandata - городские данные от Андрея Кармацкого. Много про то как работают с данными в городской среде
@Persdata - канал о персональных данных, последние новости и события
@dataleak - тоже про персональные данные, но теперь уже про их утечки
@ai_machinelearning_big_data - канал про большие данные и машинное обучение. Похоже что скорее новостной чем авторский
@just_data_science - дано не обновлявшийся, но интересный канал по data science
Визуализация
@data_publication - дата публикации от Андрея Дорожного, многое про дата журналистику
@mapporn - визуализация данных на картах в примерах
@Infographicru - инфографика, в том числе инфографика на данных
@mapsanddata - карты и данные
#data #channells
Про данные
@urbandata - городские данные от Андрея Кармацкого. Много про то как работают с данными в городской среде
@Persdata - канал о персональных данных, последние новости и события
@dataleak - тоже про персональные данные, но теперь уже про их утечки
@ai_machinelearning_big_data - канал про большие данные и машинное обучение. Похоже что скорее новостной чем авторский
@just_data_science - дано не обновлявшийся, но интересный канал по data science
Визуализация
@data_publication - дата публикации от Андрея Дорожного, многое про дата журналистику
@mapporn - визуализация данных на картах в примерах
@Infographicru - инфографика, в том числе инфографика на данных
@mapsanddata - карты и данные
#data #channells
Простые, но полезные лайфхаки по работе с Excel.
1. https://lifehacker.ru/2014/06/10/20-sekretov-excel/
2. https://lifehacker.ru/2014/07/10/uskorennaja-rabota-v-excel/
1. https://lifehacker.ru/2014/06/10/20-sekretov-excel/
2. https://lifehacker.ru/2014/07/10/uskorennaja-rabota-v-excel/
Лайфхакер
20 секретов Excel, которые помогут упростить работу
Пользуетесь ли вы Excel? Мы выбрали 20 советов, которые помогут вам узнать его получше и оптимизировать свою работу с ним.
По ссылке можно найти множество полезных наборов сетевых данных.
Весьма полезный инфоресурс для тех, кто решил освоить анализ соцсетей.
http://konect.uni-koblenz.de/
Весьма полезный инфоресурс для тех, кто решил освоить анализ соцсетей.
http://konect.uni-koblenz.de/
Библиотека красивых интерактивных диаграмм Bokeh (Python): https://github.com/bokeh/bokeh
А также Bokeh Cheat Sheet: https://www.datacamp.com/community/blog/bokeh-cheat-sheet-python
Памятка по синтаксису библиотеки.
А также Bokeh Cheat Sheet: https://www.datacamp.com/community/blog/bokeh-cheat-sheet-python
Памятка по синтаксису библиотеки.
GitHub
GitHub - bokeh/bokeh: Interactive Data Visualization in the browser, from Python
Interactive Data Visualization in the browser, from Python - bokeh/bokeh
Forwarded from Ivan Begtin (Ivan Begtin)
Для тех кто любит работать с данными, но всё что касается государственных данных надоело и вообще хочется быть поближе к технологиям и исследованиям подборка ссылок.
GHTorrent [1] - база всего что есть в открытом доступе в Github'е собранное через их открытое API. Распространяется в виде дампов в MySQL и MongoDB, по 70 гигабайт каждый дамп
DNSCensus [2] - огромная база DNS записей на 2013 год, более 2.5 миллиардов записей объёмом в 157 гигабайт.
911Datasets [3] коллекция наборов данных по теме терракта 11 сентября 2001 года в США.
Wikimedia Dumps [4] - десятки терабайт дампов Википедии и других проектов Викимедии
LibGen Torrents [5] более миллиона научных книг через торренты
Archive.org datasets [6] коллекции наборов данных загруженные в Интернет-архив
Academic Torrents [7] более 25 терабайт научных данных раздаваемых через торренты
Ссылки:
[1] http://ghtorrent.org/
[2] https://dnscensus2013.neocities.org/index.html
[3] http://911datasets.org/index.php/Main_Page
[4] http://libgen.io/libgen/repository_torrent/
[5] https://meta.wikimedia.org/wiki/Data_dump_torrents
[6] https://archive.org/search.php?query=datasets
[7] http://academictorrents.com
#opendata #datasets
GHTorrent [1] - база всего что есть в открытом доступе в Github'е собранное через их открытое API. Распространяется в виде дампов в MySQL и MongoDB, по 70 гигабайт каждый дамп
DNSCensus [2] - огромная база DNS записей на 2013 год, более 2.5 миллиардов записей объёмом в 157 гигабайт.
911Datasets [3] коллекция наборов данных по теме терракта 11 сентября 2001 года в США.
Wikimedia Dumps [4] - десятки терабайт дампов Википедии и других проектов Викимедии
LibGen Torrents [5] более миллиона научных книг через торренты
Archive.org datasets [6] коллекции наборов данных загруженные в Интернет-архив
Academic Torrents [7] более 25 терабайт научных данных раздаваемых через торренты
Ссылки:
[1] http://ghtorrent.org/
[2] https://dnscensus2013.neocities.org/index.html
[3] http://911datasets.org/index.php/Main_Page
[4] http://libgen.io/libgen/repository_torrent/
[5] https://meta.wikimedia.org/wiki/Data_dump_torrents
[6] https://archive.org/search.php?query=datasets
[7] http://academictorrents.com
#opendata #datasets
15 популярных библиотек на языке Python
https://www.upwork.com/hiring/data/15-python-libraries-data-science/
https://www.upwork.com/hiring/data/15-python-libraries-data-science/
Полезные статьи по статистике простым языком: http://k-tree.ru/articles/statistika/
Полезная книга по статистическому анализу на английском языке: http://www.statsref.com/HTML/index.html
Визуализация при помощи Pairs Plots в Python (быстрое создание EDA-визуализации): https://towardsdatascience.com/visualizing-data-with-pair-plots-in-python-f228cf529166
Medium
Visualizing Data with Pairs Plots in Python
How to quickly create a powerful exploratory data analysis visualization
Forwarded from Pusheen Machine
Я ненавижу Spark
Поэтому хочу опубликовать тут список хороших ресурсов, которые, помогут мне (и возможно вам) его узнать лучше, чем сейчас, и я не буду рвать на голове волосы, когда джоба падает.
Первые две книги уже скачала - осталось только прочитать.
💥 Learning Spark: Lightning-Fast Big Data Analysis
http://shop.oreilly.com/product/0636920028512.do
💥 Advanced Analytics with Spark: Patterns for Learning from Data at Scale
https://www.amazon.com/Advanced-Analytics-Spark-Patterns-Learning/dp/1491912766
💥 Spark in a day
https://www.amazon.com/Spark-Ultimate-Learning-Development-Beginners-ebook/dp/B013GQP702/httpwwwtuto0a-20
💥 Apache Spark Tutorial
https://www.tutorialspoint.com/apache_spark/index.htm
💥 Apache Spark Scala Tutorial
https://github.com/deanwampler/spark-scala-tutorial
💥 Python For Data Science Cheat Sheet (by DataCamp)
https://s3.amazonaws.com/assets.datacamp.com/blog_assets/PySpark_Cheat_Sheet_Python.pdf
💥 Spark documentation - там много других полезных ссылок на видео/книги/лекции
https://spark.apache.org/documentation.html
Поэтому хочу опубликовать тут список хороших ресурсов, которые, помогут мне (и возможно вам) его узнать лучше, чем сейчас, и я не буду рвать на голове волосы, когда джоба падает.
Первые две книги уже скачала - осталось только прочитать.
💥 Learning Spark: Lightning-Fast Big Data Analysis
http://shop.oreilly.com/product/0636920028512.do
💥 Advanced Analytics with Spark: Patterns for Learning from Data at Scale
https://www.amazon.com/Advanced-Analytics-Spark-Patterns-Learning/dp/1491912766
💥 Spark in a day
https://www.amazon.com/Spark-Ultimate-Learning-Development-Beginners-ebook/dp/B013GQP702/httpwwwtuto0a-20
💥 Apache Spark Tutorial
https://www.tutorialspoint.com/apache_spark/index.htm
💥 Apache Spark Scala Tutorial
https://github.com/deanwampler/spark-scala-tutorial
💥 Python For Data Science Cheat Sheet (by DataCamp)
https://s3.amazonaws.com/assets.datacamp.com/blog_assets/PySpark_Cheat_Sheet_Python.pdf
💥 Spark documentation - там много других полезных ссылок на видео/книги/лекции
https://spark.apache.org/documentation.html
Список полезных ресурсов для изучения в рамках Data Science: https://chadwgardner.com/resources/
Chad W Gardner
Resources
Welcome the my resource page! Here is a mostly random, hopefully useful hodgepodge of resources, articles, podcasts and more that I have collected over the last few months. Happy digging, and check…
Очень полезная книга Data Science livebook. Ее писали усилиями Data Science-сообщества в течение года:
https://livebook.datascienceheroes.com/
https://livebook.datascienceheroes.com/
Datascienceheroes
Data Science Live Book
An intuitive and practical approach to data analysis, data preparation and machine learning, suitable for all ages!
Это не про данные, но тоже полезно: https://habrahabr.ru/post/353194/.me
habrahabr.ru
Для чего программисту Continuous Integration и с чего начинать
Представьте что в Роскосмосе решили собрать новую ракету не имея при этом чертежей и четкого понимания как ракета должна быть устроена. Отдельный завод...
Время заняться PySpark-ом: http://spark.apache.org/docs/2.1.0/api/python/pyspark.html
PySpark Cheat Sheet: Spark in Python:
https://www.datacamp.com/community/blog/pyspark-cheat-sheet-python
Еще парочка полезных ссылок по PySpark:
1. https://blog.sicara.com/get-started-pyspark-jupyter-guide-tutorial-ae2fe84f594f
2. https://www.tutorialspoint.com/pyspark/index.htm
PySpark Cheat Sheet: Spark in Python:
https://www.datacamp.com/community/blog/pyspark-cheat-sheet-python
Еще парочка полезных ссылок по PySpark:
1. https://blog.sicara.com/get-started-pyspark-jupyter-guide-tutorial-ae2fe84f594f
2. https://www.tutorialspoint.com/pyspark/index.htm
Datacamp
PySpark Cheat Sheet: Spark in Python
This PySpark cheat sheet with code samples covers the basics like initializing Spark in Python, loading data, sorting, and repartitioning.
