Data Place – Telegram
Data Place
550 subscribers
34 photos
2 files
212 links
Канал про данные, науку о данных и про обучение работе с данными.
Автор: Ирина Радченко, доцент, канд. техн. наук, любитель данных и Computer Science, в Телеграме -- @dadaistka
Download Telegram
The scikit-learn Random Forest feature importance and R's default Random Forest feature importance strategies are biased. To get reliable results in Python, use permutation importance, provided here and in our rfpimp package (via pip). For R, use importance=T in the Random Forest constructor then type=1 in R's importance() function. In addition, your feature importance measures will only be reliable if your model is trained with suitable hyper-parameters.

http://explained.ai/rf-importance/index.html
Обнаружила книгу "The UNIX
Programming Environment" авторства Mark Burgess [http://pdplab.it.uom.gr/project/sysadm/unix.pdf], хотя, понятное дело, искала классику [http://cs2.ist.unomaha.edu/~stanw/163/csci4500/UNIXProgrammingEnvironment.pdf] Brian W. Kernighan.
Ну и кто так свои книги называет?!
Forwarded from Data Science Notes (Igor A. Kamyshev)
TensorFlow Machine Learning Cookbook — Nick McClure (en) 2017

Поможет изучить концепции машинного обучения, используя новейшие
библиотеки, такие как TensorFlow.

#book #middle #python
Вот еще куча полезных ссылок и постов по Data Science.
#DataScience
Бесплатный гайд для новичков по машинному обучению

http://www.allitebooks.in/machine-learning-dummies/
Forwarded from Python Textbooks (Mariya Goroshko)
Natural Language Processing with Python – S. Bird, E. Klein, E. Loper (en) 2009

Рассказывается о различных языковых технологиях: от фильтрации электронной почты до автоматического перевода.

#middle
Forwarded from Data Science Notes (Mariya Goroshko)
Python Machine Learning – Sebastian Raschka (en)

Даст более глубокое понимание машинного обучения.

#book #middle #theory
Радиология Москвы: Репозиторий открытых данных для машинного обучения и «искусственного интеллекта»

http://medradiology.moscow/iskusstvennyy-intellekt

#CT #Radiology #OpenData
Простенько, но зато понятно. О том, чем Docker может быть полезен дата-ученому.
https://www.kdnuggets.com/2018/08/data-scientist-guide-getting-started-docker.html
#Docker
Forwarded from ЗаТелеком 🌐
Аксакалы рунета. Историческая фоточка, между прочим.
Случайно затесалась к аксакалам Рунета, тк была в роли со-организатора.
Alberto Cairo выложил в открытый доступ видеоматериалы своих тренингов по визуализации данных: http://www.thefunctionalart.com/2018/08/visualization-mooc-materials-available.html?m=1
Forwarded from Ivan Begtin (Ivan Begtin)
Оказывается Гугл открыли поиск по датасетам (Google Dataset Search) [1] пока в бета версии, но уже работает.
Его поиск основан на тегах dataset [2] с помощью которых описываются структурированные данные.

Плюс в том что это позволяет Гуглу индексировать все данные описанные таким образом через атрибуты typeof="dcat:Dataset" или в коде <noscript type="application/ld+json">. В инструкциях есть примеры [4] того как это делается.

Минус в том что данные очень сконцентрированы в порталах у которых большинства есть стандартизованное API, в основном, API продукта CKAN. Например, только в Res3Data [5] более 2000 каталогов. Большая их часть не использует тэги гугла для индексирования и живут со своим правилам.

В принципе создавая поиск по датасетам важно помнить о том что есть 3 условных категории пользователей:
- общественно-политические
- коммерческие
- научные / академические

Можно их свести к общему знаменателю, но всё же с учётом их потребностей. И, на мой взгляд, важнее уметь индексировать цифровые репозитории через существующие API, чем навязывать публикацию тегом dataset. Во всяком случае краткосрочно, а долгосрочно конечно всё делается правильно.


Ссылки:
[1] https://toolbox.google.com/datasetsearch
[2] https://developers.google.com/search/docs/data-types/dataset
[3] https://search.google.com/structured-data/testing-tool
[4] https://productforums.google.com/forum/#!topic/webmasters/nPq4BW6iPIA
[5] https://www.re3data.org/

#opendata #google