The scikit-learn Random Forest feature importance and R's default Random Forest feature importance strategies are biased. To get reliable results in Python, use permutation importance, provided here and in our rfpimp package (via pip). For R, use importance=T in the Random Forest constructor then type=1 in R's importance() function. In addition, your feature importance measures will only be reliable if your model is trained with suitable hyper-parameters.
http://explained.ai/rf-importance/index.html
http://explained.ai/rf-importance/index.html
explained.ai
Beware Default Random Forest Importances
Training a model that accurately predicts outcomes is great, but most of the time you don't just need predictions, you want to be able to interpret your model. The problem is that the scikit-learn Random Forest feature importance and R's default Random Forest…
Обнаружила книгу "The UNIX
Programming Environment" авторства Mark Burgess [http://pdplab.it.uom.gr/project/sysadm/unix.pdf], хотя, понятное дело, искала классику [http://cs2.ist.unomaha.edu/~stanw/163/csci4500/UNIXProgrammingEnvironment.pdf] Brian W. Kernighan.
Ну и кто так свои книги называет?!
Programming Environment" авторства Mark Burgess [http://pdplab.it.uom.gr/project/sysadm/unix.pdf], хотя, понятное дело, искала классику [http://cs2.ist.unomaha.edu/~stanw/163/csci4500/UNIXProgrammingEnvironment.pdf] Brian W. Kernighan.
Ну и кто так свои книги называет?!
Forwarded from Data Science Notes (Igor A. Kamyshev)
Forwarded from Data Science и все такое
Меню канала с основными постами.
Основы Data Science, алгоритмы.
1. Data Science
2. Big Data
3. Data Mining
4. Нейросети
5. Задача про Титаник
6. Регрессия, регрессоры. Классификаторы.
7. Деревья решений
8. Наивный Байесовский классификатор
9. Метод K-ближайших соседей
Визуализация.
1. Визуализация данных
2. Тепловые карты
Истории о нейросетях
1. Пример работы нейросети на примере боев сумо
2. Нейросети и распознавание порноактеров
3. Нейросети и трейдинг
4. Нейросети и видеослежка
Истории из жизни.
1. Айфон-психолог
2. Магазины вычисляют вашу беременность
3. Знакомство с помощью Data Science
4. Знакомство с помощью Data Science - 2
5. Про машинный перевод
Основы Data Science, алгоритмы.
1. Data Science
2. Big Data
3. Data Mining
4. Нейросети
5. Задача про Титаник
6. Регрессия, регрессоры. Классификаторы.
7. Деревья решений
8. Наивный Байесовский классификатор
9. Метод K-ближайших соседей
Визуализация.
1. Визуализация данных
2. Тепловые карты
Истории о нейросетях
1. Пример работы нейросети на примере боев сумо
2. Нейросети и распознавание порноактеров
3. Нейросети и трейдинг
4. Нейросети и видеослежка
Истории из жизни.
1. Айфон-психолог
2. Магазины вычисляют вашу беременность
3. Знакомство с помощью Data Science
4. Знакомство с помощью Data Science - 2
5. Про машинный перевод
Бесплатный гайд для новичков по машинному обучению
http://www.allitebooks.in/machine-learning-dummies/
http://www.allitebooks.in/machine-learning-dummies/
Forwarded from Python Textbooks (Mariya Goroshko)
Natural Language Processing with Python – S. Bird, E. Klein, E. Loper (en) 2009
Рассказывается о различных языковых технологиях: от фильтрации электронной почты до автоматического перевода.
#middle
Рассказывается о различных языковых технологиях: от фильтрации электронной почты до автоматического перевода.
#middle
Forwarded from Data Science Notes (Mariya Goroshko)
Глубокое обучение при помощи Spark и Hadoop: знакомство с #Deeplearning4j:
https://habr.com/company/piter/blog/344824/
https://habr.com/company/piter/blog/344824/
Habr
Глубокое обучение при помощи Spark и Hadoop: знакомство с Deeplearning4j
Здравствуйте, уважаемые читатели! Мы вполне убедились в мегапопулярности глубокого обучения (Deep Learning) на языке Python в нашей целевой аудитории. Теперь...
Радиология Москвы: Репозиторий открытых данных для машинного обучения и «искусственного интеллекта»
http://medradiology.moscow/iskusstvennyy-intellekt
#CT #Radiology #OpenData
http://medradiology.moscow/iskusstvennyy-intellekt
#CT #Radiology #OpenData
Ongoing Face Recognition Vendor Test (FRVT) Part 1: Verification
#NIST #FaceRecognitionTest
https://www.nist.gov/sites/default/files/documents/2018/06/21/frvt_report_2018_06_21.pdf
#NIST #FaceRecognitionTest
https://www.nist.gov/sites/default/files/documents/2018/06/21/frvt_report_2018_06_21.pdf
First Class GPUs support in Apache Hadoop 3.1, YARN & HDP 3.0
https://hortonworks.com/blog/gpus-support-in-apache-hadoop-3-1-yarn-hdp-3/
https://hortonworks.com/blog/gpus-support-in-apache-hadoop-3-1-yarn-hdp-3/
Hortonworks
First Class GPUs support in Apache Hadoop 3.1, YARN & HDP 3.0 - Hortonworks
GPUs are increasingly becoming a key tool for many big data applications that use Apache . Hadoop and YARN.
Простенько, но зато понятно. О том, чем Docker может быть полезен дата-ученому.
https://www.kdnuggets.com/2018/08/data-scientist-guide-getting-started-docker.html
#Docker
https://www.kdnuggets.com/2018/08/data-scientist-guide-getting-started-docker.html
#Docker
Alberto Cairo выложил в открытый доступ видеоматериалы своих тренингов по визуализации данных: http://www.thefunctionalart.com/2018/08/visualization-mooc-materials-available.html?m=1
Forwarded from Machinelearning
What are the experts in data analysis really doing? Conclusions from 35 interviews https://habr.com/company/wirex/blog/421845/
Хабр
Чем на самом деле занимаются специалисты по анализу данных? Выводы из 35 интервью
Автор материала провел серию бесед с экспертами в области анализа и обработки данных и сделал выводы о перспективах и направлениях развития дата-сайентистов. Т...
Forwarded from Ivan Begtin (Ivan Begtin)
Оказывается Гугл открыли поиск по датасетам (Google Dataset Search) [1] пока в бета версии, но уже работает.
Его поиск основан на тегах dataset [2] с помощью которых описываются структурированные данные.
Плюс в том что это позволяет Гуглу индексировать все данные описанные таким образом через атрибуты typeof="dcat:Dataset" или в коде <noscript type="application/ld+json">. В инструкциях есть примеры [4] того как это делается.
Минус в том что данные очень сконцентрированы в порталах у которых большинства есть стандартизованное API, в основном, API продукта CKAN. Например, только в Res3Data [5] более 2000 каталогов. Большая их часть не использует тэги гугла для индексирования и живут со своим правилам.
В принципе создавая поиск по датасетам важно помнить о том что есть 3 условных категории пользователей:
- общественно-политические
- коммерческие
- научные / академические
Можно их свести к общему знаменателю, но всё же с учётом их потребностей. И, на мой взгляд, важнее уметь индексировать цифровые репозитории через существующие API, чем навязывать публикацию тегом dataset. Во всяком случае краткосрочно, а долгосрочно конечно всё делается правильно.
Ссылки:
[1] https://toolbox.google.com/datasetsearch
[2] https://developers.google.com/search/docs/data-types/dataset
[3] https://search.google.com/structured-data/testing-tool
[4] https://productforums.google.com/forum/#!topic/webmasters/nPq4BW6iPIA
[5] https://www.re3data.org/
#opendata #google
Его поиск основан на тегах dataset [2] с помощью которых описываются структурированные данные.
Плюс в том что это позволяет Гуглу индексировать все данные описанные таким образом через атрибуты typeof="dcat:Dataset" или в коде <noscript type="application/ld+json">. В инструкциях есть примеры [4] того как это делается.
Минус в том что данные очень сконцентрированы в порталах у которых большинства есть стандартизованное API, в основном, API продукта CKAN. Например, только в Res3Data [5] более 2000 каталогов. Большая их часть не использует тэги гугла для индексирования и живут со своим правилам.
В принципе создавая поиск по датасетам важно помнить о том что есть 3 условных категории пользователей:
- общественно-политические
- коммерческие
- научные / академические
Можно их свести к общему знаменателю, но всё же с учётом их потребностей. И, на мой взгляд, важнее уметь индексировать цифровые репозитории через существующие API, чем навязывать публикацию тегом dataset. Во всяком случае краткосрочно, а долгосрочно конечно всё делается правильно.
Ссылки:
[1] https://toolbox.google.com/datasetsearch
[2] https://developers.google.com/search/docs/data-types/dataset
[3] https://search.google.com/structured-data/testing-tool
[4] https://productforums.google.com/forum/#!topic/webmasters/nPq4BW6iPIA
[5] https://www.re3data.org/
#opendata #google
Google for Developers
Dataset Structured Data | Google Search Central | Documentation | Google for Developers
Learn how to add schema.org Dataset structured data. Implementing this can help Google recognize the dataset creator, distribution format, and other information.