First Class GPUs support in Apache Hadoop 3.1, YARN & HDP 3.0
https://hortonworks.com/blog/gpus-support-in-apache-hadoop-3-1-yarn-hdp-3/
https://hortonworks.com/blog/gpus-support-in-apache-hadoop-3-1-yarn-hdp-3/
Hortonworks
First Class GPUs support in Apache Hadoop 3.1, YARN & HDP 3.0 - Hortonworks
GPUs are increasingly becoming a key tool for many big data applications that use Apache . Hadoop and YARN.
Простенько, но зато понятно. О том, чем Docker может быть полезен дата-ученому.
https://www.kdnuggets.com/2018/08/data-scientist-guide-getting-started-docker.html
#Docker
https://www.kdnuggets.com/2018/08/data-scientist-guide-getting-started-docker.html
#Docker
Alberto Cairo выложил в открытый доступ видеоматериалы своих тренингов по визуализации данных: http://www.thefunctionalart.com/2018/08/visualization-mooc-materials-available.html?m=1
Forwarded from Machinelearning
What are the experts in data analysis really doing? Conclusions from 35 interviews https://habr.com/company/wirex/blog/421845/
Хабр
Чем на самом деле занимаются специалисты по анализу данных? Выводы из 35 интервью
Автор материала провел серию бесед с экспертами в области анализа и обработки данных и сделал выводы о перспективах и направлениях развития дата-сайентистов. Т...
Forwarded from Ivan Begtin (Ivan Begtin)
Оказывается Гугл открыли поиск по датасетам (Google Dataset Search) [1] пока в бета версии, но уже работает.
Его поиск основан на тегах dataset [2] с помощью которых описываются структурированные данные.
Плюс в том что это позволяет Гуглу индексировать все данные описанные таким образом через атрибуты typeof="dcat:Dataset" или в коде <noscript type="application/ld+json">. В инструкциях есть примеры [4] того как это делается.
Минус в том что данные очень сконцентрированы в порталах у которых большинства есть стандартизованное API, в основном, API продукта CKAN. Например, только в Res3Data [5] более 2000 каталогов. Большая их часть не использует тэги гугла для индексирования и живут со своим правилам.
В принципе создавая поиск по датасетам важно помнить о том что есть 3 условных категории пользователей:
- общественно-политические
- коммерческие
- научные / академические
Можно их свести к общему знаменателю, но всё же с учётом их потребностей. И, на мой взгляд, важнее уметь индексировать цифровые репозитории через существующие API, чем навязывать публикацию тегом dataset. Во всяком случае краткосрочно, а долгосрочно конечно всё делается правильно.
Ссылки:
[1] https://toolbox.google.com/datasetsearch
[2] https://developers.google.com/search/docs/data-types/dataset
[3] https://search.google.com/structured-data/testing-tool
[4] https://productforums.google.com/forum/#!topic/webmasters/nPq4BW6iPIA
[5] https://www.re3data.org/
#opendata #google
Его поиск основан на тегах dataset [2] с помощью которых описываются структурированные данные.
Плюс в том что это позволяет Гуглу индексировать все данные описанные таким образом через атрибуты typeof="dcat:Dataset" или в коде <noscript type="application/ld+json">. В инструкциях есть примеры [4] того как это делается.
Минус в том что данные очень сконцентрированы в порталах у которых большинства есть стандартизованное API, в основном, API продукта CKAN. Например, только в Res3Data [5] более 2000 каталогов. Большая их часть не использует тэги гугла для индексирования и живут со своим правилам.
В принципе создавая поиск по датасетам важно помнить о том что есть 3 условных категории пользователей:
- общественно-политические
- коммерческие
- научные / академические
Можно их свести к общему знаменателю, но всё же с учётом их потребностей. И, на мой взгляд, важнее уметь индексировать цифровые репозитории через существующие API, чем навязывать публикацию тегом dataset. Во всяком случае краткосрочно, а долгосрочно конечно всё делается правильно.
Ссылки:
[1] https://toolbox.google.com/datasetsearch
[2] https://developers.google.com/search/docs/data-types/dataset
[3] https://search.google.com/structured-data/testing-tool
[4] https://productforums.google.com/forum/#!topic/webmasters/nPq4BW6iPIA
[5] https://www.re3data.org/
#opendata #google
Google for Developers
Dataset Structured Data | Google Search Central | Documentation | Google for Developers
Learn how to add schema.org Dataset structured data. Implementing this can help Google recognize the dataset creator, distribution format, and other information.
Forwarded from Ivan Begtin (Ivan Begtin)
Инструменты, истории и сервисы на данных:
- Поиск автора статьи в NYTimes [1] об инсайдере в администрации Трампа через анализ статьи и твитов сотрудников администрации [2]
- Deon. Инструмент проверки на дата этику для дата сайентистов [3]. Полезен всем без исключения для самопроверки. На русский пока не переведён
- Why data culture matters ? [4] Статья в журнале McKinsey о важности культуры работы с данными в организации
Ссылки:
[1] https://www.nytimes.com/2018/09/05/opinion/trump-white-house-anonymous-resistance.html
[2] http://varianceexplained.org/r/op-ed-text-analysis/
[3] http://deon.drivendata.org
[4] https://www.mckinsey.com/business-functions/mckinsey-analytics/our-insights/why-data-culture-matters
#data
- Поиск автора статьи в NYTimes [1] об инсайдере в администрации Трампа через анализ статьи и твитов сотрудников администрации [2]
- Deon. Инструмент проверки на дата этику для дата сайентистов [3]. Полезен всем без исключения для самопроверки. На русский пока не переведён
- Why data culture matters ? [4] Статья в журнале McKinsey о важности культуры работы с данными в организации
Ссылки:
[1] https://www.nytimes.com/2018/09/05/opinion/trump-white-house-anonymous-resistance.html
[2] http://varianceexplained.org/r/op-ed-text-analysis/
[3] http://deon.drivendata.org
[4] https://www.mckinsey.com/business-functions/mckinsey-analytics/our-insights/why-data-culture-matters
#data
NY Times
Opinion | I Am Part of the Resistance Inside the Trump Administration (Published 2018)
I work for the president but like-minded colleagues and I have vowed to thwart parts of his agenda and his worst inclinations.
Forwarded from IoTing: новости&мысли
Если вы интересуетесь IoT или даже работаете в этой области, то всегда полезно иметь под рукой каталог компаний. Это могут быть или потенциальные партнеры и коллеги, или конкуренты. Знать о том, и о том — полезно.
И вот, например, есть такая гуглокарта Map of IoT Companies & Startups
https://www.google.com/maps/d/viewer?mid=1HvovjRP_nq0ny-f-yDbz9RdIhUBBX0KA
Но там отстутсвуют российские проекты.
Потому, напомню за проект, где мы собираем (ну, стараемся собрать) данные обо всех российский хардверных проектах и компаниях.
На сегодня в таблице 49 записей из которых 10 стартапов.
Все данныепубликуются вот тут:
http://bit.ly/CATALOG_RUSHARDWARE
А чтоб попасть в «каталог», нужно всего лишь заполнить гуглоформу:
http://bit.ly/RUS_HARDWARE
И вот, например, есть такая гуглокарта Map of IoT Companies & Startups
https://www.google.com/maps/d/viewer?mid=1HvovjRP_nq0ny-f-yDbz9RdIhUBBX0KA
Но там отстутсвуют российские проекты.
Потому, напомню за проект, где мы собираем (ну, стараемся собрать) данные обо всех российский хардверных проектах и компаниях.
На сегодня в таблице 49 записей из которых 10 стартапов.
Все данныепубликуются вот тут:
http://bit.ly/CATALOG_RUSHARDWARE
А чтоб попасть в «каталог», нужно всего лишь заполнить гуглоформу:
http://bit.ly/RUS_HARDWARE
Google My Maps
Map of IoT Companies & Startups - Google My Maps
The purpose of this roadmap is to give you an overview of the core skills needed in data science. These are views help by individuals we have spoken to and do not represent any companies’ opinion.
https://github.com/hasbrain/data-science-roadmap
https://github.com/hasbrain/data-science-roadmap
GitHub
GitHub - boringPpl/data-science-roadmap: Learning from multiple companies in Silicon Valley. Netflix, Facebook, Google, Startups
Learning from multiple companies in Silicon Valley. Netflix, Facebook, Google, Startups - boringPpl/data-science-roadmap
Forwarded from linkmeup
Настало время пятничных видосов!
Как помнят самые стойкие, на Chaos Constructions 2018 был организован круглый (ну ок, прямоугольный) стол о зарождении интернета на территории государства Российского.
Ностальгией активно сыпали пионеры, участники и просто свидетели тех времён:
- Дмитрий Бурков. Фактически, человек-монография телекоммуникаций. Делал первый аплинки, создавал ENOG и т.д.
- Дмитрий Завалишни. Активно участвовал в создании Релком’а(прадед всея рунета) и российского сегмента Фидонет.
- Игорь Николаев (ага, тот самый, с разборок линуксоидов). Был среди первых студентов кафедры вычислительной физики Питерского университета, от чего стал свидетелем зарождения нашего сегмента Интернета. - Алексей Нилов. Работал на той же кафедре, потом ушёл в ректорат создавать академсеть, а потом и интернет.
Два часа отборных баек и отличного настроения.
https://www.youtube.com/watch?v=fZrn971IQNA
Как помнят самые стойкие, на Chaos Constructions 2018 был организован круглый (ну ок, прямоугольный) стол о зарождении интернета на территории государства Российского.
Ностальгией активно сыпали пионеры, участники и просто свидетели тех времён:
- Дмитрий Бурков. Фактически, человек-монография телекоммуникаций. Делал первый аплинки, создавал ENOG и т.д.
- Дмитрий Завалишни. Активно участвовал в создании Релком’а(прадед всея рунета) и российского сегмента Фидонет.
- Игорь Николаев (ага, тот самый, с разборок линуксоидов). Был среди первых студентов кафедры вычислительной физики Питерского университета, от чего стал свидетелем зарождения нашего сегмента Интернета. - Алексей Нилов. Работал на той же кафедре, потом ушёл в ректорат создавать академсеть, а потом и интернет.
Два часа отборных баек и отличного настроения.
https://www.youtube.com/watch?v=fZrn971IQNA
YouTube
CC'2018: Круглый стол о становлении Интернета до и после перестройки
Круглый стол о становлении Интернета до и после перестройки с участием непосредственных участников событий тех лет.
- Дмитрий Завалишин
- Алексей Нилов
- Игорь Николаев
- Дмитрий Бурков
Другие участники: Алексей Незнанов (ВШЭ), Вячеслав Ольховченков (Integros)…
- Дмитрий Завалишин
- Алексей Нилов
- Игорь Николаев
- Дмитрий Бурков
Другие участники: Алексей Незнанов (ВШЭ), Вячеслав Ольховченков (Integros)…
Новое про Julia: https://juliacomputing.com/blog/2018/10/12/october-newsletter.html
Стартовал Telecom Data Cup.
Задача и правила опубликованы на сайте: https://mlbootcamp.ru/round/15/tasks/
Участников с лучшими результатами ждут ценные подарки:
1 место — 400 000 рублей
2 место — 200 000 рублей
3 место — 100 000 рублей
#mlbootcamp #telecomdatacup
Задача и правила опубликованы на сайте: https://mlbootcamp.ru/round/15/tasks/
Участников с лучшими результатами ждут ценные подарки:
1 место — 400 000 рублей
2 место — 200 000 рублей
3 место — 100 000 рублей
#mlbootcamp #telecomdatacup
Forwarded from DataRoot Labs
6 самых полезных проектов Machine Learning за 2018 год
Вместе с проектами публикуются коды и наборы данных, которые позволяют разработчикам и небольшим командам изучать и имплементировать новое в свои работы. Не все эти проекты новые в теоретическом плане, но зато применимы на практике.
Проекты:
1. Fast ai
2. Detectron
3. FastText
4. AutoKeras
5. Dopamine
6. vid2vid
Подробнее про каждый проект:
https://towardsdatascience.com/the-10-most-useful-machine-learning-projects-of-the-past-year-2018-5378bbd4919f
Вместе с проектами публикуются коды и наборы данных, которые позволяют разработчикам и небольшим командам изучать и имплементировать новое в свои работы. Не все эти проекты новые в теоретическом плане, но зато применимы на практике.
Проекты:
1. Fast ai
2. Detectron
3. FastText
4. AutoKeras
5. Dopamine
6. vid2vid
Подробнее про каждый проект:
https://towardsdatascience.com/the-10-most-useful-machine-learning-projects-of-the-past-year-2018-5378bbd4919f
Medium
The 6 most useful Machine Learning projects of the past year (2018)
The past year has been a great one for AI and Machine Learning. Many new high-impact applications of Machine Learning were discovered and…
Поиск данных от European Data Journalism Network: https://edp.europeandatajournalism.eu/?language=en
Forwarded from Python/ django
Python Anaconda for Deep Learning, Keras and Tensorflow (Module 1, Part 3)
https://www.youtube.com/watch?v=uOMhboAnVNk
https://www.youtube.com/watch?v=uOMhboAnVNk
YouTube
1.3: Python Anaconda for Deep Learning, Keras and Tensorflow (Module 1, Part 3)
An introduction to Anaconda Python for deep learning with Keras and TensorFlow. An introduction is provided for vectors, dictionaries, and other Python language elements. This course is taught in a hybrid format at Washington University in St. Louis; however…