Регистрируйтесь, участвуйте, заводите новые знакомства и повышайте свой профессиональный уровень в Big Data Science.🚀
Все знают о Scikit-Learn - это основной продукт для специалистов по данным, предлагающий десятки простых в использовании алгоритмов машинного обучения. Он также предоставляет два готовых метода для настройки гиперпараметров: поиск по сетке (GridSearchCV) и случайный поиск (RandomizedSearchCV).
Несмотря на свою эффективность, оба метода представляют собой грубые методы поиска правильных конфигураций гиперпараметров, что является дорогостоящим и трудоемким процессом!
Но! Есть Tune-sklearn! Tune-sklearn - это абсолютная замена модуля выбора модели Scikit-Learn с передовыми методами настройки гиперпараметров (байесовская оптимизация, обучение с блокированием, выполнение распределенной системы) - эти методы значительно ускоряют поиск по сетке и случайный поиск!
Больше о Tune-sklearn - https://towardsdatascience.com/5x-faster-scikit-learn-parameter-tuning-in-5-lines-of-code-be6bdd21833c
Несмотря на свою эффективность, оба метода представляют собой грубые методы поиска правильных конфигураций гиперпараметров, что является дорогостоящим и трудоемким процессом!
Но! Есть Tune-sklearn! Tune-sklearn - это абсолютная замена модуля выбора модели Scikit-Learn с передовыми методами настройки гиперпараметров (байесовская оптимизация, обучение с блокированием, выполнение распределенной системы) - эти методы значительно ускоряют поиск по сетке и случайный поиск!
Больше о Tune-sklearn - https://towardsdatascience.com/5x-faster-scikit-learn-parameter-tuning-in-5-lines-of-code-be6bdd21833c
Towards Data Science
5x Faster Scikit-Learn Parameter Tuning in 5 Lines of Code | Towards Data Science
Leverage Tune-sklearn to supercharge and scale scikit-learn's GridSearchCV.
Никогда не замечали почему картинки генерируемые GAN всегда из одной категории? Почему нельзя взять и сгенерировать любое фото поставив тем самым крест на бизнесе фотостоков да и вообще всех фотографов? Да потому что всесильные современные GAN попросту этого не могут. Если датасет слишком вариативный, ничего кроме каши из отдаленно напоминающих реальные вещи объектов у вас не получится! Вот хороший пример.
Журналисты, которые пишут новости, часто не понимают о чем идет речь, или какие важные моменты от них пытаются скрыть. Люди из индустрии обсуждают те же новости на совсем другом языке. Есть такой канал — эйай ньюз — его ведет Леша из Facebook AI Research, который комментирует главные события в мире ML/AI со своей профессиональной точки зрения. Это как раз тот канал который можно смело советовать всем, кто хочет следить за новыми алгоритмами, и начать понимать чуть-лучше как они работают.
Журналисты, которые пишут новости, часто не понимают о чем идет речь, или какие важные моменты от них пытаются скрыть. Люди из индустрии обсуждают те же новости на совсем другом языке. Есть такой канал — эйай ньюз — его ведет Леша из Facebook AI Research, который комментирует главные события в мире ML/AI со своей профессиональной точки зрения. Это как раз тот канал который можно смело советовать всем, кто хочет следить за новыми алгоритмами, и начать понимать чуть-лучше как они работают.
Telegram
эйай ньюз
Пока мы с вами залипали на переливающиеся картинки со StyleGAN, пацаны из DATAGRID взяли модель из thispersondoesnotexist.com которая генерирует новые лица, и перетренировали ее на датасете из моделей снятых в полный рост (и назвали это стартапом, ну да ладно).…
Перенос кодовой базы с архаичного языка программирования, такого как COBOL, на современные альтернативы, такие как Java или C ++, - сложная, ресурсоемкая задача, требующая знаний как исходного, так и целевого языков. COBOL, например, до сих пор широко используется в системах мэйнфреймов по всему миру, поэтому компании, правительства и другие лица часто должны выбирать, переводить ли их кодовые базы вручную или поддерживать код, написанный на языке 1950-го года.
Компания Facebook AI разработала и открыла исходный код TransCoder, полностью управляемая нейронная транскомпиляционная система, которая может сделать "миграцию" кода намного проще и эффективнее.
Этот метод является первой системой искусственного интеллекта, способной переводить код с одного языка программирования на другой, не требуя параллельных данных для обучения. TransCoder может успешно переводить функции между C ++, Java и Python 3.
TransCoder может быть полезен для обновления устаревших кодовых баз до современных языков программирования, которые обычно более эффективны и проще в обслуживании. Он также показывает, как методы нейронного машинного перевода могут быть применены к новым областям.
Больше о TransCoder на сайте разработчиков — https://ai.facebook.com/blog/deep-learning-to-translate-between-programming-languages
Компания Facebook AI разработала и открыла исходный код TransCoder, полностью управляемая нейронная транскомпиляционная система, которая может сделать "миграцию" кода намного проще и эффективнее.
Этот метод является первой системой искусственного интеллекта, способной переводить код с одного языка программирования на другой, не требуя параллельных данных для обучения. TransCoder может успешно переводить функции между C ++, Java и Python 3.
TransCoder может быть полезен для обновления устаревших кодовых баз до современных языков программирования, которые обычно более эффективны и проще в обслуживании. Он также показывает, как методы нейронного машинного перевода могут быть применены к новым областям.
Больше о TransCoder на сайте разработчиков — https://ai.facebook.com/blog/deep-learning-to-translate-between-programming-languages
GitHub
facebookresearch/TransCoder
Public release of the TransCoder research project https://arxiv.org/pdf/2006.03511.pdf - facebookresearch/TransCoder
Миллион рублей за 48 часов - новый онлайн-хакатон от Правительства Москвы по задачам цифровизации города. Успевайте подать заявку и создавайте новые ML-решения для классификации документов, сервисы для предпринимателей, рекомендательные системы для горожан и множество полезных приложений. Регистрация участников до 25 октября на сайте конкурса "Лидеры цифровой трансформации".
https://hack2020.innoagency.ru
https://hack2020.innoagency.ru
⚙️Продолжая насущную и довольно интересную тему нейросетей, хотели бы обратить внимание на следующую вещь.
И в частности поблагодарить автора за то, что собрал в одной статье новые архитектуры нейросетей и поговорил о том, что они из себя представляют.
Смотрите, читайте, исследуйте — https://habr.com/ru/post/498168/
Статья была написана в апреле 2020 года и за это время появилась еще ни одна архитектура, но самые актуальные можно отследить здесь — https://paperswithcode.com/area/computer-vision
И в частности поблагодарить автора за то, что собрал в одной статье новые архитектуры нейросетей и поговорил о том, что они из себя представляют.
Смотрите, читайте, исследуйте — https://habr.com/ru/post/498168/
Статья была написана в апреле 2020 года и за это время появилась еще ни одна архитектура, но самые актуальные можно отследить здесь — https://paperswithcode.com/area/computer-vision
Хабр
Новые архитектуры нейросетей
Новые архитектуры нейросетей Предыдущая статья « Нейросети. Куда это все движется » В этой статье кратко рассматриваются некоторые архитектуры нейросетей, в основном по задаче обнаружения объектов ,...
👽В этой статье представлено изучение полезных семантических представлений для продуктов и клиентов с помощью нейронных сетей.
Representation Learning – это область науки о машинном обучении на базе определенного представления (кодирования, хранения) данных для выделения определенных признаков. Поэтому также термину Representation Learning часто ставят в синонимы второй термин – Feature learning – машинное обучение, направленное на выделение нужных признаков из данных.
Многие из задач обучения на базе определенного представления могут быть эффективно выполнены с использованием стандартных методов обработки естественного языка (NLP). Статья касается проблем клиентской аналитики и персонализации, которые связаны с проблемами NLP, и показывает, как модели обучения на базе определенного представления для продуктов и клиентов (так называемые item2vec и customer2vec) могут быть получены непосредственно из их аналогов NLP, таких как word2vec и doc2vec.
Делимся ссылкой на статью — https://blog.griddynamics.com/customer2vec-representation-learning-and-automl-for-customer-analytics-and-personalization/
Representation Learning – это область науки о машинном обучении на базе определенного представления (кодирования, хранения) данных для выделения определенных признаков. Поэтому также термину Representation Learning часто ставят в синонимы второй термин – Feature learning – машинное обучение, направленное на выделение нужных признаков из данных.
Многие из задач обучения на базе определенного представления могут быть эффективно выполнены с использованием стандартных методов обработки естественного языка (NLP). Статья касается проблем клиентской аналитики и персонализации, которые связаны с проблемами NLP, и показывает, как модели обучения на базе определенного представления для продуктов и клиентов (так называемые item2vec и customer2vec) могут быть получены непосредственно из их аналогов NLP, таких как word2vec и doc2vec.
Делимся ссылкой на статью — https://blog.griddynamics.com/customer2vec-representation-learning-and-automl-for-customer-analytics-and-personalization/
Grid Dynamics
Item2Vec: Representation learning for customer analytics – Grid Dynamics
We focus on the learning of useful semantic representations (embeddings) for products and customers using neural networks. We show that many of these representation learning tasks can be efficiently accomplished using standard natural language processing…
❄️Snowflake – это компания, занимающаяся хранением данных в облаке, и в последние годы сектор хранения и обработки данных начал набирать просто потрясающие обороты, что заставляет всё инвестиционное сообщество обратить внимание на этот сектор, включая лучших мировых экспертов.
Что нам об этом говорит?
⁃ IPO Snowflake пройдёт при поддержке именитых брендов — “Оракул из Омахи” (Уоррен Баффет), Salesforce и Berkshire Hathaway планируют купить акций Snowflake на общую сумму в 500 млн $
⁃ Резкий рост стоимости компании. Ещё в апреле 2019 года Snowflake оценивали в 4 млрд $. Сейчас эта цифра достигает 22 млрд $ (!!)
⁃ Snowflake получает выручку от двух основных направлений, это объём информации, которую приходится хранить, а также объём вычислительных мощностей, которые используют клиенты компании. Компания уже может похвастаться количеством клиентов, доход от которых превышает 1 млн $ в год и их число выросло в 2 раза за год и составило 56 компаний.
⁃ НО при этом компания всё ещё убыточна и убыток за последний год составил 348 млн $, что значительно выше чем то, что мы привыкли видеть у компаний, выходящих на IPO.
Главным вопросом перед IPO Snowflake, безусловно, останется вопрос размера этой компании, капитализация компании росла значительно быстрее, чем её финансовые показатели.
Однако, за последние несколько лет у нас было несколько крупных IPO, чья капитализация превышала 10 млрд $, но при этом никто из них не был успешен, способна ли “снежинка” изменить ход этой тенденции?
Что нам об этом говорит?
⁃ IPO Snowflake пройдёт при поддержке именитых брендов — “Оракул из Омахи” (Уоррен Баффет), Salesforce и Berkshire Hathaway планируют купить акций Snowflake на общую сумму в 500 млн $
⁃ Резкий рост стоимости компании. Ещё в апреле 2019 года Snowflake оценивали в 4 млрд $. Сейчас эта цифра достигает 22 млрд $ (!!)
⁃ Snowflake получает выручку от двух основных направлений, это объём информации, которую приходится хранить, а также объём вычислительных мощностей, которые используют клиенты компании. Компания уже может похвастаться количеством клиентов, доход от которых превышает 1 млн $ в год и их число выросло в 2 раза за год и составило 56 компаний.
⁃ НО при этом компания всё ещё убыточна и убыток за последний год составил 348 млн $, что значительно выше чем то, что мы привыкли видеть у компаний, выходящих на IPO.
Главным вопросом перед IPO Snowflake, безусловно, останется вопрос размера этой компании, капитализация компании росла значительно быстрее, чем её финансовые показатели.
Однако, за последние несколько лет у нас было несколько крупных IPO, чья капитализация превышала 10 млрд $, но при этом никто из них не был успешен, способна ли “снежинка” изменить ход этой тенденции?
Очень интересное видео о том, как можно по paper собрать нейронную сеть на примере U-NET:
https://www.youtube.com/watch?v=u1loyDCoGbE&t=1s
Paper: https://arxiv.org/abs/1505.04597
https://www.youtube.com/watch?v=u1loyDCoGbE&t=1s
Paper: https://arxiv.org/abs/1505.04597
YouTube
Implementing original U-Net from scratch using PyTorch
In this video, I show you how to implement original UNet paper using PyTorch. UNet paper can be found here: https://arxiv.org/abs/1505.04597
Please subscribe and like the video to help me keep motivated to make awesome videos like this one. :)
To buy my…
Please subscribe and like the video to help me keep motivated to make awesome videos like this one. :)
To buy my…
💡Успейте зарегистрироваться на Data Meetup Innopolis!
Вы сможете услышать доклад Паши Финкельштейна (JetBrains) на тему "Love to Frankenstein’s monster: Kotlin for Apache Spark" и также послушать Дарью Пронину (Lamoda) с темой "Как логирование действий пользователя на сайте и приложениях влияет на внешний вид и успех бизнеса Lamoda". Обещаем, что будет интересно, а также уютно, так как можно смотреть из дома.
Помимо этого вы сможете послушать мнения экспертов:
— Игорь Мосягин (machine learning engineer в R&D Lamoda)
— Михаил Свешников (ML Architect в Zyfra, преподаватель в НИУ ВШЭ)
— Алексей Чернобровов (к.ф.-м.н., консультант по Data Science, обучал ведущие компании России и СНГ, член экспертного совета Премии Рунета).
Когда: 30 сентября в 17:00
Регистрация
Ссылка на трансляцию
Вы сможете услышать доклад Паши Финкельштейна (JetBrains) на тему "Love to Frankenstein’s monster: Kotlin for Apache Spark" и также послушать Дарью Пронину (Lamoda) с темой "Как логирование действий пользователя на сайте и приложениях влияет на внешний вид и успех бизнеса Lamoda". Обещаем, что будет интересно, а также уютно, так как можно смотреть из дома.
Помимо этого вы сможете послушать мнения экспертов:
— Игорь Мосягин (machine learning engineer в R&D Lamoda)
— Михаил Свешников (ML Architect в Zyfra, преподаватель в НИУ ВШЭ)
— Алексей Чернобровов (к.ф.-м.н., консультант по Data Science, обучал ведущие компании России и СНГ, член экспертного совета Премии Рунета).
Когда: 30 сентября в 17:00
Регистрация
Ссылка на трансляцию
This media is not supported in your browser
VIEW IN TELEGRAM
Недавно исследователи из Швейцарской высшей технологической школы представили алгоритм, который позволяет создавать изображения на основе текстовых описаний и эскизов. Но чем отличается именно эта нейросеть от всех других примеров?
Ее особенность состоит в том, что она распределяет объекты по разным планам. Сначала она создаёт фон, затем — объекты на переднем плане. Это позволяет избежать искажений объектов и фона, которые неизбежно возникают при редактировании изображения.
Результат работы новой нейросети вы можете увидеть на анимации выше, подробная информация и код доступны на GitHub: https://github.com/dariopavllo/style-semantics
Ее особенность состоит в том, что она распределяет объекты по разным планам. Сначала она создаёт фон, затем — объекты на переднем плане. Это позволяет избежать искажений объектов и фона, которые неизбежно возникают при редактировании изображения.
Результат работы новой нейросети вы можете увидеть на анимации выше, подробная информация и код доступны на GitHub: https://github.com/dariopavllo/style-semantics
Уже 2 октября стартует онлайн-хакатон от ODS Pet Projects ( https://news.1rj.ru/str/ods_pet_projects ) !
Так как хакатон навеян петпроджектами (проектами, направленными на фан, развитие навыков и пополнение резюме), а еще потому, что мы все там веселые люди, то общая тема хакатона у нас есть будет под описанием "тебе должно быть весело". В списке тем - генерация салатника по фото Дэвида Боуи, стилизация речи под говор попугая, генератор тем для Шнобелевских премий и другие темы. (ещё больше тем можно найти в формочке для регистрации - и если вам они не понравятся, можно идти со своей темой).
Хакатон будет продолжаться до 10 октября (в 18:00 уже презентации проектов). Каждой команде помогать будут менторы, а оценивать проекты - комитет жюри. И те, и другие - эксперты в разных областях DS из сообщества Open Data Science.
Призы - мерч ОДС и купоны на обучающие программы!
Ссылка на регистрацию тут:
https://forms.gle/BMyS4SJ7aL5YrkbT6
Так как хакатон навеян петпроджектами (проектами, направленными на фан, развитие навыков и пополнение резюме), а еще потому, что мы все там веселые люди, то общая тема хакатона у нас есть будет под описанием "тебе должно быть весело". В списке тем - генерация салатника по фото Дэвида Боуи, стилизация речи под говор попугая, генератор тем для Шнобелевских премий и другие темы. (ещё больше тем можно найти в формочке для регистрации - и если вам они не понравятся, можно идти со своей темой).
Хакатон будет продолжаться до 10 октября (в 18:00 уже презентации проектов). Каждой команде помогать будут менторы, а оценивать проекты - комитет жюри. И те, и другие - эксперты в разных областях DS из сообщества Open Data Science.
Призы - мерч ОДС и купоны на обучающие программы!
Ссылка на регистрацию тут:
https://forms.gle/BMyS4SJ7aL5YrkbT6
Telegram
ODS Pet Projects
FAQ: https://link.medium.com/7zr33R3Hi0
Если вы не знаете, как простыми словами рассказать зачем нужен Data Science и какая роль специалиста по данным в продукте – то рекомендую это видео. Алексей Чернобровов рассказывает о «Роли науки о данных в построении продуктов» для сотрудников студии Лебедева.
🌏https://www.youtube.com/watch?v=7wqiKDHhRTo
🌏https://www.youtube.com/watch?v=7wqiKDHhRTo
YouTube
Алексей Чернобровов. Роль науки о данных в построении продуктов
Семинар в Студии Артемия Лебедева
00:01:55 — Выбор лучшей версии сайта
00:05:21 — Какие существуют роли в построении продукта
00:10:15 — Суть науки о данных
00:12:03 — Обучающая выборка
00:15:37 — Метрика
00:18:51 — Навыки специалиста по данным
00:28:17…
00:01:55 — Выбор лучшей версии сайта
00:05:21 — Какие существуют роли в построении продукта
00:10:15 — Суть науки о данных
00:12:03 — Обучающая выборка
00:15:37 — Метрика
00:18:51 — Навыки специалиста по данным
00:28:17…
Forwarded from Machinelearning
From Trees to Continuous Embeddings and Back: Hyperbolic Hierarchical Clustering
Gitgub: https://github.com/HazyResearch/HypHC
Paper: https://arxiv.org/abs/2010.00402
Gitgub: https://github.com/HazyResearch/HypHC
Paper: https://arxiv.org/abs/2010.00402
В этой статье представлен обзор нескольких распространенных вариантов использования Azure Cosmos DB.
На какие вопросы вы получите ответы из этой статьи:
⁃ Каковы распространенные варианты использования Azure Cosmos DB?
⁃ Каковы преимущества использования Azure Cosmos DB в ритейле?
⁃ Каковы преимущества использования Azure Cosmos DB в качестве хранилища данных для систем Интернет вещей (IoT)?
⁃ Каковы преимущества использования Azure Cosmos DB для веб-приложений и мобильных приложений?
Azure Cosmos DB — это глобально распределенная многомодельная служба базы данных Майкрософт. Сервис разработан, чтобы позволить клиентам эластично (и независимо) масштабировать пропускную способность и хранилище в любом количестве географических регионов. С помощью одного лишь нажатия кнопки Cosmos DB позволяет гибко и независимо масштабировать пропускную способность и ресурсы хранилища в любых регионах Azure по всему миру.
Ссылка на БД — https://azure.microsoft.com/ru-ru/services/cosmos-db/
Ссылка на документ (русская версия) — https://docs.microsoft.com/ru-ru/azure/cosmos-db/introduction
Ссылка на документ (английская версия) https://docs.microsoft.com/en-us/azure/cosmos-db/use-cases
На какие вопросы вы получите ответы из этой статьи:
⁃ Каковы распространенные варианты использования Azure Cosmos DB?
⁃ Каковы преимущества использования Azure Cosmos DB в ритейле?
⁃ Каковы преимущества использования Azure Cosmos DB в качестве хранилища данных для систем Интернет вещей (IoT)?
⁃ Каковы преимущества использования Azure Cosmos DB для веб-приложений и мобильных приложений?
Azure Cosmos DB — это глобально распределенная многомодельная служба базы данных Майкрософт. Сервис разработан, чтобы позволить клиентам эластично (и независимо) масштабировать пропускную способность и хранилище в любом количестве географических регионов. С помощью одного лишь нажатия кнопки Cosmos DB позволяет гибко и независимо масштабировать пропускную способность и ресурсы хранилища в любых регионах Azure по всему миру.
Ссылка на БД — https://azure.microsoft.com/ru-ru/services/cosmos-db/
Ссылка на документ (русская версия) — https://docs.microsoft.com/ru-ru/azure/cosmos-db/introduction
Ссылка на документ (английская версия) https://docs.microsoft.com/en-us/azure/cosmos-db/use-cases
Microsoft
Azure Cosmos DB — NoSQL и реляционная база данных | Microsoft Azure
Azure Cosmos DB — это полностью управляемая реляционная база данных NoSQL для разработки современных приложений. Начните создавать приложения с бесплатной пробной версией.
Data Science Summit — крупнейшая независимая конференция по науке о данных в регионе Центральной и Восточной Европы. Конференция дополнительно сопровождается выставкой Data Science Expo, в которой представлены стенды поставщиков технологий / решений в области науки о данных и в настоящее время нанимают работодателей.
Мероприятие в связи с пандемией COVID-19 в этом году будет проходить в смешанном формате — конференция и выставка будут полностью онлайн и будут сопровождаться деловыми и мероприятиями, происходящими в Варшаве.
У вас есть уникальная возможность увидеть видео доклады топовых спикеров Европы и мира в области Data Science (большинство на английском языке) из Google, Huawei, Vertica и других известных компаний.
В этом году представлены следующие потоки тем:
⁃ Machine Learning, извлечение и исследование (просмотр) данных в таких областях, как сегментация, Интернет вещей, ценообразование, Computer Vision и др.
⁃ Анализ и статистика
⁃ Визуализация/Business Intelligence
⁃ Тренды и инновации
И огромное количество других интересных тем, со списком которых вы можете ознакомиться на сайте.
Больше информации — www.DSSconf.pl/en
Мероприятие в связи с пандемией COVID-19 в этом году будет проходить в смешанном формате — конференция и выставка будут полностью онлайн и будут сопровождаться деловыми и мероприятиями, происходящими в Варшаве.
У вас есть уникальная возможность увидеть видео доклады топовых спикеров Европы и мира в области Data Science (большинство на английском языке) из Google, Huawei, Vertica и других известных компаний.
В этом году представлены следующие потоки тем:
⁃ Machine Learning, извлечение и исследование (просмотр) данных в таких областях, как сегментация, Интернет вещей, ценообразование, Computer Vision и др.
⁃ Анализ и статистика
⁃ Визуализация/Business Intelligence
⁃ Тренды и инновации
И огромное количество других интересных тем, со списком которых вы можете ознакомиться на сайте.
Больше информации — www.DSSconf.pl/en
Data Science Summit – the leading data science conference in Poland
16 tracks and 200+ talks from top data area speakers from Poland and abroad
This media is not supported in your browser
VIEW IN TELEGRAM
Dynabench — это платформа для динамического сбора данных и тестирования моделей. Для сбора данных платформа задействует ресурсы ручной и автоматической разметки одновременно.
В Dynabench для оценки моделей машинного обучения используется новая процедура, — состязательный сбор данных. Метод измеряет, как просто человеку обмануть модель.
На основе исторических данных использования Dynabench, платформа трекает, какие примеры данных обманывают модели и приводят к некорректным предсказаниям. Эти примеры становятся частью более сложных датасетов, на которых тренируются более устойчивые модели. Затем эти обновлённые модели становятся стандартом, для которых ищутся примеры данных, которые приводят к неверным предсказанием. Так, платформа позволяет итеративно улучшать качество моделей.
Подробнее узнать про систему можно на официальном сайте проекта.
Ссылка на Dynabench - https://dynabench.org
В Dynabench для оценки моделей машинного обучения используется новая процедура, — состязательный сбор данных. Метод измеряет, как просто человеку обмануть модель.
На основе исторических данных использования Dynabench, платформа трекает, какие примеры данных обманывают модели и приводят к некорректным предсказаниям. Эти примеры становятся частью более сложных датасетов, на которых тренируются более устойчивые модели. Затем эти обновлённые модели становятся стандартом, для которых ищутся примеры данных, которые приводят к неверным предсказанием. Так, платформа позволяет итеративно улучшать качество моделей.
Подробнее узнать про систему можно на официальном сайте проекта.
Ссылка на Dynabench - https://dynabench.org
why_gradient_clipping_accelerates_training_a_theoretical_justification.pdf
1.4 MB
📚Why gradient clipping accelerates training: A theoretical justification for adaptivity [Почему градиентное отсечение ускоряет обучение: теоретическое обоснование адаптивности]
Теоретическое объяснение эффективности градиентного отсечения при обучении глубоких нейронных сетей. Подробнее в работе Jingzhao Zhang, Tianxing He, Suvrit Sra и Ali Jadbabaie.
Теоретическое объяснение эффективности градиентного отсечения при обучении глубоких нейронных сетей. Подробнее в работе Jingzhao Zhang, Tianxing He, Suvrit Sra и Ali Jadbabaie.
This media is not supported in your browser
VIEW IN TELEGRAM
🎶В Google теперь можно найти песню, если напеть ее мотив
В Google Assistant добавили обновленную версию поиска песен. Теперь мелодию можно напеть, «промычать» или просвистеть, а система опознает трек.
Компания утверждает, что достаточно напеть 10-15 секунд отрывка. Для активации функции нужно предварительно спросить: «Что это за песня?».
Модель машинного обучения преобразует звук в цифровую последовательность, представляющую мелодию песни. Голосовой помощник подберет несколько вариантов на выбор. Каждый из них будет содержать данные о треке, исполнителе, видеоклипах и другие.
Кроме того, Google подберет каверы и другие варианты оригинальной композиции, если они были проиндексированы поисковыми ботами.
Пока функция доступна на английском языке для iOS и более чем на 20 языках на Android. Вскоре ее планируется выпустить на большем количестве языков.
Функцию разработали в команде AI Research по распознаванию музыки.
В Google Assistant добавили обновленную версию поиска песен. Теперь мелодию можно напеть, «промычать» или просвистеть, а система опознает трек.
Компания утверждает, что достаточно напеть 10-15 секунд отрывка. Для активации функции нужно предварительно спросить: «Что это за песня?».
Модель машинного обучения преобразует звук в цифровую последовательность, представляющую мелодию песни. Голосовой помощник подберет несколько вариантов на выбор. Каждый из них будет содержать данные о треке, исполнителе, видеоклипах и другие.
Кроме того, Google подберет каверы и другие варианты оригинальной композиции, если они были проиндексированы поисковыми ботами.
Пока функция доступна на английском языке для iOS и более чем на 20 языках на Android. Вскоре ее планируется выпустить на большем количестве языков.
Функцию разработали в команде AI Research по распознаванию музыки.
👍1
This media is not supported in your browser
VIEW IN TELEGRAM
Text2Code для Jupyter notebook
Расширение Jupiter, которое преобразует английские запросы в соответствующий код Python.
Это поможет специалистам по данным и опытным пользователям создавать более сложные запросы и проще код.
Разработчики и специалисты по данным в безопасности (пока 😉).
Github: https://github.com/deepklarity/jupyter-text2code#a-proof-of-concept-jupyter-extension-which-converts-english-queries-into-relevant-python-code
#innovation #artificialintelligence #deeplearning #technology #datascience #bigdata
Расширение Jupiter, которое преобразует английские запросы в соответствующий код Python.
Это поможет специалистам по данным и опытным пользователям создавать более сложные запросы и проще код.
Разработчики и специалисты по данным в безопасности (пока 😉).
Github: https://github.com/deepklarity/jupyter-text2code#a-proof-of-concept-jupyter-extension-which-converts-english-queries-into-relevant-python-code
#innovation #artificialintelligence #deeplearning #technology #datascience #bigdata
📚8 лучших библиотек обработки естественного языка для Python (NLP)
1. Инструментарий естественного языка (NLTK)
NLTK — это важная библиотека, поддерживающая такие задачи, как классификация, стемминг, маркировка, синтаксический анализ и семантическое рассуждение в Python. Это ваш основной инструмент для обработки естественного языка и машинного обучения. Сегодня он служит образовательной основой для разработчиков Python, которые только приступают к изучению NLP и машинного обучения.
2. TextBlo
TextBlob является обязательным для разработчиков, которые начинают свое путешествие в NLP в Python. Идеально подходит для первого знакомства с NLP. TextBlob предоставляет новичкам простой интерфейс для помощи в освоении большинства основных задач NLP, таких как анализ настроений, POS-маркировка или извлечение именных фраз.
3. CoreNLP
CoreNLP - библиотека оснащена оболочками для многих языков, включая Python, что делает ее полезной разработчикам, желающим попробовать свои силы в обработке естественного языка на Python. Библиотека действительно быстра и хорошо работает в средах разработки продуктов. Кроме того, некоторые компоненты CoreNLP могут быть интегрированы с NLTK, что неизбежно повысит эффективность последнего.
4. Gensim
Gensim — это библиотека Python, которая специализируется на выявлении семантического сходства между двумя документами посредством векторного пространственного моделирования и инструментария тематического моделирования. Она может обрабатывать большие текстовые массивы с помощью эффективной потоковой передачи данных и инкрементных алгоритмов. В ней реализованы Word2Vec, Doc2Vec, а также FastText.
5. spaCy
spaCy относительно молодая библиотека, предназначенная для производственного использования. Вот почему она гораздо доступнее других NLP-библиотек Python, таких как NLTK. spaCy предлагает самый быстрый синтаксический парсер, имеющийся сегодня на рынке. Кроме того, поскольку инструментарий написан на языке Cython, он также очень быстр и эффективен.
6. Polyglot
Следующая библиотека менее известна, но она относится к числу наших любимых библиотек, поскольку предлагает широкий спектр анализа и впечатляющий охват языка. Благодаря NumPy, она также работает очень быстро. Использование polyglot похоже на spaCy. Это очень эффективный, простой и в принципе отличный вариант для проектов, связанных с языками, не поддерживаемыми spaCy. Библиотека выделяется на фоне остальных еще и потому, что запрашивает использование выделенной команды в командной строке через конвейерные механизмы.
7. Scikit–learn
Эта NLP-библиотека удобна в использовании. Она предоставляет разработчикам широкий спектр алгоритмов для построения моделей машинного обучения. Ее функционал позволяет использовать метод «мешок слов» (bag-of-words model) для создания объектов, призванных решать задачи классификации текста. Сильной стороной этой библиотеки являются интуитивные методы классов. Кроме того, scikit-learn имеет отличную документацию, которая помогает разработчикам максимально использовать свои возможности.
8. Pattern
Еще одна жемчужина среди библиотек NLP, используемых разработчиками Python для работы с естественными языками. Pattern предоставляет инструменты для частеречной разметки (part-of-speech tagging), анализа настроений, векторных пространств, моделирования (SVM), классификации, кластеризации, n-граммы поиска и WordNet. Вы можете воспользоваться преимуществами парсера DOM, веб-искателя, а также некоторыми полезными API, такими как API Twitter или Facebook. Тем не менее, этот инструмент по сути является веб-майнером и может оказаться недостаточным для выполнения других задач обработки естественного языка.
1. Инструментарий естественного языка (NLTK)
NLTK — это важная библиотека, поддерживающая такие задачи, как классификация, стемминг, маркировка, синтаксический анализ и семантическое рассуждение в Python. Это ваш основной инструмент для обработки естественного языка и машинного обучения. Сегодня он служит образовательной основой для разработчиков Python, которые только приступают к изучению NLP и машинного обучения.
2. TextBlo
TextBlob является обязательным для разработчиков, которые начинают свое путешествие в NLP в Python. Идеально подходит для первого знакомства с NLP. TextBlob предоставляет новичкам простой интерфейс для помощи в освоении большинства основных задач NLP, таких как анализ настроений, POS-маркировка или извлечение именных фраз.
3. CoreNLP
CoreNLP - библиотека оснащена оболочками для многих языков, включая Python, что делает ее полезной разработчикам, желающим попробовать свои силы в обработке естественного языка на Python. Библиотека действительно быстра и хорошо работает в средах разработки продуктов. Кроме того, некоторые компоненты CoreNLP могут быть интегрированы с NLTK, что неизбежно повысит эффективность последнего.
4. Gensim
Gensim — это библиотека Python, которая специализируется на выявлении семантического сходства между двумя документами посредством векторного пространственного моделирования и инструментария тематического моделирования. Она может обрабатывать большие текстовые массивы с помощью эффективной потоковой передачи данных и инкрементных алгоритмов. В ней реализованы Word2Vec, Doc2Vec, а также FastText.
5. spaCy
spaCy относительно молодая библиотека, предназначенная для производственного использования. Вот почему она гораздо доступнее других NLP-библиотек Python, таких как NLTK. spaCy предлагает самый быстрый синтаксический парсер, имеющийся сегодня на рынке. Кроме того, поскольку инструментарий написан на языке Cython, он также очень быстр и эффективен.
6. Polyglot
Следующая библиотека менее известна, но она относится к числу наших любимых библиотек, поскольку предлагает широкий спектр анализа и впечатляющий охват языка. Благодаря NumPy, она также работает очень быстро. Использование polyglot похоже на spaCy. Это очень эффективный, простой и в принципе отличный вариант для проектов, связанных с языками, не поддерживаемыми spaCy. Библиотека выделяется на фоне остальных еще и потому, что запрашивает использование выделенной команды в командной строке через конвейерные механизмы.
7. Scikit–learn
Эта NLP-библиотека удобна в использовании. Она предоставляет разработчикам широкий спектр алгоритмов для построения моделей машинного обучения. Ее функционал позволяет использовать метод «мешок слов» (bag-of-words model) для создания объектов, призванных решать задачи классификации текста. Сильной стороной этой библиотеки являются интуитивные методы классов. Кроме того, scikit-learn имеет отличную документацию, которая помогает разработчикам максимально использовать свои возможности.
8. Pattern
Еще одна жемчужина среди библиотек NLP, используемых разработчиками Python для работы с естественными языками. Pattern предоставляет инструменты для частеречной разметки (part-of-speech tagging), анализа настроений, векторных пространств, моделирования (SVM), классификации, кластеризации, n-граммы поиска и WordNet. Вы можете воспользоваться преимуществами парсера DOM, веб-искателя, а также некоторыми полезными API, такими как API Twitter или Facebook. Тем не менее, этот инструмент по сути является веб-майнером и может оказаться недостаточным для выполнения других задач обработки естественного языка.
CoreNLP
High-performance human language analysis tools, now with native deep learning modules in Python, available in many human languages.