Аугментация для текстов (Text Augmentation)
https://dyakonov.org/2020/11/09/text-augmentation/
https://dyakonov.org/2020/11/09/text-augmentation/
Анализ малых данных
Аугментация для текстов (Text Augmentation)
Похоже, на русском языке нет полного обзора по современным методам аугментации при работе с текстами, поэтому появился этот… На английском языке есть несколько очень хороших, но здесь удалось…
Гиперпараметры: как перестать беспокоиться и начать их оптимизировать
https://habr.com/ru/company/antiplagiat/blog/528384/
https://habr.com/ru/company/antiplagiat/blog/528384/
Хабр
Гиперпараметры: как перестать беспокоиться и начать их оптимизировать
«Подбор гиперпараметров». Если у вас в голове при произнесении этой фразы прокатились несколько панических атак и непроизвольно задергался глаз, а, возможно, и рука в инстинктивном желании перевернуть...
Yandex.Cloud и AI Community впервые запускает онлайн-соревнование по анализу данных Yet Another Data Challenge. https://bit.ly/3mcgCmj
Развиваешься в ML-разработке и Data Science?
Новичок или есть опыт в Python?
Регистрируйся - участвуй - выигрывай призы!
Этот конкурс для тебя, если тебе интересно:
🟡 проверить свои навыки и получить опыт решения интересной задачи по генеративному ML;
🟡 пообщаться с опытными экспертами из Yandex.Cloud в чате и на вебинарах соревнования;
🟡 создать свою первую генеративную мелодию;
🟡 предложить идею по развитию первой отечественной среды для разработки ML, помогающей быстрее и дешевле создавать ML-решения;
Призы конкурса:
🏆 1 место: MacBook Air 13 дюймов, 512 Гб + грант на DataSphere 150 000 руб;
🏆 2 место: Apple iPhone 12 Pro 6,1 дюйма + грант на DataSphere 100 000 руб;
🏆 3 место: Apple Watch Series 6 размер + грант на DataSphere 50 000 руб;
🏆 Топ-10 участников - награждаются Yandex Станцией Мини;
🏆 200 активных участников получают футболки Yandex.Cloud.
https://bit.ly/3mcgCmj
💥Регистрируйся и участвуй!
Онлайн-конкурс по анализу данных Yet Another Data Challenge
https://bit.ly/3mcgCmj
Развиваешься в ML-разработке и Data Science?
Новичок или есть опыт в Python?
Регистрируйся - участвуй - выигрывай призы!
Этот конкурс для тебя, если тебе интересно:
🟡 проверить свои навыки и получить опыт решения интересной задачи по генеративному ML;
🟡 пообщаться с опытными экспертами из Yandex.Cloud в чате и на вебинарах соревнования;
🟡 создать свою первую генеративную мелодию;
🟡 предложить идею по развитию первой отечественной среды для разработки ML, помогающей быстрее и дешевле создавать ML-решения;
Призы конкурса:
🏆 1 место: MacBook Air 13 дюймов, 512 Гб + грант на DataSphere 150 000 руб;
🏆 2 место: Apple iPhone 12 Pro 6,1 дюйма + грант на DataSphere 100 000 руб;
🏆 3 место: Apple Watch Series 6 размер + грант на DataSphere 50 000 руб;
🏆 Топ-10 участников - награждаются Yandex Станцией Мини;
🏆 200 активных участников получают футболки Yandex.Cloud.
https://bit.ly/3mcgCmj
💥Регистрируйся и участвуй!
Онлайн-конкурс по анализу данных Yet Another Data Challenge
https://bit.ly/3mcgCmj
Forwarded from Small Data Science for Russian Adventurers
Анализ малых данных
курс «Прикладные задачи анализа данных»
На сайте появилась новая вкладка «Курсы», а главное, выложены материалы этого года (слайды и видео) курса ПЗАД, который читается для студентов ВМК МГУ, а ниже немного об истории курса.…
Forwarded from Small Data Science for Russian Adventurers
#книга
Сергей Иванов (один из моих лучших аспирантов) написал очень симпатичный конспект по теме "Обучение с подкреплением". Вроде как на русском языке это самое полное и интересное издание на эту тему:
https://github.com/FortsAndMills/RL-Theory-book/
Сергей Иванов (один из моих лучших аспирантов) написал очень симпатичный конспект по теме "Обучение с подкреплением". Вроде как на русском языке это самое полное и интересное издание на эту тему:
https://github.com/FortsAndMills/RL-Theory-book/
GitHub
GitHub - FortsAndMills/RL-Theory-book: Reinforcement learning theory book about foundations of deep RL algorithms with proofs.
Reinforcement learning theory book about foundations of deep RL algorithms with proofs. - FortsAndMills/RL-Theory-book
Forwarded from Small Data Science for Russian Adventurers
#образование
Хороший курс для начинающих по DL:
“Методы обработки и анализа больших данных”
(читался для МИЭТ). Автор - доктор технических наук Роман Соловьёв, известен на Kaggle под ником ZFTurbo (победами на кегле и на других платформах). Очень приятно читает, все лекции продуманы, примеры из своей практики. Правда, курс маленький и не все темы раскрыты достаточно подробно. Где-то, наверное, есть ещё ноутбуки автора (примеры показанные на лекции очень хорошо написаны).
https://youtube.com/playlist?list=PLMyPRULSXkaWaJrQOWCBw0nVVVydPsPPj
Хороший курс для начинающих по DL:
“Методы обработки и анализа больших данных”
(читался для МИЭТ). Автор - доктор технических наук Роман Соловьёв, известен на Kaggle под ником ZFTurbo (победами на кегле и на других платформах). Очень приятно читает, все лекции продуманы, примеры из своей практики. Правда, курс маленький и не все темы раскрыты достаточно подробно. Где-то, наверное, есть ещё ноутбуки автора (примеры показанные на лекции очень хорошо написаны).
https://youtube.com/playlist?list=PLMyPRULSXkaWaJrQOWCBw0nVVVydPsPPj
Forwarded from DL in NLP (nlpcontroller_bot)
Наткнулся на мини-библиотеку для машинного перевода.
Всё, что она умеет, это использовать несколько предобученных моделей, но в этой простоте и вся красота. Поддерживается более 150 языков, включая русский, также есть автодетекция языка. Делает всё локально и позволяет выбирать между несколькими моделями и тюнить beam size.
Для установки:
Для использования:
Всё, что она умеет, это использовать несколько предобученных моделей, но в этой простоте и вся красота. Поддерживается более 150 языков, включая русский, также есть автодетекция языка. Делает всё локально и позволяет выбирать между несколькими моделями и тюнить beam size.
Для установки:
pip install easynmtДля использования:
from easynmt import EasyNMT
model = EasyNMT('opus-mt')
model.translate('переведи мне это предложение', target_lang='en')
GitHub
GitHub - UKPLab/EasyNMT: Easy to use, state-of-the-art Neural Machine Translation for 100+ languages
Easy to use, state-of-the-art Neural Machine Translation for 100+ languages - UKPLab/EasyNMT
Forwarded from Gradient Dude
#beginners_guide
Learn About Transformers: A Recipe
A blogpost summarizing key study material to learn about the Transformer models (theory + code).
Tasty!
Learn About Transformers: A Recipe
A blogpost summarizing key study material to learn about the Transformer models (theory + code).
Tasty!
Forwarded from Maša Ponomareva
Привет!
Посмотрите на картинку, на ней семантический скетч глагола. Сможете догадаться, какого? Семантический скетч отражает сочетаемость слова в корпусе, для человека хорошо построенные скетчи являются вполне репрезентативными, а так ли это для машины? Мы приглашаем вас поучаствовать в дорожке Диалога (да, их в этом году очень много), которая называется SemSketches. В рамках дорожки участникам предстоит угадывать по слову в контексте, к какому семантическому скетчу оно относится. Задача экспериментальная и новая, большая свобода для идей и интересные данные. Очень ждем участников!
Чат в телеграме
Гитхаб соревнования (подробности, данные, таймлайн там)
Посмотрите на картинку, на ней семантический скетч глагола. Сможете догадаться, какого? Семантический скетч отражает сочетаемость слова в корпусе, для человека хорошо построенные скетчи являются вполне репрезентативными, а так ли это для машины? Мы приглашаем вас поучаствовать в дорожке Диалога (да, их в этом году очень много), которая называется SemSketches. В рамках дорожки участникам предстоит угадывать по слову в контексте, к какому семантическому скетчу оно относится. Задача экспериментальная и новая, большая свобода для идей и интересные данные. Очень ждем участников!
Чат в телеграме
Гитхаб соревнования (подробности, данные, таймлайн там)
Forwarded from Small Data Science for Russian Adventurers
Анализ малых данных
Scikit-Learn: тонкие вопросы о реализации методов машинного обучения
Рассмотрим несколько с виду простых вопросов об алгоритмах машинного обучения и их реализации, на которые, однако, немногие смогут верно ответить (можете попробовать сами – не читая объяснений, так…
Fine-Tune Wav2Vec2 for English ASR with 🤗 Transformers
https://huggingface.co/blog/fine-tune-wav2vec2-english
https://huggingface.co/blog/fine-tune-wav2vec2-english
huggingface.co
Fine-Tune Wav2Vec2 for English ASR in Hugging Face with 🤗 Transformers
We’re on a journey to advance and democratize artificial intelligence through open source and open science.
The Partnership: Amazon SageMaker and Hugging Face
https://huggingface.co/blog/the-partnership-amazon-sagemaker-and-hugging-face
https://huggingface.co/blog/the-partnership-amazon-sagemaker-and-hugging-face
huggingface.co
The Partnership: Amazon SageMaker and Hugging Face
We’re on a journey to advance and democratize artificial intelligence through open source and open science.
Forwarded from Small Data Science for Russian Adventurers
#обзор
Куча полезных ссылок по т.н. эквивариантным сетям.
https://github.com/Chen-Cai-OSU/awesome-equivariant-network
Куча полезных ссылок по т.н. эквивариантным сетям.
https://github.com/Chen-Cai-OSU/awesome-equivariant-network
GitHub
GitHub - Chen-Cai-OSU/awesome-equivariant-network: Paper list for equivariant neural network
Paper list for equivariant neural network. Contribute to Chen-Cai-OSU/awesome-equivariant-network development by creating an account on GitHub.
Forwarded from DL in NLP (nlpcontroller_bot)
Update Frequently, Update Fast: Retraining Semantic Parsing Systems in a Fraction of Time
Lialin et al. [UMass Lowell, Google]
https://arxiv.org/abs/2010.07865
Основная NLU компонена Google Assistant, Alexa и других ассистентов – это модель семантического парсинга, которая переводит фразы на естественном языке в команды. В проде, датасеты для таких систем часто обновляются. Например, в редкие интенты/слоты могут докинуть примеров. Но при каждой такой итерации приходится перетренировывать модель, что может занимать недели.
В этой статье предлагается использовать continual learning для решения этой проблемы. Вместо того, чтоы каждый раз учить новую модель, старая фантюнится немного хитрым методом. Главная сложность заключается в том, чтобы модель не потеряла в качестве на старом датасете. Для этого используется комбинация двух простых методов: sampling из старых данных и специальный вид регуляризации – EWC.
Экспериенты показывают, что такой простой подход позволяет сократить время на тренировку иногда в десятки раз, при этом качество финальной модели выходит такое же, как если бы она тренировалась с нуля.
Lialin et al. [UMass Lowell, Google]
https://arxiv.org/abs/2010.07865
Основная NLU компонена Google Assistant, Alexa и других ассистентов – это модель семантического парсинга, которая переводит фразы на естественном языке в команды. В проде, датасеты для таких систем часто обновляются. Например, в редкие интенты/слоты могут докинуть примеров. Но при каждой такой итерации приходится перетренировывать модель, что может занимать недели.
В этой статье предлагается использовать continual learning для решения этой проблемы. Вместо того, чтоы каждый раз учить новую модель, старая фантюнится немного хитрым методом. Главная сложность заключается в том, чтобы модель не потеряла в качестве на старом датасете. Для этого используется комбинация двух простых методов: sampling из старых данных и специальный вид регуляризации – EWC.
Экспериенты показывают, что такой простой подход позволяет сократить время на тренировку иногда в десятки раз, при этом качество финальной модели выходит такое же, как если бы она тренировалась с нуля.
Forwarded from Data Science News (Andrey)
T-SNE (t-distributed stochastic neighbor embedding) – это техника уменьшения размерности для визуализации данных, которая была опубликована в 2008 году. В отличие от PCA (сохранение максимальной вариативности) и MDS (сохранение расстояний), t-SNE предназначена для анализа кластеризации данных. T-SNE своего рода незаменимый инструмент в разведочном анализе. Основные параметры это perplexity и количество компонент. Если с компонентами всё понятно, то вот с perplexity есть тонкие моменты. Более подробно об этом, с интерактивными примерами, можно посмотреть здесь
Forwarded from Data Science News (Andrey)
Практический курс "введение в статистику и машинное обучение" от Стэнфорда. Регрессия, методы классификации, выборки, SVM, кластеризация, деревья решений. Хорошо и на примерах разобраны такие статистические инструменты как LDA/QDA, PCR, PCA. По каждому разделу есть лабы на R.
Forwarded from Хроники ботки (Aleksei Shestov 𓆏)
AutoML это алгоритмы, которые подбирают алгоритм, параметры и их комбинации специально для конкретного датасета. То есть такая замена дата саентиста. Сбербанк выпустил свой опенсорсный автомл фреймворк на питоне, призываю все пользоваться, шарить и распространять :) Александр Рыжков, Дмитрий Симаков и их коллеги разрабатывают автомл в Сбере, они уже делали доклад в декабре
https://www.youtube.com/watch?v=ci8uqgWFJGg&list=PLYeFZ_T6PUrILcK5rKHlb9PdBp-ySitUN,
а сейчас можно посмотреть участие автомл в каггл соревнование и его выигрыш относительно других автомл
https://www.kaggle.com/alexryzhkov/tps-april-21-lightautoml-starter (не жалейте ваши апвоуты этому ноутбуку на каггле :)
Проект в опенсорсе - https://github.com/sberbank-ai-lab/LightAutoML
И бенчмарки: https://github.com/sberbank-ai-lab/automlbenchmark/tree/lightautoml
https://www.youtube.com/watch?v=ci8uqgWFJGg&list=PLYeFZ_T6PUrILcK5rKHlb9PdBp-ySitUN,
а сейчас можно посмотреть участие автомл в каггл соревнование и его выигрыш относительно других автомл
https://www.kaggle.com/alexryzhkov/tps-april-21-lightautoml-starter (не жалейте ваши апвоуты этому ноутбуку на каггле :)
Проект в опенсорсе - https://github.com/sberbank-ai-lab/LightAutoML
И бенчмарки: https://github.com/sberbank-ai-lab/automlbenchmark/tree/lightautoml
YouTube
Александр Рыжков, Дмитрий Симаков - АвтоМЛ LightAutoML (или коротко LAMA)
LightAutoML (или коротко LAMA) - новая библиотека для автоматизации построения ML моделей. Мы расскажем, для решения каких задач создавался наш LightAutoML, чем он выделяется на фоне конкурентов и какую пользу способен принести пользователям и бизнесу.
…
…
Forwarded from DL in NLP (Vlad Lialin)
Давно у нас не было постов вида "держите кучу ссылок"
1. Applied PyTorch 101 от Abhishek Thakur — самые основы пайторча начиная с тензоров и заканчивая даталоадерами (будут ещё видео). Выглядит неплохо, буду советовать студентам.
1. Language Interpretability Tool — тулза для визуализации и интерпретации трансформеров, кроме этого позволяет анализировать ошибки модели и прочие вещи. Выглядит куда более проработанной чем всё, что я видел раньше (демо, гитхаб)
1. NLP In Video Games — мне очень нравится эта идея в принципе, тк она может позволить упростить какие-то моменты геймдева, но NLP всё-таки ещё сыроват. Несмотря на это можно уже посмотреть на первые попытки что-то такое сделать.
1. What Will it Take to Fix Benchmarking in Natural Language Understanding? — рассуждения на тему того, почему текущие бенчмарки плохи и как делать более хорошие.
1. torchtyping — попытка решить проблему документации шейпов тензоров, а заодно и проверять это всё на лету. Надо будет попробовать.
1. MLOps: жизненный цикл ML-моделей — как известно, обучение моделек это 5% работы, в этом выступлении обсуждают остальные 95%.
1. Why Do Local Methods Solve Nonconvex Problems — современный обзор текущей теории обучения в диплёрнинге или попытки ответить на вопрос почему в нейросетках почти все локальные минимумы близки к глобальному.
1. Applied PyTorch 101 от Abhishek Thakur — самые основы пайторча начиная с тензоров и заканчивая даталоадерами (будут ещё видео). Выглядит неплохо, буду советовать студентам.
1. Language Interpretability Tool — тулза для визуализации и интерпретации трансформеров, кроме этого позволяет анализировать ошибки модели и прочие вещи. Выглядит куда более проработанной чем всё, что я видел раньше (демо, гитхаб)
1. NLP In Video Games — мне очень нравится эта идея в принципе, тк она может позволить упростить какие-то моменты геймдева, но NLP всё-таки ещё сыроват. Несмотря на это можно уже посмотреть на первые попытки что-то такое сделать.
1. What Will it Take to Fix Benchmarking in Natural Language Understanding? — рассуждения на тему того, почему текущие бенчмарки плохи и как делать более хорошие.
1. torchtyping — попытка решить проблему документации шейпов тензоров, а заодно и проверять это всё на лету. Надо будет попробовать.
1. MLOps: жизненный цикл ML-моделей — как известно, обучение моделек это 5% работы, в этом выступлении обсуждают остальные 95%.
1. Why Do Local Methods Solve Nonconvex Problems — современный обзор текущей теории обучения в диплёрнинге или попытки ответить на вопрос почему в нейросетках почти все локальные минимумы близки к глобальному.
YouTube
PyTorch 101: An Applied Tutorial