NEW BOT Телеграм, страница

Матчасть

Я как-то давно писал о дисбалансе классов в задачах ML (habr.com/ru/post/349078) и объяснял, почему чаще всего перебалансировать ничего не надо. А позавчера Александр Дьяконов написал примерно о том же, но более понятно и обоснованно, чем я 🙃. Рекомендую к прочтению: https://dyakonov.org/2021/05/27/imbalance/
А ещё у него приятный канал https://news.1rj.ru/str/smalldatascience

Хабр

Нужно ли бояться несбалансированности классов?

В сети есть множество постов и ресурсов, которые учат нас бороться с несбалансированностью классов (class imbalance) в задаче классификации. Обычно они предлагают методы сэмплирования: искусственно...

961 views11:14

Матчасть

Я тут недавно talkнул рассказ про предобученные языковые модели для русского языка. Получилось длинновато, но, кажется, содержательно. Приглашаю к просмотру: https://youtu.be/YHgOFKmx8qo

YouTube

Давид Дале - Предобученные модели для русского языка

Поговорим про особенности, ограничения и рецепты использования русского BERT. Обсудим опыт дистилляции BERT и сжатия fastText. Разберёмся, какая магия нужна, чтобы заставить GPT от Сбера генерировать нужный вам текст, и почему с T5 то же самое можно сделать…

916 views10:15

Матчасть

На всякий случай напомню, что игра, начатая в марте, всё ещё в силе. Задавайте в комментариях вопросы по математике, машинке, анализу данных и смыслу жизни, а мы будем на них отвечать. А на темы самых интересных вопросов будут не менее интересные посты 🙃

770 views18:13

Матчасть

Ещё в апреле поступил вопрос: как искать научные статьи, отвечающие на определенные вопросы, типа "в каком диапазоне бывает инкубационный период ковида у людей". На эту тему в прошлом году было соревнование на Кэггле: из огромного датасета статей нужно было отбирать релевантные, отвечающие на определённые вопросы по ковиду. Вот одна из задач этого соревнования: https://www.kaggle.com/allen-institute-for-ai/CORD-19-research-challenge/tasks?taskId=568

Сам я в нём не участвовал, но поделюсь чужим решением, которое, несмотря на свою простоту, вполне справляется с задачей. Оказывается, достаточно старинного пайплайна из информационного поиска: выделить информативные слова из запроса (в блокноте это сделали вручную, но есть и рабочие автоматические методы), нормализовать их (стемминг), и отсортировать статьи по встречаемости ключевых слов в абстракте. Дёшево и сердито.
Вот блокнот с решением: https://www.kaggle.com/mlconsult/transmission-incubation-and-environment-2-0

Kaggle

COVID-19 Open Research Dataset Challenge (CORD-19)

An AI challenge with AI2, CZI, MSR, Georgetown, NIH & The White House

1.02K views18:13

Матчасть

Попробовал собрать маленький англо-русский BERT, используя несколько моделей с качественными эмбеддингами предложений как учителей. Получилось любопытно.

Пост: https://habr.com/ru/post/562064
Модель: https://huggingface.co/cointegrated/rubert-tiny

Хабр

Маленький и быстрый BERT для русского языка

BERT – нейросеть, способная неплохо понимать смысл текстов на человеческом языке. Впервые появившись в 2018 году, эта модель совершила переворот в компьютерной лингвистике. Базовая версия модели долго...

1.11K views08:14

Матчасть

Прочитал сегодня лекцию для школьников и молодых студентов в одном из Томских университетов. Получилось поговорить обо всём сразу, от общих принципов ML до стратегий изучения английского языка. Не знаю, насколько годный получился контент, но на всякий случай выложу.
https://www.youtube.com/watch?v=LIhYXOcumns

YouTube

«Умные недели» Лекция Давида Сергеевича Дале

26 июня в 10:00 состоится лекция «Как машинное обучение помогает роботам выдавать кредиты, закаливать стальные трубы и говорить с людьми на человеческом языке – и как в этом поучаствовать». Лекцию проведёт Давид Сергеевич Дале, старший инженер-исследователь…

894 viewsedited 21:02

Матчасть

Автоматическое перефразирование текстов может быть полезно в куче задач, от рерайтинга текстов до аугментации данных. В прикрепленном посте я собрал русскоязычные корпуса и модели парафраз, а также попробовал создать собственный корпус, обучить свою модель для перефразирования, и собрать набор автоматических метрик для оценки их качества.

В итоге оказалось, что модель для перевода перефразирует лучше, чем специализированные модели. Но, по крайней мере, стало более понятно, чего вообще от автоматического перефразирования можно хотеть и ожидать.
https://habr.com/ru/post/564916

Хабр

Перефразирование русских текстов: корпуса, модели, метрики

Введение Русский язык велик и могуч, и компьютерные лингвисты уже много лет пытаются алгоритмизировать это богатство. Ещё в 1970-х Мельчук предложил концепцию "Смысл-текст", где ультимативная языковая...

931 views10:37

Матчасть

Каждый день современному человеку приходится принимать десятки различных решений. Некоторые из них даются нам легко, а другие, наоборот, вызывают стресс и негативные эмоции. А задумывались ли когда-нибудь, как принимать решения правильно? Сегодня на этот вопрос можно ответить благодаря теории игр или разделу математики, который направлен на изучение оптимальных стратегий.

2-ого июля в стенах ВШЭ и на онлайн трансляции пройдут две открытых лекции от выдающихся математиков и специалистов по теории игр – Алексея Савватаева и Бориса Демешева!

Когда: 2 июля, Пятница, 10:30 – 14:00

Где: Покровский бульвар, 11, аудитория R207 или онлайн по ссылке на публичную трансляцию.

Пожалуйста, если вы хотите посетить мероприятие оффлайн, то зарегистрируйтесь на него заранее, потому что количество мест ограничено.

Ссылка на регистрацию:
https://miem.hse.ru/fitm/announcements/477323127.html

Ссылка на публичную трансляцию:
https://www.youtube.com/watch?v=hI2lKNp8H9U

До встречи!

1.06K views15:13

Матчасть

Мы запускаем двухмесячный интенсив по ML-прототипированию. В программе: куча онлайн лекций и семинаров, офлайн нетворкинг, и работа над своими проектами. Задумка в том, чтобы научится быстро и безболезненно проходить путь от невнятной идеи высокотехнологичного продукта до его работающего прототипа. По пути придется погрузить лапы в классическую веб-разработку, майнинг данных, машинное обучение и продуктовые эксперименты.

Полноценным фулстек-стартапером вы за два месяца, наверное, не станете, но из состояния "я хочу сделать продукт на основе машинлёрнинга, но у меня лапки" выйти точно получится. А для тех, кто чувствует себя совсем неуверенно с программированием и математикой, мы собрали предварительный двухнедельный крэш-курс по основам основ.

Будет дорого и круто, приходите)
https://maths-h.com/ru/mlprototype

Maths-H

Курс по ML-прототипированию

1.28K views16:56

Матчасть

Forwarded from Мathshub (Aira)

В понедельник 26 июля прошёл вебинар по ML-прототипированию. Мы надеемся, что вы смогли разобрать основные вопросы.

Запись трансляции в YouTube

Слайды презентации вебинара

Оставьте отзыв по качеству вебинара — это поможет нам поработать над качеством организации и контента.

Мы повторим вебинар в августе и планируем ещё больше ивентов, материалов по теме — оставайтесь с нами.

YouTube

Вебинар по ML-прототипированию

Курс по ML-прототипированию. Кол-в мест ограничено:
https://maths-h.com/ru/mlprototype

Старт вебинара: https://youtu.be/f2kXyMCsn4A?t=1811

Полезные ссылки:
— про BERT https://arxiv.org/abs/1810.04805
— про GPT-3 https://openai.com/blog/openai-api/

Тг…

1.34K views08:03

Матчасть

Всем привет!
17 августа мы проводим бесплатный воркшоп по ML-прототипированию. Покажем, как за пару часов можно собрать MVP продукта, использующего машинное обучение, и поговорим о том, как его можно дальше развивать. Регистрируйтесь и приходите, будет интересно)

https://mathshub.timepad.ru/event/1728260/?utm_refcode=255bbce96f88bcbca2fceafa810afa40eccf1332

mathshub.timepad.ru

Как запустить прототип IT-проекта на машинном обучении и привлечь инвесторов / События на TimePad.ru

Приглашаем на бесплатный вебинар по созданию ML-прототипа с нуля и разбору примера построения и обучения рекомендательной системы

1.3K views18:41

Матчасть

Хочу рассказать про Gumbel straight-through estimator, ибо я сам его наконец-то понял 🙈
Этот трюк пропускает градиент через дискретное представление, а что это такое, я сейчас объясню. Например, мы хотим обучить GAN: генератор порождает контент, дискриминатор оценивает его качество, и генератор обновляет свои веса в направлении улучшения качества. Это хорошо работает с картинками, потому что они непрерывные: генератор может на эпсилон подкрутить цвет каждого пикселя и картинка чуть улучшится. Математически это возможно потому, что мы можем взять производную сгенерированной картинки по параметрам генератора, и делать с её помощью градиентный шаг.

А как быть, если наш генератор генерирует тексты? Проблема текста, что он - тупо последовательность слов. У каждого слова есть какой-то номер в словаре, и фраза, например, "привет мир" может кодироваться как [14050, 5840, 1] (здесь единичка - это символ конца текста). И вот как это дифференцировать? Следите за руками!

1. Превращаем текст в sparse представление: матрицу размера (text_length, vocab_size), с единицами в позициях соответствующих слов, и нулями в остальных местах. Такая матрица выглядит уже чуть более дифференцировабельной. Но какая у неё может быть производная?
2. Вообще-то генератор текста сэмплирует его из предсказанного им распределения: softmax(logits), где logits - предсказания генератора. Их-то мы точно умеем дифференцировать, а вот оператор случайного выбора - недифференцируемый.
3. Оказывается, существует распределение Гумбеля, обладающее полезным свойством: распределения величин sample(softmax(logits)) и argmax(logits + gumbel_random()) - совпадают! В первом случае мы считаем вероятности каждого токена и случайно выбираем токен в соответствии с этими вероятностями. Во втором мы к скору каждого токена прибавляем гумбелевскую случайную величину, и выбираем токен с максимальным результатом. И эти процедуры - эквивалентны.
4. argmax всё ещё не дифференцируемая функция, но дифференцируемо её приближение: softmax. Получается, наша разреженная матрица hard_scores из пункта (1) примерно равна soft_scores=softmax(logits + gumbel_random()), и производную этой штуки мы уже умеем вычислять.
5. Как использовать матрицу hard_scores, прилепив к ней производную матрицы soft_scores? В pytorch это делается так: вычтем из разреженной матрицы приближенную, сбросим градиент этой разницы, и потом прибавим приближенную матрицу обратно. То есть выдадим (hard_scores - soft_scores).detach() + soft_scores.

Собственно, вот исходный код этой нечисти: https://pytorch.org/docs/stable/_modules/torch/nn/functional.html#gumbel_softmax. Там ещё используется температура в софтмаксе: чем она меньше, тем ближе softmax к argmax. С подбором температуры для этого кейса я не экспериментировал, но если экспериментировали вы, то делитесь своими находками в комментах)

1.59K views10:03

Матчасть

Привет! Пост не про математику, но мне очень надо (:
Мне нужно потестировать одного игрового бота в Телеге.

Игра — бродилка по лабиринту, причем вы там будете встречаться с другими участниками. Поэтому тестировать надо одновременно. Предлагается сделать это завтра примерно с 11 до 12.

Если вы готовы помочь, вступайте в чатик https://news.1rj.ru/str/joinchat/2rO7ios4NuA3Yjdi, там будут инструкции.

1.36K viewsedited 18:39

Матчасть

Сегодня выкатилась scikit-learn==1.0.0, и в ней - квантильная линейная регрессия

Когда я рассказываю новичкам про регрессию, меня обычно спрашивают, почему мы минимизируем сумму квадратов ошибок, а не их модулей? Я отвечаю "так принято" и говорю что-то про дифференцируемость всюду и про то, что одна большая ошибка критичнее нескольких маленьких. Но аргумент с ошибками применим не всегда (особенно если в данных есть выбросы), и есть куча методов оптимизации, которые плевать хотели на производную в нуле. Таки что получится, если минимизировать сумму модулей ошибок?

А получится предсказание медианы. Ибо сумма модулей ошибок минимальна, когда половина ошибок - отрицательные, а половина - положительные. А если минимизировать, например, 0.9 модулей положительных ошибок плюс 0.1 модулей отрицательных ошибок, то в результате получится 90% квантиль. Поэтому такая модель и называется "квантильная регрессия".

Запускается это очень просто:

#! pip install --upgrade scikit-learn
from sklearn.linear_model import QuantileRegressor
model = QuantileRegressor().fit(X,y)

Как понять, что квантильная регрессия предпочтительнее классической?
- Ваша целевая метрика - MAE, а не RMSE или R^2.
- В данных есть выбросы, и вы не хотите, чтобы они слишком влияли на результат.
- Вам важнее правильно предсказать медиану, чем среднее арифметическое.
- Большие и маленькие ошибки одинаково важны: например, одна ошибка в 300 рублей для вас не более плачевна, чем три ошибки в 100 рублей.
- Важность ошибок несимметричная, например, ошибка -100 гораздо хуже, чем ошибка +100. Тогда вам может быть полезно предсказывать квантиль, отличную от 50%.
- Вы хотите доверительный интервал для вашего предсказания, но не хотите завязываться на допущение, что ошибки распределены нормально с одинаковой дисперсией. Тогда вы можете просто предсказать, например, 5% и 95% квантили отдельными формулами.
- Ваши данные гетероскедастичные, т.е. дисперсия ошибок в разных частях выборки разная. И при этом вы хотите, чтобы модель одинаково усердно старалась предсказывать и в зонах высокой дисперсии, и в зонах низкой.

Примеры кода, картинки и дополнительные рассуждения вы можете посмотреть в документации: https://scikit-learn.org/stable/auto_examples/linear_model/plot_quantile_regression.html

Собственно, идея имплементировать квантильную регрессию в sklearn пришла мне ещё в 2017, когда я начал переодеваться из аналитиков в кодеры. Тогда я закодил свой градиентный спуск, и работал он не очень стабильно, а занятые ревьюеры sklearn давали свой фидбек очень долго. И в результате я погрузился в свою работу и забил. А в этом году я решил добить этот пул-реквест, и пересадил его на scipy.linprog: он масштабируется не так хорошо, как градиентный спуск, зато гарантированно сходится за не очень большое число итераций. Совместными усилиями с активистами sklearn мы привели пул-реквест в порядок и катнули, а сегодня выехала версия sklearn, в которую он вошёл.

scikit-learn

Quantile regression

This example illustrates how quantile regression can predict non-trivial conditional quantiles. The left figure shows the case when the error distribution is normal, but has non-constant variance, ...

👍1🙏1

2.88K viewsedited 12:04

Матчасть

Надеюсь, что для квантильной регрессии в scikit-learn найдутся подходящие кейсы для применения. А если у вас уже дошли руки её попробовать, то пишите в комментах: как впечатления?

2.03K viewsedited 12:04

Матчасть

Мой канал - преимущественно про анализ данных и причастную к нему высшую математику, но сюда иногда приходят и за "обычной" математикой школьного уровня. К сожалению, её тут практически нет.

Зато она есть в канале @mathfromzero. Формат очень простой: каждый день в канал выкладывают по одной задаче, обычно на алгебру, геометрию или логику. Можно выкладывать своё решение в комменты и получать фидбек от админа. Кроме задач, попадаются материалы в формате "страница из учебника", занимательные факты и цитаты.

Если математика вас пугает, но хочется с ней подружиться, регулярно получая лёгкий и базовый математический контент – подписывайтесь 🙃

1.87K views15:10

Матчасть

ШАД выложил в открытый доступ учебник по машинному обучению (что приятно, русскоязычный). Пока написано только несколько глав, но базовые алгоритмы и метрики ML уже неплохо покрыты. По стилю похоже на хорошо отформатированную лекцию, с не очень сложными формулами и весьма наглядными картинками.

Сами авторы анонсируют его так:
"Онлайн-учебник по машинному обучению от ШАД — для тех, кто не боится математики и хочет разобраться в технологиях ML. Вы изучите классическую теорию и тонкости реализации алгоритмов, пройдя путь от основ машинного обучения до тем, которые поднимаются в свежих научных статьях".

https://ml-handbook.ru

10.9K views19:20

Матчасть

Несколько месяцев назад мне в предложку кинули вот эту замечательную подборку, а я её проигнорировал. Теперь исправляюсь и выкладываю, ибо, возможно, кто-то тут что-то полезное для себя найдёт.

🔧 Сборка лекций и семинаров по математике.

1.74K viewsedited 10:24

Матчасть

Техники появляются все чаще. Времени на освоение каждой всё меньше. Распыляясь на множество техник, ни одну глубоко не понять. Как адаптироваться к технологической сингулярности? Ограничить своё внимание какой-то одной техникой, или выбрать 2-3 в рамках одного выбранного на длительный период направления?

Такой вопрос задали полгода назад в комментариях к посту Матчасти, и мы его проигнорировали. А вопрос-то животрепещущий! Поэтому давайте разбираться.

Для начала, что такое "технологическая сингулярность". В математике "сингулярность" - это любая особенная точка на графике функции, но чаще всего – вертикальная асимптота, как у гиперболы. Этот термин забрали у математиков физики, применив его к математическому описанию чёрных дыр, и уже оттуда его слямзили футурологи, чтобы обозначить гипотетический момент в будущем, к которому технологический прогресс станет бесконечно быстрым. Если честно, я не могу понять, каким образом прогресс может быть бесконечно быстрым, и, скорее всего, эту фразу нужно понимать в смысле "технологии развиваются так быстро, что нам сложно что-либо предсказывать", и проблема скорее не в слишком быстрых изменениях, а в недостаточно мощных предсказательных способностях наших футурологов. Но в футурологов нам так или иначе приходится играть, ибо внешние изменения наступают, и к ним хочется адаптироваться по возможности заранее.

Ещё лет 30 назад HRы придумали, как классифицировать людей по охвату их навыков. Тех, кто максимально глубоко роет в одну точку, назвали "I-shaped". Для тех, у кого широкий кругозор, но ни в чём нет глубины, названия не придумали, но можно было бы сказать "минус-shaped", хоть это и звучит обидно. А любовь HR-ов – это "T-shaped" люди, которые сочетают общую широту знаний с глубоким погружением в какую-то одну область. Некоторые из моих знакомых называют себя "Ш-shaped", мол, они умудряются поддерживать глубину сразу в нескольких независимых областях. Так какие из этих стратегий работают на самом деле?

1.54K viewsedited 15:47

Матчасть

Один работающий подход – развивать те навыки, которые точно долго не устареют, а это в первую очередь soft skills. Если ты просто клёвый чувак – работоспособный, коммуникабельный, структурный, умеющий концентрироваться, и хорошо принимающий решения, то ты в принципе уже не пропадёшь. Минус в том, что нужно очень внимательно заботиться о себе, и всё равно это не гарантирует, что в такой хорошей форме ты будешь всегда. Другая очевидно работающая стратегия – правильно выбрать одно направление, которая будет перспективным достаточно долго, напрячься, и стать в нём топовым специалистом. Для этого нужна концентрация, а ещё выносливость, ибо путь до "самого лучшего" небыстр. Основной риск здесь – что выбранное направление утратит свою перспективность быстрее, чем окупятся силы и время, вложенные в него. Поэтому разумной кажется смешанная стратегия – инвестировать 50% своих ресурсов в то, чтобы становиться "клёвым чуваком в целом", другие 50% – в специализацию на том, в чём хочешь стать лучшим, а третьи 50% – в изучение ещё пары областей, на которые в случае чего можно будет перепрофилироваться. Ну, или если не хочется черпать недостающие 50% из сна, здоровья и личной жизни, можно использовать веса типа 25/50/25. Тоже T-shaped, только буква T – с засечками. Я сам, например, сейчас специализируюсь на NLP, но дополнительно занимаюсь преподаванием и фулстэк-разработкой, для разнообразия и на всякий случай.

Есть ли у меня какие-то данные, чтобы подтвердить своё голословное мнение? Увы, нету. И, боюсь, собрать толковый датасет по связи специализации навыков с успехом очень сложно, ибо и свои навыки, и свой успех люди оценивают субъективно, и такой датасет отражал бы скорее совокупное мнение респондентов по этому вопросу, чем объективные закономерности.
А вот собственное мнение по вопросам типа "как заботать конкретную область Х", или "на что обратить внимание при выборе между областью Х и областью Y" я вполне могу. Равно как и давать мини-обзоры по каким-то конкретным областям и вопросам. С чем и приглашаю в комментарии (:

👍1

1.57K viewsedited 15:47

Матчасть

Техники появляются все чаще. Времени на освоение каждой всё меньше. Распыляясь на множество техник, ни одну глубоко не понять. Как адаптироваться к технологической сингулярности? Ограничить своё внимание какой-то одной техникой, или выбрать 2-3 в рамках одного выбранного на длительный период направления?

Наиболее верным видится первое. У каждого человека, какой бы позиции он ни придерживался в вопросах изучения боевых искусств, должен быть конкретный, ограниченный сетами и тренировочными курсами набор техник. Каждую из техник надо, как минимум, понимать, уметь анализировать на основе того, что знаешь, и понимать, как поступать в случае нестандартной ситуации.

Карта у тебя есть, а боевых искусств нет? Научись их держать в руках.
Хочу быть физически здоровым, а умственной и духовной гибкостью обладаю? Используй свое тело для адаптации к современной технической сингулярность.

В обществе потребления мозг человека рассматривается как расходный материал, а не как важнейший стратегический ресурс. Наступила эпоха интеллектуальной роботизации, и главное для выживания - интеллект. Развивай свой интеллект. Умение владеть своим интеллектуальным и физическим капиталом - гарантия выживания и нормальной жизни.

Как быть эффективным при компьютерной, сенсорной и прочей информационной сингулярностях? Следовать за трендами. Ненужные навыки выкидывать. Лишь при их отсутствии по-настоящему совершенствоваться.

Если будет трудно, ты всегда можешь бросить тренировки и уйти в любой другой спорт. Боевые искусства, физика и все остальное - как системы адаптации к новым условиям, не имеющие циклов и не останавливающиеся в развитии.

Слишком мало времени? Не заморачивайся на деталях. Примени список методов, указанные выше, на занятиях любым видом спорта. Если после усвоения всего этого ты дашь слабину, или если тебе станет лень развиваться дальше, ты и на этот раз избежит продолжения бессмысленного развития.
Мне нравится, как ты сейчас двигаешься. Это твой шанс прожить еще немного.

Поддерживай форму. Расти над собой. Тогда ты не будешь почивать на лаврах, а сможешь на основе своего понимания и опыта сделать что-то новое и полезное. А в конечном итоге и поможет реализации глобальных планов.

Этот текст сгенерировала GPT-3 (russiannlp.github.io/rugpt-demo) по первому абзацу. Мне любопытно, насколько больше лайков он наберёт по сравнению с предыдущим текстом, куда я пытался вложить какую-то мысль. Буду не удивлён, если окажется, что языковая модель уже лучше меня справляется с задачей рассуждения на пространные темы ¯\_(ツ)_/¯

russiannlp.github.io

RuGPT3 demo

Web site created using create-react-app

👍4👎2

2.26K views15:47

About

Blog

Apps

Platform