LightAutoML framework – Telegram
#домашка
Через полтора часа начнется первый вебинар нашего курса. А для тех, кто очень хотел домашку - она уже готова: https://www.kaggle.com/t/7e9b43b6978b4c18a58c6b60a2da2ed8
В соревновании нужно решать задачу регрессии - предсказать стоимость машины по описывающим ее признакам.
В качестве baseline есть как простые варианты (типа среднего и медианы), так и пример решения с использованием LightAutoML - https://www.kaggle.com/alexryzhkov/lightautoml-starter-for-hw1
Please enjoy :)
LightAutoML framework pinned «Коллеги, привет. Возникают вопросы по доступу на вебинар. Рассылка делается вручную: за сутки до вебинара в 19.00, в день вебинара в 18.00. По записям подробно пишем в рассылке. Если вы зарегистрировались после этого времени, то попадете только в следующую…»
Через час стартует курс, и в эфире минутка аналитики!
Итак, уже зарегистрировалось 756 человек. Интересно, сколько дойдут до вебинара?

Большая часть аудитории ассоциирует себя с Data Scientist, на втором месте "не определившиеся" 😊

Пишите к посту коммент, кто же вы, нам интересно познакомиться👇
Итак, через 7 минут мы стартуем наш первый вебинар: «Введение в LightAutoML» с Александром Рыжковым!

Ждем вас в 19.00 по ссылке
#домашка
Всем привет!
Как и говорил вчера - у нас открыта домашка для желающих попрактиковаться. Начать участие в соревновании можно по ссылке: https://www.kaggle.com/t/7e9b43b6978b4c18a58c6b60a2da2ed8
Также для соревнования уже подготовлено несколько бейзлайнов:
1) Простые: все нули, среднее по трейну, медиана по трейну
2) Стартер на LightAutoML (скор 3021.75)- https://www.kaggle.com/alexryzhkov/lightautoml-starter-for-hw1
3) Baseline 2 на LightAutoML (скор 1561.11) - код в кернеле пока что скрыт
4) Сильный baseline на LightAutoML (скор 1398.89) - код в кернеле пока что скрыт

Если вдруг при решении задачи возникают вопросы - не стесняйтесь их задавать 😎
#release_notes
В версии 0.2.13:
- Добавлена поддержка регрессии для интерпретации NLP моделей на основе LIME
Коллеги, всем привет!
Расскажите плз, кто начал решать домашку и кто планирует ее делать - все ли в задаче понятно? Нужны ли какие-то дополнительные комментарии по ней или по использованию фреймворка?
Ссылка на отдельный чат для обсуждения домашки с предсказанием цены машины: https://news.1rj.ru/str/joinchat/sp8P7sdAqaU0YmRi
Нужны ли дополнительные семинары по ML теории? Если да, то отпишите в комментах по какой теме.
Anonymous Poll
83%
Да, нужны
17%
Нет, не нужны
Судя по опросу, у нас побеждает вариант ответа «Да, нужны». Попробуем подобрать для такого семинара подходящий слот.
Список тем для обсуждения (буду его тут постепенно обновлять):
1) Ансамбли - блендинги, стекинги и т.п.
2) Особенности метрик (f1, rocauc и др.)
3) feature engineering
Всем привет, коллеги! Хотел бы поделиться важной инфой, о которой мб не все в курсе - для того, чтобы радовать других людей своими апвоутами (и чтобы их засчитывал Kaggle и учитывал в общем количестве), вам необходимо добраться до статуса Contributor из изначального статуса Novice. Как это сделать, рассказывает прикрепленная к посту картинка
Доброе утро, товарищи! Quick reminder: сегодня в 19.00 пройдет второй вебинар курса, на котором я расскажу о практическом примерении LightAutoML для решения различных задач (в том числе и активных на текущий момент соревнований на Kaggle). Также будет разобран better_baseline для текущей домашки по предсказанию стоимости машин. Приходите - будет интересно 😎
Через 10 минут начинаем наш второй вебинар с Александром Рыжковым: "Практикум по решению основных ML-задач"

Ждем всех по ссылке в 19.00
Добрый вечер всем!

Еще раз всем большое спасибо за то, что посетили наш вебинар. Собрал в одно сообщение все кернелы, которые мы сегодня посмотрели:
1) Быстрое решение титаника
2) Титаник (шаблон решения задач)
3) House Prices регрессия
4) Предсказание цены квартир
5) Дефолты заемщиков
6) Интерпретируемая модель с отчетом и SQL
7) (Текущее открытое соревнование) Tabular Playgroung Series May 2021
8) Изначальный бейзлайн домашки
9) Обновленный бейзлайн домащки

Ну и на закуску ссылка на датасет с конфигами ламы.

P.S. Понравился кернел - не стесняйся, ткни лейкоцит ❤️. Давайте вместе загоним LightAutoML в тренды на Kaggle.🤩
Всем привет, коллеги!

Хотел бы поделиться одной довольно важной особенностью, которая есть у нас в решении для задач бинарной и мультикласс классификации (ее понимание и использование очень важно для получения адекватных результатов).

В случае, если таргет переменная в вашем датасете задана не как 0-1 для бинарки или 0-1-2-..-N для мультикласса, то LIghtAutoML все равно сможет работать с такими данными, НО самостоятельно проведет их замену на знакомые ему 0-1-.. в порядке убывания встречаемости классов. О том, каким образом прошла замена, вам может сказать automl.reader.class_mapping, который будет None, если замены не было, и dict-ом в случае замены.

Будьте внимательны 🧐🤓😎
👍1
Всем привет!

Сегодня в 19.00 наш коллега Дмитрий Симаков расскажет про NLP- и CV-пресеты в LightAutoML, а так же про то, как работать со смешанными датасетами.

Кроме того:
- покажем, как с помощью встроенного в LightAutoML LIME можно интерпретировать модели с текстовыми признаками;
- сделаем сабмит в идущее сейчас соревнование на kaggle CommonLit Readability Prize" 🚀.

Ссылка традиционно будет в рассылке позже.
Ждем всех на вебинаре в 19.00 🎓
Через 10 минут начинаем наш третий вебинар с Дмитрием Симаковым «NLP и CV пресеты LightAutoML: теория и практика»! 
Ждем вас в 19.00 по ссылке
AutoNLPandCV.pdf
1.7 MB
Добрый день!

По мотивам вебинара про NLP:

Соревнование CommonLit Readability Prize:
1) Ноутбук для обучения. В этом ноутбуке можно обратить внимание на две истории. Первая, как передать веса transformer модели напрямую в автомл. Вторая - если вы хотите сэкономить оперативную память, то можно сохранять чекпоинты модели на диск при помощи аргумента 'path_to_save' нейронной сети. Кроме того, ноутбук демонстрирует работу методов интерпретации. Интересный вывод, что на сложность восприятия текста сильно влияют артикли и местоимения.
2) Ноутбук для сабмита. Стоит отметить, что необходимо сохранить структуру директории, как во время обучения, поэтому мы дополнительно копируем веса наших моделей в правильную папку (ячейка 3 ноутбука).

Скор на паблике: 505.

А также презентация с первой части вебинара.
Всем привет! Сегодня ночью завершилось наше первое домашнее задание соревнование. В топ-5 вошли:
1. Crazy Pandas (Александр Косолапов, Сергей Кутепов)
2. Антон Чикин
3. Степан Пономарев
4. Валерий Якухин
5. Mishacamry

Поздравляю вас ребят, вы проделали классный путь и удержались в шейкапе привата 👍

Для всех, у кого не пропал соревновательный дух и хочется еще больше хлеба и соревов, напоминаю:
1) Открыта домашка 2 в реальном соревновании https://www.kaggle.com/c/commonlitreadabilityprize с кернелами от Димы Симакова по работе с NLP данными
2) Для любителей табличного экстрима есть соревнование TPS May 2021 с моим кернелом https://www.kaggle.com/alexryzhkov/lightautoml-baseline-tps-may-2021 (которому чутка осталось до голды) - там есть на что посмотреть и над чем поломать голову.

Аппетит приходит во время еды :)
Привет! Напоминаем, что в 19.00 сегодня у нас будет вебинар про отчеты, мониторинги в LightAutoML - радости разработчика моделей 📊📈.

Василий Бунаков расскажет и покажет, как пользоваться ReportDeco в библиотеке, и посвятит в ближайшие планы!

Ждем всех в 19!