Машинное обучение от ИЦ "ГЕВИССТА" – Telegram
Машинное обучение от ИЦ "ГЕВИССТА"
624 subscribers
386 photos
8 videos
53 files
1.79K links
Download Telegram
Из этого поста узнаете, как делать инкрементальный препроцессинг для прогнозирования риалтайм (построчный инференс), как прогревать данные, настраивать окно - n последних данных для обучения. Обратите внимание, обычно препроцессинг для обучения модели и для прогрева делают немного разным. На курсе рассмотрим еще более продвинутые решения
👍1
После 23 по мск положу материал в пост-долгострой https://boosty.to/gewissta/posts/29e7e31f-672c-4224-bbfb-5c51ef637a56?share=post_link и цену повышу x2. Очень полезный, но сложный контент.
Мне тут любимая недавно сказала: «Мне кажется, у тебя есть такая способность – рядом с тобой люди начинают верить в себя, ты как-то заражаешь». Ну так и есть. Задача – заразить, растормошить вас, вера в себя уже сама появится. А меня когда-то в начале 2000 –х так растормошила одна выдающаяся женщина – Екатерина Сединина. Я преступно ленив, никак руки не доходят написать, как встреча с Катей из «Мегафона» поменяла меня, но обещаю, что до НГ обязательно напишу.
👍4
На следующей неделе в планах показать
• гибридный отбор для временных рядов
• патчинг для временных рядов (переносим идеи из N-HiTS в предподготовку для бустинга)
• быстрый гайд по tsururu
👍1
Машинное обучение от ИЦ "ГЕВИССТА"
https://boosty.to/gewissta/posts/d1b9cec2-4698-41d9-95f5-eee3522eaf25?share=post_link
Через пару часов цену повышу. Материал - вкуснятина, как местные турецкие чебуреки.
Тут знакомая девушка из Питера продает некоторые свои вещи, возможно, женской половине группы будет интересно.
Обновил https://boosty.to/gewissta/posts/e4d72ca3-bccd-463a-9cb3-daace16d47de?share=post_link Поделился решением ученика с очень простой схемой оверсемплинга, перепроверил на построчном инференсе, действительно повышает скор
По оверсемплингу. В овернайте он работал. Но калибровщики нужно было обучать по исходной части, до аугментации. Многие обучали калибровщики по всему аугментированному набору, именно это и вредило.
👍1
Я всегда любил этих двоих. У них была настоящая любовь. Вдохновленный полет двоих, взаимное восхищение и постоянное служение друг другу. Да, друзья, мы помогаем в отношениях друг другу раскрыться, творчески проявиться! А многие ведь думают, отношения – это чтобы борща вместе похлебать, повозиться ночью и просидеть жизнь в удобном комфорте, не развиваясь личностно и профессионально. Для первого есть фудкорты, для второго – специальные сайты, для третьего – модель спонсора и содержанки.

Посмотрите, сколько в этой паре жизни, живости, планов, даже успевают немного ругнуться между собой (на 3-й минуте, и делают это прекрасно, черт возьми). Эти двое достигли всех мыслимых и немыслимых благ, но не застряли в них, а преподавали, просвещали, строили школы, давали бесплатные концерты, занимались благотворительностью. Ну и, конечно, не орали про патриотизм, будучи настоящими патриотами по своему духу.
6
Этот анекдот повторится
👍1🔥1
Обновил https://boosty.to/gewissta/posts/4f81db25-1376-4117-92e9-fbb270c2af6f?share=post_link Даже в предновогодье работаю 24/7, эксперименты, созвоны, созвоны, преподавание, рабочие проекты. Еще уроки тут стал брать у кванта по крипторядам, нашел отличного спеца, старею, агрегацию-дизагрегацию можно и на построчном инференсе делать и делать робастные усилители соло или в ансамбле с обычной моделькой.
2
Посмотрел Наки у Дудя (оба иноагента). Острый, быстрый ум. Соль – два фрагмента про Кашина (тож иноагент) как собирательный образ.
👍1
ML System Design для временных рядов
22-стр. дизайн-документ, 5 pdf-гайдов, 5 Jupyter-тетрадок, модули timeseries и dm_test, файлы данных.

1. Построение базовой мультисегментной модели (2 Jupyter-тетрадки и pdf)
2. Перекрестная проверка мультисегментной модели (Jupyter-тетрадка и pdf)
3. Оптимизация гиперпараметров мультисегментной модели (Jupyter-тетрадка и pdf)
4. Метрики качества прогнозов (Jupyter-тетрадка и pdf)
Лидерборд по Овернайту глянул. Поздравляю ученика - Илью (ilgrad) с 4-м местом. anton, занявший призовое, пусть сам думает, кого ему благодарить. Схема простая, наша – CatBoost, выполняющий классификацию 5 классов + CatBoost для различения нередких классов (0,1,2) от редких (3, 4), затем балансировщик RareClassBooster, корректируем вероятности редких классов первой модели по вероятностям второй (знаю, что Женя, JohnaWoo пренебрег балансировщиком и свалился по метрикам), потом калибровщик (температурная калибровка с подбором температуры для каждого класса) и оптимизатор порогов для максимизации F1-меры.

Знаю, что Илья усилил схему стекингом, кодировкой TargetExpandingMean и биннингом. Но вы знаете, я не люблю ансамбли. После температурной калибровки еще полезно делать калибровку сплайнами для обеспечения лучшей монотонности и только потом оптимизировать по порогам.

Качество решений, включая призовые решения, неважное, даже учитывая, что эти задачи сами по себе плохо решаются. Для построчного инференса (если берем за основу тест x 2 от оргов) должно быть так:
0.4-0.45 – Удовлетворительно
0.45-0.5 – Хорошо
0.5-0.55 – Отлично (у меня в проектах с крипторядами на построчном инференсе не удавалось сделать выше 0.51)
Если выше 0.55, то скорее всего протечка или какой-то косяк с подготовкой данных или горизонт небольшой взяли.

Как решаются эти задачи в индустрии? Сейчас SOTA – подход с динамической передискретизацией (по мотивам N-HiTS), я его ученикам не давал, хлопотно и не в бюджет соревнования такое делать. Его применяют коллеги в DBS Bank и это рабочая схема (и да, это опять же ансамбль). Уже выложил в группе по рядам.
5
А это обещанный трансфер, класс, написанный для Овернайта, уже решает классическую задачу прогнозирования ритейловых рядов. Обратите внимание, вы можете кодировать комбинации переменных, лучше всего брать комбинации сегментов (сами сегменты комбинации номеров магазинов и товарных групп) и календарных признаков, из календарных лучше всего брать день недели, день месяца, номер недели в году.
Ну вот, кажется, лед тронулся
Forwarded from Павел
#вакансия
Позиция: DS (Causal Inference & Econometrics)
Компания: Х5 Group   
Формат: Полный занятость (40 часов в неделю).  
Локация: Удаленная работа (но по желанию можно работать из офиса БЦ Оазис, г. Москва)  
Вилки: Оклад от 300 до 600 тыс. руб. gross + до 40% премия (уровень оклада обсуждается по итогам интервью)

💡Команда ad-hoc аналитики из X5 (Пятерочка, Перекресток, Чижик и т.д.) в поисках опытных DS-спецов с уклоном в Causal Inference и прикладную эконометрику

🔬Почему у нас интересно?
Более 29 тысяч магазинов, 50 миллионов клиентов, петабайты данных - и все это нужно анализировать

Ты будешь работать в команде нового стрима - никакого легаси, много интересных исследовательских задач - большая часть работы будет именно про 'рисеч': разбор бизнес-механик и формулирование причинных гипотез, чтение свежих статей и имплементация методов оттуда, сравнение этих методов между собой

🔭Чем у нас предстоит заниматься?

В основном - end-to-end разработкой методологий и инструментов для оценки эффектов в случае, когда классические A/B-тесты неприменимы. Сейчас процесс имеет следующий вид:
- встреча с заказчиками, уточнение требований и формализации задачи
- определение подходящего статистического подхода для анализа и конфигурирование статистической модели
- разработка и тестирование модели на синтетических и реальных данных
- презентация результатов заказчикам
- выкатка модели в 'прод' (регулярный расчет эффектов раз в месяц), дальнейшая доработка модели

Также читаем статьи и исследуем разные методы, удачные решения имплементируем в собственную python библиотеку, по итогам особо интересных задачек пишем статьи

Примеры уже решенных задач - оценка эффекта наличия подписки (Пакет) на траты клиента, оценка прироста выручки у клиентов по итогам федеральных акций


😎Ты нам подходишь, если ты:  
- Имеешь опыт работы в DS-сфере от двух лет
- Имеешь бэкграунд в Causal Inference / эконометрике (наука, учеба, работа)
- Знаешь, что такое эндогенность, из-за чего она может возникать и как с ней бороться
- Можешь отличить конфаундер от инструмента
- Можешь нарисовать DAG для конкретного DGP, сможешь на нем найти коллайдеры и медиаторы
- Знаком с современными подходами к анализу кросс-секционных и панельных данных (Doubly Robust Estimators (AIPW), DiD, TWFE, IV)
- Умеешь писать чистый и структурированный код на Python, знаешь классические алгоритмы и структуры данных
- Знаешь SQL - умеешь строить оптимальные запросы, знакомство с hadoop-стэком будет плюсом;

🎁Что мы предлагаем:
- возможность работать удалённо или в гибридном формате;
- ежеквартальные премии по результатам работы;
- удобный офис рядом с м. «Добрынинская» / удобный офис с бесплатной парковкой на м. «Волгоградский проспект» / МЦД «Калитники»
- гибкий график работы (с 8/9/10 утра) / График работы: 5/2, с 9:00 до 18:15 (в пятницу — до 17:00);
- широкий пакет ДМС (включая выезд за рубеж и стоматологию), страхование жизни и здоровья;
- возможность учиться и развиваться за счёт компании;
- программы мотивации для спикеров и авторов;
- Классный коллектив, теплая атмосфера и веселые ретро с играми и битвой мемов, а также оффлайн-тимбилдинги.

Свои резюме в формате "Фамилия Имя Резюме DS ad-hoc" направлять сюда: @Zzzelar
👍21
С 29 декабря
• единая подписка (помесячная) повышается до 12000 в месяц
• подписка на группу Causal Inference (https://news.1rj.ru/str/tribute/app?startapp=snYS) будет стоить 1000 рублей в месяц, 2700 на 3 месяца
• подписка на группу Прикладной анализ временных рядов (https://news.1rj.ru/str/tribute/app?startapp=sls7) будет стоить 1500 рублей в месяц, 4200 на 3 месяца