Интересное что-то – Telegram
Интересное что-то
517 subscribers
2.72K photos
253 videos
138 files
4.51K links
Материалы и мысли, понадерганные отовсюду
Блог: https://news.1rj.ru/str/asisakov_channel
Чат: https://news.1rj.ru/str/youknowds_chat
Download Telegram
Forwarded from ИЦ "ГЕВИССТА"
Пепе Берба
Объяснение работы HDBSCAN и алгоритмов кластеризации на основе плотности

Перейти и скачать
Forwarded from ИЦ "ГЕВИССТА"
Признаки для временных рядов – скользящие разности
Обычно в прогнозировании временных рядов используют два вида скользящих разностей. Тестовую часть защищаете от протечек значениями NaN.

# считаем скользящие разности между максимальным
# и минимальным значениями окна, окно шириной 4,
# c лагом 1
data['rolling_diff4_max_min'] = data['sales'].shift(periods=1).rolling(
window=4, min_periods=1).apply(lambda x: max(x) - min(x))

# вручную считаем скользящие разности между последним и
# первым значениями окна, окно шириной 4, с лагом 1
data['rolling_diff4_last_frst'] = data['sales'].shift(periods=1).rolling(
window=4, min_periods=1).apply(lambda x: x.iloc[-1] - x.iloc[0])

Ну и куда без подводных камней. Последняя разность между максимальным и минимальным значениями в тестовой части всегда будет равна 0, обычно нулевое значение заменяют последней разностью между максимальным и минимальным значениями в обучающей части. Разности между последним и первым значениями в тестовой части получат пропуски, обычно их заменяют нулями. Разности применяйте для градиентных бустингов. Они либо не работают вовсе, либо работают очень хорошо, резко улучшая качество модели. Я использую их в работе, они хорошо работали вот в этом соревновании https://www.kaggle.com/competitions/store-sales-time-series-forecasting/overview. В книге по рядам подробнее покажу примеры использования.
Forwarded from Mark Andreev
https://mymlops.com/ конструктор mlops стека
Forwarded from Дмитрий Колодезев
http://ceur-ws.org/Vol-2135/SEIM_2018_paper_30.pdf обзор до-бертовских подходов. и я бы попробовал RAKE для начала, что-то типа https://github.com/vgrabovets/multi_rake (не обязательно его, он руками пишется нетрудно)
Чтобы было, с чем сравнивать KeyBERT
Создаем свою соцсеть на Django

Хороший способ прокачать себя в знании Django — поднять свою соцсеть. Это довольно глубокий курс, займет много-много часов, но если вы пройдете его до конца и не бросите — почувствуете сильный прогресс.

Подробнее: 👉 тут

#видео #python
Forwarded from ИЦ "ГЕВИССТА"
Часть_3_17_3_Комбинирование_нескольких_методов_для_отбора_признаков.ipynb
1.2 MB
Из предстоящей книги по предварительной подготовке данных

Часть 3_17.3._Комбинирование нескольких методов для отбора признаков (задача Porto Seguro’s Safe Driver Prediction с Kaggle)
Forwarded from See All
Крч, кто не в теме - это американский хакер, ставший известным благодаря снятию блокировки со смартфона iPhone, что позволило использовать его с другими операторами сотовой связи кроме AT&T. Кроме того известен взломом Sony PlayStation 3 и последовавшим после этого судебным иском со стороны компании Sony.

Сейчас последние 2-3 мес он пишет свой бэкэнд для нейронок на питоне (все на гите в опенсорсе). В этом есть две ценности, на мой взгляд, которые будут полезны людям, у которых <5 лет опыта в индустрии:
1) он крепкий SWE, а не MLE, поэтому он сначала продумывает до мелочей дизайн, интерфейсы, все до идеала просчитывает, и свои мысли описывает. Есть чему поучиться
2) он крепкий SWE, и стоит поучитсья у него дебагу, написаню тестов и тому, как он решает проблемы. Этот человек в топ-1% по навыкам кодинга стопроц, скорее даже 0.01%, и при этом он делает то, что я часто не вижу у людей в слаках/тг/у стажеров. Он видит ошибку И СРАЗУ ЕЕ ГУГЛИТ, НЕ СТЕСНЯЯСЬ. И, внезапно, находит решение. Я хз, почему люди это не делают, мб думают что умные и сами разберутся, но видя то, как другие решают проблемы, мб это уйдет.

Всем очень рекомендую посомтреть хотя бы 2-3 часа, и потом понять для себя, будет ли полезно;

Видосы можно найти тут https://www.youtube.com/c/georgehotzarchive/videos
#report2710 #MPC
Проект: Моделирование подписей к постерам фильмов

1. DVC
Подключили DVC для хранения датасета с картинками (~4Gb.). В качестве хранилища использовали Yandex Storage S3.
Подробная инструкция по подключению Yandex S3 к DVC: https://youtu.be/tC3IdAN_hX4?t=1782
З.Ы. Яндекс дает грант на изучение возможностей своего хранилища на 4000₽ сроком на 60 дней. Хотя судя по прайсу на весь срок проекта на 5Гб можно обойтись 50₽ :)
З.Ы.2 Свежий доклад по DVC от создателей: https://www.youtube.com/watch?v=cxQCIPspMkA
Хозяйке на заметку: появилось расширение DVC для VS Code - https://marketplace.visualstudio.com/items?itemName=Iterative.dvc
по функционалу похоже на расширение для Git’а, плюс еще некоторые плюшки.

2. DAG
Переписали DAG формирования датасета с makefile на pipline от DVC. Не стали городить огород из разных инструментов. Раз уже поставили DVC, то пусть выполняет все возможные функции.

3. Начали рисовать схему проекта (см. картинку).

4. Модели
Попытки запустить архитектуру encoder-decoder с attention зашли в тупик. Очень долго крутили вертели модель, но увы результата не было. Обучение вроде шло неплохо, loss снижался, но в предикшене мы получали последовательность <unk>. Мы делали различные предположения о том что не так: снижали размерность словаря, пытались нормировать картинки, включали fine_tunning для эмбедингов, загружали предубученные эмбединги … но ничего не помогало.
В итоге мы переключились на архитектуру VisionEncoderDecoderModel (hugging face) в качестве енкодера прикрутили предварительно обученный google/vit-base-patch16-224-in21k, в качестве декодера предварительно обученный DeepPavlov/rubert-base-cased. Запустили обучение на нашем датасете урезанном до 500 картинок - и наконец увидели результат! - появились первые описания фоток в стиле блокбастера, конечно пока корявенько, теперь будем улучшать)

5. Бот
Подготовили заглушку: https://news.1rj.ru/str/MPC_project_bot
Работаем над бэкендом бота.

6. Прочее:
- Почистили данные
- Загадка: -ignore=W293