Aspiring Data Science – Telegram
Aspiring Data Science
386 subscribers
465 photos
12 videos
12 files
2.15K links
Заметки экономиста о программировании, прогнозировании и принятии решений, научном методе познания.
Контакт: @fingoldo

I call myself a data scientist because I know just enough math, economics & programming to be dangerous.
Download Telegram
О куколдах-хейтерах
Итак, что я вкладываю в понятие «куколд». Это инертный, ленивый участник, он все бы понаблюдать, мало тестестерона, мало действия, мало энергии. Живет с мамой или с женой, которая ему как мама. Зарабатывает мало, потому что ему «мешают» или «его не ценят». Любит косплей. Какой-нибудь хентай. Еще не вышел из детства. Днем работает в Лаборатории Омегабанка, а вечером передевается в служанку. Много боится. Все время. Действий мало, мыслей много, отсюда депрессия (да, ребята, если много мыслей и мало действий это всегда так), очень сильно завидует. Да, часто куколд и есть хейтер. Сам нихрена не делает, а завидует много и любопытный, на десятки каналов может быть подписан. Он типа хочет быть «в курсе». Еще он сильно орет, что все должно быть бесплатно, что все должно расшариваться свободно. Они ж чего, красавцы, в бусти оформили бесплатную подписку и ждут халявы. А ты сам-то попробуй создать, попробуй напиши код, запиши видео, а потом требуй. А еще он пишет плохие комментарии. Часто девушкам или мужчинам, которых считает ниже/глупее себя. Например, плохие комментарии на канале Анастасии Никулиной, из-за чего она даже приостановила канал. Валерию Бабушкину-то фигню всякую боязно написать, со штангой в переулке встретит, а девушке можно. А она бесплатный контент делала. Кстати, народ, кто на нее подписан, было бы здорово написать ей теплые слова поддержки. Мне-то тоже много такие твари гадят («ты все у американцев стащил и за свое выдаешь»), но я хоть платный контент делаю. В группе Machine Learning https://news.1rj.ru/str/datasciencecourse одно время был такой типичный куколд, который все время хейтил Карпова за какие-то мелкие недочеты. Посмотрел я этого хейтера, довольно серый преподаватель, преподающий в одном из израильских университетов, довольно плохо объясняющий предмет, ролики на YouTube по 15-20 просмотров. Стало все понятно. Ну вот мне здесь ставят какашечки, дислайки. В общем, суть куколдизма – это нереализованная энергия, откладывание, неудовлетворение и часто хейт. Жестко я сегодня? Возможно. Но куколды должны знать свое место.
2👍1
Каким я себя представляю типичного подписчика канала? Что-то примерно такое тыц.
#ml #fun

"Куколд дата-сайенс Корнельского университета", чем не титул ))
😁1🏆1
#ml #fun

- Здравствуйте, представьтесь.
- Здравствуйте, я куколд управления дата сайенс Сбербанка.
- Специалист управления дата-сайенс Сбербанка?
- Нет.
#series #openings #from #quesera

Очень понравился сериал FROM. Страшный, капец. Но интересный. В конце 2го сезона скатывается в глупость, но не в откровенную тупизну хотя бы.

In a nightmarish town in Middle America that traps everyone who enters, unwilling residents strive to stay alive and search for a way out, plagued by terrifying nocturnal creatures from the surrounding forest and secrets hidden in the town.

When I was just a little boy
I asked my father: "What will I be?
Will I be pretty? Will I be rich?"
Here's what he said to me:
"Qué será, será
Whatever will be, will be
The future's not ours to see
Qué será, será
What will be, will be"

When I grew up and fell in love
I asked my sweetheart: "What lies ahead?
Will we have rainbows day after day?"
Here's what my sweetheart said:
"Qué será, será
Whatever will be, will be
The future's not ours to see
Qué será, será
What will be, will be"

Now I have children of my own
They ask their father: "What will I be?
Will I be handsome? Will I be rich?"
I tell them tenderly:
"Qué será, será
Whatever will be, will be
The future's not ours to see
Qué será, será
What will be, will be
Qué será, será"

https://www.youtube.com/watch?v=man4IvqHIxE
Forwarded from Борис опять
#ml #uncertainty #catboost #medicine #blood

Всё-таки иногда попадаются и качественные научные работы ML-тематики. Зацените строгость подхода, всё сделано по лучшим практикам.

"Code for the analysis can be found at https://github.com/oizin/glucose-data-driven-prediction.
Model validation

The dataset is randomly split into a 70% training (13 279 ICU admissions) and 30% test (5682 ICU admissions) sets. Sample splits are performed by ICU admission ID to avoid potential information leakage. We evaluate all models on the test set only after finalization of hyperparameter settings to ensure unbiased assessments of model generalizability. As the algorithms were computationally expensive to train, we perform hyperparameter tuning by randomly splitting the training set into 80% development and 20% validation sets.
"

Ну разве что до SHAP всё-таки не дотянули. А сама работа меня заинтересовала тем, что там сравнивается мультиквантильная регрессия с "регрессией с неопределённостью" :

We develop 2 ML approaches using the Catboost gradient boosting library.39 These models were chosen as they present alternative approaches to predicting both a point estimate and uncertainty quantification through probabilistic forecasting. The first is a Catboost regression model with dual estimation of the expected outcome and the standard deviation of the prediction distribution, the ‘uncertainty regression’ model.43 This form of estimation can be performed using the class CatBoostRegressor with the argument loss_function=“RMSEWithUncertainty” in the Python version of Catboost 2.4. The second model is a combination of quantile regressions with models for quantiles of 0.025, 0.5, and 0.975, the “quantile regression” model.

Квантили дали вот какое преимущество:

In order to have clinical utility, it is important that the model can detect hyperglycemia and hypoglycemia. Detection of hyperglycemia was only slightly worse than values in the ICU normal blood glucose range. However, similar to previous research, our point estimates were unable to detect hypoglycemia at 2-hour forecasts.35 However, by forecasting an interval, we increase the potential to flag circumstances in which hypoglycemia is a risk, with 41% of hypoglycemic events captured within the prediction intervals.

Если Вы использовали одну из таких функций потерь в работе, буду рад, если поделитесь выводами об их полезности.


https://www.ncbi.nlm.nih.gov/pmc/articles/PMC8324237/
👍1
Forwarded from MOEX Derivatives
Рекордный объём торгов на Срочном рынке в июне с февраля 2022 года - 7 трлн руб.

Рекордное количество активных клиентов на Срочном рынке в июне - 140 тысяч

Рекордный среднедневной объём торгов вечными фьючерсами в июне - более 5.7 млрд руб.

Рекордный среднедневной объём торгов фьючерсом NASD в июне - более 1.2 млрд руб.

28 июня стартовали торги расчётными фьючерсами на золото в рублях (GL). Дневной объем торгов сегодня превысил уже 280 млн рублей.

29 июня стартовали торги фьючерсами на акции Совкомфлот (FLOT), Сегежа Групп (SGZH), Белуга Групп (BELU) и ВУШ Холдинг (WUSH).

3 июля стартовали торги опционами на валюты Si, Eu, CNY.
#ml #timeseries #transformers

↓ В моей практике был один случай, когда трансформер из торча очень элегантно решал соревнование по предсказанию продаж Сбермаркета. Автор скрипта - Павел Орлов. На сырых данных его решение давало почти такой же по МЛ качеству результат, как мой вдесятеро больший по коду скрипт со сложным FE. В том соревновании я, кстати, с изумлением узнал, что НЕЛЬЗЯ просто так взять и использовать натренированную модельку классификации, если в test пропорции классов отличаются от train. Нельзя. Вы скажете, но как же, ведь на то и обучение, чтобы по признакам научиться угадывать таргет, а вовсе не по какой-то там пропорции примеров в трейне. Нет. При достаточно отличающемся балансе в тест прогнозы будут смещены настолько, что их придётся пересчитывать по спецформуле. Этому, кстати, не учат нигде ни в книгах, ни на курсах. По кр мере, мне не попадалось. Уникальный контент для подписчиков моего блога )
👍1
#ml #timeseries #robustness

Используете ли Вы в задачах классификации рядов какие-то метрики робастности предсказаний? Одно дело, скажем, высокая точность или бриер лосс, но интуитивно неприятно, если прогноз на последовательных точках ряда часто меняется, или вероятности резко скачут туда-сюда от точки к точке. Столкнулся с этим на финансовых рядах. Думаю трекать что-то вроде preds.diff().abs().mean() для предсказаний и самих верных меток, как дополнительную меру качества моделек для TS.

Сразу опять-таки приходит вопрос, а почему устойчивость прогнозов по изменениям входов вообще никак не учитывается в МЛ? Да, можно посчитать важности признаков, но они по большей части считаются вовсе не небольшим варьированием входов. А ведь эта дополнительная мера качества могла бы помочь сделать выбор, скажем, между 2 коррелированными фичами. Обе имеют примерно одинаковое влияние (или одиночные ML метрики на таргет), но по одной прогнозы скачут сильнее. Тогда оставляем вторую. Может, я просто не знаю, и где-то это уже учитывается?
#mlops #mlflow

Продолжаю изучать mlflow. Очень понравилась, что по обученной модели можно быстро получить список метрик и значимостей признаков. А ещё можно даже настроить критерии приёмки модели в бой, абсолютные (точность не менее X%) и относительные (точность не менее Y% лучше чем DummyClassifier). Ложка дёгтя в том, что указанный в доке вызов mlflow.models.list_evaluators() не работает.

https://mlflow.org/docs/latest/models.html#model-validation
#ml #feedback #trubrics #monitoring

Впервые вижу. Можно централизованно собирать обратную связь по вашим МЛ моделям. Развёрнутым, к примеру, в streamlit.`

Why should you monitor usage of your models?
🚨 Identify bugs - users are constantly running inference on your models, and may be more likely to find bugs than your ML monitoring system
🧑‍💻 Fine tune - users often hold domain knowledge that can be useful to fine tune models
👥 Align - identifying user preferences will help you to align models to your users

https://github.com/trubrics/trubrics-sdk
Forwarded from Neural Info
I've finally finished reading the paper called "A Cookbook of Self-Supervised Learning".

What do I want to say? It's a really good paper to start learning SSL. It has a good structure and as you read it, you start to understand how SSL works from the inside.

It has such important parts like:
1. Problem definitions.
2. Possible applications.
3. Existing approaches and their advantages / disadvantages.
4. Implementation details.
5. Training / evaluation details.
6. Existing bottlenecks.

And many other helpful subtopics with many links to other papers on SSL methods in different areas of AI.

I'd recommend this paper to anyone who wants to start learning SSL, because I think this area will be, or already is, an essential part of AI, and it's going to grow really fast.
#math #fun

Народ, подпишитесь на математический блог в ВК, больше тонких шуток вам в ленту )

https://vk.com/secxsquad
1