#ml #cpu #inference #tflight #paddlepaddle #onnx #openvino #tvm
По итогу рекомендуют onnx runtime, ускорение прогнозов в среднем от 20% до 400%. TVM интересен поддержкой множества форматов и компиляцией моделек напрямую в системные .dll и .so файлы.
https://www.youtube.com/watch?v=FHt0QtqQpxE
По итогу рекомендуют onnx runtime, ускорение прогнозов в среднем от 20% до 400%. TVM интересен поддержкой множества форматов и компиляцией моделек напрямую в системные .dll и .so файлы.
https://www.youtube.com/watch?v=FHt0QtqQpxE
YouTube
Артём Земляк | Лёгкие пути оптимизации инференса ML моделей на CPU
Data Fest Siberia 3 & Halloween 2022:
https://ods.ai/tracks/groups/data-fest-siberia-3-halloween
Трек MLOps:
https://ods.ai/tracks/sibfest3-mlops
Наши соц.сети:
Telegram: https://news.1rj.ru/str/datafest
Вконтакте: https://vk.com/datafest
https://ods.ai/tracks/groups/data-fest-siberia-3-halloween
Трек MLOps:
https://ods.ai/tracks/sibfest3-mlops
Наши соц.сети:
Telegram: https://news.1rj.ru/str/datafest
Вконтакте: https://vk.com/datafest
#kaggle #ml #competitions
Интересное преобразование таргета, корень 4-й степени, не слышал раньше про такое. Также fair loss в xgboost, усреднение весов нейросетей (по достижении равновесия), обучение SVR и kNN на подвыбрках. Исправление предсказаний xgboost-а это просто жесть, какой фигнёй только эти кэгглеры не занимаются )
https://www.youtube.com/watch?v=p7ArDjMImiI
Интересное преобразование таргета, корень 4-й степени, не слышал раньше про такое. Также fair loss в xgboost, усреднение весов нейросетей (по достижении равновесия), обучение SVR и kNN на подвыбрках. Исправление предсказаний xgboost-а это просто жесть, какой фигнёй только эти кэгглеры не занимаются )
https://www.youtube.com/watch?v=p7ArDjMImiI
YouTube
Kaggle Allstate Claims Severity: предсказание тяжести страхового случая — Алексей Носков
Алексей Носков рассказывает про задачу определения тяжести страхового случая Kaggle Allstate Claims Severity, где занял 2 место. Из видео вы сможете узнать:
- Нужно ли преобразовывать целевую переменную для обучения моделей
- Как можно строить новые признаки…
- Нужно ли преобразовывать целевую переменную для обучения моделей
- Как можно строить новые признаки…
Forwarded from Katser
• часть про курсы, материалы и тд — стоит прочитать и посмотреть все, если нет какой-то хорошей базы, например, из института или хороших платных курсов (ФКН ВШЭ, физтех и др.). Курсы и материалы из тех, что рекомендую смотрел все, но не все очень внимательно, обычно беру из курса то, что нужно.
• часть про книги — не считаю, что все надо прочитать, но если надо подтянуть или разобраться в какой-то подобласти, то можно брать книжки из списка. Книги читал не все, но непрочитанные лежат в списке to read и ждут своей очереди.
Learning by doing
Я убежден, что во время изучения data science и machine learning надо сосредоточиться на практике как можно раньше (как только получается что-то делать) и учиться по типу "learning by doing".
В начале пути далеко не обязательно знать, что "под капотом" у алгоритмов и методов. Зависит от специфики работы и задач. Вот теорвер и матстат действительно часто нужны в работе, например, для анализа данных, для анализа результатов алгоритмов, для дизайна экспериментов и тд.
Как можно получать практику?
• Стажировки, работа, реальные проекты. Очевидно.
• Хакатоны, соревнования по анализу данных. Самой распространенной площадкой для соревнований является kaggle.com. Там еще есть датасеты, курсы и много полезных примеров кода и блокнотов, решающих самые разные задачи.
• Важной и интересной практикой являются тренажеры. Вот 2 известных сервиса, которыми я пользовался сам:
Please open Telegram to view this post
VIEW IN TELEGRAM
vc.ru
Источники для изучения data science и machine learning (книги, курсы и не только) — Yuriy Katser на vc.ru
Yuriy Katser 07.09.2022
Forwarded from Katser
Так как моя научная деятельность и диссертация связаны с алгоритмами обнаружения аномалий на основе глубокого обучения, я пересмотрел десятки обзоров и сотни (если не тысячи) работ с новыми методами и алгоритмами за последние несколько лет. Вывод примерно один: глубокое обучение лучше классического мл и экспертных/эвристических подходов и в этой области (работа с временными рядами, диагностика и поиск аномалий). То есть понятно, что и мой фокус смещен на выборку статей с глубоким обучением, да и в целом тренд в последние годы такой. При этом не помню статей, где предлагали новый метод, и он не был бы хоть в каких-то условиях лучше бейзлайна или SOTA моделей — иначе зачем вообще эта статья? Последняя мысль, кстати, очень спорная, но об этом другой раз. Вообщем отсюда и взялось, что глубокое обучение бьет все классические алгоритмы.
А как на самом деле?
На практике в проектах ты не всегда успеваешь дойти и повозиться с новыми сетками (и так надо с данными разобраться, с разметкой, бумажными журналами, с постановкой задачи, бейзлайны, бизнес-логика, физика и технология процесса и тд). В лучшем случае после бейзлайна без мл, простых постановок задач и линейных моделей, деревянных моделей, эвристик ты доходишь до рекуррентных сетей простой архитектуры (пара последовательных LSTM слоев или автоэнкодер с LSTM слоями, или даже FF автоэнкодер). Даже простые сетки не всегда хорошо работают, а более сложные иногда и отучить нормально не получается. Это происходит из-за проблем в данных (доклад, статья), небольших объемов, проблем с трансфером знаний даже между единицами оборудованием одной модели.
Поэтому по-прежнему классические алгоритмы, экспертные правила и эвристики активно используются как минимум в промышленности.
Неужели научные статьи врут?
Не совсем так. Я выделяю большую проблему с публичными данными и бенчмарками, на которых в статьях показаны результаты. Совсем мало публичных качественных датасетов в области временных рядов, в области аномалии, в области промышленности и технических систем. Поэтому и в работах часто показаны результаты в очень ограниченных условиях, на каких-то синтетических или сгенерированных данных.
Интересное исследование
Хочу поделиться одним обзором работ поиска аномалий во временных рядах 2022 года. Сравнения были проведены для 71 (очень много!) алгоритма на 976 датасетах (это всего 23 бенчмарка, но согласитесь, что 900+ звучит солиднее!). Картинка из этой статьи с многообразием и классификацией алгоритмов будет в следующем посте. Мне она так понравилась, что теперь использую ее во всех докладах по теме. Нам интересны выводы по итогам сравнения, дальше цитата из статьи:
“we found that deep learning approaches are not (yet) competitive despite their higher processing effort on training data. We could also confirm that “simple methods yield performance almost as good as more sophisticated methods”. Still, no single algorithm clearly performs best.”
То есть по-прежнему нет серебряной пули или явных лидеров как в классическом ML с их бустингами, да и превосходство глубокого обучения пока не подтверждается. Так что подход как и раньше — перебор алгоритмов, пока один не окажется лучше для вашей конкретной задачи и ваших конкретных данных, а опыт и экспертные/доменные знания все еще важен и может бить большие модели. Но, думаю, это не на долго.
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Katser
При этом не всегда важно собирать огромный датасет из реальных примеров текстов и изображений, хотя это и идеальный сценарий. Иногда можно аугментировать данные, то есть искусственно создать или синтезировать примеры, что может помочь в отсутствии больших датасетов. Понаучней определение аугментации возьмем из обзора: “The basic idea of data augmentation is to generate synthetic dataset covering unexplored input space while maintaining correct labels.”
Если рассмотреть аугментацию на примере изображений, то одним из простейших методов будет геометрическое преобразование: зеркальное отражение картинки (по вертикали или горизонтали) или поворот на 90/180/270 градусов. Это уже увеличивает количество доступных данных для обучения в 2 и более раза. В текстах можно переставлять слова в предложении. Подробнее об аугментации этих типов данных, включая подходы, код и библиотеки, можно почитать по ссылкам: CV и NLP
Но вернемся к временным рядам: и здесь опять все не очень хорошо. Аугментировать их сложнее, потому что, датасеты не такие большие и сильно отличаются между собой в зависимости от задачи и доменной области. Более того, в научных статьях постоянно пишут, что область аугментации временных рядов недоисследована. Это косвенно подтверждается и малым количеством open-source разработок для аугментации временных рядов в противовес CV и NLP. Но есть пара неплохих обзоров (раз, два) методов аугментации временных рядов. Обзоры совсем свежие — 2021-22 годов, немного по-разному классифицируют методы. В последнем, например, выделяют 3 основные группы:
• Классические преобразования (представлены на картинке в следующем посте)
• VAE
• GAN
Для деталей стоит почитать оригинальный обзор.
Из инструментов для аугментации временных рядов на python встречал только два:
• [3,4k звезд на гитхабе] https://github.com/timeseriesAI/tsai
• [300 звезд на гитхабе] https://github.com/arundo/tsaug
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Машинное обучение от ИЦ "ГЕВИССТА"
О куколдах-хейтерах
Итак, что я вкладываю в понятие «куколд». Это инертный, ленивый участник, он все бы понаблюдать, мало тестестерона, мало действия, мало энергии. Живет с мамой или с женой, которая ему как мама. Зарабатывает мало, потому что ему «мешают» или «его не ценят». Любит косплей. Какой-нибудь хентай. Еще не вышел из детства. Днем работает в Лаборатории Омегабанка, а вечером передевается в служанку. Много боится. Все время. Действий мало, мыслей много, отсюда депрессия (да, ребята, если много мыслей и мало действий это всегда так), очень сильно завидует. Да, часто куколд и есть хейтер. Сам нихрена не делает, а завидует много и любопытный, на десятки каналов может быть подписан. Он типа хочет быть «в курсе». Еще он сильно орет, что все должно быть бесплатно, что все должно расшариваться свободно. Они ж чего, красавцы, в бусти оформили бесплатную подписку и ждут халявы. А ты сам-то попробуй создать, попробуй напиши код, запиши видео, а потом требуй. А еще он пишет плохие комментарии. Часто девушкам или мужчинам, которых считает ниже/глупее себя. Например, плохие комментарии на канале Анастасии Никулиной, из-за чего она даже приостановила канал. Валерию Бабушкину-то фигню всякую боязно написать, со штангой в переулке встретит, а девушке можно. А она бесплатный контент делала. Кстати, народ, кто на нее подписан, было бы здорово написать ей теплые слова поддержки. Мне-то тоже много такие твари гадят («ты все у американцев стащил и за свое выдаешь»), но я хоть платный контент делаю. В группе Machine Learning https://news.1rj.ru/str/datasciencecourse одно время был такой типичный куколд, который все время хейтил Карпова за какие-то мелкие недочеты. Посмотрел я этого хейтера, довольно серый преподаватель, преподающий в одном из израильских университетов, довольно плохо объясняющий предмет, ролики на YouTube по 15-20 просмотров. Стало все понятно. Ну вот мне здесь ставят какашечки, дислайки. В общем, суть куколдизма – это нереализованная энергия, откладывание, неудовлетворение и часто хейт. Жестко я сегодня? Возможно. Но куколды должны знать свое место.
Итак, что я вкладываю в понятие «куколд». Это инертный, ленивый участник, он все бы понаблюдать, мало тестестерона, мало действия, мало энергии. Живет с мамой или с женой, которая ему как мама. Зарабатывает мало, потому что ему «мешают» или «его не ценят». Любит косплей. Какой-нибудь хентай. Еще не вышел из детства. Днем работает в Лаборатории Омегабанка, а вечером передевается в служанку. Много боится. Все время. Действий мало, мыслей много, отсюда депрессия (да, ребята, если много мыслей и мало действий это всегда так), очень сильно завидует. Да, часто куколд и есть хейтер. Сам нихрена не делает, а завидует много и любопытный, на десятки каналов может быть подписан. Он типа хочет быть «в курсе». Еще он сильно орет, что все должно быть бесплатно, что все должно расшариваться свободно. Они ж чего, красавцы, в бусти оформили бесплатную подписку и ждут халявы. А ты сам-то попробуй создать, попробуй напиши код, запиши видео, а потом требуй. А еще он пишет плохие комментарии. Часто девушкам или мужчинам, которых считает ниже/глупее себя. Например, плохие комментарии на канале Анастасии Никулиной, из-за чего она даже приостановила канал. Валерию Бабушкину-то фигню всякую боязно написать, со штангой в переулке встретит, а девушке можно. А она бесплатный контент делала. Кстати, народ, кто на нее подписан, было бы здорово написать ей теплые слова поддержки. Мне-то тоже много такие твари гадят («ты все у американцев стащил и за свое выдаешь»), но я хоть платный контент делаю. В группе Machine Learning https://news.1rj.ru/str/datasciencecourse одно время был такой типичный куколд, который все время хейтил Карпова за какие-то мелкие недочеты. Посмотрел я этого хейтера, довольно серый преподаватель, преподающий в одном из израильских университетов, довольно плохо объясняющий предмет, ролики на YouTube по 15-20 просмотров. Стало все понятно. Ну вот мне здесь ставят какашечки, дислайки. В общем, суть куколдизма – это нереализованная энергия, откладывание, неудовлетворение и часто хейт. Жестко я сегодня? Возможно. Но куколды должны знать свое место.
Telegram
Machine learning
Специализация «Машинное обучение и анализ данных» на Coursera.
* FAQ (читать обязательно) – https://news.1rj.ru/str/datasciencecourse/80206
* В чате запрещены оскорбления, мат, реклама, спам, политика
* FAQ (читать обязательно) – https://news.1rj.ru/str/datasciencecourse/80206
* В чате запрещены оскорбления, мат, реклама, спам, политика
❤2👍1
Forwarded from Машинное обучение от ИЦ "ГЕВИССТА"
Каким я себя представляю типичного подписчика канала? Что-то примерно такое тыц.
😁1🏆1
#series #openings #from #quesera
Очень понравился сериал FROM. Страшный, капец. Но интересный. В конце 2го сезона скатывается в глупость, но не в откровенную тупизну хотя бы.
In a nightmarish town in Middle America that traps everyone who enters, unwilling residents strive to stay alive and search for a way out, plagued by terrifying nocturnal creatures from the surrounding forest and secrets hidden in the town.
When I was just a little boy
I asked my father: "What will I be?
Will I be pretty? Will I be rich?"
Here's what he said to me:
"Qué será, será
Whatever will be, will be
The future's not ours to see
Qué será, será
What will be, will be"
When I grew up and fell in love
I asked my sweetheart: "What lies ahead?
Will we have rainbows day after day?"
Here's what my sweetheart said:
"Qué será, será
Whatever will be, will be
The future's not ours to see
Qué será, será
What will be, will be"
Now I have children of my own
They ask their father: "What will I be?
Will I be handsome? Will I be rich?"
I tell them tenderly:
"Qué será, será
Whatever will be, will be
The future's not ours to see
Qué será, será
What will be, will be
Qué será, será"
https://www.youtube.com/watch?v=man4IvqHIxE
Очень понравился сериал FROM. Страшный, капец. Но интересный. В конце 2го сезона скатывается в глупость, но не в откровенную тупизну хотя бы.
In a nightmarish town in Middle America that traps everyone who enters, unwilling residents strive to stay alive and search for a way out, plagued by terrifying nocturnal creatures from the surrounding forest and secrets hidden in the town.
When I was just a little boy
I asked my father: "What will I be?
Will I be pretty? Will I be rich?"
Here's what he said to me:
"Qué será, será
Whatever will be, will be
The future's not ours to see
Qué será, será
What will be, will be"
When I grew up and fell in love
I asked my sweetheart: "What lies ahead?
Will we have rainbows day after day?"
Here's what my sweetheart said:
"Qué será, será
Whatever will be, will be
The future's not ours to see
Qué será, será
What will be, will be"
Now I have children of my own
They ask their father: "What will I be?
Will I be handsome? Will I be rich?"
I tell them tenderly:
"Qué será, será
Whatever will be, will be
The future's not ours to see
Qué será, será
What will be, will be
Qué será, será"
https://www.youtube.com/watch?v=man4IvqHIxE
YouTube
Саундтрек сериала "Извне" 2022 (From ost) - Pixies - Que Sera, Sera (Whatever Will Be, Will Be)
Основной музыкальной темой сериала "Извне" стала композиция Pixies - que sera sera (whatever will be will be). Эта песня впервые была исполнена американской певицей Doris Day, в последствии перепета многими исполнителями, в сериале звучит версия исполненная…
#ml #uncertainty #catboost #medicine #blood
Всё-таки иногда попадаются и качественные научные работы ML-тематики. Зацените строгость подхода, всё сделано по лучшим практикам.
"Code for the analysis can be found at https://github.com/oizin/glucose-data-driven-prediction.
Model validation
The dataset is randomly split into a 70% training (13 279 ICU admissions) and 30% test (5682 ICU admissions) sets. Sample splits are performed by ICU admission ID to avoid potential information leakage. We evaluate all models on the test set only after finalization of hyperparameter settings to ensure unbiased assessments of model generalizability. As the algorithms were computationally expensive to train, we perform hyperparameter tuning by randomly splitting the training set into 80% development and 20% validation sets."
Ну разве что до SHAP всё-таки не дотянули. А сама работа меня заинтересовала тем, что там сравнивается мультиквантильная регрессия с "регрессией с неопределённостью" :
We develop 2 ML approaches using the Catboost gradient boosting library.39 These models were chosen as they present alternative approaches to predicting both a point estimate and uncertainty quantification through probabilistic forecasting. The first is a Catboost regression model with dual estimation of the expected outcome and the standard deviation of the prediction distribution, the ‘uncertainty regression’ model.43 This form of estimation can be performed using the class CatBoostRegressor with the argument loss_function=“RMSEWithUncertainty” in the Python version of Catboost 2.4. The second model is a combination of quantile regressions with models for quantiles of 0.025, 0.5, and 0.975, the “quantile regression” model.
Квантили дали вот какое преимущество:
In order to have clinical utility, it is important that the model can detect hyperglycemia and hypoglycemia. Detection of hyperglycemia was only slightly worse than values in the ICU normal blood glucose range. However, similar to previous research, our point estimates were unable to detect hypoglycemia at 2-hour forecasts.35 However, by forecasting an interval, we increase the potential to flag circumstances in which hypoglycemia is a risk, with 41% of hypoglycemic events captured within the prediction intervals.
Если Вы использовали одну из таких функций потерь в работе, буду рад, если поделитесь выводами об их полезности.
https://www.ncbi.nlm.nih.gov/pmc/articles/PMC8324237/
Всё-таки иногда попадаются и качественные научные работы ML-тематики. Зацените строгость подхода, всё сделано по лучшим практикам.
"Code for the analysis can be found at https://github.com/oizin/glucose-data-driven-prediction.
Model validation
The dataset is randomly split into a 70% training (13 279 ICU admissions) and 30% test (5682 ICU admissions) sets. Sample splits are performed by ICU admission ID to avoid potential information leakage. We evaluate all models on the test set only after finalization of hyperparameter settings to ensure unbiased assessments of model generalizability. As the algorithms were computationally expensive to train, we perform hyperparameter tuning by randomly splitting the training set into 80% development and 20% validation sets."
Ну разве что до SHAP всё-таки не дотянули. А сама работа меня заинтересовала тем, что там сравнивается мультиквантильная регрессия с "регрессией с неопределённостью" :
We develop 2 ML approaches using the Catboost gradient boosting library.39 These models were chosen as they present alternative approaches to predicting both a point estimate and uncertainty quantification through probabilistic forecasting. The first is a Catboost regression model with dual estimation of the expected outcome and the standard deviation of the prediction distribution, the ‘uncertainty regression’ model.43 This form of estimation can be performed using the class CatBoostRegressor with the argument loss_function=“RMSEWithUncertainty” in the Python version of Catboost 2.4. The second model is a combination of quantile regressions with models for quantiles of 0.025, 0.5, and 0.975, the “quantile regression” model.
Квантили дали вот какое преимущество:
In order to have clinical utility, it is important that the model can detect hyperglycemia and hypoglycemia. Detection of hyperglycemia was only slightly worse than values in the ICU normal blood glucose range. However, similar to previous research, our point estimates were unable to detect hypoglycemia at 2-hour forecasts.35 However, by forecasting an interval, we increase the potential to flag circumstances in which hypoglycemia is a risk, with 41% of hypoglycemic events captured within the prediction intervals.
Если Вы использовали одну из таких функций потерь в работе, буду рад, если поделитесь выводами об их полезности.
https://www.ncbi.nlm.nih.gov/pmc/articles/PMC8324237/
GitHub
GitHub - oizin/glucose-data-driven-prediction: Code for paper: Incorporating real-world evidence into the development of patient…
Code for paper: Incorporating real-world evidence into the development of patient blood glucose prediction algorithms for the ICU - GitHub - oizin/glucose-data-driven-prediction: Code for paper: In...
👍1
#ml #catboost #metrics #bugs
Утро прошло в жарких спорах о точности. Нашёл предположительный баг в том, как катбуст считает precision.
https://github.com/catboost/catboost/issues/2422
Утро прошло в жарких спорах о точности. Нашёл предположительный баг в том, как катбуст считает precision.
https://github.com/catboost/catboost/issues/2422
GitHub
Precision calculation error in Early Stopping. Request to add pos_label. · Issue #2422 · catboost/catboost
Problem: catboost version: 1.2 Operating System: Win CPU: + GPU: + Я думаю, в коде catboost вычисляющем precision где-то перепутаны предсказания и истинные значения, поэтому ранняя остановка по точ...
Forwarded from MOEX Derivatives
✅Рекордный объём торгов на Срочном рынке в июне с февраля 2022 года - 7 трлн руб.
✅Рекордное количество активных клиентов на Срочном рынке в июне - 140 тысяч
✅Рекордный среднедневной объём торгов вечными фьючерсами в июне - более 5.7 млрд руб.
✅Рекордный среднедневной объём торгов фьючерсом NASD в июне - более 1.2 млрд руб.
✅28 июня стартовали торги расчётными фьючерсами на золото в рублях (GL). Дневной объем торгов сегодня превысил уже 280 млн рублей.
✅29 июня стартовали торги фьючерсами на акции Совкомфлот (FLOT), Сегежа Групп (SGZH), Белуга Групп (BELU) и ВУШ Холдинг (WUSH).
✅3 июля стартовали торги опционами на валюты Si, Eu, CNY.
✅Рекордное количество активных клиентов на Срочном рынке в июне - 140 тысяч
✅Рекордный среднедневной объём торгов вечными фьючерсами в июне - более 5.7 млрд руб.
✅Рекордный среднедневной объём торгов фьючерсом NASD в июне - более 1.2 млрд руб.
✅28 июня стартовали торги расчётными фьючерсами на золото в рублях (GL). Дневной объем торгов сегодня превысил уже 280 млн рублей.
✅29 июня стартовали торги фьючерсами на акции Совкомфлот (FLOT), Сегежа Групп (SGZH), Белуга Групп (BELU) и ВУШ Холдинг (WUSH).
✅3 июля стартовали торги опционами на валюты Si, Eu, CNY.
#ml #timeseries #transformers
↓ В моей практике был один случай, когда трансформер из торча очень элегантно решал соревнование по предсказанию продаж Сбермаркета. Автор скрипта - Павел Орлов. На сырых данных его решение давало почти такой же по МЛ качеству результат, как мой вдесятеро больший по коду скрипт со сложным FE. В том соревновании я, кстати, с изумлением узнал, что НЕЛЬЗЯ просто так взять и использовать натренированную модельку классификации, если в test пропорции классов отличаются от train. Нельзя. Вы скажете, но как же, ведь на то и обучение, чтобы по признакам научиться угадывать таргет, а вовсе не по какой-то там пропорции примеров в трейне. Нет. При достаточно отличающемся балансе в тест прогнозы будут смещены настолько, что их придётся пересчитывать по спецформуле. Этому, кстати, не учат нигде ни в книгах, ни на курсах. По кр мере, мне не попадалось. Уникальный контент для подписчиков моего блога )
↓ В моей практике был один случай, когда трансформер из торча очень элегантно решал соревнование по предсказанию продаж Сбермаркета. Автор скрипта - Павел Орлов. На сырых данных его решение давало почти такой же по МЛ качеству результат, как мой вдесятеро больший по коду скрипт со сложным FE. В том соревновании я, кстати, с изумлением узнал, что НЕЛЬЗЯ просто так взять и использовать натренированную модельку классификации, если в test пропорции классов отличаются от train. Нельзя. Вы скажете, но как же, ведь на то и обучение, чтобы по признакам научиться угадывать таргет, а вовсе не по какой-то там пропорции примеров в трейне. Нет. При достаточно отличающемся балансе в тест прогнозы будут смещены настолько, что их придётся пересчитывать по спецформуле. Этому, кстати, не учат нигде ни в книгах, ни на курсах. По кр мере, мне не попадалось. Уникальный контент для подписчиков моего блога )
Pastebin
transformer pipeline - Pastebin.com
Pastebin.com is the number one paste tool since 2002. Pastebin is a website where you can store text online for a set period of time.
👍1