Aspiring Data Science – Telegram
Aspiring Data Science
385 subscribers
465 photos
12 videos
12 files
2.15K links
Заметки экономиста о программировании, прогнозировании и принятии решений, научном методе познания.
Контакт: @fingoldo

I call myself a data scientist because I know just enough math, economics & programming to be dangerous.
Download Telegram
#doge

"Знаменитая собака японской породы сиба-ину по кличке Кабосу, ставшая вирусным интернет-мемом «Доге» в начале 2010-х годов и впоследствии символом криптовалюты Dogecoin (DOGE), скончалась 24 мая в возрасте 18,5 лет. Сообщается, что Кабосу был самым пожилым представителем своей породы.

Об этом печальном известии сообщила в своем аккаунте в X команда разработчиков Dogecoin. По их словам, Кабосу мирно ушла из жизни на руках у своей хозяйки. Разработчики отметили огромное влияние этой собаки на весь мир, и то, что она знала в своей жизни только счастье и любовь.

«Ее улыбка, виляние хвостом и ее тепло всегда будут со мной», — написала владелица Кабосу, Ацуко Сато (Atsuko Sato), в своём блоге, и сообщила, что прощальная церемония состоится 29 мая с 13:00 до 16:00 по местному времени в цветочном магазине «Каори» в городе Нарита (Япония).

Ацуко Сато приютила Кабосу в 2008 году, забрав собаку из приюта, который владельцы собирались закрыть, а оставшимся питомцам грозило усыпление. Кабосу повезло найти хозяев, она стала жить дома с тремя кошками. Когда Сато узнала, что фото ее сиба-ину завирусилось в западных соцсетях, она начала чаще публиковать фото Кабосу в своём блоге. Также хозяйка рассказывала, что благодаря популярности её собаки люди стали чаще брать собак из приютов."

https://3dnews.ru/1105367/sobaka-po-klichke-kabosu-litso-mema-kriptovalyuti-dogecoin-doge-umerla
#music #gothic

Под эту музыку неплохо тренироваться )

I'm giving into the absence that has become my life,
Has become my state of mind.
I'm giving into the absence that has become my life,
Has become what I could find.

I went searching for something inside
I needed all of this time
I went searching for something inside
And I never returned


https://www.youtube.com/watch?v=1LAeiXH4k3c
#energy


"В часы пиковой выработки солнечной энергии, её производители вынуждены снижать цены в разы, чтобы хоть как-то реализовать избыток. Так, за последние 10 дней производители вынуждены были снижать цены на электроэнергию в пиковые часы на 87 %, то есть до 9,1 евро за 1 МВт·ч по сравнению с ценой в 70,6 евро в вечернее и ночное время.

По словам аналитика SEB Бьярне Шилдропа (Bjarne Schieldrop), такая ситуация возникла из-за рекордного ввода в эксплуатацию новых солнечных мощностей в 2023 году. К концу прошлого года общая мощность солнечной генерации в Германии достигла 81,7 ГВт, тогда как средняя нагрузка потребления составила 52,2 ГВт.
Вообще дисбаланс спроса и предложения не является новой проблемой для Германии, и не только этот регион сталкивается с этим. В прошлом году европейский рынок в целом активно устанавливал солнечные мощности из-за прекращения поставок ресурсов из России. Избыток зеленой энергии, усугубляемый активной установкой новых ветряных турбин и атомной энергетики, уже спровоцировал неоднократные случаи падения цен в разных регионах Европы."

https://3dnews.ru/1105389/izbitok-solnechnih-batarey-v-germanii-privyol-k-snigeniyu-tsen-na-elektroenergiyu-na-87-
#nvidia

"Стоимость Nvidia достигла астрономической отметки в $2,59 триллиона. Это ставит компанию на третье место среди публичных акционерных компаний после Microsoft и Apple.

Более того, капитализация Nvidia уже превзошла совокупную стоимость всех компаний, торгующихся на Франкфуртской фондовой бирже в Германии. А $2,59 триллиона — это больше, чем весь валовый внутренний продукт таких крупных стран, как Канада, Бразилия и Россия.

Как отмечает «Коммерсант», резкому росту акций предшествовала публикация накануне, в понедельник, впечатляющих финансовых показателей. Квартальная выручка взлетела на 262 % по сравнению с аналогичным периодом прошлого года и составила $26 млрд, а чистая прибыль выросла еще более внушительно на 628 %, достигнув $14,9 млрд.

Аналитики объясняют стремительный взлет прибыли и капитализации Nvidia высочайшим спросом на оборудование для искусственного интеллекта и машинного обучения."

https://3dnews.ru/1105413/nvidia-prevzoshla-po-rinochnoy-kapitalizatsii-vvp-rossii-dostignuv-259-trln
#trading

Приятная онлайн-книжка Machine Learning for Factor Investing.

Есть примеры кода на R, отличная подборка научных статей для каждого раздела. Авторами проведена серьёзная работа по изучению/обобщению финансовых исследований с прицелом на трейдинг.

Некоторые разделы заходят в тупик (например, ансамблирование), зато честно.

Есть и откровенно неверные спорные утверждения:
"One of the main challenges in Machine Learning is to extract as much signal as possible. By signal, we mean patterns that will hold out-of-sample. Intuitively, it may seem reasonable to think that the more data we gather, the more signal we can extract. This is in fact false in all generality because more data also means more noise."

4.5 из 5, прекрасная работа, прекрасная.

https://www.mlfactor.com/
#tabular

Отличный английский и крайне интересный взгляд на особенности табличных данных от заслуженного кэггл гроссмейстера.

Боян этот, кстати, на моей памяти первый лектор кто указывает, что бустинги плохи в моделировании линейных зависимостей - то, с чем я сам сталкивался недавно.

https://youtu.be/OcNBmilICgY?si=ozjCKNLNHFgiOqP6
#cloud

пользовался кто vast.ai? ценники привлекательные
#neuralink

"Арбо признался, что однажды заснул во время работы с компьютером посредством импланта, и во время сна курсор продолжал двигаться и нажимать на кнопки. «Я заснул примерно на пять минут, а когда проснулся, на компьютере было открыто около 10 различных приложений. Чтобы этого не происходило, курсор можно отключить, но в данном случае я этого не сделал», — рассказал Арбо.

Ещё Арбо поведал о проблемах с имплантом. Через месяц после операции он заметил, что устройство почти полностью утратило свою функциональность: большинство электродов, имплантированных в его мозг, ослабли и перестали считывать сигналы, необходимые для преобразования мыслей в движения курсора. «После операции я был на подъёме, но затем всё развалилось. Это было очень тяжело. Я плакал», — рассказал Арбо в интервью.

По его словам, специалисты Neuralink не учли, что мозг человека может настольно сильно перемещаться внутри черепа. В случае Арбо, движение мозга оказалось втрое интенсивнее, чем предполагали в компании. В итоге, на своих местах осталось только около 15 % нитевидных электродов, вживленных в моторную кору."

https://3dnews.ru/1105462/patsient-s-chipom-neuralink-zayavil-chto-ispolzuet-ego-s-utra-do-vechera
#energy #uncertainty #conformal

Residuals of the point predictions on the calibration set - интересная идея базиса.

Альтернативы:
1) квантильная регрессия
2) разброс прогнозов ансамбля
3) замена регресии мульти-классификацией
4) conformal=0+1

Впервые вижу, что хвалят метрику crps, я от неё отказался, уж не помню почему.
MapieTimeSeriesRegressor интересный.

https://www.youtube.com/watch?v=aIZf2cQ0r5U
#mapie

MAPIE в целом заслуживает внимания.

"Allows you to easily estimate uncertainties in both regression and classification settings. In regression settings, MAPIE provides prediction intervals on single-output data. In classification settings, MAPIE provides prediction sets on multi-class data. In any case, MAPIE is compatible with any scikit-learn-compatible estimator."

https://mapie.readthedocs.io/en/latest/quick_start.html
#tabnet

Потестил табнет в дефолтном конфиге на задаче классификации. Бустинги на ней достигали ROC AUC=0.87 за 20-30 минут (GPU). Первый попавшийся MLP на pytorch lightning за 2+ часа достигал AUC=0.86 (тоже GPU).

А что же чудо-табнет с трансформером внутри, хитрыми маск-слоями, скип-связями? те же AUC=0.86 за 7 часов на GPU (7, Карл!)

Фтопку.
😁1
Forwarded from Генерал СВР
Дорогие подписчики и гости канала! Нынешняя конфигурация фасада власти была создана большими усилиями и, частично, по принуждению, именно поэтому будет существовать в этом виде недолго. Есть аспекты и договоренности в "политбюро 2.0", которые мы не обнародовали, предоставив возможность кризису усугубиться и принять окончательные формы. Михаил Мишустин, которого лоббировали китайские товарищи, будет возглавлять Правительство недолго, уже к концу года он подаст в отставку и уступит место другому человеку. Вместе с отставкой Мишустина будет переформатировано и часть Правительства. Дмитрий Патрушев, к примеру, должен переместиться в кресло секретаря Совета Безопасности РФ и уже с этой позиции стартовать в президентское кресло. Денис Мантуров по существующим договорённостям возглавит Правительство. Андрей Белоусов, после наведения порядка в министерстве обороны, вернётся в первые вице-премьеры. Алексей Дюмин будет вице-премьером, куратором силового блока. В самом силовом блоке пройдут масштабные перестановки, не революционные, но масштабные. Сменятся главы Следственного комитета, ФСБ, МВД и Росгвардии. В руководстве ФСО, предварительно, без особых изменений. Поменяется руководство финансово-экономического блока. В ближайшее время произойдёт существенное усиление позиций Госсовета. И самое интересное, если всё идет по плану, и Дмитрий Патрушев выходит на досрочные президентские выборы, то Сергея Чемезов возглавит Госсовет с широкими функциями. Если же по каким-то причинам Дмитрий Патрушев не участвует в транзите, то Госсовет возглавит нынешний помощник президента России по судостроению Николай Патрушев. Самым громким событием перестановок, должен стать арест нынешнего секретаря Совета Безопасности РФ Сергея Шойгу. Перед этим, конечно, почистят Министерство обороны и Генеральный штаб.
🤡1
#ensembling #confidence

Крайне удивительное открытие, как всегда, делюсь ценной информацией с читателями моего блога, которые хотят профессионально вырасти в ML/DS.

Исследую методы ансамблирования от простого усреднения до стэкинга, часто вижу ситуации когда ансамблирование не улучшает качество прогнозов out-of-sample (OOS).

(В случае со стэкингом метамодель просто почти сразу срывается в оверфит, это тема отдельного исследования).

Но посетила светлая мысль, мол, погоди выбрасывать ансамбли, хоть они и не улучшают метрики OOS в целом, так может, давай отдельно проверим точки/инстансы, в которых прогнозы моделей совпадают? Это ж будет значить повышенную надёжность именно этих конкретных прогнозов, раз много экспертов по ним имеют консенсус, правда?

Проверяю: считаем средние и скв. отклонения модельных прогнозов по точкам (они же инстансы/строки/примеры). Затем считаем надёжными предсказания, где среднеквадратичные отклонения прогнозов (можно их нормировать дополнительно на сами средние, у меня это картины не поменяло) меньше заданного порога, ну или находятся в своём первом дециле, к примеру. Отдельно считаем OOS метрики по этим "надёжным предсказаниям".

И вот тут как раз неожиданное открытие. По "надёжным предсказаниям" метрики хуже, а по остальной части - лучше!!
То есть, если эксперты дают разброс по некоторым точкам, их усреднению можно доверять больше, чем если бы их прогнозы совпадали. Парадокс? Для меня да. Работает на практике? Тоже да.

PS. Возможно, это лишь на конкретной задаче, нужно более широкое тестирование.
👍2🔥1🤔1