Aspiring Data Science – Telegram
Aspiring Data Science
385 subscribers
465 photos
12 videos
12 files
2.15K links
Заметки экономиста о программировании, прогнозировании и принятии решений, научном методе познания.
Контакт: @fingoldo

I call myself a data scientist because I know just enough math, economics & programming to be dangerous.
Download Telegram
#ensembling #confidence

Крайне удивительное открытие, как всегда, делюсь ценной информацией с читателями моего блога, которые хотят профессионально вырасти в ML/DS.

Исследую методы ансамблирования от простого усреднения до стэкинга, часто вижу ситуации когда ансамблирование не улучшает качество прогнозов out-of-sample (OOS).

(В случае со стэкингом метамодель просто почти сразу срывается в оверфит, это тема отдельного исследования).

Но посетила светлая мысль, мол, погоди выбрасывать ансамбли, хоть они и не улучшают метрики OOS в целом, так может, давай отдельно проверим точки/инстансы, в которых прогнозы моделей совпадают? Это ж будет значить повышенную надёжность именно этих конкретных прогнозов, раз много экспертов по ним имеют консенсус, правда?

Проверяю: считаем средние и скв. отклонения модельных прогнозов по точкам (они же инстансы/строки/примеры). Затем считаем надёжными предсказания, где среднеквадратичные отклонения прогнозов (можно их нормировать дополнительно на сами средние, у меня это картины не поменяло) меньше заданного порога, ну или находятся в своём первом дециле, к примеру. Отдельно считаем OOS метрики по этим "надёжным предсказаниям".

И вот тут как раз неожиданное открытие. По "надёжным предсказаниям" метрики хуже, а по остальной части - лучше!!
То есть, если эксперты дают разброс по некоторым точкам, их усреднению можно доверять больше, чем если бы их прогнозы совпадали. Парадокс? Для меня да. Работает на практике? Тоже да.

PS. Возможно, это лишь на конкретной задаче, нужно более широкое тестирование.
👍2🔥1🤔1
#medicine #neuralink

Пока компания провела 14 экспериментов на вскрытых во время операций мозгах пациентов для определения чувствительности датчиков. Все операции были плановыми по удалению опухолей мозга. Пока мозг был открыт, пациентам с их согласия на время устанавливали датчики Precision Neuroscience. Поток информации был беспрецедентным, делятся успехами разработчики. Рекорд был установлен ранее в этом году, когда пациенту установили сразу четыре датчика с общим числом электродов 4096 штук на площади 8 см2. Это в четыре раза больше, чем в случае нейроимпланта Neuralink, если предположить, что все его датчики-иглы встали на место и успешно работают.

«Этот рекорд — значительный шаг к новой эре, — написал Рапопорт в пресс-релизе. — Способность улавливать кортикальную информацию такого масштаба может позволить нам углубиться в понимание мозга».

https://3dnews.ru/1105627/ustanovlen-rekord-po-chislu-ustanovlennih-na-mozg-patsienta-elektrodov-4096-tochek-na-ploshchadi-so-spichechniy-korobok
Forwarded from Пездуза
⚡️Глава ФНС: неправда, что в России нет ничего прогрессивного
#ethics #ml

Мне одному противно видеть модели, построенные на датасете Титаник? Людям, которые таким занимаются, можно предложить построить модель продолжительности жизни их родителей, детей, друзей... История с быком Гальтона - туда же, в топку. Надо ценить жизни и уважать чужое страдание.
Уж лучше ирисы )
👍31
#news #automl #plans

ML/DS-планы на 2024-й.

Как-то незаметно прошло уже почти полгода! Поймал себя на том, что двигаюсь к своей мини-automl системе. Скажете, почему не возьмёшь готовую? Ответ обычный, хочешь чтоб было сделано хорошо - сделай сам (если у тебя есть экспертиза и классные идеи).

В рамках этой automl системы будут:

1) 2 отборщика признаков из Diogenes, MRMR и RFECV.
MRMR уже получил навык создания комбинаций признаков (feature engineering), его надо ускорить (запараллелить) и лучше потестировать подмодуль с ортогональными полиномами (там будет полезен хороший оптимизатор, сейчас стоит оптуна и работает через пень-колоду)

2) мой будущий классный MBHO оптимизатор HPT. мне уже удалось побить оптуну, гиперопт, скопт в задачах одномерной оптимизации (для решения проблемы feature selection, см бенчи по тегам #featureselection #hpt #optuna #hyperopt #skopt), пора его расширить на многомерный случай

3) модуль ансамблирования ENS. будет простое усреднение (много оттенков) и стэкинг. из ноу-хау тут будут instance-based confidence, numaggs over level 0 predictions, identity level 1 baseline, аугментация табличных данных. Для расширения ENS планируется написать универсальную обёртку для ранней остановки. С этой идеей ношусь уже несколько лет, да никак не сделаю. Смысл обёртки в том, чтобы дать функционал early stopping/overfitting detection тем моделькам, которые сами нативно его не поддерживают - путём partial_fit или дихотомического поиска по n_iterations.

Отборщики признаков получат апгрейд и во время своей работы будут собирать ценную информацию для модулей HPT (MRMR считает базовые статистики признаков, силу связей с таргетами и между собой; RFECV создаёт пары гиперпараметры-ml метрики для последующего обучения MBHO) и ENS (будут замерять, насколько прогнозы моделек с определёнными признаками и гиперпараметрами декоррелированы и спосбны помочь ансамблю).

Также планируется большое обновление Diogenes, после которого избыточные признаки опционально будут не удаляться из набора, а сливаться в единый "кластер" c primary (если это будет повышать стабильность). Идея взята из лекций Эрни Чана. Это может быть полезно, когда 1 скрытый драйвер влияет на множество факторов в датасете. Текущая реализация MRMR выбирает 1 фактор с самой сильной MI на таргет, остальные выкидывает, что приводит к потере информации если влияние драйвера на факторы неоднородно по инстансам или времени.

Ещё MRMR получит шаг удаления признака (чтобы сильный признак мог всё же уступать более удачной комбинации) и параллельные списки, когда на каждом шаге не просто берётся лучший кандидат, а N лучших кандидатов формируют "параллельную реальность" (идея взята у Тима Мастерса).

Хочу также изучить гибриды между MRMR и RFECV (например, все признаки отброшенные MRMR прогонять через RFECV).
🔥7
#trading

Мне кажется, этот спикер не понимает, что такое машинное обучение. И советы даёт совершенно непригодные. Хотя утверждает, что у него стратегии с Шарпом 5. Может, мне тоже начать такое говорить, "как в том анекдоте"? )

https://www.youtube.com/watch?v=YgRTd4nLJoU
Forwarded from LightAutoML framework (Alex Ryzhkov)
#теория #трюки
В задачах машинного обучения часто мы наблюдаем картину насыщения модели данными: при 80-90% используемых данных из тренировочного датасета модель выходит на плато качества и дальше не растет.
Однако встречаются кейсы (и они не являются супер редким исключением из правил), когда качество модели все продолжает и продолжает расти по мере наращивания выборки, на которой модель учится, и даже при 100% насыщения не наступает. Но размеченных данных больше нет и остались только неразмеченные - в данной ситуации может помочь так называемая техника псевдолейблинга (pseudolabelling). О том, как с ней работать и какие существуют важные правила, которые стоит соблюдать для достижения результата, можно прочитать в моем посте на форуме Kaggle: https://www.kaggle.com/c/tabular-playground-series-apr-2021/discussion/231738
#doubledescent

Товарищи, а кто-то видел эффект double descent в реальности/на практике, особенно на табличных данных?

https://openai.com/index/deep-double-descent/
#nvidia

"В 2026 году Nvidia планирует сделать сразу несколько крупных анонсов. Во-первых, будет представлен новый графический чип Rubin с памятью HBM4. Во-вторых, появится центральный процессор Vera, который придёт на смену нынешнему Grace. Таким образом, флагманское решение 2026 года получит название Vera Rubin — это будет суперчип, связка GPU+CPU, аналогично актуальному Grace Hopper. Кроме того, пропускная способность запатентованной Nvidia технологии интерконнекта NVLink будет удвоена до 3,6 Тбит/с (NVLink 6 против NVLink 5).

На 2027 год запланирован выход улучшенной версии Rubin Ultra с HBM4 с 12 кристаллами в стеке вместо 8. Как подчёркивает Хуанг, Nvidia намерена выжимать максимум из доступных на данный момент производственных техпроцессов, чтобы каждый год выводить на рынок новые флагманские решения, работающие на пределе возможного. По словам Дженсена Хуанга, именно такая стратегия непрерывного совершенствования позволит компании сохранять лидерство в сфере решений для дата-центров."

https://3dnews.ru/1105827/nvidia-predstavila-dorognuyu-kartu-i-poobeshchala-vigat-iz-tehprotsessov-maksimum
#wisdom

In God we trust. All others must bring data.
#trading #education

Нашёл отличный бесплатный курс по МЛ в трейдинге.

Introduction to Trading, Machine Learning & GCP
Course 1

9 hours

4.0(818 ratings)


Using Machine Learning in Trading and Finance
Course 2

18 hours

3.9(349 ratings)


Reinforcement Learning for Trading Strategies
Course 3

12 hours

3.5(224 ratings)


https://www.coursera.org/specializations/machine-learning-trading
Forwarded from LightAutoML framework (Даша)
Media is too big
VIEW IN TELEGRAM
🔥 Привет, друзья! У нас для вас интересное предложение ☺️

Хотите помочь повысить эффективность рекомендаций? Тогда залетайте к нам!

Мы предлагаем решить нашу задачу 12 — разработать предиктивную модель для рекомендации продуктов банка

🟩 Что нужно сделать
Разработать мультимодальную модель, позволяющую прогнозировать выдачу продуктов в течение следующего месяца. Обязательное условие: использование библиотеки PyTorch-LifeStream в решении задачи

🟥 Призовой фонд задачи

1 место — 1 000 000 ₽
2 место — 600 000 ₽
3 место — 400 000 ₽

Присоединяйтесь к международному хакатону! Разработка начнется уже 3 июня. Успейте зарегистрироваться до 5 июня включительно!

🟢English version
Please open Telegram to view this post
VIEW IN TELEGRAM
#spacex #superheavy #astronomy

"Долгая бюрократическая процедура уходит в прошлое. По крайней мере, для трёх сценариев аварий, подробностей о которых пока нет в открытом доступе. Как пояснили в FAA, компания SpaceX представила варианты потери кораблей и ускорителей, которые не должны требовать расследования и обновления полётной лицензии.

Из данного соглашения можно сделать следующие выводы. Во-первых, мощности SpaceX достаточны для относительно массового производства ракет и ускорителей. Во-вторых, компания явно отстаёт в ранее утверждённых планах по созданию ракет для возвращения на Луну и покорения Марса. Китай ускоряется и с этим что-то надо делать. В-третьих, бюджет FAA тоже не резиновый, а расследование аномалий и обновление лицензий требует достаточно большой работы коллектива чиновников.

Что касается четвёртого тестового запуска Starship, то компания SpaceX ставит перед собой две главные задачи: вернуть ускоритель на баржу в Мексиканском заливе и приводнить корабль в Индийском океане. Во время предыдущих тестовых запусков ускорители и корабли были так или иначе потеряны."

https://3dnews.ru/1105979/spacex-poluchila-razreshenie-ispitivat-starship-bez-rassledovaniya-avariy-delo-poydyot-givee
👍1
#gaudi #intel

А я напомню, что pytorch lightning поддерживает чипы habana gaudi. Сам я не пробовал их ещё.

"По оценкам Intel, $125 тыс. — это всего ⅔ стоимости платформы NVIDIA с восемью ускорителями H100, лежащих в основе системы NVIDIA DGX и серверов стороннего производства. Хотя в самой NVIDIA цены своих ускорителей или платформ не раскрывают, если верить расчётам Intel, платформа HGX H100 обходится приблизительно в $187 тыс. Цена может меняться в зависимости от объёмов закупок и конфигурации серверов. При этом ускорители Blackwell B200 будут стоить уже $30-$40 тыс./шт."

https://servernews.ru/1105980
#nvidia

"Обогнав по капитализации Apple, Nvidia заняла второе место в списке крупнейших публичных компаний мира, уступая по этому показателю лишь Microsoft. Достижение Nvidia очередной раз демонстрирует впечатляющую динамику роста стоимости её акций. За последние пять лет они выросли более чем на 3224 %. В ближайшие дни компания также планирует провести дробление акций в соотношении 10 к 1.

Ранее первой американской компанией, достигшей уровня капитализации в 3 триллиона долларов, стал Apple. Эта веха была достигнута в январе 2022 года в ходе торговой сессии. В январе 2024 года к ним присоединилась Microsoft. А Nvidia, основанная в 1993 году, преодолела рубеж в 2 триллиона долларов в феврале текущего года. Потребовалось чуть меньше трёх месяцев, чтобы добавить к этой сумме ещё один триллион, сообщает CNBC.

В мае компания опубликовала финансовые результаты за первый квартал, которые продемонстрировали сохраняющийся бум спроса на дорогостоящие и мощные графические процессоры компании (GPU). При этом выручка Nvidia по итогам квартала составила 26 миллиардов долларов, что более чем в три раза превышает показатель годичной давности. Кроме того, компания превзошла ожидания Уолл-стрит по продажам и прибыли. В текущем квартале прогнозируется выручка на уровне 28 миллиардов долларов."

https://3dnews.ru/1106040/nvidia-obognala-apple-po-kapitalizatsii-i-dostigla-3-trln-na-fone-buma-ii