#ml #econometrics #timeseries
Современная шпаргалка по эконометрике и временным рядам. Есть Байес.
https://www.linkedin.com/posts/michael-mike-erlihson-phd-8208616_time-series-econometrics-a-concise-course-activity-7078803397931352065-6WKz
Современная шпаргалка по эконометрике и временным рядам. Есть Байес.
https://www.linkedin.com/posts/michael-mike-erlihson-phd-8208616_time-series-econometrics-a-concise-course-activity-7078803397931352065-6WKz
Linkedin
Michael (Mike) Erlihson, PhD on LinkedIn: Time-Series Econometrics: A Concise Course
🧠📙 𝗧𝗶𝗺𝗲-𝗦𝗲𝗿𝗶𝗲𝘀 𝗘𝗰𝗼𝗻𝗼𝗺𝗲𝘁𝗿𝗶𝗰𝘀: 𝗔 𝗖𝗼𝗻𝗰𝗶𝘀𝗲 𝗖𝗼𝘂𝗿𝘀𝗲 🚀💥 - an awesome textbook by Francis X. Diebold
𝚃𝚊𝚋𝚕𝚎 𝚘𝚏…
𝚃𝚊𝚋𝚕𝚎 𝚘𝚏…
❤🔥1
#trading #erema #tradingpolicy
Допилил бэктестер, выяснилось, что полученной предсказуемости на акциях едва достаточно, чтобы побить комиссию. Но это я построил 1 модель без тюнинга на первом попавшемся таргете, относительно небольшом датасете. Торговая политика тоже была недостаточно проработанной: к примеру, даже если ей подавать истинные вероятности изменения цены вместо прогноза (читерство), торгуя 1 лотом Магнита (~5 т.р.), за день можно заработать чистыми 500р., при этом комиссия брокера составит 300р. Наверняка это можно улучшить. Осознал, что ML и торговую части можно прорабатывать почти независимо, если у моделек сохранять предсказания на всех OOS днях.
Допилил бэктестер, выяснилось, что полученной предсказуемости на акциях едва достаточно, чтобы побить комиссию. Но это я построил 1 модель без тюнинга на первом попавшемся таргете, относительно небольшом датасете. Торговая политика тоже была недостаточно проработанной: к примеру, даже если ей подавать истинные вероятности изменения цены вместо прогноза (читерство), торгуя 1 лотом Магнита (~5 т.р.), за день можно заработать чистыми 500р., при этом комиссия брокера составит 300р. Наверняка это можно улучшить. Осознал, что ML и торговую части можно прорабатывать почти независимо, если у моделек сохранять предсказания на всех OOS днях.
❤🔥1✍1👍1
Forwarded from Борис опять
#лабораторный_журнал
Как начался ML так сразу стало меньше интересного для постов. ML во время рутины довольно скучная штука: слегка меняешь модели, запускаешь долгие эксперименты, много ждешь и правишь баги.
Последний раз мы запустили в теневом режиме простую бейзлайн модель классификации проблем: CLIP фичи + логрегрессия. С тех пор были обучены несколько ConvNext и тоже запущены в теневом режиме. Все они принесли небольшие инкрементальные изменения.
Последняя модель очень даже ничего, попадает под критерии успешной модели для команды агро. Ждем от фронта отображение предсказаний и посмотрим как она в бою.
Из интересного: я научился красиво делать fusion категориальной информации с фичами изображений. Можно конкатить эмбеддинг к последнему слою перед классификатором, но эффективнее решейпить в BxWxHxC и суммировать с feature map перед последним residual block.
Далее на инкрементальных изменениях много не добьешься, поэтому надо раскачать обстановку. Будем делать большую self-supervised pretrained backbone. Выбирали между SSL и разметкой. Пришли к выводу, что профит от лейблов ограничен и не масштабируется, а self-supervised с нашим объёмом данных может дать настоящий прорыв. К тому же модель на лейблах будет затачиваться под одну задачу, а SSL откроет доступ к разным новым проектам.
Из других новостей: ведем поиск нового ML инженера в мою команду. Сейчас ищем только внутри Португалии (разнарядка сверху), поэтому я сюда даже не постил. Теперь я немного HR: скриню резюме, проверяю тестовые, скоро первые собеседования. Скоро напишу о том, как выглядят воронка и процесс поиска со стороны нанимателя.
Как начался ML так сразу стало меньше интересного для постов. ML во время рутины довольно скучная штука: слегка меняешь модели, запускаешь долгие эксперименты, много ждешь и правишь баги.
Последний раз мы запустили в теневом режиме простую бейзлайн модель классификации проблем: CLIP фичи + логрегрессия. С тех пор были обучены несколько ConvNext и тоже запущены в теневом режиме. Все они принесли небольшие инкрементальные изменения.
Последняя модель очень даже ничего, попадает под критерии успешной модели для команды агро. Ждем от фронта отображение предсказаний и посмотрим как она в бою.
Из интересного: я научился красиво делать fusion категориальной информации с фичами изображений. Можно конкатить эмбеддинг к последнему слою перед классификатором, но эффективнее решейпить в BxWxHxC и суммировать с feature map перед последним residual block.
Далее на инкрементальных изменениях много не добьешься, поэтому надо раскачать обстановку. Будем делать большую self-supervised pretrained backbone. Выбирали между SSL и разметкой. Пришли к выводу, что профит от лейблов ограничен и не масштабируется, а self-supervised с нашим объёмом данных может дать настоящий прорыв. К тому же модель на лейблах будет затачиваться под одну задачу, а SSL откроет доступ к разным новым проектам.
Из других новостей: ведем поиск нового ML инженера в мою команду. Сейчас ищем только внутри Португалии (разнарядка сверху), поэтому я сюда даже не постил. Теперь я немного HR: скриню резюме, проверяю тестовые, скоро первые собеседования. Скоро напишу о том, как выглядят воронка и процесс поиска со стороны нанимателя.
#astronomy #lifeorigin #jameswebb
"Анализ спектральных данных, собранных обсерваторией «Джеймс Уэбб», обнаружил невиданные ранее линии спектра. В течение четырёх недель занятые в работе учёные смогли идентифицировать сигналы до определения источника — молекулы метил-катиона (CH3+). Это стало первым подтверждённым обнаружением данного соединения за пределами Земли.
Ещё в 70-х годах прошлого века появилась теория, что для зарождения биологической жизни на Земле и в космосе важным этапом должно стать образование такого соединения углерода, как метил-катион. Это своего рода катализатор или посредник для запуска множества химических реакций, которые в итоге могут привести к образованию соединений, породивших органическую химию. Чтобы подтвердить эту гипотезу метил-катион должен обнаруживаться в космосе, но радиотелескопы не способны его уловить из-за особенностей строения молекулы, а инфракрасные телескопы с Земли банально не работают.
Прорыв произошёл благодаря инфракрасной космической обсерватории «Джеймс Уэбб» с её революционной спектральной и инфракрасной чувствительностью, а также высочайшим на сегодня пространственным разрешением.
Молекула метил-катиона обнаружена в протопланетном диске небольшого красного карлика d203-506 в туманности Ориона. Особенность данного объекта в том, что протопланетный диск подвергается сильной бомбардировке ультрафиолетом от близлежащих молодых и более массивных звёзд. Сам красный карлик на такое не способен. Ультрафиолет, как ни странно для нас это звучит, не разрушает метил-катион, а даёт энергию для запуска процесса его синтеза. Такое, вероятно, происходит на ранних стадиях зарождения органической химии и не вредит ей, а даёт толчок к развитию."
https://3dnews.ru/1089005/dgeyms-uebb-vpervie-obnarugil-vagnuyu-dlya-zarogdeniya-gizni-molekulu-eyo-iskali-bolee-50-let
"Анализ спектральных данных, собранных обсерваторией «Джеймс Уэбб», обнаружил невиданные ранее линии спектра. В течение четырёх недель занятые в работе учёные смогли идентифицировать сигналы до определения источника — молекулы метил-катиона (CH3+). Это стало первым подтверждённым обнаружением данного соединения за пределами Земли.
Ещё в 70-х годах прошлого века появилась теория, что для зарождения биологической жизни на Земле и в космосе важным этапом должно стать образование такого соединения углерода, как метил-катион. Это своего рода катализатор или посредник для запуска множества химических реакций, которые в итоге могут привести к образованию соединений, породивших органическую химию. Чтобы подтвердить эту гипотезу метил-катион должен обнаруживаться в космосе, но радиотелескопы не способны его уловить из-за особенностей строения молекулы, а инфракрасные телескопы с Земли банально не работают.
Прорыв произошёл благодаря инфракрасной космической обсерватории «Джеймс Уэбб» с её революционной спектральной и инфракрасной чувствительностью, а также высочайшим на сегодня пространственным разрешением.
Молекула метил-катиона обнаружена в протопланетном диске небольшого красного карлика d203-506 в туманности Ориона. Особенность данного объекта в том, что протопланетный диск подвергается сильной бомбардировке ультрафиолетом от близлежащих молодых и более массивных звёзд. Сам красный карлик на такое не способен. Ультрафиолет, как ни странно для нас это звучит, не разрушает метил-катион, а даёт энергию для запуска процесса его синтеза. Такое, вероятно, происходит на ранних стадиях зарождения органической химии и не вредит ей, а даёт толчок к развитию."
https://3dnews.ru/1089005/dgeyms-uebb-vpervie-obnarugil-vagnuyu-dlya-zarogdeniya-gizni-molekulu-eyo-iskali-bolee-50-let
3DNews - Daily Digital Digest
Важная для зарождения жизни молекула впервые обнаружена за пределами Земли — её искали более 50 лет
Международная группа учёных сообщила о знаковом открытии — в космосе впервые найдена особая молекула углерода, которая важна для зарождения биологической жизни.
#pandas #bollocks
Самая раздражающая штука в пандас - реализация проверки на пустой объект. Какой идиот принял такое решение, ломающее совместимость со всем остальным питоном? Постоянно на этом спотыкаюсь.
То же самое в np.array, к сожалению
И ещё bool(np.nan)=bool(pd.NA)=True
Самая раздражающая штука в пандас - реализация проверки на пустой объект. Какой идиот принял такое решение, ломающее совместимость со всем остальным питоном? Постоянно на этом спотыкаюсь.
if features:
File "C:\ProgramData\Anaconda3\lib\site-packages\pandas\core\generic.py", line 1466, in __nonzero__
raise ValueError(
ValueError: The truth value of a DataFrame is ambiguous. Use a.empty, a.bool(), a.item(), a.any() or a.all().
P.S.:То же самое в np.array, к сожалению
И ещё bool(np.nan)=bool(pd.NA)=True
🥴2😈2
#trading #deprado
Книжка Де Прадо "Advances in financial machine learning", разобранная на конспекты. Для скорости можно просто листать слайды. У меня ощущение, что во всём мире только Маркос Де Прадо и Эрни Чан знают, как эффективно применять ML в финансах )
https://www.youtube.com/playlist?list=PL_ljXO3JR1NJXt9wD7IrwinYMP8-RCcii
Книжка Де Прадо "Advances in financial machine learning", разобранная на конспекты. Для скорости можно просто листать слайды. У меня ощущение, что во всём мире только Маркос Де Прадо и Эрни Чан знают, как эффективно применять ML в финансах )
https://www.youtube.com/playlist?list=PL_ljXO3JR1NJXt9wD7IrwinYMP8-RCcii
🔥2
#ml #trading #targets #deprado
Интересный тип финансового таргета, основанный на информационном дисбалансе.
https://www.youtube.com/watch?v=WOkbYim0DR8
Интересный тип финансового таргета, основанный на информационном дисбалансе.
https://www.youtube.com/watch?v=WOkbYim0DR8
YouTube
Financial Data Structures: Information Driven Bars (Run and Imbalance)
Join our reading group! https://hudsonthames.org/reading-group/
The purpose of information-driven bars is to sample more frequently when new information arrives to the market. In this context, the word “information” is used in a market microstructural sense.…
The purpose of information-driven bars is to sample more frequently when new information arrives to the market. In this context, the word “information” is used in a market microstructural sense.…
#python #codegems
Как передать питоновскому скрипту список в качестве параметра:
Как передать питоновскому скрипту список в качестве параметра:
parser.add_argument('-l','--list', nargs='+', help='<Required> Set flag', required=True)
# Use like:
# python arg.py -l 1234 2345 3456 4567Stack Overflow
How can I pass a list as a command-line argument with argparse?
I am trying to pass a list as an argument to a command line program. Is there an argparse option to pass a list as option?
parser.add_argument('-l', '--list',
type=list, acti...
parser.add_argument('-l', '--list',
type=list, acti...
#ml #featureselection #featureengineering #mrmr #sulov
Наткнулся на новую библиотечку по созданию и отбору признаков. Гордятся реализацией MRMR (Minimum Redundancy Maximum Relevance) и SULOV (Searching for Uncorrelated List of Variables).
https://github.com/AutoViML/featurewiz
Наткнулся на новую библиотечку по созданию и отбору признаков. Гордятся реализацией MRMR (Minimum Redundancy Maximum Relevance) и SULOV (Searching for Uncorrelated List of Variables).
https://github.com/AutoViML/featurewiz
GitHub
GitHub - AutoViML/featurewiz: Use advanced feature engineering strategies and select best features from your data set with a single…
Use advanced feature engineering strategies and select best features from your data set with a single line of code. Created by Ram Seshadri. Collaborators welcome. - AutoViML/featurewiz
❤🔥1👍1
#ml #dask #daskml
Продумываю переход на распределённое обучение с Dask, и внезапно оказывается, что там вроде бы и нет (распределённого) FS (feature selection), OR (outlier removal), TT (target transformer). По крайней мере, в официальной доке нигде упоминаний нет, и непонятно, что будет, если их попробовать с конвейером dask-ml, скорей всего, не сработает. Есть только HPT (Hyper Parameters Tuning) и ES (Early Stopping). В Spark MlLib есть хотя бы FS:
VectorSlicer
RFormula
ChiSqSelector
UnivariateFeatureSelector
VarianceThresholdSelector
Продумываю переход на распределённое обучение с Dask, и внезапно оказывается, что там вроде бы и нет (распределённого) FS (feature selection), OR (outlier removal), TT (target transformer). По крайней мере, в официальной доке нигде упоминаний нет, и непонятно, что будет, если их попробовать с конвейером dask-ml, скорей всего, не сработает. Есть только HPT (Hyper Parameters Tuning) и ES (Early Stopping). В Spark MlLib есть хотя бы FS:
VectorSlicer
RFormula
ChiSqSelector
UnivariateFeatureSelector
VarianceThresholdSelector
#physics #astronomy #hellings #downs #nanograv
Обнаружены корреляции в сбоях сигналов пульсаров из-за длинных гравитационных волн от пар сверхмассивных ЧД. Скорая нобелевка?
https://www.youtube.com/watch?v=R0YHcSMZqBY
Обнаружены корреляции в сбоях сигналов пульсаров из-за длинных гравитационных волн от пар сверхмассивных ЧД. Скорая нобелевка?
https://www.youtube.com/watch?v=R0YHcSMZqBY
YouTube
Открытие гравитационно-волнового фона
Кратко рассказано об открытии гравитационно-волнового фона с помощью систем пульсарного тайминга.
См. статьи и описание результатов в
http://xray.sai.msu.ru/~polar/sci_rev/421.html#arxiv/2306.16213
Некоторые полезные ссылки
https://sergepolar.livejourn…
См. статьи и описание результатов в
http://xray.sai.msu.ru/~polar/sci_rev/421.html#arxiv/2306.16213
Некоторые полезные ссылки
https://sergepolar.livejourn…
#mlflow #bastards
Некоторые фреймворки поражают. В MLFlow в 2023 году НЕТ простой аутентификации. Разворачиваешь свой МЛ-сервер, желая сотрудничать с коллегами из других городов и стран? Будь готов, что твои эксперименты, модели, графики увидит весь мир, ведь парни из mlflow не смогли добавить простую функциональность даже типа логин/пароль. К тому же, если бэк хранится в СУБД, это ещё и прямая дорожка к SQL-иньекциям... Защитить сервер всё же можно, но это надо морочиться с установкой nginx, файлами конфига, документацией. Ну не мудаки ли? Хотя, с другой стороны, это же бесплатно, мудак тут скорее я.
Некоторые фреймворки поражают. В MLFlow в 2023 году НЕТ простой аутентификации. Разворачиваешь свой МЛ-сервер, желая сотрудничать с коллегами из других городов и стран? Будь готов, что твои эксперименты, модели, графики увидит весь мир, ведь парни из mlflow не смогли добавить простую функциональность даже типа логин/пароль. К тому же, если бэк хранится в СУБД, это ещё и прямая дорожка к SQL-иньекциям... Защитить сервер всё же можно, но это надо морочиться с установкой nginx, файлами конфига, документацией. Ну не мудаки ли? Хотя, с другой стороны, это же бесплатно, мудак тут скорее я.
💯2
Forwarded from New Yorko Times (Yury Kashnitsky)
ML system design в реальных проектах – 200 блог-постов
#links_with_intro #ml
Команда Evidently (наверняка знаете Эмели Драль, она с кофаундером Elena Samuylova пилит решение для мониторинга и тестирования ML-моделей) собрала около 200 блог-постов про ML system design в реальных проектах – от Netflix, Doordash, Booking и т.д. Кажется неплохим источником знаний для “курса по Data Science, которого нет”, про который я рассказывал раньше. Я не большой фанат ссылок на в целом классные подборки, которые добавляешь в закладки, а потом забываешь про них навсегда. Но в данном случае действительно крутой ресурс, в том числе для подготовки к собеседованиям.
Сюда же можно добавить еще 10 case studies, собранных Chip Huyen в книге “Designing Machine Learning Systems” (вот мой пост в том числе про эту книгу). Там каждый из 10 кейсов еще вкратце пересказан.
Про видео-интервью про ML system design и книгу Валерия Бабушкина & Арсения Кравченко, думаю, тут все и так в курсе.
#links_with_intro #ml
Команда Evidently (наверняка знаете Эмели Драль, она с кофаундером Elena Samuylova пилит решение для мониторинга и тестирования ML-моделей) собрала около 200 блог-постов про ML system design в реальных проектах – от Netflix, Doordash, Booking и т.д. Кажется неплохим источником знаний для “курса по Data Science, которого нет”, про который я рассказывал раньше. Я не большой фанат ссылок на в целом классные подборки, которые добавляешь в закладки, а потом забываешь про них навсегда. Но в данном случае действительно крутой ресурс, в том числе для подготовки к собеседованиям.
Сюда же можно добавить еще 10 case studies, собранных Chip Huyen в книге “Designing Machine Learning Systems” (вот мой пост в том числе про эту книгу). Там каждый из 10 кейсов еще вкратце пересказан.
Про видео-интервью про ML system design и книгу Валерия Бабушкина & Арсения Кравченко, думаю, тут все и так в курсе.
#astronomy #ml
"Учёные давно ищут источники высокоэнергичных частиц, которые прилетают из космоса на Землю. Их энергии таковы, что они должны рождаться вне пределов нашей галактики, чтобы они смогли преодолеть местные магнитные поля и вырваться в межзвёздное пространство. К сожалению, те же магнитные поля решительно изменяют траектории заряжённых частиц (протонов и заряженных атомных ядер) и это не позволяет отследить их до источника.
Другое дело нейтрино. Они почти не взаимодействуют с веществом и магнитными полями, поскольку имеют ничтожную массу и не имеют заряда. Поэтому нейтрино движутся по прямой траектории и могут указать на источник своего происхождения. Этим источником могут быть следы, которые высокоэнергичные частицы оставляют на своём пути, когда они врезаются в пыль и газ на своей траектории. Одним из продуктов таких столкновений является пара кварк-антикварк, известная как пион. Распад заряженных пионов, в свою очередь, порождает высокоэнергетическое электронное нейтрино. Проследив за траекторией этих нейтрино можно выйти на источник высокоэнергичных космических частиц.
Но есть ещё одна проблема — отсеять неуловимые высокоэнергетическое нейтрино из фона местных и таких же слабо регистрируемых нейтрино. В частности, необходимо было подавить фон атмосферных нейтрино (мюонных нейтрино). Вручную и с помощью обычных алгоритмов это не удавалось сделать много лет, пока на помощь не пришло машинное обучение. С помощью обучающихся алгоритмов учёные смогли заново проанализировать 10 лет наблюдений за нейтрино на установке IceCube во льдах Антарктиды.
Новый метод анализа позволил включить в набор данных в 20 раз больше событий с лучшей информацией о направлении, и это дало ошеломляющий результат. Учёным открылась новая карта Вселенной и, в частности, новый взгляд на нашу галактику Млечный Путь. Со статистической значимостью около 4,5 сигма (чуть-чуть не дотянули до пятёрки, что означало бы безоговорочное признание в научной среде открытия) были указаны источники высокоэнергичных нейтрино в центре нашей галактики, а не где-то там в невообразимой дали. Это даёт намёк на зарождение частиц с колоссальной энергией в центре нашей галактики, а не где-то за её пределами. В центре Млечного Пути происходит что-то невообразимое по выбросам энергии, и этот процесс оказалось возможным рассмотреть и, в перспективе, изучить."
https://3dnews.ru/1089230/v-tsentre-nashey-galaktiki-proishodyat-neponyatnie-no-nevoobrazimo-moshchnie-protsessi-na-eto-ukazali-neytrino
"Учёные давно ищут источники высокоэнергичных частиц, которые прилетают из космоса на Землю. Их энергии таковы, что они должны рождаться вне пределов нашей галактики, чтобы они смогли преодолеть местные магнитные поля и вырваться в межзвёздное пространство. К сожалению, те же магнитные поля решительно изменяют траектории заряжённых частиц (протонов и заряженных атомных ядер) и это не позволяет отследить их до источника.
Другое дело нейтрино. Они почти не взаимодействуют с веществом и магнитными полями, поскольку имеют ничтожную массу и не имеют заряда. Поэтому нейтрино движутся по прямой траектории и могут указать на источник своего происхождения. Этим источником могут быть следы, которые высокоэнергичные частицы оставляют на своём пути, когда они врезаются в пыль и газ на своей траектории. Одним из продуктов таких столкновений является пара кварк-антикварк, известная как пион. Распад заряженных пионов, в свою очередь, порождает высокоэнергетическое электронное нейтрино. Проследив за траекторией этих нейтрино можно выйти на источник высокоэнергичных космических частиц.
Но есть ещё одна проблема — отсеять неуловимые высокоэнергетическое нейтрино из фона местных и таких же слабо регистрируемых нейтрино. В частности, необходимо было подавить фон атмосферных нейтрино (мюонных нейтрино). Вручную и с помощью обычных алгоритмов это не удавалось сделать много лет, пока на помощь не пришло машинное обучение. С помощью обучающихся алгоритмов учёные смогли заново проанализировать 10 лет наблюдений за нейтрино на установке IceCube во льдах Антарктиды.
Новый метод анализа позволил включить в набор данных в 20 раз больше событий с лучшей информацией о направлении, и это дало ошеломляющий результат. Учёным открылась новая карта Вселенной и, в частности, новый взгляд на нашу галактику Млечный Путь. Со статистической значимостью около 4,5 сигма (чуть-чуть не дотянули до пятёрки, что означало бы безоговорочное признание в научной среде открытия) были указаны источники высокоэнергичных нейтрино в центре нашей галактики, а не где-то там в невообразимой дали. Это даёт намёк на зарождение частиц с колоссальной энергией в центре нашей галактики, а не где-то за её пределами. В центре Млечного Пути происходит что-то невообразимое по выбросам энергии, и этот процесс оказалось возможным рассмотреть и, в перспективе, изучить."
https://3dnews.ru/1089230/v-tsentre-nashey-galaktiki-proishodyat-neponyatnie-no-nevoobrazimo-moshchnie-protsessi-na-eto-ukazali-neytrino
3DNews - Daily Digital Digest
В центре нашей галактики обнаружены источники высокоэнергичных космических лучей — на них указали нейтрино
Для астрофизики настали чудесные дни.