#ml #econometrics #timeseries
Современная шпаргалка по эконометрике и временным рядам. Есть Байес.
https://www.linkedin.com/posts/michael-mike-erlihson-phd-8208616_time-series-econometrics-a-concise-course-activity-7078803397931352065-6WKz
Современная шпаргалка по эконометрике и временным рядам. Есть Байес.
https://www.linkedin.com/posts/michael-mike-erlihson-phd-8208616_time-series-econometrics-a-concise-course-activity-7078803397931352065-6WKz
Linkedin
Michael (Mike) Erlihson, PhD on LinkedIn: Time-Series Econometrics: A Concise Course
🧠📙 𝗧𝗶𝗺𝗲-𝗦𝗲𝗿𝗶𝗲𝘀 𝗘𝗰𝗼𝗻𝗼𝗺𝗲𝘁𝗿𝗶𝗰𝘀: 𝗔 𝗖𝗼𝗻𝗰𝗶𝘀𝗲 𝗖𝗼𝘂𝗿𝘀𝗲 🚀💥 - an awesome textbook by Francis X. Diebold
𝚃𝚊𝚋𝚕𝚎 𝚘𝚏…
𝚃𝚊𝚋𝚕𝚎 𝚘𝚏…
❤🔥1
#trading #erema #tradingpolicy
Допилил бэктестер, выяснилось, что полученной предсказуемости на акциях едва достаточно, чтобы побить комиссию. Но это я построил 1 модель без тюнинга на первом попавшемся таргете, относительно небольшом датасете. Торговая политика тоже была недостаточно проработанной: к примеру, даже если ей подавать истинные вероятности изменения цены вместо прогноза (читерство), торгуя 1 лотом Магнита (~5 т.р.), за день можно заработать чистыми 500р., при этом комиссия брокера составит 300р. Наверняка это можно улучшить. Осознал, что ML и торговую части можно прорабатывать почти независимо, если у моделек сохранять предсказания на всех OOS днях.
Допилил бэктестер, выяснилось, что полученной предсказуемости на акциях едва достаточно, чтобы побить комиссию. Но это я построил 1 модель без тюнинга на первом попавшемся таргете, относительно небольшом датасете. Торговая политика тоже была недостаточно проработанной: к примеру, даже если ей подавать истинные вероятности изменения цены вместо прогноза (читерство), торгуя 1 лотом Магнита (~5 т.р.), за день можно заработать чистыми 500р., при этом комиссия брокера составит 300р. Наверняка это можно улучшить. Осознал, что ML и торговую части можно прорабатывать почти независимо, если у моделек сохранять предсказания на всех OOS днях.
❤🔥1✍1👍1
Forwarded from Борис опять
#лабораторный_журнал
Как начался ML так сразу стало меньше интересного для постов. ML во время рутины довольно скучная штука: слегка меняешь модели, запускаешь долгие эксперименты, много ждешь и правишь баги.
Последний раз мы запустили в теневом режиме простую бейзлайн модель классификации проблем: CLIP фичи + логрегрессия. С тех пор были обучены несколько ConvNext и тоже запущены в теневом режиме. Все они принесли небольшие инкрементальные изменения.
Последняя модель очень даже ничего, попадает под критерии успешной модели для команды агро. Ждем от фронта отображение предсказаний и посмотрим как она в бою.
Из интересного: я научился красиво делать fusion категориальной информации с фичами изображений. Можно конкатить эмбеддинг к последнему слою перед классификатором, но эффективнее решейпить в BxWxHxC и суммировать с feature map перед последним residual block.
Далее на инкрементальных изменениях много не добьешься, поэтому надо раскачать обстановку. Будем делать большую self-supervised pretrained backbone. Выбирали между SSL и разметкой. Пришли к выводу, что профит от лейблов ограничен и не масштабируется, а self-supervised с нашим объёмом данных может дать настоящий прорыв. К тому же модель на лейблах будет затачиваться под одну задачу, а SSL откроет доступ к разным новым проектам.
Из других новостей: ведем поиск нового ML инженера в мою команду. Сейчас ищем только внутри Португалии (разнарядка сверху), поэтому я сюда даже не постил. Теперь я немного HR: скриню резюме, проверяю тестовые, скоро первые собеседования. Скоро напишу о том, как выглядят воронка и процесс поиска со стороны нанимателя.
Как начался ML так сразу стало меньше интересного для постов. ML во время рутины довольно скучная штука: слегка меняешь модели, запускаешь долгие эксперименты, много ждешь и правишь баги.
Последний раз мы запустили в теневом режиме простую бейзлайн модель классификации проблем: CLIP фичи + логрегрессия. С тех пор были обучены несколько ConvNext и тоже запущены в теневом режиме. Все они принесли небольшие инкрементальные изменения.
Последняя модель очень даже ничего, попадает под критерии успешной модели для команды агро. Ждем от фронта отображение предсказаний и посмотрим как она в бою.
Из интересного: я научился красиво делать fusion категориальной информации с фичами изображений. Можно конкатить эмбеддинг к последнему слою перед классификатором, но эффективнее решейпить в BxWxHxC и суммировать с feature map перед последним residual block.
Далее на инкрементальных изменениях много не добьешься, поэтому надо раскачать обстановку. Будем делать большую self-supervised pretrained backbone. Выбирали между SSL и разметкой. Пришли к выводу, что профит от лейблов ограничен и не масштабируется, а self-supervised с нашим объёмом данных может дать настоящий прорыв. К тому же модель на лейблах будет затачиваться под одну задачу, а SSL откроет доступ к разным новым проектам.
Из других новостей: ведем поиск нового ML инженера в мою команду. Сейчас ищем только внутри Португалии (разнарядка сверху), поэтому я сюда даже не постил. Теперь я немного HR: скриню резюме, проверяю тестовые, скоро первые собеседования. Скоро напишу о том, как выглядят воронка и процесс поиска со стороны нанимателя.
#astronomy #lifeorigin #jameswebb
"Анализ спектральных данных, собранных обсерваторией «Джеймс Уэбб», обнаружил невиданные ранее линии спектра. В течение четырёх недель занятые в работе учёные смогли идентифицировать сигналы до определения источника — молекулы метил-катиона (CH3+). Это стало первым подтверждённым обнаружением данного соединения за пределами Земли.
Ещё в 70-х годах прошлого века появилась теория, что для зарождения биологической жизни на Земле и в космосе важным этапом должно стать образование такого соединения углерода, как метил-катион. Это своего рода катализатор или посредник для запуска множества химических реакций, которые в итоге могут привести к образованию соединений, породивших органическую химию. Чтобы подтвердить эту гипотезу метил-катион должен обнаруживаться в космосе, но радиотелескопы не способны его уловить из-за особенностей строения молекулы, а инфракрасные телескопы с Земли банально не работают.
Прорыв произошёл благодаря инфракрасной космической обсерватории «Джеймс Уэбб» с её революционной спектральной и инфракрасной чувствительностью, а также высочайшим на сегодня пространственным разрешением.
Молекула метил-катиона обнаружена в протопланетном диске небольшого красного карлика d203-506 в туманности Ориона. Особенность данного объекта в том, что протопланетный диск подвергается сильной бомбардировке ультрафиолетом от близлежащих молодых и более массивных звёзд. Сам красный карлик на такое не способен. Ультрафиолет, как ни странно для нас это звучит, не разрушает метил-катион, а даёт энергию для запуска процесса его синтеза. Такое, вероятно, происходит на ранних стадиях зарождения органической химии и не вредит ей, а даёт толчок к развитию."
https://3dnews.ru/1089005/dgeyms-uebb-vpervie-obnarugil-vagnuyu-dlya-zarogdeniya-gizni-molekulu-eyo-iskali-bolee-50-let
"Анализ спектральных данных, собранных обсерваторией «Джеймс Уэбб», обнаружил невиданные ранее линии спектра. В течение четырёх недель занятые в работе учёные смогли идентифицировать сигналы до определения источника — молекулы метил-катиона (CH3+). Это стало первым подтверждённым обнаружением данного соединения за пределами Земли.
Ещё в 70-х годах прошлого века появилась теория, что для зарождения биологической жизни на Земле и в космосе важным этапом должно стать образование такого соединения углерода, как метил-катион. Это своего рода катализатор или посредник для запуска множества химических реакций, которые в итоге могут привести к образованию соединений, породивших органическую химию. Чтобы подтвердить эту гипотезу метил-катион должен обнаруживаться в космосе, но радиотелескопы не способны его уловить из-за особенностей строения молекулы, а инфракрасные телескопы с Земли банально не работают.
Прорыв произошёл благодаря инфракрасной космической обсерватории «Джеймс Уэбб» с её революционной спектральной и инфракрасной чувствительностью, а также высочайшим на сегодня пространственным разрешением.
Молекула метил-катиона обнаружена в протопланетном диске небольшого красного карлика d203-506 в туманности Ориона. Особенность данного объекта в том, что протопланетный диск подвергается сильной бомбардировке ультрафиолетом от близлежащих молодых и более массивных звёзд. Сам красный карлик на такое не способен. Ультрафиолет, как ни странно для нас это звучит, не разрушает метил-катион, а даёт энергию для запуска процесса его синтеза. Такое, вероятно, происходит на ранних стадиях зарождения органической химии и не вредит ей, а даёт толчок к развитию."
https://3dnews.ru/1089005/dgeyms-uebb-vpervie-obnarugil-vagnuyu-dlya-zarogdeniya-gizni-molekulu-eyo-iskali-bolee-50-let
3DNews - Daily Digital Digest
Важная для зарождения жизни молекула впервые обнаружена за пределами Земли — её искали более 50 лет
Международная группа учёных сообщила о знаковом открытии — в космосе впервые найдена особая молекула углерода, которая важна для зарождения биологической жизни.
#pandas #bollocks
Самая раздражающая штука в пандас - реализация проверки на пустой объект. Какой идиот принял такое решение, ломающее совместимость со всем остальным питоном? Постоянно на этом спотыкаюсь.
То же самое в np.array, к сожалению
И ещё bool(np.nan)=bool(pd.NA)=True
Самая раздражающая штука в пандас - реализация проверки на пустой объект. Какой идиот принял такое решение, ломающее совместимость со всем остальным питоном? Постоянно на этом спотыкаюсь.
if features:
File "C:\ProgramData\Anaconda3\lib\site-packages\pandas\core\generic.py", line 1466, in __nonzero__
raise ValueError(
ValueError: The truth value of a DataFrame is ambiguous. Use a.empty, a.bool(), a.item(), a.any() or a.all().
P.S.:То же самое в np.array, к сожалению
И ещё bool(np.nan)=bool(pd.NA)=True
🥴2😈2
#trading #deprado
Книжка Де Прадо "Advances in financial machine learning", разобранная на конспекты. Для скорости можно просто листать слайды. У меня ощущение, что во всём мире только Маркос Де Прадо и Эрни Чан знают, как эффективно применять ML в финансах )
https://www.youtube.com/playlist?list=PL_ljXO3JR1NJXt9wD7IrwinYMP8-RCcii
Книжка Де Прадо "Advances in financial machine learning", разобранная на конспекты. Для скорости можно просто листать слайды. У меня ощущение, что во всём мире только Маркос Де Прадо и Эрни Чан знают, как эффективно применять ML в финансах )
https://www.youtube.com/playlist?list=PL_ljXO3JR1NJXt9wD7IrwinYMP8-RCcii
🔥2
#ml #trading #targets #deprado
Интересный тип финансового таргета, основанный на информационном дисбалансе.
https://www.youtube.com/watch?v=WOkbYim0DR8
Интересный тип финансового таргета, основанный на информационном дисбалансе.
https://www.youtube.com/watch?v=WOkbYim0DR8
YouTube
Financial Data Structures: Information Driven Bars (Run and Imbalance)
Join our reading group! https://hudsonthames.org/reading-group/
The purpose of information-driven bars is to sample more frequently when new information arrives to the market. In this context, the word “information” is used in a market microstructural sense.…
The purpose of information-driven bars is to sample more frequently when new information arrives to the market. In this context, the word “information” is used in a market microstructural sense.…
#python #codegems
Как передать питоновскому скрипту список в качестве параметра:
Как передать питоновскому скрипту список в качестве параметра:
parser.add_argument('-l','--list', nargs='+', help='<Required> Set flag', required=True)
# Use like:
# python arg.py -l 1234 2345 3456 4567Stack Overflow
How can I pass a list as a command-line argument with argparse?
I am trying to pass a list as an argument to a command line program. Is there an argparse option to pass a list as option?
parser.add_argument('-l', '--list',
type=list, acti...
parser.add_argument('-l', '--list',
type=list, acti...
#ml #featureselection #featureengineering #mrmr #sulov
Наткнулся на новую библиотечку по созданию и отбору признаков. Гордятся реализацией MRMR (Minimum Redundancy Maximum Relevance) и SULOV (Searching for Uncorrelated List of Variables).
https://github.com/AutoViML/featurewiz
Наткнулся на новую библиотечку по созданию и отбору признаков. Гордятся реализацией MRMR (Minimum Redundancy Maximum Relevance) и SULOV (Searching for Uncorrelated List of Variables).
https://github.com/AutoViML/featurewiz
GitHub
GitHub - AutoViML/featurewiz: Use advanced feature engineering strategies and select best features from your data set with a single…
Use advanced feature engineering strategies and select best features from your data set with a single line of code. Created by Ram Seshadri. Collaborators welcome. - AutoViML/featurewiz
❤🔥1👍1
#ml #dask #daskml
Продумываю переход на распределённое обучение с Dask, и внезапно оказывается, что там вроде бы и нет (распределённого) FS (feature selection), OR (outlier removal), TT (target transformer). По крайней мере, в официальной доке нигде упоминаний нет, и непонятно, что будет, если их попробовать с конвейером dask-ml, скорей всего, не сработает. Есть только HPT (Hyper Parameters Tuning) и ES (Early Stopping). В Spark MlLib есть хотя бы FS:
VectorSlicer
RFormula
ChiSqSelector
UnivariateFeatureSelector
VarianceThresholdSelector
Продумываю переход на распределённое обучение с Dask, и внезапно оказывается, что там вроде бы и нет (распределённого) FS (feature selection), OR (outlier removal), TT (target transformer). По крайней мере, в официальной доке нигде упоминаний нет, и непонятно, что будет, если их попробовать с конвейером dask-ml, скорей всего, не сработает. Есть только HPT (Hyper Parameters Tuning) и ES (Early Stopping). В Spark MlLib есть хотя бы FS:
VectorSlicer
RFormula
ChiSqSelector
UnivariateFeatureSelector
VarianceThresholdSelector
#physics #astronomy #hellings #downs #nanograv
Обнаружены корреляции в сбоях сигналов пульсаров из-за длинных гравитационных волн от пар сверхмассивных ЧД. Скорая нобелевка?
https://www.youtube.com/watch?v=R0YHcSMZqBY
Обнаружены корреляции в сбоях сигналов пульсаров из-за длинных гравитационных волн от пар сверхмассивных ЧД. Скорая нобелевка?
https://www.youtube.com/watch?v=R0YHcSMZqBY
YouTube
Открытие гравитационно-волнового фона
Кратко рассказано об открытии гравитационно-волнового фона с помощью систем пульсарного тайминга.
См. статьи и описание результатов в
http://xray.sai.msu.ru/~polar/sci_rev/421.html#arxiv/2306.16213
Некоторые полезные ссылки
https://sergepolar.livejourn…
См. статьи и описание результатов в
http://xray.sai.msu.ru/~polar/sci_rev/421.html#arxiv/2306.16213
Некоторые полезные ссылки
https://sergepolar.livejourn…
#mlflow #bastards
Некоторые фреймворки поражают. В MLFlow в 2023 году НЕТ простой аутентификации. Разворачиваешь свой МЛ-сервер, желая сотрудничать с коллегами из других городов и стран? Будь готов, что твои эксперименты, модели, графики увидит весь мир, ведь парни из mlflow не смогли добавить простую функциональность даже типа логин/пароль. К тому же, если бэк хранится в СУБД, это ещё и прямая дорожка к SQL-иньекциям... Защитить сервер всё же можно, но это надо морочиться с установкой nginx, файлами конфига, документацией. Ну не мудаки ли? Хотя, с другой стороны, это же бесплатно, мудак тут скорее я.
Некоторые фреймворки поражают. В MLFlow в 2023 году НЕТ простой аутентификации. Разворачиваешь свой МЛ-сервер, желая сотрудничать с коллегами из других городов и стран? Будь готов, что твои эксперименты, модели, графики увидит весь мир, ведь парни из mlflow не смогли добавить простую функциональность даже типа логин/пароль. К тому же, если бэк хранится в СУБД, это ещё и прямая дорожка к SQL-иньекциям... Защитить сервер всё же можно, но это надо морочиться с установкой nginx, файлами конфига, документацией. Ну не мудаки ли? Хотя, с другой стороны, это же бесплатно, мудак тут скорее я.
💯2
Forwarded from New Yorko Times (Yury Kashnitsky)
ML system design в реальных проектах – 200 блог-постов
#links_with_intro #ml
Команда Evidently (наверняка знаете Эмели Драль, она с кофаундером Elena Samuylova пилит решение для мониторинга и тестирования ML-моделей) собрала около 200 блог-постов про ML system design в реальных проектах – от Netflix, Doordash, Booking и т.д. Кажется неплохим источником знаний для “курса по Data Science, которого нет”, про который я рассказывал раньше. Я не большой фанат ссылок на в целом классные подборки, которые добавляешь в закладки, а потом забываешь про них навсегда. Но в данном случае действительно крутой ресурс, в том числе для подготовки к собеседованиям.
Сюда же можно добавить еще 10 case studies, собранных Chip Huyen в книге “Designing Machine Learning Systems” (вот мой пост в том числе про эту книгу). Там каждый из 10 кейсов еще вкратце пересказан.
Про видео-интервью про ML system design и книгу Валерия Бабушкина & Арсения Кравченко, думаю, тут все и так в курсе.
#links_with_intro #ml
Команда Evidently (наверняка знаете Эмели Драль, она с кофаундером Elena Samuylova пилит решение для мониторинга и тестирования ML-моделей) собрала около 200 блог-постов про ML system design в реальных проектах – от Netflix, Doordash, Booking и т.д. Кажется неплохим источником знаний для “курса по Data Science, которого нет”, про который я рассказывал раньше. Я не большой фанат ссылок на в целом классные подборки, которые добавляешь в закладки, а потом забываешь про них навсегда. Но в данном случае действительно крутой ресурс, в том числе для подготовки к собеседованиям.
Сюда же можно добавить еще 10 case studies, собранных Chip Huyen в книге “Designing Machine Learning Systems” (вот мой пост в том числе про эту книгу). Там каждый из 10 кейсов еще вкратце пересказан.
Про видео-интервью про ML system design и книгу Валерия Бабушкина & Арсения Кравченко, думаю, тут все и так в курсе.