NEW BOT Телеграм, страница

Aspiring Data Science

#news #business #trading

Есть некоторые подвижки по проекту с трейдингом, в который я решил влезть.

Хотя опционные стратегии очень привлекательны, их надо изучать как минимум несколько месяцев, и я это отодвину на следующий год (если жив буду). А пока сосредоточусь на линейных инструментах российского фондового и срочного рынков.

Естественным образом проект распадается на 3 части:

1) прогнозирование (что будет с рынком или инструментом через некоторое время? если это вообще возможно)
2) торговая политика (а что конкретно нам делать, имея прогнозы?). сюда входят также бэктест и оптимизация параметров.
3) исполнение - это уже торговый робот

Я пока частично осилил часть 0, получение данных.

50 viewsedited 18:03

Aspiring Data Science

#trading #predictions #ml

По пункту 1, прогнозирование, решил работать поблочно.
Модели строить буду для следующих блоков признаков:
1) текущие факторы:
-активные заявки
-биржевые "стаканы" и их вариации
2) интервальные факторы
-поток заявок и сделок
-изменения уровней текущих стаканов за период
-корреляции между инструментом и остальным рынком, + в среднем все ко всем
-профили рынка (по сути это стаканы, но не для заявок, а для сделок)

Пока получилось коряво собрать признаки одного из блоков на одном торговом дне, обучить модельку, удостовериться, что она лучше Dummy. Надеюсь в течение следующей недели добавить многопоточность, нормально сделать фичи блока, в разбивке по buy/sell, whole market/instrument, opens/executions/cancels, и запустить расчёт хотя бы по одному блоку, что можно прогнозировать и на какой горизонт.
Если что-то удастся найти, придётся переходить на распределённые вычисления в Dask, т.к. один месяц сырых биржевых данных (на срочном рынке это около миллиарда событий) занимает в RAM ~60Гб, и это ещё без сгенерированных признаков.

51 viewsedited 18:30

Aspiring Data Science

#trading #tradingpolicy

По части 2, торговая политика, есть пока что только смутная идея простой стратегии. Если получится предсказывать движение актива, то разумным выглядит открытие минимальной позиции в сторону движения наибольшей вероятности (большей MIN_PROB), с установкой фиксированного перемещаемого стоп-лосса SL. Если направление прогноза меняется, опционально стоп-лосс можно подтягивать к рыночной цене. Ещё его опционально можно выводить в зону безубыточности, на это ответить должна оптимизация.

Следуя рекомендации "начинай ML-проекты без ML", мне нравится идея побэктестить этот подход, в качестве прогнозов движения цен на некоторый интервал тупо используя факт за такой же прошлый интервал. Если на бэктесте это будет давать не сильно большие убытки, можно это запустить в реале на минималках, чтобы погрузиться в реалии рынка, увидеть проблемные места, пофиксить баги. API у брокера я уже подключил. Запланирую это сделать в течение сл. 2 недель.

51 views18:36

Aspiring Data Science

#news #energyforecasting #competition

Ещё из новостей, недавно завершилось мини-соревнование по предсказанию цен на электричество в Техасе на следующие 24 часа, 4 дата-сайентиста в течение 10 дней разработали модели, которые потом месяц тестировались на живых данных в реальном времени. Я занял 1е место и получил небольшой, но приятный бонус в $5k (хотя, конечно, пришлось потратиться на облачные расчёты). Входными данными служили почасовые исторические цены, расход энергии, погода (включая влажность, силу ветра, облачность, температуру и тд) в США за 2 года в разбивке по штатам, плюс оперативные прогнозы завтрашнего расхода от третьей стороны. Метрикой служила RMSE, модифицированная на 4 самых высоких и самых низких значения цены за день. Модели можно было сделать переобучаемыми, и так и поступили остальные участники, я же это просто не успел реализовать. Как я понял, соперники использовали стандартные в timeseries-задачах подходы типа sktime, prophet, глубокое обучение (включая временной мультитрансформер). Что было интересно в этой задаче, при начальном разведочном тестировании я canned timeseries DL- варианты отбросил, т.к. у меня они не проходили кросс-валидацию по сравнению с эталонными моделями (в частности, с "прогноз тупо равен значению день назад"). Хотя как вариант, DL наверняка помог бы в ансамбле, но на это банально не хватило времени. По итогу у меня получился усредняющий мини-ансамбль из бустинга и леса над множеством с любовью скрафченных признаков над временными окнами, +FS+нешаблонный таргет (с которым пришлось потом сильно заморочиться, чтобы получить финальные прогнозы), + набор целевых постпроцессоров/трансформеров. Также должен отметить в данной задаче плохой глобальный уровень signal-to-noise. Нам не предоставили итоговых OOS оценок производительности, есть только 2 скрина с начальных дней соревнования, привожу в каментах один из них. Мои модельки выступали под лейблом Part 4. Это пример того, что не всегда надо кидаться делать "как все", или "как принято в этой области", иногда выгодно начинать делать "как лучше умеешь/знаешь/думаешь". Решение я с тех пор подрихтовал, сделал более модульным, исправил ошибки, тщательнее потестировал, добавил в библиотеку новые признаки. Надеюсь его применить в новом проекте с финансовыми данными.

https://www.youtube.com/watch?v=B1q8Oe7AAVA

YouTube

Cold In May - Halo Of The Gone

👍3❤‍🔥1🔥1

48 viewsedited 19:42

Aspiring Data Science

#politics #economics

Ожидаем дальнейшего ослабления рубля, а, возможно, и деноминации к зиме?

https://www.youtube.com/watch?v=lLlUSqQhrqY

YouTube

Откровения беглеца. Когда деноминация? Как защититься от угроз. Ответы на горячие вопросы. Вып.15.

Онлайн-подключение к выступлению Валерия Соловья 13 апреля: https://myofficeonline.ru/

НАСТОЯЩИЙ МАТЕРИАЛ (ИНФОРМАЦИЯ) ПРОИЗВЕДЕН, РАСПРОСТРАНЕН И (ИЛИ) НАПРАВЛЕН ИНОСТРАННЫМ АГЕНТОМ СОЛОВЬЕМ ВАЛЕРИЕМ ДМИТРИЕВИЧЕМ ЛИБО КАСАЕТСЯ ДЕЯТЕЛЬНОСТИ ИНОСТРАННОГО…

43 viewsedited 20:25

Aspiring Data Science

#timeseries #wavelets #lpf #hpf #eegbands #stft #cwt #dwt #waveletconvolution #scattering

Датасайентист, но не знаешь, что вэйвлеты делятся на пап (фи) и мам (пси)? Тебе сюда:

https://www.youtube.com/watch?v=fxfS0vSAsTA

https://www.youtube.com/watch?v=JyonDStpIsY

YouTube

Wavelets-based Feature Extraction

On the use of wavelets (wavelet transform and wavelet packet transform) for feature extraction based on signals.

48 viewsedited 00:29

Aspiring Data Science

#ApproximateEntropy #SampleEntropy #FuzzyEntropy #DistributionEntropy #PermutationEntropy #antropy #EntropyHub

Измерение сложности сигнала

https://www.youtube.com/watch?v=5vOYgJ-80Bg

https://github.com/raphaelvallat/antropy

YouTube

Measuring Signal Complexity/Regularity

We are looking at feature extraction using Approximate Entropy - Sample Entropy - Fuzzy Entropy - Distribution Entropy and Permutation Entropy. These are measures of signal complexity or regularity (how repeatable or chaotic are the signals or time-series…

41 viewsedited 01:19

Aspiring Data Science

#gpt

"Выпущенная в марте ИИ-модель GPT-4 в 90 % случаев правильно отвечала на вопросы из экзамена на получение лицензии врача, выступая лучше ChatGPT на базе GPT-3 и GPT-3.5 и даже некоторых докторов, у которых уже есть лицензии.

GPT-4 отлично проявил себя не только как экзаменуемый и знаток фактов, но и как переводчик. Он разобрался с медицинской выпиской пациента на португальском языке и перефразировал наполненный техническим жаргоном текст в материал, с которым справится и шестиклассник. ИИ предлагал врачам полезные советы, как вести себя у постели больного и как разговаривать с пациентом о его состоянии понятным, но сострадательным языком. Машина справлялась с обработкой объёмных отчётов об обследовании, мгновенно обобщая их содержимое.

Свои ответы система излагала в формате, который как будто указывает на интеллект сродни человеческому, но исследователи всё равно пока делают вывод, что в своих размышлениях ИИ ограничен шаблонами — пускаться в полноценные рассуждения с причинно-следственными связями GPT-4 ещё не умеет. Тем не менее, когда системе предложили данные по реальному случаю, та на уровне специалиста с годами учёбы и практики верно диагностировала редкую болезнь."

https://3dnews.ru/1084755/poslednyaya-versiya-chatgpt-sdala-meditsinskiy-ekzamen-i-v-schitannie-sekundi-postavila-pravilniy-diagnoz

3DNews - Daily Digital Digest

Все самое интересное из мира IT-индустрии

Самые интересные и оперативные новости из мира высоких технологий. На нашем портале - все о компьютерном железе, гаджетах, ноутбуках и других цифровых устройствах. А также обзоры новых игр, достижения современной науки и самые любопытные онлайн-проекты.

👍1

42 views02:12

Aspiring Data Science

#hardware #mlperf #benchmark

NVIDIA снова поставила рекорды в ИИ-бенчмарке MLPerf Inference, но конкурентов у неё становится всё больше

"В целом, NVIDIA продолжает доминировать по показателям производительности, лидируя во всех категориях. Вместе с тем стартапы Neuchips и SiMa обошли NVIDIA по производительности в пересчёте на Ватт по сравнению с показателями NVIDIA H100 и Jetson AGX Orin соответственно. Ускоритель Qualcomm Cloud AI100 также показал хорошие результаты энергоэффективности в сравнении NVIDIA H100 в некоторых сценариях."

https://servernews.ru/1084751

39 viewsedited 02:22

Aspiring Data Science

#GPT #Bloomberg

"Bloomberg потратила около 1,3 млн GPU-часов на обучение BloombergGPT на ускорителях NVIDIA A100 в облаке AWS. Обучение проводилось на 64 кластерах ускорителей, в каждом из которых было по восемь A100 (40 Гбайт), объединённых NVswitch. Для связи использовались 400G-подключения посредством AWS Elastic Fabric и NVIDIA GPUDirect Storage, а для хранения данных была задействована распределённая параллельная файловая система Lustre с поддержкой скорости чтения и записи до 1000 Мбайт/с. Общего объёма памяти всех ускорителей оказалось недостаточно, поэтому Bloomberg произвела оптимизацию для обучения модели: разбиение на отдельные этапы, использование вычислений смешанной точности (BF16/FP32) и т.д. «После экспериментов с различными технологиями мы достигли [производительности] в среднем 102 Тфлопс, а каждый этап тренировки занимал 32,5 с», — сообщили исследователи.

Bloomberg задействовала чуть больше половины (54 %) имеющегося у неё набора данных — 363 млрд документов (с 2007 года) из внутренней базы данных Bloomberg. Остальные 345 млрд документов были получены из общедоступных пресс-релизов, новостей Bloomberg, публичных документов и даже Википедии. Документы получили название «токен». Исследователи стремились, чтобы обучающие последовательности имели длину 2048 токенов, чтобы поддерживать максимально высокий уровень использования ускорителей."

https://servernews.ru/1084721

ServerNews - все из мира больших мощностей

Bloomberg создала собственную ИИ-модель BloombergGPT, которая меньше ChatGPT, но эффективнее при использовании в финансовых операциях

Финансовая фирма Bloomberg решила доказать, что существуют более разумные способы тонкой настройки ИИ-приложений, не имеющих проблем с соблюдением принципов этики или с безопасностью, с которыми сталкиваются при использовании, например, ChatGPT.

👍1

43 viewsedited 02:26

Aspiring Data Science

#ml #graphs #sberbank

"«Визуализация графов» отвечает за доступ к интерактивному просмотру графов и выявляет скрытые взаимосвязи между компаниями и физлицами, а сервис поиск неявных связей Link Prediction — за неизвестные факты о связанности клиентов, если данные о них изначально отсутствовали или были скрыты.

Среди сервисов также есть «Графовые нейронные сети» (GNN) — это готовый пайплайн обучения Graph Convolutional Network на базе PyTorch Geometric по собственным таргетам. «Встраиваемая графовая база данных» подходит для нестандартных решений. В ядре платформы Сбера находится собственная производительная база данных FastGraph, а также open-source-технологии стека Hadoop.

Как отмечают в компании, уже собрано более 17 Пбайт плотно связанной между собой неоднородной обезличенной информации. Сервисы платформы применяются в десятках автоматизированных бизнес-процессов Сбера. BI-инструментами и данными платформы пользуется 6,5 тыс. специалистов компании."

https://servernews.ru/1084444

ServerNews - все из мира больших мощностей

За кредитование Сбера ответит собственная графовая платформа

Сбер разработал графовую платформу для работы с большими данными и встроил ее в бизнес-процессы корпоративного и розничного кредитования. В компании уверяют, что это позволит эффективнее принимать решения о выдаче кредитов и их параметрах.

50 views02:28

Aspiring Data Science

image_2023-04-09_06-19-45.png

37.4 KB

Хотел использовать ЧатГПТ для помощи со статьёй, плюнул. Городит чушь, не знаю, что там она за диагнозы пациентам ставит.

49 views03:19

Aspiring Data Science

#ApproximateEntropy #SampleEntropy #FuzzyEntropy #DistributionEntropy #PermutationEntropy #antropy #EntropyHub Измерение сложности сигнала https://www.youtube.com/watch?v=5vOYgJ-80Bg https://github.com/raphaelvallat/antropy

Заинтересовал вопрос, а можно ли с помощью этих методов различить случайный и структурированный сигнал. Так что зачем-то вместо сна я всю ночь делал расчёты и писал статью. Отправил на ревью в TowardsDataScience, посмотрим, примут ли.

🤯1

48 views08:28

Aspiring Data Science

#numpy #bugs

Нампай тож свалился на этом проекте )) Захотел 4 эксбибайта памяти.

https://github.com/numpy/numpy/issues/23564

GitHub

BUG: Memory Overflow in np.histogram with bins="auto" · Issue #23564 · numpy/numpy

Describe the issue: Something is wrong with the "auto" option. Reproduce the code example: import numpy as np hist, bin_edges = np.histogram( np.array( [ -4.24264069e00, -5.55111512e-17, ...

52 viewsedited 00:53

Aspiring Data Science

#trading #ml

Интересный таргет придумали.

https://www.youtube.com/watch?v=y4dycLL6w2U

YouTube

Криптовалюты, алготрейдинг и ML — Михаил Горкунов, Евгений Сидоров, Андрей Шапулин

Секция SysML, part 1
Data Fest⁵, 2018.04.28

73 viewsedited 04:20

Aspiring Data Science

#trading #crypto #hft #backtesting

https://www.youtube.com/watch?v=7whTVJ9MA20

YouTube

#ЦМФ FastForward: алгоритмический трейдинг, криптовалюты, крах FTX, маркетмейкинг, бэктест, карьера

Современный маркетмейкинг на криптобиржах:

Михаил Горкунов, Co-Founder & Head of Quantitative Research @ FastForward Trading
Андрей Белоусов, Head of Development Team @ FastForward Trading

0:00 Введение
2:00 О Fast Forward Trading
3:05 На каких биржах торгуют…

57 viewsedited 04:54

Aspiring Data Science

#trading #crypto #hft #backtesting https://www.youtube.com/watch?v=7whTVJ9MA20

#stats #probability #python

https://www.youtube.com/watch?v=blMLK620yCg

YouTube

#ЦМФ. Проект по теории вероятностей, математической статистике и случайным процессам

Александр Ланцов, студент программы «Количественная аналитика»:

0:35 Первая неделя: генераторы случайных чисел
2:35 Данные по коронавирусу
4:55 Вторая неделя: обработка данных по коронавирусу — учёт выходных и понедельников, оценка распределения, анализ…

51 views05:11

Aspiring Data Science

#finance #optimalstopping

Вау, сам Альберт Николаевич Ширяев. Применяет теорию оптимальной остановки случайного процесса к задаче buy & hold. Что интересно, в области ООП работал в своё время даже... Березовский )

https://www.youtube.com/watch?v=Hv1iZhYvfoE

YouTube

#ЦМФ Альберт Николаевич Ширяев, академик (Мехмат МГУ): Стратегия Buy&Hold #Финансовая_математика

Альберт Николаевич Ширяев — ученик А. Н. Колмогорова, заведующий кафедрой Теории вероятностей Мехмата МГУ, создатель российской школы финансовой математики

0:01 Что такое Buy&Hold?
1:55 Практическая постановка задачи в банке: как продать акцию по максимальной…

52 viewsedited 05:21

Aspiring Data Science

#trading #nlp

https://www.youtube.com/watch?v=nYr5mkhALMk

YouTube

#ЦМФ. Проект по скорингу новостей и использованию новостей для алгоритмического трейдинга

Максим Звегинцев, студент программы «Количественная аналитика»:

0:15 Постановка задачи и обзор данных
1:08 Предобработка данных
3:30 BERT (Bidirectional Encoder Representations from Transformers)
5:22 Оценка результатов

Страница ЦМФ: https://vk.com/cmf_russia…

71 views05:41

Aspiring Data Science

#ml #contest

Это было первое моё соревнование в DS. Я тогда ни фига не знал, раскрыв рот смотрел на бэйзлайн, в котором использовался pandas. Прошло 6 лет, а всё так же ничего не знаю, по ощущениям. Но по-прежнему жутко интересно.

https://www.youtube.com/watch?v=BRwIIEXnXXU

YouTube

Sberbank Data Science Contest: предсказание пола клиента — Михаил Горкунов

Михаил Горкунов рассказывает, как можно подойти к задаче предсказания пола клиента в банке, которая решалась в рамках Sberbank Data Science Contest. Из видео вы сможете узнать:

- Можно ли деанонимизировать платежные данные
- Какие признаки можно строить…

51 views05:57

Aspiring Data Science

#trading

https://www.youtube.com/watch?v=3UDnIgGturg

YouTube

Алготрейдинг. Торговые роботы. Круглый стол.

Сергей Васильев, Арам Гущян, Евгений Бочаров, Алексей Афанасьевский

http://confa.smart-lab.ru/

50 views07:06

About

Blog

Apps

Platform