Aspiring Data Science – Telegram
Aspiring Data Science
385 subscribers
465 photos
12 videos
12 files
2.15K links
Заметки экономиста о программировании, прогнозировании и принятии решений, научном методе познания.
Контакт: @fingoldo

I call myself a data scientist because I know just enough math, economics & programming to be dangerous.
Download Telegram
#visualisation

«The greatest value of a picture is when it forces us to notice what we never expected to see.»
John Tukey
#ml #tropicmean

Ты дата-сайентист, но никогда не слышал про тропическое среднее и зодиакальный скоринг? Тебе сюда:


https://github.com/Dyakonov/PZAD/blob/master/2020/PZAD2020_011probweights_07n.pdf
1
Внезапно

#youknownothing
#ml #applied #dyakonov

Как нетрудно догадаться, обнаружил очередной гениальный ПЗАД-курс Александра Дъяконова.

Рекомендую всем к изучению, и буду здесь выкладывать лекции с наиболее интересными тэгами по мере изучения материала.

https://github.com/Dyakonov/PZAD/

https://www.youtube.com/watch?v=FNDQYM0hjh0&list=PLaRUeIuewv8CMFox0oEjlyePUhUmo-x0h&ab_channel=AlexanderD%27yakonov
3
#math #stats

Для ценителей математической красоты, но не просто абстрактной, а на стыке с практикой и реальностью.

"А. М. Шурыгин, Нестандартные вариационные задачи в математической статистике, Труды МИАН, 2002, том 236, 378–385."

"Сорок лет очень активных поисков “робастных” оценок, которые должны быть устойчивыми к малым вариациям модельной плотности распределения, имеют скромные успехи. Оптимальная устойчивая оценка не была найдена даже для центра нормального распределения: оценки зависели от неоцениваемых параметров. Причиной являлось использование традиционных методов математической статистики в нестандартной задаче. Использование методов вариационного исчисления и функционального дифференцирования сводит задачу к нестандартной задаче вариационного исчисления и после ее решения делает проблему простой и дает возможность получить компактное оптимальное решение для произвольного параметра распределения."

https://www.mathnet.ru/links/52bfcb49243e547ab0fadf40df1054dc/tm309.pdf
1
#people

"Д-р техн. наук
Шурыгин Александр Михайлович (31.05.1931, город Москва — 20.01.2012, город Москва).

Окончил с золотой медалью среднюю школу № 554 города Москвы (1949). В том же году поступил на геологический факультет МГУ, а в 1954 года окончил его. Обучался в аспирантуре Института физики Земли (1954–1957). В 1965 году поступил на вечернее отделение механико-математического факультета МГУ, которое окончил в 1970 году.

Кандидат геолого-минералогических наук (1959), тема диссертации: «Условия формирования структур юго-восточного Кавказа» (научный руководитель В. В. Белоусов). Доктор технических наук (2002), тема диссертации: «Асимптотическая теория устойчивого оценивания». Учёное звание — старший научный сотрудник (1970).

Почётный работник высшего и среднего профессионального образования Российской Федерации (2006). Заслуженный научный сотрудник Московского университета (2007). Награждён медалью «В память 850-летия Москвы» (1997).

Член Международной Ассоциации по математической геологии, член Американского математического общества."

http://www.machinelearning.ru/wiki/index.php?noscript=%D0%A3%D1%87%D0%B0%D1%81%D1%82%D0%BD%D0%B8%D0%BA:A.shurygin

https://cs.msu.ru/persons/shurigin-a-m
Forwarded from Gamba
За кого будет Harvey, у того и победа, я так думаю

Даже немного поигравшись с сетками для юриспруденции, начинаешь понимать, что ВСЯ юридическая работа (я имею в виду legal research, а не общение/выступления, то не работа а чистый кайф) делается gpt быстро и настолько круто, что люди там и рядом не стояли

Найти прецеденты, статьи, регуляции, сделать comparative analysis по разным юрисдикциям, прикрутить к этому умные книжки, проверить все решения судьи у которой выступаешь и цитировать ей её саму и её любимые источники - это всё на английском делается настолько легко, что судя по всему к концу года в суд нужно будет посылать красивых людей, которые умеют читать с телепромптера
👀1
#trading

"Фондовый рынок для широкой публики выглядит как одна большая история успеха. Со стороны кажется, что на нем можно быстро достичь впечатляющих результатов, начав с относительно небольшой суммой денег, и что здесь все зависит от ваших способностей и мотивации.

Большой успех, большие доходности, большие деньги – все, что с этим связано, вызывает живой интерес. Людям нравится думать, что они могут быть причастны к этому великолепию. Все как будто находится на расстоянии вытянутой руки, достаточно открыть биржевой терминал.

Рынок как площадка для приложения сил выглядит потрясающе интересным для человека, готового активно погружаться в тему в надежде на неординарный результат. Все выглядит так, будто эта площадка дает такую грандиозную отдачу на вложенные усилия, какую вряд ли можно отыскать где-нибудь еще. Создается даже впечатление, что люди на бирже зарабатывает направо и налево. Как можно удержаться и не попробовать?

Люди идут на рынок, чтобы стать частью этой большой и красивой истории успеха. Они идут на свет больших возможностей, чтобы бросить в рынок свою энергию, свои надежды.

Однако реальность такова, что в массе своей ожидания неординарной отдачи на вложенные усилия терпят грандиозный провал. Конечно, процесс все же выбрасывает отдельные истории успеха, которые радостно подхватывает информационное пространство, и потому складывается впечатление, что все идет своим чередом. У кого-то получается, у кого-то не очень, как и в любом другом деле.

Масштаб провала ожиданий не виден сразу, он становится для человека более или менее понятным лишь со временем. Информационное поле продолжает тиражировать истории успеха, вы продолжаете видеть вокруг оптимистичных, уверенных в будущем людей, но постепенно начинаете догадываться о масштабах подводной части этого айсберга.

Картина происходящего на рынках оказывается для внешнего наблюдателя чересчур оптимистичной, и в целом понятно почему.

Во-первых, никто не любит говорить о своих неудачах – это не всегда полезно для публичного имиджа. Потерпев поражение, люди предпочтут отойти в сторону, прийти в себя и пойти другой дорогой, стараясь поменьше вспоминать о неприятном опыте.

Во-вторых, истории неудач не так востребованы публикой, как истории успеха. Да, конечно, история провала – это полезная, поучительная история, и, пожалуй, даже более полезная, чем история успеха.

Но в век соцсетей быстрее будет разлетаться информация, имеющая сильный эмоциональный заряд. Истории успеха вдохновляют и воодушевляют, а что делают истории провалов? Портят настроение тем, кто все еще пытается? Информационное поле не будет сильно стараться в распространении того, на что нет спроса.

Возникает перекос – вы видите много хороших историй и мало плохих.

Поэтому легко возникает иллюзия, будто бы на рынках отдача на усилия чрезвычайно велика, будто бы рынок – это пространство доступных возможностей, которыми грех не воспользоваться. Ведь вы приходите на рынок не с пустыми руками, вы несете туда свой капитал, и для большинства участников этот капитал – результат усилий на другом направлении, где они успешно реализовали какие-то свои таланты. Это лучшее доказательство, что они на что-то способны, что у них есть козыри в схватке с рынком. Поэтому нельзя сказать, что на рынке действует толпа недотеп. Активные, предприимчивые, способные люди приходят на рынок и пытаются реализовать свое мастерство в принятии правильных решений. И в массе своей терпят провал.

Даже если говорить только о доходности, этот провал выглядит удручающе. Но здесь нужно учитывать массу усилий, которые уходят на исследования, на разработки, на работу с информационными потоками и анализ ландшафта возможностей. Нужно учитывать упущенные возможности, которые эти люди могли бы иметь, если бы рынок не захватил их внимание обещанием исключительной отдачи. Наконец, нужно учитывать напряжение и уровень стресса, которые будут неизбежно сопровождать попытки активно взаимодействовать с рыночной стихией.
1👍1
Если учесть все это, то довольно печальный результат активного массового участника наводит на сравнение фондового рынка с черной дырой, которая крепко удерживает вас гравитацией больших надежд и пожирает ваши усилия, оставляя взамен только бесценный опыт ошибок и поражений.

Может быть, на рынке нет возможностей и это банальное казино, где выигрыш гарантирован только заведению? Но это очевидно не так. Рынок акций – по большому счету это место, где корпорации распределяют прибыли между акционерами. Процесс имеет положительную сумму, потому что корпорации в среднем зарабатывают деньги. Люди, которые вообще не вкладывают никаких усилий, держатели пассивных портфелей акций, стабильно оказываются в плюсе на многолетних горизонтах. А люди, которые пытаются достичь значительно большего своей активностью, в среднем не менее стабильно от них отстают.

Почему же активные, способные люди, доказавшие умение принимать адекватные решения и создавать прибыль, в массе своей терпят крах эпических масштабов в попытке превратить свои усилия и таланты в достойную доходность? Масштаб провала ожиданий порождает вопрос: не имеет ли рынок каких-то особенных свойств, которые этому провалу способствуют?"

https://mybook.ru/author/aleksandr-kurguzkin/labirint-illyuzij-v-pogone-za-uspehom-na-finansovy/read/
1
#astronomy

"Уран является седьмой планетой от Солнца, и он действительно уникален. Планета вращается «лежа на боку» — экватор повёрнут к плоскости орбиты почти на 98 градусов. Этим обусловлены экстремальные климатические условия, ведь полюса Урана в течение многих лет находятся под солнечным светом, а затем на столь же длительный период погружаются в полную темноту. Период обращения Урана вокруг Солнца занимает 84 года. В настоящее время на северном полюсе, который попал в объектив космической обсерватории, идёт поздняя весна, а лето наступит в 2028 году."

https://3dnews.ru/1084668/teleskop-dgeyms-uebb-zapechatlel-uran-s-koltsami-i-sputnikami
#pandas #bugs #bollocks

Только решил поработать с финансовыми данными, так на них обосрался pandas. Ну как так-то, а? Он же такой медленный, такой проверенный временем и сотнями тысяч кодеров.

https://github.com/pandas-dev/pandas/issues/52505
😁1
#astronomy

"Согласно проделанным расчётам, сверхмассивная чёрная дыра с массой около 20 млн масс Солнца быстро удаляется от двойной системы чёрных дыр. Беглянка оставила за собой невиданный ранее шлейф из новорожденных звёзд длиной 200 000 световых лет. Длина шлейфа в два раза превышает диаметр нашей галактики Млечный Путь — это колоссальное и абсолютно необычное образование. Условным началом этого необычного космического бильярда можно считать вероятное образование 50 млн лет назад двойной системы из чёрных дыр — она родилась из двух сошедшихся галактик. Затем появилась третья галактика со своей сверхмассивной чёрной дырой в центре и в системе началась гравитационная разбалансировка. Одна из трёх чёрных дыр получила импульс и была выброшена из галактики-хозяина. Она полетела в одну сторону, а пара других дыр — в другую. Похоже, что двойная система чёрных дыр тоже покидает галактику-хозяина, поскольку в её центре чёрные дыры не определяются, а на границе замечена активность."

https://3dnews.ru/1084720
#news #business #trading

Есть некоторые подвижки по проекту с трейдингом, в который я решил влезть.

Хотя опционные стратегии очень привлекательны, их надо изучать как минимум несколько месяцев, и я это отодвину на следующий год (если жив буду). А пока сосредоточусь на линейных инструментах российского фондового и срочного рынков.

Естественным образом проект распадается на 3 части:

1) прогнозирование (что будет с рынком или инструментом через некоторое время? если это вообще возможно)
2) торговая политика (а что конкретно нам делать, имея прогнозы?). сюда входят также бэктест и оптимизация параметров.
3) исполнение - это уже торговый робот

Я пока частично осилил часть 0, получение данных.
#trading #predictions #ml

По пункту 1, прогнозирование, решил работать поблочно.
Модели строить буду для следующих блоков признаков:
1) текущие факторы:
-активные заявки
-биржевые "стаканы" и их вариации
2) интервальные факторы
-поток заявок и сделок
-изменения уровней текущих стаканов за период
-корреляции между инструментом и остальным рынком, + в среднем все ко всем
-профили рынка (по сути это стаканы, но не для заявок, а для сделок)

Пока получилось коряво собрать признаки одного из блоков на одном торговом дне, обучить модельку, удостовериться, что она лучше Dummy. Надеюсь в течение следующей недели добавить многопоточность, нормально сделать фичи блока, в разбивке по buy/sell, whole market/instrument, opens/executions/cancels, и запустить расчёт хотя бы по одному блоку, что можно прогнозировать и на какой горизонт.
Если что-то удастся найти, придётся переходить на распределённые вычисления в Dask, т.к. один месяц сырых биржевых данных (на срочном рынке это около миллиарда событий) занимает в RAM ~60Гб, и это ещё без сгенерированных признаков.
#trading #tradingpolicy

По части 2, торговая политика, есть пока что только смутная идея простой стратегии. Если получится предсказывать движение актива, то разумным выглядит открытие минимальной позиции в сторону движения наибольшей вероятности (большей MIN_PROB), с установкой фиксированного перемещаемого стоп-лосса SL. Если направление прогноза меняется, опционально стоп-лосс можно подтягивать к рыночной цене. Ещё его опционально можно выводить в зону безубыточности, на это ответить должна оптимизация.

Следуя рекомендации "начинай ML-проекты без ML", мне нравится идея побэктестить этот подход, в качестве прогнозов движения цен на некоторый интервал тупо используя факт за такой же прошлый интервал. Если на бэктесте это будет давать не сильно большие убытки, можно это запустить в реале на минималках, чтобы погрузиться в реалии рынка, увидеть проблемные места, пофиксить баги. API у брокера я уже подключил. Запланирую это сделать в течение сл. 2 недель.
#news #energyforecasting #competition

Ещё из новостей, недавно завершилось мини-соревнование по предсказанию цен на электричество в Техасе на следующие 24 часа, 4 дата-сайентиста в течение 10 дней разработали модели, которые потом месяц тестировались на живых данных в реальном времени. Я занял 1е место и получил небольшой, но приятный бонус в $5k (хотя, конечно, пришлось потратиться на облачные расчёты). Входными данными служили почасовые исторические цены, расход энергии, погода (включая влажность, силу ветра, облачность, температуру и тд) в США за 2 года в разбивке по штатам, плюс оперативные прогнозы завтрашнего расхода от третьей стороны. Метрикой служила RMSE, модифицированная на 4 самых высоких и самых низких значения цены за день. Модели можно было сделать переобучаемыми, и так и поступили остальные участники, я же это просто не успел реализовать. Как я понял, соперники использовали стандартные в timeseries-задачах подходы типа sktime, prophet, глубокое обучение (включая временной мультитрансформер). Что было интересно в этой задаче, при начальном разведочном тестировании я canned timeseries DL- варианты отбросил, т.к. у меня они не проходили кросс-валидацию по сравнению с эталонными моделями (в частности, с "прогноз тупо равен значению день назад"). Хотя как вариант, DL наверняка помог бы в ансамбле, но на это банально не хватило времени. По итогу у меня получился усредняющий мини-ансамбль из бустинга и леса над множеством с любовью скрафченных признаков над временными окнами, +FS+нешаблонный таргет (с которым пришлось потом сильно заморочиться, чтобы получить финальные прогнозы), + набор целевых постпроцессоров/трансформеров. Также должен отметить в данной задаче плохой глобальный уровень signal-to-noise. Нам не предоставили итоговых OOS оценок производительности, есть только 2 скрина с начальных дней соревнования, привожу в каментах один из них. Мои модельки выступали под лейблом Part 4. Это пример того, что не всегда надо кидаться делать "как все", или "как принято в этой области", иногда выгодно начинать делать "как лучше умеешь/знаешь/думаешь". Решение я с тех пор подрихтовал, сделал более модульным, исправил ошибки, тщательнее потестировал, добавил в библиотеку новые признаки. Надеюсь его применить в новом проекте с финансовыми данными.

https://www.youtube.com/watch?v=B1q8Oe7AAVA
👍3❤‍🔥1🔥1