Aspiring Data Science – Telegram
Aspiring Data Science
386 subscribers
465 photos
12 videos
12 files
2.15K links
Заметки экономиста о программировании, прогнозировании и принятии решений, научном методе познания.
Контакт: @fingoldo

I call myself a data scientist because I know just enough math, economics & programming to be dangerous.
Download Telegram
Почему так сложно популярно рассказывать про алгебраическую топологию? (Часть 3).

Один из примеров - мостиков между аппаратом алгебраической топологии в высших размерностях и реальным миром можно усмотреть в такой концепции, как равновесие Нэша (по ссылке - видео с рассказом простым языком, что это такое). Оказывается, что доказательство существования равновесия Нэша для широкого класса игр опирается на теорему о неподвижной точке на n-мерной сфере , которая, в свою очередь, доказывается с помощью подсчета фундаментальной группы этой сферы. Правда, и здесь выходит загвоздка: если само равновесие Нэша можно понять без знания университетской математики, то доказательство существования этого равновесия и доказательство самой теоремы Брауэра можно понять только используя соответствующий математический аппарат, в чем можно убедиться, проследовав по двум последним ссылкам. 🤷‍♀️

Вот так и получается, что в алгебраической топологии происходит много всего интересного, а объяснить без сложной математики получается только ее крошечную часть, которая едва ли дает представление о богатстве этой науки. Можно сделать такое сравнение: пытаться показать, в чем прикол алгебраической топологии, пользуясь лишь повседневными терминами да двумерными рисунками - это все равно, что пытаться показать, в чем прикол небоскреба Бурдж-Халифа, пользуясь тремя камешками.
Конечно, можно положить три камешка друг на друга и сказать "Бурдж-Халифа - это очень высокое здание, в котором этажи построены друг над другом, так же, как я положила друг на друга эти камни". Но много ли особенностей удивительного здания раскроет это объяснение? Можно ли с помощью трех камешков изобразить длинные и массивные подземные сваи, на которых покоится небоскреб и объяснить, почему они нужны? Можно ли с их помощью показать, какие ухищрения придумывают во время строительства таких сверхвысоких домов и почему они получаются такими дорогими? Или показать на примере "башенки" из трех камешков, почему небоскребы делают не жесткими, а гибкими, позволяя им раскачиваться под порывами ветра, но они все равно не падают? Для таких объяснений понадобится явно больше инструментов и понятий, чем три камня.

Таково свойство самой области: основная часть алгебраической топологии уходит так же далеко от наглядных и привычных нам понятий, как башня Бурдж-Халифа - от поверхности земли, теряясь в утреннем тумане. Вдали от привычных нам повседневных образов и понятий, только очень точный математический аппарат позволяет вникнуть во все тонкости и не потеряться во всех этих высших размерностях, также, как он же помогает башне Бурдж-Халифа не упасть и не сломаться.

#математика
#physics #mass #higgs

Интересно рассказано про распределение массы в атоме, вообще не знал такого.
И про то, что разные элементарные частицы обретают массу с помощью разных механизмов, для многих наверняка станет неожиданностью.

https://www.youtube.com/watch?v=jo8CSlD_Elk
👍1
Forwarded from СМАРТЛАБ
Активных инвесторов становится больше.

Мосбиржа: активных инвесторов становится больше, они продолжают делать 80% объёма в торгах акциями и приносят новые деньги на биржу

Мосбиржа поделилась итогами четвёртого месяца 2023 года, а также пересчитала своих клиентов и рассказала, что они покупали активнее всего. Посмотрим итоги мая и взглянем на народный портфель майского инвестора.

Сама Мосбиржа сравнивает показатели с прошлым годом, а я сравню май с апрелем, так проще оценить динамику. Пока Мосбиржа рассказывает о росте в 3 раза, месяц к месяцу показатели растут намного скромнее.

Число физических лиц, имеющих брокерские счета на Московской бирже, по итогам мая 2023 года составило 25,56 млн (+496,3 тыс. человек за май 2023 года); ими открыто 43,34 млн счетов (+955 тыс. счетов за май).

Количество частных клиентов, совершавших сделки на Московской бирже, в мае составило 2,8 млн человек. То есть, в мае было 10,95% активных инвесторов. Виден постепенный рост активных инвесторов, а приток свежей крови по месяцам примерно равный, около полумиллиона ежемесячно.

При этом физлица довольно заметны на рынке акций и фьючерсов. Их доля в объёме торгов акциями – 80,8%, в объёме торгов облигациями – 30,2%, на спот-рынке валюты – 17,9%, на срочном рынке – 64,2%. Хоть доля физиков в торгах акций и снизилась, но незначительно, всего на 0,7%.

Кроме того, физики несут деньги на биржу. Не так активно, как до февраля 2022, но по нарастающей. С октября 2022 года чистый приток рос почти каждый месяц. Исключением стал лишь март 2023 года, когда показатель упал на 35,62% по сравнению с предыдущим месяцем и составил 47 млрд.

Всего за четыре месяца 2023 года объём ценных бумаг в портфелях частных инвесторов увеличился в 1,5 раза — с 482 млрд на конец 2022 года до 759 млрд на конец апреля. Для сравнения, по итогам мая 2022 года этот показатель был на уровне 301 млрд, а на конец февраля прошлого года — 334 млрд.

Чистый приток средств в акции и биржевые фонды на них достиг 31,8 млрд, в корпоративные и государственные облигации — 45,6 млрд и 11,8 млрд соответственно.

Это связано и с ростом индекса Мосбиржи, и с началом дивидендного сезона, и с доходностью облигаций, но в целом, факторов может быть ещё больше.

Дивидендный сезон продолжался и в мае. Дивиденды от многих компаний уже пришли, в июне также ожидаются выплаты.

Продолжение читайте на Смартлабе:
https://smart-lab.ru/blog/911413.php
#stats #infographic

alpha бы не повредила
#pandas #gems

Не так-то просто использовать .isin в пандас сразу для нескольких полей. Единственное, что работает, это кортежи, списком не выйдет:

df[df[['DEVICE', 'READING']].apply(tuple, axis = 1).isin([('DEV1', 'READ1'), ('DEV1', 'READ2'), ('DEV2','READ1')])]
#pandas

Вот говорят, мол, пандас, взрослый мощный фреймворк, опенсорс, все дела.
Но попробуйте применить к датафрейму .query по полю с мультииндексом, окажется, что в общем случае нет способа это сделать. Запрос висит на гитхабе в открытом статусе с 2016. "Что это, глупость или предательство?"
#gpt

"Модель GPR-3.5-turbo получила расширенное контекстное окно (количество текста, учитываемое в процессе генерации). Увеличение контекстного окна позволяет модели лучше понимать смысл запросов и выдавать более соответствующие им ответы, не отклоняясь от темы. Модель GPR-3.5-turbo имеет контекстное окно в 16 тыс. токенов, что в четыре раза больше по сравнению с аналогичным показателем GPT-3.5. Также было объявлено, что в настоящее время OpenAI тестирует модель GPT-4 с контекстным окном в 32 тыс. токенов.

Стоимость использования стандартной версии GPT-3.5-turbo (без расширенного контекстного окна) снижена на 25 % до $0,0015 за 1 тыс. входных токенов и $0,002 за 1 тыс. выходных токенов, что соответствует примерно 700 страницам текста за $1. Стоимость использования модели text-embedding-ada-002, которая позволяет измерить сходство текстов, снижена на 75 % до $0,0001 за 1 тыс. токенов."

https://3dnews.ru/1088373/openai-predstavila-gpt35turbo-i-gpt4-novie-funktsii-i-snigennaya-stoimost-ispolzovaniya
#trading #ml #chan

Любопытный подход к отбору признаков: сначала схожие фичи группируются в кластера, дальнейший отбор ведётся FS-алгоритмом уже по кластерам. Видимо, это сразу решает проблему колллинеарности.

https://www.youtube.com/watch?v=2-5HYJ0HhyQ
👍1
#yandex #ml #recommenders #transformers

Лучшие результаты для рекомендации Яндекс музыки дал трансформер сразу с 3+ лоссами.
Слишком большая история оказалась вредной.

Проделана гигантская работа, при этом вероятность лайка рекомендованного трека выросла всего на ~2%.
Правда, разнообразие рекомендаций увеличилось на 6%, и вероятность лайка не слышанного ранее трека взлетела уже на 16%.

Неясно, что имелось в виду, проценты или процентные пункты. Абсолютные итоговые значения вероятностей не разгласили.

https://www.youtube.com/watch?v=bk7J1oZGw6A&
#numpy

В нампай, оказывается, можно легко докинуть нулей к массиву, хоть слева, хоть справа.

A = np.array([1,2,3,4,5])

np.pad(A, (2, 3), 'constant')
# array([0, 0, 1, 2, 3, 4, 5, 0, 0, 0])
1
#irobot #news

Насосали.

"Предложенная компанией Amazon сделка по покупке за $1,7 млрд фирмы iRobot, занимающейся производством роботов-пылесосов, была полностью одобрена антимонопольным ведомством Великобритании. Положительное решение регулятора привело к резкому росту акций iRobot до начала торгов, пишет издание Bloomberg."

https://3dnews.ru/1088520/velikobritaniya-odobrila-sdelku-po-pogloshcheniyu-irobot-kompaniey-amazon
#trading #erema

Немного новостей по торговому боту. Пытаясь начать проект без МЛ (была у меня идейка, покупать дёшево и продавать дорого), потратил несколько недель и понял, что без МЛ, за счёт простого перебора параметров, не получается, это путь в никуда. Работу над биржевыми данными высокого разрешения вел около месяца, попутно улучшая свою библиотечку для временных рядов.

Внезапно понял, что по курсу скальпинга, куда я записался месяц тому, уже прошли все уроки и полагается вовсю торговать (ручками) на заведённые 20 т.р., а я не сделал ещё ни одной сделки. Отбросил на этих выходных пока дорогие детальные данные в сторону, и засел за более доступные, идущие от брокера бесплатно, с желанием написать хоть что-то, сумеющее за меня не совсем позорно поторговать.

Прогресс существенный:

1) благодаря библиотеке AlorPy настроил сбор стриминговых данных от брокера и сохранение в базу. Прилетают просто сотни изменений стаканов в секунду.

2) построил детальный план по моделированию, с чего начинать и в каком порядке добавлять. на простых признаках потренировался на нескольких днях, увидел вроде предсказуемость.

3) сегодня несколько усложнил модель с использованием своей достаточно богатой библиотечки статпризнаков над 3 группами торговых факторов. Офигел от количества требуемых расчётов. На 16 ядрах 1 торговый день будет обсчитываться около часа. И это я ещё урезал хотелки. На первых порах домашний сервер сойдёт, но для серьёзной работы только облако, только Dask/Spark. Благо бэк сервиса поиска дешёвых серверов у меня готов и работает уже 2 недели без сбоев.

На сегодня план дописать многопоточный расчёт признаков. В течение недели:
1) обсчитать хотя бы месяц торгов и построить пару моделек с разными таргетами
2) написать простой бэктестер и потестить несколько торговых политик, основанных на прогнозах
3) научиться применять лучшую модель на живом потоке рыночных данных
4) запустить робота с лучшей политикой в работу

Всё это хотел сделать за выходные к сегодняшнему утру вообще-то, но теперь не уверен, хватит ли даже недели.
🔥3🆒2❤‍🔥1