Aspiring Data Science – Telegram
Aspiring Data Science
386 subscribers
465 photos
12 videos
12 files
2.15K links
Заметки экономиста о программировании, прогнозировании и принятии решений, научном методе познания.
Контакт: @fingoldo

I call myself a data scientist because I know just enough math, economics & programming to be dangerous.
Download Telegram
Почему так сложно популярно рассказывать про алгебраическую топологию? (Часть 1).

Большую часть поста я напишу более-менее доступным языком, чтобы общий посыл был понятен не только топологам, но и другим интересующимся, снабдив его ссылками на видео и статьи с объяснениями. Но часть поста будет сложной.

Итак, в основном топология занимается изучением многообразий - очень грубо выражаясь, поверхностей различной размерности, от одномерных (таких, как отрезок или окружность) и двумерных (таких, как сфера, лента Мебиуса или тор) до сколько-угодно-мерных.
Похоже, что топология одномерных многообразий (узлов, кос) ближе всего к наблюдаемой физической реальности, так как она имеет больше всего непосредственных, "осязаемых" приложений к чему-то практическому. Например, она помогает лучше понять механизмы репликации ДНК и, как следствие, механизмы действия химиотерапии (короткое видео); входит в новые концепции квантовых вычислений (короткое видео), более устойчивых к помехам. И это уже не говоря о том, что даже такая повседневная и простая вещь, как ткань, из которой сделана наша одежда, имеет прямую связь с теорией узлов, т.к. вполне осязаемые физические свойства ткани зависят от топологии зацепления нитей (длинное видео).
Но чем больше размерность изучаемых многообразий - тем дальше они от непосредственно наблюдаемой реальности, от того, что можно "пощупать". А в алгебраической топологии очень много интересных феноменов появляются только в высоких размерностях, в более высоких, чем мы можем нарисовать или представить себе наглядно.

Например, в алгебраической топологии есть такое понятие, как бордантность. Определение бордантности для не-математиков может прозвучать страшновато: замкнутые многообразия без края M и N называются бордантными, если существует такое многообразие K (с размерностью на 1 больше), что M и N являются границами K.
Надеюсь, определение станет понятнее после такого примера: любые две окружности являются бордантными друг другу, потому что мы можем построить такой цилиндр, что одна окружность будет служить одним основанием цилиндра, а другая - другим. Это верно и для многообразий, состоящих из нескольких отдельных окружностей, что проиллюстрировано в статье по ссылке выше, где вместо цилиндра рисуют "штаны". Далее можно отметить, что все замкнутые одномерные многообразия без края являются либо окружностью, либо набором из нескольких окружностей (отрезок не входит в рассмотрение, так как у него есть края). Закручена ли это окружность в виде какого-то узла или нет, в данном определении роли не играет. Таким образом, можно показать, что все одномерные многообразия, для которых определено отношение бордантности, бордантны между собой.
А вот для двух двумерных поверхностей уже не так. Некоторые двумерные поверхности имеют две стороны - внутреннюю и внешнюю, например, тор, а некоторые - только одну, например, бутылка Клейна (крошечное видео). (Примечание: еще чуть-чуть об односторонних поверхностях рассказано тут). Наиболее глубоко прочувствовать различие этих двух видов поверхностей можно, если понять, почему двусторонние поверхности являются ориентируемыми, а односторонние - неориентируемыми (по ссылке красивое старое видео). И вот, наличие одно- и двухсторонних поверхностей дает интересное следствие: оказывается, все двумерные односторонние поверхности без края бордантны друг другу; все двумерные двусторонние поверхности без края бордантны друг другу; а вот односторонняя и двусторонняя поверхность между собой не бордантны. Т.е., нельзя придумать трехмерного многообразия такого, что одной из его границ является бутылка Клейна, а другой - тор.
Но как можно изобразить доказательство такого факта на картинке? Мы ведь не можем спроецировать все это на плоскость так, чтобы не потерять свойство одно-или дву-стороннести. Поэтому доказательство не выйдет сделать наглядным. Поэтому про бордизмы в популярных изложениях, к моему большому сожалению, не рассказывают, а ведь мне эта теория кажется красивой, плюс она хорошо иллюстрирует то, как при увеличении размерности пространства обретают новые свойства.

#математика
Почему так сложно популярно рассказывать про алгебраическую топологию? (Часть 2).

Тем не менее, хоть я и не могу ничего из этого нарисовать или даже просто в полной мере объяснить без формул, я решила набросить еще пару абзацев про бордантность, чтобы проиллюстрировать еще один важный аспект алгебраической топологии, который, к сожалению, очень редко упоминается в популярных изложениях - пайплайн, по которому топологи переходят от поверхностей (~ многообразий) к чистой алгебре. Этот аспект также не прост, но, я надеюсь, что можно будет уловить главную мысль.

Алгебраическим топологам очень нравится тот факт, что все бордантные между собой многообразия имеют некое сходство между собой, то есть, говоря математическим языком, "эквивалентны с точностью до бордизма". А эквивалентные штуки математики любят объединять в классы. Например, все одномерные многообразия без края (то есть, окружности) бордантны между собой и потому объединяются в один класс бордантности, а двумерные уже имеют два класса бордантности (один класс порождается двусторонними поверхностями, другой класс - односторонними; есть тонкости в том, что происходит, когда мы берем многообразия, являющиеся объединениями тех и других, но сейчас просто придется принять на веру, что эти объединения все равно либо бордантны одной односторонней поверхности, либо одной двусторонней). Эти классы называются классами эквивалентности.
Каждый такой класс эквивалентности можно рассматривать не только как набор объектов, но и как один, цельный математический объект - то есть, обозначить этот класс какой-то буквой и использовать в уравнениях. Удивительно, но оказывается, что с этими буквами (которые обозначают классы эквивалентности) можно производить вполне осмысленные операции, похожие на сложение и умножение чисел. Выражаясь алгебраическим языком, эти буквы (или классы), образуют группу (и даже кольцо). В частности, операция объединения непересекающихся многообразий в некотором смысле соответствует операции сложения в такой группе. То есть, поэтически выражаясь, операции на многообразиях как бы отражаются в мире алгебры с помощью зеркала - бордантности. Но для понимания этого факта уже придется изучить основы высшей алгебры - в частности, что такое группа и т.д.. В отличие от статей и видео по предыдущим ссылкам, то, что написано по последней ссылке, без знаний основ этой науки не понять.



Подводя итог, в моём рассказе про бордантность было проиллюстрировано не только появление интересных свойств у многообразий более высоких размерностей, но и один из главных пайплайнов алгебраической топологии:
1) придумать отношение эквивалентности на многообразиях;
2) определить классы эквивалентности;
3) превратить эти классы в алгебраические объекты;
4) изучить то, какие алгебраические операции можно делать с этими объектами.

Конечно, тот же самый пайплайн можно применить, используя вместо бордантности более популярные инструменты - гомологии, когомологии, гомотопии (в частности, фундаментальные группы). Я выбрала для объяснения бордантность потому что мне нравится ее связь с ориентируемостью, наличием одной или двух сторон у двумерных многообразий и с тем, как свойства многообразий меньшей размерности выражаются с помощью многообразий большей размерности. Я думаю, это раскрывает данные темы из алгебраической топологии под новым углом.

Здесь, однако, может возникнуть новый, справедливый вопрос, а зачем вообще строят такие сложные пайплайны? Есть ли какой-то смысл изучать такие алгебраические отражения гиперповерхностей высоких размерностей, кроме как ради искусства? Оказывается, что такой смысл есть.

#математика
Почему так сложно популярно рассказывать про алгебраическую топологию? (Часть 3).

Один из примеров - мостиков между аппаратом алгебраической топологии в высших размерностях и реальным миром можно усмотреть в такой концепции, как равновесие Нэша (по ссылке - видео с рассказом простым языком, что это такое). Оказывается, что доказательство существования равновесия Нэша для широкого класса игр опирается на теорему о неподвижной точке на n-мерной сфере , которая, в свою очередь, доказывается с помощью подсчета фундаментальной группы этой сферы. Правда, и здесь выходит загвоздка: если само равновесие Нэша можно понять без знания университетской математики, то доказательство существования этого равновесия и доказательство самой теоремы Брауэра можно понять только используя соответствующий математический аппарат, в чем можно убедиться, проследовав по двум последним ссылкам. 🤷‍♀️

Вот так и получается, что в алгебраической топологии происходит много всего интересного, а объяснить без сложной математики получается только ее крошечную часть, которая едва ли дает представление о богатстве этой науки. Можно сделать такое сравнение: пытаться показать, в чем прикол алгебраической топологии, пользуясь лишь повседневными терминами да двумерными рисунками - это все равно, что пытаться показать, в чем прикол небоскреба Бурдж-Халифа, пользуясь тремя камешками.
Конечно, можно положить три камешка друг на друга и сказать "Бурдж-Халифа - это очень высокое здание, в котором этажи построены друг над другом, так же, как я положила друг на друга эти камни". Но много ли особенностей удивительного здания раскроет это объяснение? Можно ли с помощью трех камешков изобразить длинные и массивные подземные сваи, на которых покоится небоскреб и объяснить, почему они нужны? Можно ли с их помощью показать, какие ухищрения придумывают во время строительства таких сверхвысоких домов и почему они получаются такими дорогими? Или показать на примере "башенки" из трех камешков, почему небоскребы делают не жесткими, а гибкими, позволяя им раскачиваться под порывами ветра, но они все равно не падают? Для таких объяснений понадобится явно больше инструментов и понятий, чем три камня.

Таково свойство самой области: основная часть алгебраической топологии уходит так же далеко от наглядных и привычных нам понятий, как башня Бурдж-Халифа - от поверхности земли, теряясь в утреннем тумане. Вдали от привычных нам повседневных образов и понятий, только очень точный математический аппарат позволяет вникнуть во все тонкости и не потеряться во всех этих высших размерностях, также, как он же помогает башне Бурдж-Халифа не упасть и не сломаться.

#математика
#physics #mass #higgs

Интересно рассказано про распределение массы в атоме, вообще не знал такого.
И про то, что разные элементарные частицы обретают массу с помощью разных механизмов, для многих наверняка станет неожиданностью.

https://www.youtube.com/watch?v=jo8CSlD_Elk
👍1
Forwarded from СМАРТЛАБ
Активных инвесторов становится больше.

Мосбиржа: активных инвесторов становится больше, они продолжают делать 80% объёма в торгах акциями и приносят новые деньги на биржу

Мосбиржа поделилась итогами четвёртого месяца 2023 года, а также пересчитала своих клиентов и рассказала, что они покупали активнее всего. Посмотрим итоги мая и взглянем на народный портфель майского инвестора.

Сама Мосбиржа сравнивает показатели с прошлым годом, а я сравню май с апрелем, так проще оценить динамику. Пока Мосбиржа рассказывает о росте в 3 раза, месяц к месяцу показатели растут намного скромнее.

Число физических лиц, имеющих брокерские счета на Московской бирже, по итогам мая 2023 года составило 25,56 млн (+496,3 тыс. человек за май 2023 года); ими открыто 43,34 млн счетов (+955 тыс. счетов за май).

Количество частных клиентов, совершавших сделки на Московской бирже, в мае составило 2,8 млн человек. То есть, в мае было 10,95% активных инвесторов. Виден постепенный рост активных инвесторов, а приток свежей крови по месяцам примерно равный, около полумиллиона ежемесячно.

При этом физлица довольно заметны на рынке акций и фьючерсов. Их доля в объёме торгов акциями – 80,8%, в объёме торгов облигациями – 30,2%, на спот-рынке валюты – 17,9%, на срочном рынке – 64,2%. Хоть доля физиков в торгах акций и снизилась, но незначительно, всего на 0,7%.

Кроме того, физики несут деньги на биржу. Не так активно, как до февраля 2022, но по нарастающей. С октября 2022 года чистый приток рос почти каждый месяц. Исключением стал лишь март 2023 года, когда показатель упал на 35,62% по сравнению с предыдущим месяцем и составил 47 млрд.

Всего за четыре месяца 2023 года объём ценных бумаг в портфелях частных инвесторов увеличился в 1,5 раза — с 482 млрд на конец 2022 года до 759 млрд на конец апреля. Для сравнения, по итогам мая 2022 года этот показатель был на уровне 301 млрд, а на конец февраля прошлого года — 334 млрд.

Чистый приток средств в акции и биржевые фонды на них достиг 31,8 млрд, в корпоративные и государственные облигации — 45,6 млрд и 11,8 млрд соответственно.

Это связано и с ростом индекса Мосбиржи, и с началом дивидендного сезона, и с доходностью облигаций, но в целом, факторов может быть ещё больше.

Дивидендный сезон продолжался и в мае. Дивиденды от многих компаний уже пришли, в июне также ожидаются выплаты.

Продолжение читайте на Смартлабе:
https://smart-lab.ru/blog/911413.php
#stats #infographic

alpha бы не повредила
#pandas #gems

Не так-то просто использовать .isin в пандас сразу для нескольких полей. Единственное, что работает, это кортежи, списком не выйдет:

df[df[['DEVICE', 'READING']].apply(tuple, axis = 1).isin([('DEV1', 'READ1'), ('DEV1', 'READ2'), ('DEV2','READ1')])]
#pandas

Вот говорят, мол, пандас, взрослый мощный фреймворк, опенсорс, все дела.
Но попробуйте применить к датафрейму .query по полю с мультииндексом, окажется, что в общем случае нет способа это сделать. Запрос висит на гитхабе в открытом статусе с 2016. "Что это, глупость или предательство?"
#gpt

"Модель GPR-3.5-turbo получила расширенное контекстное окно (количество текста, учитываемое в процессе генерации). Увеличение контекстного окна позволяет модели лучше понимать смысл запросов и выдавать более соответствующие им ответы, не отклоняясь от темы. Модель GPR-3.5-turbo имеет контекстное окно в 16 тыс. токенов, что в четыре раза больше по сравнению с аналогичным показателем GPT-3.5. Также было объявлено, что в настоящее время OpenAI тестирует модель GPT-4 с контекстным окном в 32 тыс. токенов.

Стоимость использования стандартной версии GPT-3.5-turbo (без расширенного контекстного окна) снижена на 25 % до $0,0015 за 1 тыс. входных токенов и $0,002 за 1 тыс. выходных токенов, что соответствует примерно 700 страницам текста за $1. Стоимость использования модели text-embedding-ada-002, которая позволяет измерить сходство текстов, снижена на 75 % до $0,0001 за 1 тыс. токенов."

https://3dnews.ru/1088373/openai-predstavila-gpt35turbo-i-gpt4-novie-funktsii-i-snigennaya-stoimost-ispolzovaniya
#trading #ml #chan

Любопытный подход к отбору признаков: сначала схожие фичи группируются в кластера, дальнейший отбор ведётся FS-алгоритмом уже по кластерам. Видимо, это сразу решает проблему колллинеарности.

https://www.youtube.com/watch?v=2-5HYJ0HhyQ
👍1
#yandex #ml #recommenders #transformers

Лучшие результаты для рекомендации Яндекс музыки дал трансформер сразу с 3+ лоссами.
Слишком большая история оказалась вредной.

Проделана гигантская работа, при этом вероятность лайка рекомендованного трека выросла всего на ~2%.
Правда, разнообразие рекомендаций увеличилось на 6%, и вероятность лайка не слышанного ранее трека взлетела уже на 16%.

Неясно, что имелось в виду, проценты или процентные пункты. Абсолютные итоговые значения вероятностей не разгласили.

https://www.youtube.com/watch?v=bk7J1oZGw6A&
#numpy

В нампай, оказывается, можно легко докинуть нулей к массиву, хоть слева, хоть справа.

A = np.array([1,2,3,4,5])

np.pad(A, (2, 3), 'constant')
# array([0, 0, 1, 2, 3, 4, 5, 0, 0, 0])
1