Aspiring Data Science – Telegram
Aspiring Data Science
385 subscribers
465 photos
12 videos
12 files
2.15K links
Заметки экономиста о программировании, прогнозировании и принятии решений, научном методе познания.
Контакт: @fingoldo

I call myself a data scientist because I know just enough math, economics & programming to be dangerous.
Download Telegram
#vr #mr #quest3 #meta

А тем временем выходит Квест 3 за $500 с вдвое более мощным железом, лучшими линзами и разрешением выше на 30% чем у 2-ки. 2-й я брал за $300, кажется. Смешанную реальность ещё не пробовал, говорят, круто, можно играть в настолки, открывать порталы в стенах (хорошо хоть не проходить), прятаться за диваном от выстрелов в игре.

https://www.youtube.com/watch?v=KoqQCl6l73k
#trading #rotation #chechet

Будни алготрейдера: Ротация торговых систем

https://www.chechet.org/226
#competitions #sber

Новая МЛ-сорева от Сбера стартовала.

"Присоединяйтесь к соревнованию AIJ Contest 2023 и предложите решения пяти актуальных задач в AI

В этом году победители разделят рекордный призовой фонд
в размере более 11 млн рублей. Участникам предстоит решить задачи по AI, каждая из которых настоящий вызов:

Strong Intelligence — создать мультимодальную модель, которая обыгрывает знатоков интеллектуальных викторин и покажет суперуровень эрудиции

Unique RecSys — разработать уникальный RL-алгоритм для подбора максимально релевантного контента

Personal AI — подготовить модели для подбора персонализированных рекомендаций по продуктам

Equal AI — создать модель, распознающую русский жестовый язык по видео

Rescue AI — разработать модель, способную определять изменения в геноме человека"
Одна из моих главных жизненных ценностей - интеллектуальная честность. Поэтому какое-то время назад я провела достаточно много времени, читая материалы про различные когнитивные искажения.
Ну, а главное когнитивное искажение, которое меня волнует при занятиях научными исследованиями - это, конечно же, ошибка подтверждения. В этом контексте она возникает очень часто, и чем дольше я занимаюсь исследованиями в области машинного обучения, тем чаще её замечаю.

Одно из самых заметных проявлений искажения заключается в следующем: как правило, исследователи тратят несравнимо больше времени и усилий на то, чтобы выдавить мельчайшие капельки целевой метрики из своего метода, чем на то, чтобы корректно выбрать и хорошо настроить бейзлайн. И немудрено: ведь то, пройдет ли статья ревью или нет, зависит от того, насколько хороший результат покажет новый метод, а не старый. При использовании новых датасетов, бейзлайны на которых еще неизвестны, особенно легко сделать бейзлайн плохим таким образом, чтобы ревьюеры этого не заметили. При чем иногда это происходит не совсем сознательно, просто от того, что человек не уделяет времени тому, чтобы подобрать своему бейзлайну подходящие гиперпараметры и сделать сравнение честным по всем аспектам.
Из-за мыслей об этом, в последние месяцы я довольно сильно озаботилась бейзлайнами и стала уделять больше времени их продумыванию, настройке и пиханию везде, где мне хватает на это времени и возможности. Это заметно, например, по статье Topological Data Analysis for Speech Processing (см. также пост https://news.1rj.ru/str/tech_priestess/755 ), и по еще одной про NLP домен, которую мы пока что не опубликовали из-за периода анонимности.
В первой статье я предложила добавить такой бейзлайн, в котором информация собиралась бы со всех слоев модели HuBERT не в виде топологических фичей (которые были нашим основным методом), а в виде какой-нибудь более простой аггрегации эмбеддингов с каждого слоя (коллеги в итоге взяли эмбеддинг первого токена и пулинг по эмбеддингам в качестве таких аггрегаций). Целью этого было проверить, действительно ли важную информацию несут именно топологические фичи, или же для хорошего результата достаточно просто пропустить информацию с промежуточных представлений модели. Ответ оказался неоднозначным, потому что для одних датасетов хорошо работало одно, а для других - другое (см. таблицу 1). 🥴 Кроме того, я просила коллегу попробовать потюнить HuBERT по-другому (полностью, а не только последний слой), но это, как ни странно, оказалось хуже других методов и потому не вошло в финальную таблицу.
Ну а во второй, анонимной, из-за того, что я главный автор, я уж совсем развязала себе руки и наплодила целую россыпь бейзлайнов, один из которых натюнила так, что мы его потом сами же и не смогли побить во многих подзадачах (думаю, вероятность того, что статью отвергнут, процентов 90 🥴).

А еще я против того, чтобы сравнивать слишком много (порядка нескольких десятков или, тем более, сотен) вариаций своего метода или фичей на out of domain множествах и потом использовать в статье именно те фичи или тот метод, который хорошо выступил на этом OOD. Я думаю, что если так делать, то OOD множество как бы превращается в множество валидации (так как если ты выбираешь из большого множества методов один, то это тоже получется как будто ты затюнил на этом множестве гиперпараметр). Несколько вариаций своего метода я по такому принципу сравнить ещё могу, но несколько десятков уже считаю подгонкой.

Иногда мне, однако, кажется, что я задалбываю окружающих своими заебомбами по этим поводам.
Сколько времени на самом деле разумно тратить на настройку бейзлайна? 🤷‍♂️ Сколько раз можно проверять точность методов на test или OOD множествах, прежде чем эти множества превратятся в valid и прекратят реально отображать обобщаемость наших решений? 🤷‍♂️
В общем, где грань разумного, за которой кончается реальная забота об объективности и начинается паранойя? 🥴

#рассуждения
Please open Telegram to view this post
VIEW IN TELEGRAM
1
#trading #hft #amd #hardware #fpga

Компания AMD анонсировала специализированный ускоритель Alveo UL3524 на базе FPGA, ориентированный на финтех-сферу. Решение, как утверждается, позволяет трейдерам, хедж-фондам, брокерским конторам и биржам совершать операции с задержками наносекундного уровня.

В основу новинки положен чип FPGA Virtex UltraScale+, выполненный по 16-нм технологии. Конфигурация включает 64 трансивера с ультранизкой задержкой, 780 тыс. LUT и 1680 DSP.

Отмечается, что Alveo UL3524 обеспечивает в семь раз меньшую задержку по сравнению с FPGA предыдущего поколения. В частности, инновационная архитектура трансиверов с оптимизированными сетевыми ядрами позволяет добиться показателя менее 3 нс.

https://servernews.ru/1093861
#poetry #dragons

"так и быть, расскажу, и на этом давай закончим,
потому что любые слова не надёжней рассветной сини.

...жил да был один мальчик, мечтавший убить дракона,
потому что о прочем мечтать не хватало силы.

он искал зверюгу в домах,
по полям да весям,
по лесам и оврагам, по гулким пустым пещерам.
а дракон приходил к нему в сны и смеялся весело,
желтоватые зубы щерил.

а дракон приходил ночами, меняя облик,
как иные меняют любовниц и убеждения.
приходил то чешуйчатым гадом, то сизым облаком,
приходил светом солнца и тонкой тенью.

а дракон говорил,
и был вкрадчив голос,
говорил, как земля, высыхая, шипит, замерзая стонет,
как поёт, прорастая, пырей, как лепечет колос,
как дорога в нутре хранит девятьсот историй.
говорил, что ручьи не бегут, а уходят в почву,
что любовь – угольки: вроде греет, а тронешь – жжётся,
говорил, как звенят по весне на деревьях почки,
что в постели спать жутко, на камне – жёстко.

что осенние звёзды летят как листва,
и горят гнилушками,
что огромное горе скрежещет в груди металлом.
вот о чём дракон говорил.
только мальчик его не слушал,
а с упорством искал дракона в нездешних далях.

эта глупая сказка диктует свои законы:
отмахнись от неё, отгони, словно это мошка.
жил да был один мальчик, мечтавший убить дракона,
и искавший дракона везде, где нельзя и можно.
он искал по погостам, в подвалах, в хлевах, на крышах,
на местах прошлых битв и в гулком закатном зареве.

а пока он искал, проросли из лопаток крылья,
чешуя проросла на шее и под глазами."

"Long ago in a time of tales when
Mighty dragons ruled the sky
In his castle a knight so wealthy
Dwelled in the woods by the riverside

Filled with greed he dreamt of the treasures
That the dragons were said to own
So one day he went out to kill them
Claim all the riches for his own

Dragonslayer - Raise your sword up high
Dragonslayer - Blood is spilled tonight

Soon he had slain many a dragon
Just a single one of them left
Far beyond all imaginations
Were the treasures that he possessed

No one had ever seen this monster
The most dangerous beast of them all
And the knight in his shiny armour
Headed for this last dragon to fall

To a cave in the highest mountains
He then rode with an evil grin
In a fierce and long lasting battle
Neither the dragon nor he could win

His eyes then caught a glimpse of the treasure
Fascinated he turned his head
In this moment the dragon hit him
Bleeding his body dropped down dead

Dragonslayer - You are gonna die
Dragonslayer - Your blood is spilled tonight"

https://www.youtube.com/watch?v=_V5q11x6q4g
#trading #erema

Немного новостей по торговому боту и моделям для него. Выяснилось, что у меня неправильно и плохо делалась поинструментная нормализация, это не позволило обучать боевые модельки и послужило поводом перегенерации фичей. Ну и последнее, конечно, триггернуло реализацию всех накопившихся идей и исправление всех обнаруженных недочётов, которое я планировал вообще-то на Фазу 2.

В результате посл. месяца работы у меня теперь есть:
правильно нормализованные данные (а цены, объёмы, открытые интересы надо нормализовать по-разному)
статы по подгруппам и категориальным факторам
статы над взвешиванием
статы над вейвлетами
статы над отношениями, разностями
статы над скользящими окнами от пандас
робастные подмножества
новый блок рыночных профилей
новый детальный блок "просадочных" фичей
мультиокна (время, сделки, валютные объёмы, имбалансовые)
окна инструмент vs рынок
живые корреляции и фичи по "наиболее коррелированному с данным инструменту"
более экономное хранение признаков, перевод вычисления их части после открытия файлов данных
добавление нового признака "красивости/круглости" цен, по рекомендациям скальперских видосов
допфичи, связанные со спецификой фьючерсов (базовый тикер, время до экспирации)
новые фичи для детекции mean reversion
фичи по динамическим интервалам (от макс и мин цены по инструменту за тек. сессию)

В процессе реализации:
фичи по инструменту и рынку за прошлый день
посекторные фичи биржи за прошлый день
фичи netflow2 за прошлый день
почасовые фичи futoi
улучшение фичей по OI и TotalBids/TotalAsks (повышение их статуса до интервальных)
то же по "стаканным" фичам, + некоторые доппризнаки опять же по советам доменных экспертов
динамические таргеты, больше базовых статистик, скользящие статы от предыдущих таргетов как допфакторы
, triple barrier targets
ranked targets

Умом я понимаю, что так глубоко закапываться сразу не надо, надо итерироваться побыстрее, выводить в работу продукт пусть и более сырой, зато поскорее, ведь я видел следы предсказуемости уже и с тем, что было в Фазе 0. Но ничего поделать с собой не могу, слишком долго я размышлял о внедрении всех этих плюшек.

О производительности и требуемых мощностях. По одному окну признаков-кандидатов рассчитывается уже более 10 тысяч, в 1 поток расчёт идет полминуты (это лишь 1 момент на бирже!). А таких окон планируется десятки. И в день таких моментов миллионы. Надо сказать, что с 128 Гб RAM я признаки даже из Фазы 0 проекта не смог промоделировать более 10 торговых дней. А ведь это я пока работаю только с упрощённым и неполным набором данных. Соответственно, дальше работать можно только в парадигме bigdata с кластерными вычислениями и горизонтальным масштабированием.

Для кластерных расчётов я выбрал Dask, и мне ещё предстоит обеспечить совместимость с ним моих существующих ML конвейеров, да и грядущего отборщика признаков Diogenes. Также в октябре-ноябре, видимо, предстоят облачные расходы в сотни и тысячи долларов, что уже начинает бить по бюджету, т.к. последние полгода я не отвлекался на сторонние подработки. Если к 1 ноября получится обучить первые модельки в Dask на всех этих новых признаках, это уже можно будет считать успехом )

Кстати, раскрою секрет, применение моего полусырого отборщика признаков в Фазе 0 значительно улучшило OOS ML-метрики, что очень вдохновляет.

В целом, с одной стороны я недоволен этим годом, т.к. по традиции не завершил ни одного из своих проектов, притом начав много новых, с другой стороны, я сделал огромную работу и существенно улучшил инструменты в своём ML-арсенале, воплотив в жизнь много старых интересных идей. Ну а что ещё нам остаётся, кроме как идти к намеченным целям, пусть и маленькими шажками, порой путаясь, блуждая и возвращаясь, но идти?
#law #twitter

Настоящая Гадде.

"Судья Кэтлин Сент-Джуд Маккормик (Kathaleen Saint Jude McCormick) вынесла решение в пользу бывшего генерального директора Twitter Парага Агравала (Parag Agrawal) и бывшего главного юридического советника Виджаи Гадде (Vijaya Gadde). Судья пришла к выводу, что компания Илона Маска (Elon Musk) нарушила обязательства по возмещению юридических расходов, связанных с их работой в компании.

Как только Маск стал владельцем компании, он уволил Агравала и других ключевых руководителей. Это произошло вскоре после того, как Twitter подала иск к Маску за попытку отказаться от сделки по приобретению компании за $44 млрд.

В апреле Агравал и Гадде подали иск против X, утверждая, что компания не оплатила их юридические счета, в том числе за выступление Гадде перед Комитетом Палаты представителей США по надзору и реформам (HCOR). Как сообщает Bloomberg, X оплатила из долга только около $600 тыс. Юристы компании заявили, что руководители X испытали «шок от ценника», увидев чрезмерно высокий счет на $1,1 млн от адвокатов Гадде.

Судья Маккормик признала, что $1,1 млн — это значительная сумма, но, тем не менее, приняла решение в пользу бывших руководителей Twitter. «Я ознакомилась с указанной суммой. Она весьма существенная, но является обоснованной», — заявила Маккормик."

https://3dnews.ru/1093978/sud-obyazal-kompaniyu-x-viplatit-11-mln-bivshim-rukovoditelyam-twitter
#trading #moex #competitions

ЛУЧШИЙ ЧАСТНЫЙ ИНВЕСТОР 2023

"Конкурс инвесторов от Московской биржи. Призы для новичков и опытных трейдеров — розыгрыши каждые две недели, всего более 600 призов и грандиозный финал с призами до 1 млн рублей
Призовой фонд более 27M руб.
Срок проведения конкурса: с 05 октября по 21 декабря включительно. Организатор конкурса: ПАО Московская биржа."

https://investor.moex.com/
#hardware #clouds

"Британская компания NexGen Cloud, по сообщению ресурса Datacenter Dynamics, намерена инвестировать $1 млрд в проект AI Supercloud: речь идёт о развёртывании так называемого ИИ-супероблака в Европе. Создание платформы начнётся в текущем месяце. NexGen Cloud уже оформила заказы на оборудование на сумму приблизительно $576 млн. В полностью завершённом виде система объединит 20 тыс. ускорителей NVIDIA H100.

Завершение создания платформы запланировано на июнь 2024 года. Доступ к системе будет предоставляться через гиперстек NexGen Cloud. Ресурсы AI Supercloud будут доступны предприятиям и государственным заказчикам, которые должны оставаться в европейской юрисдикции. Предполагается, что супероблако позволит клиентам решать ресурсоёмкие задачи ИИ, оставаясь конкурентоспособными на глобальном рынке."

https://servernews.ru/1094063