Aspiring Data Science – Telegram
Aspiring Data Science
385 subscribers
465 photos
12 videos
12 files
2.15K links
Заметки экономиста о программировании, прогнозировании и принятии решений, научном методе познания.
Контакт: @fingoldo

I call myself a data scientist because I know just enough math, economics & programming to be dangerous.
Download Telegram
#trading #erema

Немного новостей по торговому боту и моделям для него. Выяснилось, что у меня неправильно и плохо делалась поинструментная нормализация, это не позволило обучать боевые модельки и послужило поводом перегенерации фичей. Ну и последнее, конечно, триггернуло реализацию всех накопившихся идей и исправление всех обнаруженных недочётов, которое я планировал вообще-то на Фазу 2.

В результате посл. месяца работы у меня теперь есть:
правильно нормализованные данные (а цены, объёмы, открытые интересы надо нормализовать по-разному)
статы по подгруппам и категориальным факторам
статы над взвешиванием
статы над вейвлетами
статы над отношениями, разностями
статы над скользящими окнами от пандас
робастные подмножества
новый блок рыночных профилей
новый детальный блок "просадочных" фичей
мультиокна (время, сделки, валютные объёмы, имбалансовые)
окна инструмент vs рынок
живые корреляции и фичи по "наиболее коррелированному с данным инструменту"
более экономное хранение признаков, перевод вычисления их части после открытия файлов данных
добавление нового признака "красивости/круглости" цен, по рекомендациям скальперских видосов
допфичи, связанные со спецификой фьючерсов (базовый тикер, время до экспирации)
новые фичи для детекции mean reversion
фичи по динамическим интервалам (от макс и мин цены по инструменту за тек. сессию)

В процессе реализации:
фичи по инструменту и рынку за прошлый день
посекторные фичи биржи за прошлый день
фичи netflow2 за прошлый день
почасовые фичи futoi
улучшение фичей по OI и TotalBids/TotalAsks (повышение их статуса до интервальных)
то же по "стаканным" фичам, + некоторые доппризнаки опять же по советам доменных экспертов
динамические таргеты, больше базовых статистик, скользящие статы от предыдущих таргетов как допфакторы
, triple barrier targets
ranked targets

Умом я понимаю, что так глубоко закапываться сразу не надо, надо итерироваться побыстрее, выводить в работу продукт пусть и более сырой, зато поскорее, ведь я видел следы предсказуемости уже и с тем, что было в Фазе 0. Но ничего поделать с собой не могу, слишком долго я размышлял о внедрении всех этих плюшек.

О производительности и требуемых мощностях. По одному окну признаков-кандидатов рассчитывается уже более 10 тысяч, в 1 поток расчёт идет полминуты (это лишь 1 момент на бирже!). А таких окон планируется десятки. И в день таких моментов миллионы. Надо сказать, что с 128 Гб RAM я признаки даже из Фазы 0 проекта не смог промоделировать более 10 торговых дней. А ведь это я пока работаю только с упрощённым и неполным набором данных. Соответственно, дальше работать можно только в парадигме bigdata с кластерными вычислениями и горизонтальным масштабированием.

Для кластерных расчётов я выбрал Dask, и мне ещё предстоит обеспечить совместимость с ним моих существующих ML конвейеров, да и грядущего отборщика признаков Diogenes. Также в октябре-ноябре, видимо, предстоят облачные расходы в сотни и тысячи долларов, что уже начинает бить по бюджету, т.к. последние полгода я не отвлекался на сторонние подработки. Если к 1 ноября получится обучить первые модельки в Dask на всех этих новых признаках, это уже можно будет считать успехом )

Кстати, раскрою секрет, применение моего полусырого отборщика признаков в Фазе 0 значительно улучшило OOS ML-метрики, что очень вдохновляет.

В целом, с одной стороны я недоволен этим годом, т.к. по традиции не завершил ни одного из своих проектов, притом начав много новых, с другой стороны, я сделал огромную работу и существенно улучшил инструменты в своём ML-арсенале, воплотив в жизнь много старых интересных идей. Ну а что ещё нам остаётся, кроме как идти к намеченным целям, пусть и маленькими шажками, порой путаясь, блуждая и возвращаясь, но идти?
#law #twitter

Настоящая Гадде.

"Судья Кэтлин Сент-Джуд Маккормик (Kathaleen Saint Jude McCormick) вынесла решение в пользу бывшего генерального директора Twitter Парага Агравала (Parag Agrawal) и бывшего главного юридического советника Виджаи Гадде (Vijaya Gadde). Судья пришла к выводу, что компания Илона Маска (Elon Musk) нарушила обязательства по возмещению юридических расходов, связанных с их работой в компании.

Как только Маск стал владельцем компании, он уволил Агравала и других ключевых руководителей. Это произошло вскоре после того, как Twitter подала иск к Маску за попытку отказаться от сделки по приобретению компании за $44 млрд.

В апреле Агравал и Гадде подали иск против X, утверждая, что компания не оплатила их юридические счета, в том числе за выступление Гадде перед Комитетом Палаты представителей США по надзору и реформам (HCOR). Как сообщает Bloomberg, X оплатила из долга только около $600 тыс. Юристы компании заявили, что руководители X испытали «шок от ценника», увидев чрезмерно высокий счет на $1,1 млн от адвокатов Гадде.

Судья Маккормик признала, что $1,1 млн — это значительная сумма, но, тем не менее, приняла решение в пользу бывших руководителей Twitter. «Я ознакомилась с указанной суммой. Она весьма существенная, но является обоснованной», — заявила Маккормик."

https://3dnews.ru/1093978/sud-obyazal-kompaniyu-x-viplatit-11-mln-bivshim-rukovoditelyam-twitter
#trading #moex #competitions

ЛУЧШИЙ ЧАСТНЫЙ ИНВЕСТОР 2023

"Конкурс инвесторов от Московской биржи. Призы для новичков и опытных трейдеров — розыгрыши каждые две недели, всего более 600 призов и грандиозный финал с призами до 1 млн рублей
Призовой фонд более 27M руб.
Срок проведения конкурса: с 05 октября по 21 декабря включительно. Организатор конкурса: ПАО Московская биржа."

https://investor.moex.com/
#hardware #clouds

"Британская компания NexGen Cloud, по сообщению ресурса Datacenter Dynamics, намерена инвестировать $1 млрд в проект AI Supercloud: речь идёт о развёртывании так называемого ИИ-супероблака в Европе. Создание платформы начнётся в текущем месяце. NexGen Cloud уже оформила заказы на оборудование на сумму приблизительно $576 млн. В полностью завершённом виде система объединит 20 тыс. ускорителей NVIDIA H100.

Завершение создания платформы запланировано на июнь 2024 года. Доступ к системе будет предоставляться через гиперстек NexGen Cloud. Ресурсы AI Supercloud будут доступны предприятиям и государственным заказчикам, которые должны оставаться в европейской юрисдикции. Предполагается, что супероблако позволит клиентам решать ресурсоёмкие задачи ИИ, оставаясь конкурентоспособными на глобальном рынке."

https://servernews.ru/1094063
Forwarded from Telegram Contests
🏆 Telegram ML Competition

Prize fund: $40,000 – from which the 1st place winner will receive $15,000 if any submissions qualify for 1st place.
Deadline: 23:59 on October 15th (Dubai time)
Who can participate: Everyone
Results: October 29th, 2023

Telegram is hosting a competition for ML engineers to identify programming and markup languages in code snippets.

The Task: implement a library that detects the programming and markup language of code snippets from message text. You can use any publicly available data to train your solution.

Details: https://contest.com/docs/ML-Competition-2023.

@ContestBot will begin accepting submissions at a later date. We will further clarify the submission instructions closer to the deadline.
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from New Yorko Times (Yury Kashnitsky)
Базовые траты в Нидерландах
#life #career #netherlands

Посчитаем грошики-шекелёчки, поноем, это все любят. Есть, конечно, Numbeo, но лишний датапойнт про цену жизни в Нидерландах, возможно, вам не помешает. Как рассказать о своей зарплате, не называю цифру? Легко. Я вам примерно распишу расходы на жизнь в Нидерландах и скажу, что у меня все впритык, от зп к зп (ага, с финансовой грамотностью пока так себе выходит). По крайне мере, когда я в 2018 услышал, сколько мне предлагают в Нидерландах, мне казалось, буду в золоте купаться. На деле все оказалось не так радужно. Так что возможно, пост поможет тем, кто приценивается к жизни в NL.

Допустим, в семье работает один человек и получает 5к евро/месяц чистыми (что примерно соответствует гроссу в 75к с рулингом или 100к - без него. Рулинг - это налоговая поблажка на первые 5 лет, когда 30% дохода не облагается налогом). Более точно можно прикинуть на thetax.nl. Не совсем моя ситуация, но пойдет для бейзлайна. Оговорок много (что если оба работают, есть дети или нет, свое жилье или аренда) – это можно в коменты перенести.

Обязательные расходы (т.е. исключая еду/кафе/etc) у меня ~2500. Каждый грош считать не хочется, но основное, из того что больше 100 евро/месяц:

- 1300 – ипотека
- 400 – медстраховка на двоих
- 200 – транспорт на двоих
- 140 – коммунальные налоги
- 120 – электричество/газ
- ~350 – остальное (связь, инет, прочие страховки, и т.д.)

Немного прокомментировать все же надо, хотя главный вывод – в конце поста.

- Ипотека за 1300 это прям дико удачно, успел ухватить ставку 1.8%, сейчас она ближе к 4.5% и соотв-но, ежемесячный платеж легко может быть и 2к и 3к, ажиотаж с жильем бешеный, особенно в Амстере
- медстраховка дорогая, и тут сэкономить особо не выйдет, помимо ~150/чел в месяц еще 360/год – собственный риск, то есть 360 платишь сам, а что свыше – уже покрывается. Плюс зубы отдельно, легко выходит 200 евро в месяц на человека. К слову, голландские врачи настолько дорогие, что на оплату их труда уходит ~30% подоходных налогов, помимо отчислений на медстраховку
- транспорт дорогой, к примеру, поезда катаются на чистом электричестве от ветрогенераторов. Где-то видел статью, что в NL самый дорогой транспорт с нормировкой на уровень доходов – похоже на правду
- коммуналка – это налог собственника жилья (неактуально, если снимаете), а также на мусор, канализацию и проч
- электричество/газ – ну тут, понятное дело, отказ от fcukn russian gas сильно все цены повысил

И вот, допустим, остается еще 2500/мес на еду, кафе, шмотки, путешествия и прочую жизнь. Хм… 80 евро в день? Вы уже видите, что так недолго превратиться в бомжа, живущего в красивой обстановке. Ну и начать жить по-голландски, то есть экономить – ходить в Lidl и jumbo, а не Albert Heijn, нагибаться рачком за более дешевыми товарами на нижних полках, ходить в кафе раз в месяц, не есть рыбу/мясо. В-общем, это все не про меня. К слову, наиболее характерное голландское слово, передающее менталитет – goedkoop (дешевый) - только дословно это не “дешевый” или ”cheap” (негативный посыл), а “выгодно купленный” (явно позитивный посыл). Про это еще разверну мысль #todo

В итоге если в семье работает один, то рассматривать что-то меньшее 75к/год (с учетом рулинга) я бы не советовал. Когда рулинга уже нет – это вообще другая история, требующая кардинально новых решений, о которых, надеюсь, получится вскоре рассказать.

А если хочется путешествовать и вообще-то думать про старость и откладывать – то и подавно надо сразу смотреть на 100к+. Либо, конечно, вдвоем работать.
#futurology #clark

"В 1968 году имя Артура Кларка стало нарицательным благодаря выходу на экраны фильма «2001: Космическая одиссея». Фильм также содержал множество предсказаний Кларка относительно будущего космических полетов, которые были мастерски выполнены иллюстраторами фильма и декораторами. А в книгу вошла «Карта будущего» Кларка — график его предсказаний до 2100 года.

Например, с точки зрения освоения космоса, Кларк предсказал космические корабли, высадку на Луну и лаборатории в космосе к середине 70-х годов. 1980–1990-м годам он предсказал, что люди высадятся на Марс (и другие планеты), за ними последуют колонии в 2000-х и межзвездные зонды к 2020-м.

Он также спрогнозировал появление спутников связи к середине 80-х, ИИ — к 90-м и «Глобальную библиотеку» к 2005. Он считал, что ученые будут разрабатывать эффективные батареи в 70-х и 80-х, термоядерную энергию к 90-м, а беспроводную энергию — к 2005 году. Кроме того, к началу 2000-х он предвидел рост экзобиологии (исследования жизни в космосе), генетической каталогизации и геномики.

Конечно, не все эти прогнозы сбылись, по крайней мере, не в предложенные им временные рамки. Но даже там, где он ошибался, Кларк предвидел многие тенденции и события, которые в конечном итоге станут (или находятся в процессе становления) реальностью. "

https://hightech.fm/2021/08/27/clarke-get-right
👍1
#electrocars

"По крайней мере, такими оценками руководствуются аналитики Bloomberg Intelligence, говоря об экономике производства Lucid Motors в текущем году. Компания всё ещё надеется выпустить по итогам этого года обещанные 10 000 электромобилей, но недавно курс акций Lucid Motors достиг исторического минимума, а всего с начала года он снизился на 25 %. За последние шесть месяцев прогнозы аналитиков относительно финансовых показателей этой компании ухудшились почти на 50 %.

Для сравнения, удельные потери компании Rivian от выпуска электромобилей, по оценке специалистов Bloomberg Intelligence, составляют около $110 000 с каждой машины. Этот производитель рассчитывает выпустить 52 000 электромобилей по итогам текущего года, но средний прогноз по выручке Rivian в представлении отраслевых аналитиков за последние шесть месяцев улучшился на 5 %. На этой неделе акции Rivian упали на 25 % после заявлений руководства о намерениях привлечь ещё $1,5 млрд в форме выпуска конвертируемых облигаций.

Если Rivian пользуется, помимо прочего, финансовой поддержкой гиганта интернет-торговли Amazon, то Lucid Motors в значительной степени приходится рассчитывать на возможности инвесторов из Саудовской Аравии. Последние выражают заинтересованность в организации производства электромобилей этой марки у себя на родине. В капитал Lucid этими инвесторами уже вложено $9 млрд, и недавно автопроизводителем было получено разрешение на организацию выпуска электромобилей в особой экономической зоне Саудовской Аравии. Выйдя на фондовый рынок США во второй половине 2021 года, Lucid и Rivian потеряли с тех пор по 91 % и 89 % своей капитализации соответственно. Сейчас капитализация Rivian не превышает $17 млрд, а у Lucid Motors она вообще ограничена $11 млрд."

https://3dnews.ru/1094152/lucid-motors-teryaet-po-338-000-na-kagdom-vipuskaemom-elektromobile
#google

"Ещё одна инициатива — программа Project Green Light, направленная на повышение эффективности светофорной регулировки при помощи алгоритмов искусственного интеллекта. По некоторым оценкам, уровни загрязнения воздуха в районе регулируемых светофорами перекрёстков до 29 раз выше, чем на открытых дорогах. ИИ-алгоритмы Project Green Light помогают дорожникам настраивать светофоры таким образом, чтобы минимизировать число остановок при движении машин. Необходимые для этого инструменты чрезвычайно просты в реализации, утверждает Google, а их внедрение занимает считанные минуты. Как показали результаты тестирования системы в ряде городов, число остановок получается сократить на 30 %. Теперь программа Project Green Light будет запущена в Рио-де-Жанейро, Манчестере, Джакарте и Будапеште — всего более десяти городов, а к концу года их число увеличится дополнительно."

https://3dnews.ru/1094263/google-rasshirila-prisutstvie-ekologicheskoy-informatsii-v-svoih-servisah