Aspiring Data Science – Telegram
Aspiring Data Science
385 subscribers
465 photos
12 videos
12 files
2.15K links
Заметки экономиста о программировании, прогнозировании и принятии решений, научном методе познания.
Контакт: @fingoldo

I call myself a data scientist because I know just enough math, economics & programming to be dangerous.
Download Telegram
#arm #ipo

"К выходу на биржу компанию Arm оценили по верхней границе в $54,5 млрд, а цена одной акции была установлена на уровне $51. Ещё на стадии предварительных торгов стоимость акций выросла примерно на 10 % — до $56,1. Рост продолжился и даже усилился во время торговой сессии, в результате чего Arm завершила свой первый торговый день с ценой $63,59 за акцию. Капитализация составила $67,9 млрд.

Компания, торгующаяся под тикером «ARM», выпустила на биржу около 95,5 млн акций. Компания SoftBank, которая приобрела Arm в 2016 году, сохранила контроль над 90,6 % акций, а в результате IPO заработала $4,9 млрд. Среди инвесторов, купивших крупные доли в Arm значатся компании Apple, Google, NVIDIA, Samsung, AMD, Intel, Cadence, Synopsis и TSMC."

https://3dnews.ru/1093065/aktsii-arm-vzleteli-na-25-v-perviy-den-torgov-na-birge
Неклассические бустинги над деревьями (hybrid regression tree boosting)

У бустингов над деревьями есть некоторые проблемы с линейными зависимостями. Почему бы тогда не совместить бустинг, деревья и линейную регрессию?

Идея такая: в классическом дереве для задачи регрессии для прогноза в каждом листе берется среднее таргетов (для rmse loss). Что если вместо простого среднего строить в листе линейную регрессию? И в качестве прогноза брать прогноз линейной регрессии

Так и возник подход hybrid regression tree (HRT) - это дерево, в каждом листе которого есть линейная регрессия. Пример работы можно посмотреть на картинке к посту. Ну и конечно это можно обобщить до бустинга

Штука прикольная, и как-то в универе мы с ребятами даже запилили код hybrid regression tree. Ни о какой оптимизации по скорости и памяти в студенческом проекте речи конечно нет, но поиграться можно

И внезапно наша репа до сих пор топ-1 по запросу ”hybryd regression tree” в гугле аж с 2 звездочками 😅

Это говорит скорее о непопулярности подхода - по метрикам чуть лучше классического lightGBM / CatBoost, но сииииильно медленнее: может работать только на небольших наборах данных до 10-100к строк. Можете, кстати, посчитать сложность алгоритма в комментариях - удивитесь 😄

UPD: В комментариях подсказали, что этот алгоритм завезли в lightGBM. Что ж, очень радует!)


#answers - ответы на вопросы из комментариев
Формирую набор на курс по рядам, разбираю вопросы. Отвечаю на вопрос, почему нельзя выбирать, пропускать материал, который знаешь. Во-первых, курс у меня не шведский стол, когда вы «выбираете» или мы «это пропускаем, это я знаю» вы рвете мне нить повествования, потому что у меня все достаточно жестко, системно спланировано. Во-вторых, и это более важно, а вы уверены, что вы знаете? На своем примере расскажу. Я довольно неплохо знаю ARIMA (пруф – пособие в посте выше), могу очень приличную модель сделать. Устроился в Capital, вторая неделя пошла, коллеги делятся опытом, там у нас есть ARIMA guys, и я думаю, ну чему они меня еще могут научить. Выясняется, я совсем забыл про применение сплайнов в качестве признаков для ARIMA, я неправильно делал интеракции Фурье и календарных признаков (календарные брал в лоб, тогда как эффективнее их переводить в формат десятичных дробей), у меня были предубеждения (ошибочные) в отношении оптимизации с ограничениями для ARIMA и, позор мне, я делал совершенно бездарное сглаживание для ARIMA (с выбросами бороться), а потом и вовсе его бросил, потому что оно не помогало, а оно, естественно, помогало, просто нужно было делать его по-другому. Еще я игнорировал правило про проверку на единичный корень в AR и MA-части, ребята показали убедительные примеры, как важно его проверять. И я не знал толком техник деагрегации прогнозов, когда для того, чтобы модель по очень шумному ряду не шпарить, делаем агрегацию ряда, но тогда прогнозы будут для агрегированного ряда и надо деагрегировать. Знал, что в Greykite применяют, а как руками делать не видел. И это я с немалым опытом работы c ARIMA. У ребят было свое преимущество, они проводили воркшопы, разбирали кучу научных статей, сами писали статьи и взяли на вооружение очень много подходов, которые не всегда выведешь в лоб эмпирически. Представьте, я б себя индюком повел, мол, "я тут все знаю", этих важных тонкостей не узнал бы. Так что не переоцениваем себя, слушаем, мотаем на ус.
3👍1
👀1
#vr #mr #quest3 #meta

А тем временем выходит Квест 3 за $500 с вдвое более мощным железом, лучшими линзами и разрешением выше на 30% чем у 2-ки. 2-й я брал за $300, кажется. Смешанную реальность ещё не пробовал, говорят, круто, можно играть в настолки, открывать порталы в стенах (хорошо хоть не проходить), прятаться за диваном от выстрелов в игре.

https://www.youtube.com/watch?v=KoqQCl6l73k
#trading #rotation #chechet

Будни алготрейдера: Ротация торговых систем

https://www.chechet.org/226
#competitions #sber

Новая МЛ-сорева от Сбера стартовала.

"Присоединяйтесь к соревнованию AIJ Contest 2023 и предложите решения пяти актуальных задач в AI

В этом году победители разделят рекордный призовой фонд
в размере более 11 млн рублей. Участникам предстоит решить задачи по AI, каждая из которых настоящий вызов:

Strong Intelligence — создать мультимодальную модель, которая обыгрывает знатоков интеллектуальных викторин и покажет суперуровень эрудиции

Unique RecSys — разработать уникальный RL-алгоритм для подбора максимально релевантного контента

Personal AI — подготовить модели для подбора персонализированных рекомендаций по продуктам

Equal AI — создать модель, распознающую русский жестовый язык по видео

Rescue AI — разработать модель, способную определять изменения в геноме человека"