Aspiring Data Science – Telegram
Aspiring Data Science
385 subscribers
465 photos
12 videos
12 files
2.15K links
Заметки экономиста о программировании, прогнозировании и принятии решений, научном методе познания.
Контакт: @fingoldo

I call myself a data scientist because I know just enough math, economics & programming to be dangerous.
Download Telegram
#excel #microsoft #commonsense

Давно не работал в Экселе, пришлось вот открыть табличку сегодня. И снова меня поразило, что богатейшая корпорация в мире не способна нанять нормальных программистов, тестеров и менеджеров, чтобы ссука не интерпретировать число как дату "01.01.6445". тем более что все остальные значения в этом столбце явно числовые. Реально, окажись я там менеджером, погнал бы всех ссаными тряпками. Понанимали индусов, [censored].
😁4🤡1
#masters #scaling #preprocessing #robustscaler #timeseries

Перечитываю Мастерса, у него очень интересный подход к нормироваке и шкалированию временных рядов. Вместо общепринятых среднего и скв. отклонения в формуле (val-mean)/std, он использует медиану и межквартильное расстояние iqr. Идея очень резонная в плане устойчивости к выбросам. Я вот что подумал, в sklearn, конечно, есть RobustScaler, который делает вроде бы то же самое, но фишка в том, что Мастерс нормирующие показатели вычисляет не по всему train set, как RobustScaler, а по скользящему окну из последних T наблюдений. Надо бы попробовать модифицировать RobustScaler с учётом этой идеи.
👍1
#apple #management #ai

"Последний квартал прошлого года для Apple станет пятым подряд периодом снижения выручки, если негативные прогнозы сбудутся, но текущий год таит для компании трудности, не только связанные с отсутствием явного прогресса в функциональных возможностях iPhone. Как поясняет Марк Гурман со страниц Bloomberg, компания из Купертино буквально на годы отстаёт от основных конкурентов в сфере внедрения искусственного интеллекта."

Я же говорил!

https://3dnews.ru/1098416/apple-pozge-bolshinstva-konkurentov-vipustit-resheniya-s-poddergkoy-iskusstvennogo-intellekta
#outliers #anomaly #novelty #pyod #advicewanted

Уважаемые подписчики, кто работал с детекторами новизны в sklearn/pyod, подскажите. Вот обучились мы на геоданных из Москвы и Питера, и используем крайне простой детектор: если широта/долгота входов не попадает в диапазон train set, прогноз не делается. То есть по, к примеру, Парижу или Баку прогноз даже делаться не будет. А вот для городов типа Твери, Коломны такая простая защита уже не срабатывает, т.к. по одиночке их координаты попадают в допустимый диапазон. Какие детекторы можете посоветовать из своей практики для такого случая? Желательно с поддержкой категориальных признаков.
#outliers #anomaly #novelty #pyod #suod

Интересным кажется подход Suod, где сначала строятся низкоразмерные случайные проекции исходных данных, потом к ним фиттятся модели, причём instance-based типа kNN аппроксимируются быстрыми параметрическими. И потом базовые детекторы над этими проекциями ансамблируются. Они ещё хвастаются эффективным шедулером.

https://www.andrew.cmu.edu/user/yuezhao2/papers/21-mlsys-suod.pdf

https://pyod.readthedocs.io/en/latest/fast_train.html
#masters #trading

В общем, не выдержал я, написал письмецо Тиму Мастерсу (у меня как раз была проблема с покупкой нескольких его книг). Оказался очень любезным товарищем, даже готов был лично выслать книжки почтой ) Дал мне пару крутых советов по поводу индикаторов для трейдинга!

Его книги считаю шедеврами. Рекомендую всем дата сайентистам и квантам.

Сильно смеялся с его рассказа
"If a company had a trading system that was failing they hired me to do statistical analyses to find out what was wrong. Most of the time I was able to demonstrate that their system was nearly worthless, and early results were just good luck."

Сейчас у него 2 внука, они с женой пенсионеры, играют в 3 (!) музыкальных группах. У него есть книга, как самому сделать рояль! И он играет на собственноручно сделанном, как я понимаю. Видимо, он ещё экспериментирует с видеомонтажом ) Что сказать, крутейший чел.
🔥6
#music #sistersofmercy #gothic #darkwave

мрак тлен я прошептала в трубку
а ты переспросил марк твен
да да марк твен конечно милый
том сойер гекельберри финн

https://www.youtube.com/watch?v=sZs0VDI-CxM
1
🎉 Результаты конкурса «Лучший частный инвестор — 2023»

Мероприятие проводилось с 5 октября по 21 декабря. Участники должны были достичь максимальной доходности, используя инструменты фондового и срочного рынков Московской биржи.

В карточках показываем факты о прошедшем ЛЧИ и его итоги. Доходности, стартовые суммы и сделки каждого участника размещены по ссылке.

Поздравляем победителей!

Пресс-релиз на сайте Московской биржи
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤‍🔥1
#programming #perfection #decisionmaking

Бывает, хочешь закодить всё грамотно, сразу с учётом будущего роста функциональности, продумываешь архитектуру, варианты использования решения, но проект затягивается, накапливается усталость, теряется интерес. В таких случаях, как обнаружил по своему опыту, лучше отложить попытки улучшательства на будущее и вывести в бой хотя бы минимально рабочую версию, которая уже будет решать бизнес-задачу лучше, чем решалось до неё.

Так у меня было с ансамблированием в самописной системе mlops: я добавил простые ансамбли, стал добавлять стэкинг, там возникли сложности с оверфитом, я увидел, что процесс затягивается, ну и зарелизил хотя бы простые ансамбли. И вот уже полгода пользуюсь, и это приносит пользу. А иначе бы застрял неизвестно насколько.

Так и сейчас с отборщиком признаков, Диогеном. Модуль wrappers потребовал решать задачу одномерной целочисленной оптимизации, я сначала потестил распространённые пакеты типа optuna/skopt/hyperopt, потом написал свой модуль с реализациями гауссова процесса и прям совсем своей идеей, квантильной регрессией+эвристиками. И вот уже 2 месяца я туплю с этим модулем. Работает он по виду хорошо, но до тестирования и уж тем более до реального внедрения никак не доведу.

И вот смотрю я на свои задачи по этому модулю: то мне статические графики не нравятся в matplotlib и я хочу пределать в живые plotly, то мне не нравится, что оптимизатор не поддерживает категориальные входы и вообще множественные входы, и я хочу переделать структуры данных. То я придрался, что сортировки там неоптимальны, хотя по итогам профилирования они ни на что не влияют. А так как в планах создание своего полноценного оптимизатора гиперпараметров, однобокость текущей версии вносит когнитивынй диссонанс и не позволяет продвигаться работе - думаю над оптимальным способом унификации и прочими философскими вещами, в то время как у меня есть прямо сейчас реальные ML проекты, которым очень нужен хороший feature selector.

Ну и вот сегодня додумался, это же как раз тот случай, когда надо выводить в бой уже написанное решение, и не тупить над бесконечными улучшениями ) Завидую я, в общем, программистам, которые с лёгким сердцем особо не думая могут херак, херак, и в production. Так что не затягивайте проекты, релизьте вовремя.
👍1
Теперь понятно, почему вакансии у HR закрываются с трудом.
2
#astronomy #starship #musk

"Маск подтвердил, что готов уничтожить ещё несколько ракет, если это ускорит ввод Starship в эксплуатацию. «Всегда лучше пожертвовать оборудованием, чем временем. Время, так сказать, — единственная настоящая валюта», — добавил бизнесмен.

В ходе третьего испытательного полёта SpaceX намеревается произвести запуск двигателей Starship и успешно вернуть корабль с орбиты. Компания также хочет провести первые испытания технологии перекачки топлива, проверить люк полезной нагрузки и механизм развёртывания спутников Starlink. Полёт запланирован на февраль — сейчас ожидается разрешение Федерального управления гражданской авиации США (FAA)."

https://3dnews.ru/1098726/ilon-mask-raskril-prichinu-vzriva-vtorogo-starship-on-okazalsya-slishkom-lyogkim
Минутка английского. Как читается слово indictment (обвинение)?
Anonymous Quiz
34%
Индайтмент
0%
Индэйтмент
42%
Индиктмент
24%
Индикмент
#featureselection #vorontsov

Понравилась эвристика маятника для жадного алгоритма Add-Del. Надо будет реализовать в Диогене.

Также очень интересен полный перебор DFS+отсечение методом ветвей и границ. Они тоже выигрывают от начального упорядочивания факторов по силе связи с таргетом.

Про BFS/МГУА крайне интересно. Вот кто из вас до этого видоса знал про философский принцип неокончательных решений Габора? Я помню, в 2000-х прям этот МГУА и Ивахненко были на слуху. Я тогда не очень понимал, что это вообще, но термин запомнился. Похоже, у Мастерса этот подход называется Forward Selection Preserving Subsets.

В разделе про генетик Константин Вячеславович вообще классно пошутил ) Что-то я вдруг подумал, генетические алгоритмы включают только "положительные" операции: скрещивание, мутация. Но ведь в живой природе популяция регулярно просеивается хищниками, конкурентами, природными катастрофами, в результате которых выживают особи пропорционально их приспособленности. Нет ли смысла в операторе "смерти", который случайным образом берёт микрогруппу особей и убивает 1-2 с наименьшей приспособленностью (ну типа, погнались за стаей зебр львы, 2 самых слабых поймали)?

Кто мне подскажет, математики кайфуют от вставки рукописных букв из неведомых алфавитов, да? ) Чем зло#бучее завитушки птичьего языка, тем страшнее выглядят формулы для непосвящённых, а работа в целом считается профессиональнее? )

https://www.youtube.com/watch?v=n4qKbFd25Sk
🤩1