Aspiring Data Science – Telegram
Aspiring Data Science
385 subscribers
465 photos
12 videos
12 files
2.15K links
Заметки экономиста о программировании, прогнозировании и принятии решений, научном методе познания.
Контакт: @fingoldo

I call myself a data scientist because I know just enough math, economics & programming to be dangerous.
Download Telegram
#outliers #anomaly #novelty #pyod #suod

Интересным кажется подход Suod, где сначала строятся низкоразмерные случайные проекции исходных данных, потом к ним фиттятся модели, причём instance-based типа kNN аппроксимируются быстрыми параметрическими. И потом базовые детекторы над этими проекциями ансамблируются. Они ещё хвастаются эффективным шедулером.

https://www.andrew.cmu.edu/user/yuezhao2/papers/21-mlsys-suod.pdf

https://pyod.readthedocs.io/en/latest/fast_train.html
#masters #trading

В общем, не выдержал я, написал письмецо Тиму Мастерсу (у меня как раз была проблема с покупкой нескольких его книг). Оказался очень любезным товарищем, даже готов был лично выслать книжки почтой ) Дал мне пару крутых советов по поводу индикаторов для трейдинга!

Его книги считаю шедеврами. Рекомендую всем дата сайентистам и квантам.

Сильно смеялся с его рассказа
"If a company had a trading system that was failing they hired me to do statistical analyses to find out what was wrong. Most of the time I was able to demonstrate that their system was nearly worthless, and early results were just good luck."

Сейчас у него 2 внука, они с женой пенсионеры, играют в 3 (!) музыкальных группах. У него есть книга, как самому сделать рояль! И он играет на собственноручно сделанном, как я понимаю. Видимо, он ещё экспериментирует с видеомонтажом ) Что сказать, крутейший чел.
🔥6
#music #sistersofmercy #gothic #darkwave

мрак тлен я прошептала в трубку
а ты переспросил марк твен
да да марк твен конечно милый
том сойер гекельберри финн

https://www.youtube.com/watch?v=sZs0VDI-CxM
1
🎉 Результаты конкурса «Лучший частный инвестор — 2023»

Мероприятие проводилось с 5 октября по 21 декабря. Участники должны были достичь максимальной доходности, используя инструменты фондового и срочного рынков Московской биржи.

В карточках показываем факты о прошедшем ЛЧИ и его итоги. Доходности, стартовые суммы и сделки каждого участника размещены по ссылке.

Поздравляем победителей!

Пресс-релиз на сайте Московской биржи
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤‍🔥1
#programming #perfection #decisionmaking

Бывает, хочешь закодить всё грамотно, сразу с учётом будущего роста функциональности, продумываешь архитектуру, варианты использования решения, но проект затягивается, накапливается усталость, теряется интерес. В таких случаях, как обнаружил по своему опыту, лучше отложить попытки улучшательства на будущее и вывести в бой хотя бы минимально рабочую версию, которая уже будет решать бизнес-задачу лучше, чем решалось до неё.

Так у меня было с ансамблированием в самописной системе mlops: я добавил простые ансамбли, стал добавлять стэкинг, там возникли сложности с оверфитом, я увидел, что процесс затягивается, ну и зарелизил хотя бы простые ансамбли. И вот уже полгода пользуюсь, и это приносит пользу. А иначе бы застрял неизвестно насколько.

Так и сейчас с отборщиком признаков, Диогеном. Модуль wrappers потребовал решать задачу одномерной целочисленной оптимизации, я сначала потестил распространённые пакеты типа optuna/skopt/hyperopt, потом написал свой модуль с реализациями гауссова процесса и прям совсем своей идеей, квантильной регрессией+эвристиками. И вот уже 2 месяца я туплю с этим модулем. Работает он по виду хорошо, но до тестирования и уж тем более до реального внедрения никак не доведу.

И вот смотрю я на свои задачи по этому модулю: то мне статические графики не нравятся в matplotlib и я хочу пределать в живые plotly, то мне не нравится, что оптимизатор не поддерживает категориальные входы и вообще множественные входы, и я хочу переделать структуры данных. То я придрался, что сортировки там неоптимальны, хотя по итогам профилирования они ни на что не влияют. А так как в планах создание своего полноценного оптимизатора гиперпараметров, однобокость текущей версии вносит когнитивынй диссонанс и не позволяет продвигаться работе - думаю над оптимальным способом унификации и прочими философскими вещами, в то время как у меня есть прямо сейчас реальные ML проекты, которым очень нужен хороший feature selector.

Ну и вот сегодня додумался, это же как раз тот случай, когда надо выводить в бой уже написанное решение, и не тупить над бесконечными улучшениями ) Завидую я, в общем, программистам, которые с лёгким сердцем особо не думая могут херак, херак, и в production. Так что не затягивайте проекты, релизьте вовремя.
👍1
Теперь понятно, почему вакансии у HR закрываются с трудом.
2
#astronomy #starship #musk

"Маск подтвердил, что готов уничтожить ещё несколько ракет, если это ускорит ввод Starship в эксплуатацию. «Всегда лучше пожертвовать оборудованием, чем временем. Время, так сказать, — единственная настоящая валюта», — добавил бизнесмен.

В ходе третьего испытательного полёта SpaceX намеревается произвести запуск двигателей Starship и успешно вернуть корабль с орбиты. Компания также хочет провести первые испытания технологии перекачки топлива, проверить люк полезной нагрузки и механизм развёртывания спутников Starlink. Полёт запланирован на февраль — сейчас ожидается разрешение Федерального управления гражданской авиации США (FAA)."

https://3dnews.ru/1098726/ilon-mask-raskril-prichinu-vzriva-vtorogo-starship-on-okazalsya-slishkom-lyogkim
Минутка английского. Как читается слово indictment (обвинение)?
Anonymous Quiz
34%
Индайтмент
0%
Индэйтмент
42%
Индиктмент
24%
Индикмент
#featureselection #vorontsov

Понравилась эвристика маятника для жадного алгоритма Add-Del. Надо будет реализовать в Диогене.

Также очень интересен полный перебор DFS+отсечение методом ветвей и границ. Они тоже выигрывают от начального упорядочивания факторов по силе связи с таргетом.

Про BFS/МГУА крайне интересно. Вот кто из вас до этого видоса знал про философский принцип неокончательных решений Габора? Я помню, в 2000-х прям этот МГУА и Ивахненко были на слуху. Я тогда не очень понимал, что это вообще, но термин запомнился. Похоже, у Мастерса этот подход называется Forward Selection Preserving Subsets.

В разделе про генетик Константин Вячеславович вообще классно пошутил ) Что-то я вдруг подумал, генетические алгоритмы включают только "положительные" операции: скрещивание, мутация. Но ведь в живой природе популяция регулярно просеивается хищниками, конкурентами, природными катастрофами, в результате которых выживают особи пропорционально их приспособленности. Нет ли смысла в операторе "смерти", который случайным образом берёт микрогруппу особей и убивает 1-2 с наименьшей приспособленностью (ну типа, погнались за стаей зебр львы, 2 самых слабых поймали)?

Кто мне подскажет, математики кайфуют от вставки рукописных букв из неведомых алфавитов, да? ) Чем зло#бучее завитушки птичьего языка, тем страшнее выглядят формулы для непосвящённых, а работа в целом считается профессиональнее? )

https://www.youtube.com/watch?v=n4qKbFd25Sk
🤩1
#ui #gmail #google

В очередной раз заметил, как же по-конченому сделана работа с письмами в веб-интерфейсе gmail. По умолчанию у них включается conversation view, который не просто показывает всю цепочку переписки с адресатом (что было бы удобно), но и за каким-то лешим при ответе цитирует вообще всю историю переписки с данным адресатом. Причём удалить цитирование невозможно. И эти полотна текста реально туда-сюда отсылаются. Найти, где эта херня отключается - задача не из простых. Что это, тупость, безразличие, или саботаж разработчиков?
#ai #handwriting #ocr

"Команде специалистов Университета искусственного интеллекта имени Мухаммеда бен Заида в ОАЭ, как сообщает Bloomberg, уже удалось создать профильную нейросеть и опробовать её в деле. Эту разработку авторам даже удалось запатентовать в юрисдикции США. Пока использование данной нейросети сторонними клиентами не подразумевается, и авторы разработки уже выражают опасения по поводу способности недобросовестных пользователей применять её во вред обществу.

Прежде чем этот инструмент начнёт распространяться, по мнению разработчиков, необходимо создать защитные механизмы, предотвращающие его некорректное с этической точки зрения применение. «Это всё равно что создать антивирус для вируса», — пояснили представители университета. Подобные соображения не мешают создателям нейросети планировать её коммерческое применение в течение ближайших месяцев, они уже ищут партнёров для реализации сопутствующего потенциала данной технологии. Помимо прочего, такая система могла бы распознавать рукописный текст — например, для обработки записей в историях болезни пациентов. На генерируемых нейросетью рукописях можно было бы обучать другие подобные системы. Пока нейросеть способна распознавать и генерировать рукописный текст на английском и французском языках, но в перспективе разработчики хотели бы добавить к ним и арабский."

https://3dnews.ru/1098802/iskusstvenniy-intellekt-skoro-smoget-pravdopodobno-imitirovat-pocherk-cheloveka
3