Aspiring Data Science – Telegram
Aspiring Data Science
386 subscribers
465 photos
12 videos
12 files
2.15K links
Заметки экономиста о программировании, прогнозировании и принятии решений, научном методе познания.
Контакт: @fingoldo

I call myself a data scientist because I know just enough math, economics & programming to be dangerous.
Download Telegram
#trading #deprado

Книжка Де Прадо "Advances in financial machine learning", разобранная на конспекты. Для скорости можно просто листать слайды. У меня ощущение, что во всём мире только Маркос Де Прадо и Эрни Чан знают, как эффективно применять ML в финансах )

https://www.youtube.com/playlist?list=PL_ljXO3JR1NJXt9wD7IrwinYMP8-RCcii
🔥2
#python #codegems

Как передать питоновскому скрипту список в качестве параметра:

parser.add_argument('-l','--list', nargs='+', help='<Required> Set flag', required=True)
# Use like:
# python arg.py -l 1234 2345 3456 4567
#ml #featureselection #featureengineering #mrmr #sulov

Наткнулся на новую библиотечку по созданию и отбору признаков. Гордятся реализацией MRMR (Minimum Redundancy Maximum Relevance) и SULOV (Searching for Uncorrelated List of Variables).

https://github.com/AutoViML/featurewiz
❤‍🔥1👍1
#ml #dask #daskml

Продумываю переход на распределённое обучение с Dask, и внезапно оказывается, что там вроде бы и нет (распределённого) FS (feature selection), OR (outlier removal), TT (target transformer). По крайней мере, в официальной доке нигде упоминаний нет, и непонятно, что будет, если их попробовать с конвейером dask-ml, скорей всего, не сработает. Есть только HPT (Hyper Parameters Tuning) и ES (Early Stopping). В Spark MlLib есть хотя бы FS:
VectorSlicer
RFormula
ChiSqSelector
UnivariateFeatureSelector
VarianceThresholdSelector
#mlflow #bastards

Некоторые фреймворки поражают. В MLFlow в 2023 году НЕТ простой аутентификации. Разворачиваешь свой МЛ-сервер, желая сотрудничать с коллегами из других городов и стран? Будь готов, что твои эксперименты, модели, графики увидит весь мир, ведь парни из mlflow не смогли добавить простую функциональность даже типа логин/пароль. К тому же, если бэк хранится в СУБД, это ещё и прямая дорожка к SQL-иньекциям... Защитить сервер всё же можно, но это надо морочиться с установкой nginx, файлами конфига, документацией. Ну не мудаки ли? Хотя, с другой стороны, это же бесплатно, мудак тут скорее я.
💯2
Forwarded from New Yorko Times (Yury Kashnitsky)
ML system design в реальных проектах – 200 блог-постов
#links_with_intro #ml

Команда Evidently (наверняка знаете Эмели Драль, она с кофаундером Elena Samuylova пилит решение для мониторинга и тестирования ML-моделей) собрала около 200 блог-постов про ML system design в реальных проектах – от Netflix, Doordash, Booking и т.д. Кажется неплохим источником знаний для “курса по Data Science, которого нет”, про который я рассказывал раньше. Я не большой фанат ссылок на в целом классные подборки, которые добавляешь в закладки, а потом забываешь про них навсегда. Но в данном случае действительно крутой ресурс, в том числе для подготовки к собеседованиям.

Сюда же можно добавить еще 10 case studies, собранных Chip Huyen в книге “Designing Machine Learning Systems” (вот мой пост в том числе про эту книгу). Там каждый из 10 кейсов еще вкратце пересказан.

Про видео-интервью про ML system design и книгу Валерия Бабушкина & Арсения Кравченко, думаю, тут все и так в курсе.
#numpy #codegems #rint

Оказывается, есть в нампай такое вот округление к ближайшему целому:

preds = cat_cls.predict(X_test)
pred_labels =
np.rint(preds)
#astronomy #ml

"Учёные давно ищут источники высокоэнергичных частиц, которые прилетают из космоса на Землю. Их энергии таковы, что они должны рождаться вне пределов нашей галактики, чтобы они смогли преодолеть местные магнитные поля и вырваться в межзвёздное пространство. К сожалению, те же магнитные поля решительно изменяют траектории заряжённых частиц (протонов и заряженных атомных ядер) и это не позволяет отследить их до источника.

Другое дело нейтрино. Они почти не взаимодействуют с веществом и магнитными полями, поскольку имеют ничтожную массу и не имеют заряда. Поэтому нейтрино движутся по прямой траектории и могут указать на источник своего происхождения. Этим источником могут быть следы, которые высокоэнергичные частицы оставляют на своём пути, когда они врезаются в пыль и газ на своей траектории. Одним из продуктов таких столкновений является пара кварк-антикварк, известная как пион. Распад заряженных пионов, в свою очередь, порождает высокоэнергетическое электронное нейтрино. Проследив за траекторией этих нейтрино можно выйти на источник высокоэнергичных космических частиц.

Но есть ещё одна проблема — отсеять неуловимые высокоэнергетическое нейтрино из фона местных и таких же слабо регистрируемых нейтрино. В частности, необходимо было подавить фон атмосферных нейтрино (мюонных нейтрино). Вручную и с помощью обычных алгоритмов это не удавалось сделать много лет, пока на помощь не пришло машинное обучение. С помощью обучающихся алгоритмов учёные смогли заново проанализировать 10 лет наблюдений за нейтрино на установке IceCube во льдах Антарктиды.

Новый метод анализа позволил включить в набор данных в 20 раз больше событий с лучшей информацией о направлении, и это дало ошеломляющий результат. Учёным открылась новая карта Вселенной и, в частности, новый взгляд на нашу галактику Млечный Путь. Со статистической значимостью около 4,5 сигма (чуть-чуть не дотянули до пятёрки, что означало бы безоговорочное признание в научной среде открытия) были указаны источники высокоэнергичных нейтрино в центре нашей галактики, а не где-то там в невообразимой дали. Это даёт намёк на зарождение частиц с колоссальной энергией в центре нашей галактики, а не где-то за её пределами. В центре Млечного Пути происходит что-то невообразимое по выбросам энергии, и этот процесс оказалось возможным рассмотреть и, в перспективе, изучить."

https://3dnews.ru/1089230/v-tsentre-nashey-galaktiki-proishodyat-neponyatnie-no-nevoobrazimo-moshchnie-protsessi-na-eto-ukazali-neytrino
#ml #cpu #inference #tflight #paddlepaddle #onnx #openvino #tvm

По итогу рекомендуют onnx runtime, ускорение прогнозов в среднем от 20% до 400%. TVM интересен поддержкой множества форматов и компиляцией моделек напрямую в системные .dll и .so файлы.

https://www.youtube.com/watch?v=FHt0QtqQpxE
#kaggle #ml #competitions

Интересное преобразование таргета, корень 4-й степени, не слышал раньше про такое. Также fair loss в xgboost, усреднение весов нейросетей (по достижении равновесия), обучение SVR и kNN на подвыбрках. Исправление предсказаний xgboost-а это просто жесть, какой фигнёй только эти кэгглеры не занимаются )

https://www.youtube.com/watch?v=p7ArDjMImiI