NEW BOT Телеграм, страница

Aspiring Data Science

#ml #featureselection #featureengineering #mrmr #sulov

Наткнулся на новую библиотечку по созданию и отбору признаков. Гордятся реализацией MRMR (Minimum Redundancy Maximum Relevance) и SULOV (Searching for Uncorrelated List of Variables).

https://github.com/AutoViML/featurewiz

GitHub

GitHub - AutoViML/featurewiz: Use advanced feature engineering strategies and select best features from your data set with a single…

Use advanced feature engineering strategies and select best features from your data set with a single line of code. Created by Ram Seshadri. Collaborators welcome. - AutoViML/featurewiz

❤‍🔥1👍1

170 viewsAnatoly Alekseev, 17:25

Aspiring Data Science

#ml #dask #daskml

Продумываю переход на распределённое обучение с Dask, и внезапно оказывается, что там вроде бы и нет (распределённого) FS (feature selection), OR (outlier removal), TT (target transformer). По крайней мере, в официальной доке нигде упоминаний нет, и непонятно, что будет, если их попробовать с конвейером dask-ml, скорей всего, не сработает. Есть только HPT (Hyper Parameters Tuning) и ES (Early Stopping). В Spark MlLib есть хотя бы FS:
VectorSlicer
RFormula
ChiSqSelector
UnivariateFeatureSelector
VarianceThresholdSelector

94 viewsAnatoly Alekseev, edited 18:15

Aspiring Data Science

#physics #astronomy #hellings #downs #nanograv

Обнаружены корреляции в сбоях сигналов пульсаров из-за длинных гравитационных волн от пар сверхмассивных ЧД. Скорая нобелевка?

https://www.youtube.com/watch?v=R0YHcSMZqBY

YouTube

Открытие гравитационно-волнового фона

Кратко рассказано об открытии гравитационно-волнового фона с помощью систем пульсарного тайминга.
См. статьи и описание результатов в
http://xray.sai.msu.ru/~polar/sci_rev/421.html#arxiv/2306.16213

Некоторые полезные ссылки
https://sergepolar.livejourn…

91 viewsAnatoly Alekseev, edited 07:08

Aspiring Data Science

#mlops #mlflow #vk

https://www.youtube.com/watch?v=rfEE4Yc4gXg

YouTube

MLflow в облаке. Простой и быстрый способ вывести ML модели в продакшен

https://mcs.mail.ru/bigdata/

MLflow — один из самых стабильных и легких современных инструментов, позволяющих специалистам по Data Science управлять жизненным циклом моделей машинного обучения на всем его протяжении.

В видео мы прошли все этапы установки…

167 viewsAnatoly Alekseev, 08:33

Aspiring Data Science

#ml #yandex #mlops

https://www.youtube.com/watch?v=IDHKt1N2IvU

YouTube

003. Как запустить ML прототип за один день – Роман Халкечев

В докладе речь пойдёт о написанном на Python сервисе, который позволил нам быстро создавать прототипы, использующие machine learning, а также быстро экспериментировать с разными ML-моделями.

97 viewsAnatoly Alekseev, 08:39

Aspiring Data Science

#mlflow #bastards

Некоторые фреймворки поражают. В MLFlow в 2023 году НЕТ простой аутентификации. Разворачиваешь свой МЛ-сервер, желая сотрудничать с коллегами из других городов и стран? Будь готов, что твои эксперименты, модели, графики увидит весь мир, ведь парни из mlflow не смогли добавить простую функциональность даже типа логин/пароль. К тому же, если бэк хранится в СУБД, это ещё и прямая дорожка к SQL-иньекциям... Защитить сервер всё же можно, но это надо морочиться с установкой nginx, файлами конфига, документацией. Ну не мудаки ли? Хотя, с другой стороны, это же бесплатно, мудак тут скорее я.

💯2

95 viewsAnatoly Alekseev, edited 11:46

Aspiring Data Science

Forwarded from New Yorko Times (Yury Kashnitsky)

ML system design в реальных проектах – 200 блог-постов
#links_with_intro #ml

Команда Evidently (наверняка знаете Эмели Драль, она с кофаундером Elena Samuylova пилит решение для мониторинга и тестирования ML-моделей) собрала около 200 блог-постов про ML system design в реальных проектах – от Netflix, Doordash, Booking и т.д. Кажется неплохим источником знаний для “курса по Data Science, которого нет”, про который я рассказывал раньше. Я не большой фанат ссылок на в целом классные подборки, которые добавляешь в закладки, а потом забываешь про них навсегда. Но в данном случае действительно крутой ресурс, в том числе для подготовки к собеседованиям.

Сюда же можно добавить еще 10 case studies, собранных Chip Huyen в книге “Designing Machine Learning Systems” (вот мой пост в том числе про эту книгу). Там каждый из 10 кейсов еще вкратце пересказан.

Про видео-интервью про ML system design и книгу Валерия Бабушкина & Арсения Кравченко, думаю, тут все и так в курсе.

97 viewsAnatoly Alekseev, 12:35

Aspiring Data Science

#numpy #codegems #rint

Оказывается, есть в нампай такое вот округление к ближайшему целому:

        preds = cat_cls.predict(X_test)
        pred_labels =

np.rint(preds)

85 viewsAnatoly Alekseev, 14:58

Aspiring Data Science

#astronomy #ml

"Учёные давно ищут источники высокоэнергичных частиц, которые прилетают из космоса на Землю. Их энергии таковы, что они должны рождаться вне пределов нашей галактики, чтобы они смогли преодолеть местные магнитные поля и вырваться в межзвёздное пространство. К сожалению, те же магнитные поля решительно изменяют траектории заряжённых частиц (протонов и заряженных атомных ядер) и это не позволяет отследить их до источника.

Другое дело нейтрино. Они почти не взаимодействуют с веществом и магнитными полями, поскольку имеют ничтожную массу и не имеют заряда. Поэтому нейтрино движутся по прямой траектории и могут указать на источник своего происхождения. Этим источником могут быть следы, которые высокоэнергичные частицы оставляют на своём пути, когда они врезаются в пыль и газ на своей траектории. Одним из продуктов таких столкновений является пара кварк-антикварк, известная как пион. Распад заряженных пионов, в свою очередь, порождает высокоэнергетическое электронное нейтрино. Проследив за траекторией этих нейтрино можно выйти на источник высокоэнергичных космических частиц.

Но есть ещё одна проблема — отсеять неуловимые высокоэнергетическое нейтрино из фона местных и таких же слабо регистрируемых нейтрино. В частности, необходимо было подавить фон атмосферных нейтрино (мюонных нейтрино). Вручную и с помощью обычных алгоритмов это не удавалось сделать много лет, пока на помощь не пришло машинное обучение. С помощью обучающихся алгоритмов учёные смогли заново проанализировать 10 лет наблюдений за нейтрино на установке IceCube во льдах Антарктиды.

Новый метод анализа позволил включить в набор данных в 20 раз больше событий с лучшей информацией о направлении, и это дало ошеломляющий результат. Учёным открылась новая карта Вселенной и, в частности, новый взгляд на нашу галактику Млечный Путь. Со статистической значимостью около 4,5 сигма (чуть-чуть не дотянули до пятёрки, что означало бы безоговорочное признание в научной среде открытия) были указаны источники высокоэнергичных нейтрино в центре нашей галактики, а не где-то там в невообразимой дали. Это даёт намёк на зарождение частиц с колоссальной энергией в центре нашей галактики, а не где-то за её пределами. В центре Млечного Пути происходит что-то невообразимое по выбросам энергии, и этот процесс оказалось возможным рассмотреть и, в перспективе, изучить."

https://3dnews.ru/1089230/v-tsentre-nashey-galaktiki-proishodyat-neponyatnie-no-nevoobrazimo-moshchnie-protsessi-na-eto-ukazali-neytrino

3DNews - Daily Digital Digest

В центре нашей галактики обнаружены источники высокоэнергичных космических лучей — на них указали нейтрино

Для астрофизики настали чудесные дни.

94 viewsAnatoly Alekseev, 15:35

Aspiring Data Science

#activelearning #ml #vae #cvalai

https://www.youtube.com/watch?v=7gPa8gHHmdg

YouTube

Константин Сухоруков - Гайд по Active Learning в CV: как сэкономить на разметке

Гайд по Active Learning в CV: как сэкономить на разметке и получить качественную модель

На мой взгляд, Active Learning в CV является недооцененным способом оптимизации затрат на обучение моделей, который в среднем показывает лучшие результаты, чем рандом…

❤‍🔥1

98 viewsAnatoly Alekseev, edited 18:12

Aspiring Data Science

#activelearning #ml #vae #cvalai https://www.youtube.com/watch?v=7gPa8gHHmdg

#ml #tradng #chan

https://www.youtube.com/watch?v=BhaJVZNpL4M

YouTube

Financial Machine Learning - A Practitioner’s Perspective by Dr. Ernest Chan

QUANTT and QMIND came together to offer a unique experience for those interested in Financial Machine Learning (ML). Unifying these two clubs is Dr. Ernest Chan, an investor, researcher, and educator with an expertise in Quantitative Trading, Algorithmic…

❤‍🔥1

124 viewsAnatoly Alekseev, 19:08

Aspiring Data Science

#mlops #beeline #k8s #mlflow #argoworkflows #greatexpectations #cookiecutter #hadoop #spark

https://www.youtube.com/watch?v=iE0zA8hDbHY

YouTube

Николай Безносов - MLOps в билайн: как катить машинное обучение в production без ML-инженеров

В докладе обсудим:
- Как были устроены наши MLOps процессы и инфраструктура, когда команда была небольшой
- Какие при этом были проблемы
- Что мы поменяли, чтобы сделать процесс вывода ML решений в production гибче и эффективнее
- Как мы адаптировали MLFlow…

86 viewsAnatoly Alekseev, edited 19:24

Aspiring Data Science

#ml #cpu #inference #tflight #paddlepaddle #onnx #openvino #tvm

По итогу рекомендуют onnx runtime, ускорение прогнозов в среднем от 20% до 400%. TVM интересен поддержкой множества форматов и компиляцией моделек напрямую в системные .dll и .so файлы.

https://www.youtube.com/watch?v=FHt0QtqQpxE

YouTube

Артём Земляк | Лёгкие пути оптимизации инференса ML моделей на CPU

Data Fest Siberia 3 & Halloween 2022:
https://ods.ai/tracks/groups/data-fest-siberia-3-halloween
Трек MLOps:
https://ods.ai/tracks/sibfest3-mlops

Наши соц.сети:
Telegram: https://news.1rj.ru/str/datafest
Вконтакте: https://vk.com/datafest

87 viewsAnatoly Alekseev, edited 19:40

Aspiring Data Science

#mlops #pathway

https://www.youtube.com/watch?v=yypdbG_n7l4

YouTube

Adrian Kosowski - Reactive data processing in Python | PyData Global 2022

www.pydata.org

Machine Learning models designed to work with streaming systems make decisions on new data points as they arrive. But there is a downside: model decisions can't be easily changed later when the model is updated with fresher data, user feedback…

86 viewsAnatoly Alekseev, edited 19:57

Aspiring Data Science

#kaggle #ml #competitions

Интересное преобразование таргета, корень 4-й степени, не слышал раньше про такое. Также fair loss в xgboost, усреднение весов нейросетей (по достижении равновесия), обучение SVR и kNN на подвыбрках. Исправление предсказаний xgboost-а это просто жесть, какой фигнёй только эти кэгглеры не занимаются )

https://www.youtube.com/watch?v=p7ArDjMImiI

YouTube

Kaggle Allstate Claims Severity: предсказание тяжести страхового случая — Алексей Носков

Алексей Носков рассказывает про задачу определения тяжести страхового случая Kaggle Allstate Claims Severity, где занял 2 место. Из видео вы сможете узнать:
- Нужно ли преобразовывать целевую переменную для обучения моделей
- Как можно строить новые признаки…

132 viewsAnatoly Alekseev, edited 20:17

Aspiring Data Science

Forwarded from Katser

📚 Хочу немного дополнить свой пост на vc "Источники для изучения data science и machine learning (книги, курсы и не только)”, состоящий из двух частей:
• часть про курсы, материалы и тд — стоит прочитать и посмотреть все, если нет какой-то хорошей базы, например, из института или хороших платных курсов (ФКН ВШЭ, физтех и др.). Курсы и материалы из тех, что рекомендую смотрел все, но не все очень внимательно, обычно беру из курса то, что нужно.
• часть про книги — не считаю, что все надо прочитать, но если надо подтянуть или разобраться в какой-то подобласти, то можно брать книжки из списка. Книги читал не все, но непрочитанные лежат в списке to read и ждут своей очереди.

Learning by doing
Я убежден, что во время изучения data science и machine learning надо сосредоточиться на практике как можно раньше (как только получается что-то делать) и учиться по типу "learning by doing".
В начале пути далеко не обязательно знать, что "под капотом" у алгоритмов и методов. Зависит от специфики работы и задач. Вот теорвер и матстат действительно часто нужны в работе, например, для анализа данных, для анализа результатов алгоритмов, для дизайна экспериментов и тд.

Как можно получать практику?
• Стажировки, работа, реальные проекты. Очевидно.
• Хакатоны, соревнования по анализу данных. Самой распространенной площадкой для соревнований является kaggle.com. Там еще есть датасеты, курсы и много полезных примеров кода и блокнотов, решающих самые разные задачи.
• Важной и интересной практикой являются тренажеры. Вот 2 известных сервиса, которыми я пользовался сам:
💻 для программирования - https://leetcode.com
🔍 для анализа данных - https://www.stratascratch.com

Please open Telegram to view this post

VIEW IN TELEGRAM

vc.ru

Источники для изучения data science и machine learning (книги, курсы и не только) — Yuriy Katser на vc.ru

Yuriy Katser 07.09.2022

101 viewsAnatoly Alekseev, 07:15

Aspiring Data Science

Forwarded from Katser

📝

Пост ради картинки!

Так как моя научная деятельность и диссертация связаны с алгоритмами обнаружения аномалий на основе глубокого обучения, я пересмотрел десятки обзоров и сотни (если не тысячи) работ с новыми методами и алгоритмами за последние несколько лет. Вывод примерно один: глубокое обучение лучше классического мл и экспертных/эвристических подходов и в этой области (работа с временными рядами, диагностика и поиск аномалий). То есть понятно, что и мой фокус смещен на выборку статей с глубоким обучением, да и в целом тренд в последние годы такой. При этом не помню статей, где предлагали новый метод, и он не был бы хоть в каких-то условиях лучше бейзлайна или SOTA моделей — иначе зачем вообще эта статья? Последняя мысль, кстати, очень спорная, но об этом другой раз. Вообщем отсюда и взялось, что глубокое обучение бьет все классические алгоритмы.

А как на самом деле?
На практике в проектах ты не всегда успеваешь дойти и повозиться с новыми сетками (и так надо с данными разобраться, с разметкой, бумажными журналами, с постановкой задачи, бейзлайны, бизнес-логика, физика и технология процесса и тд). В лучшем случае после бейзлайна без мл, простых постановок задач и линейных моделей, деревянных моделей, эвристик ты доходишь до рекуррентных сетей простой архитектуры (пара последовательных LSTM слоев или автоэнкодер с LSTM слоями, или даже FF автоэнкодер). Даже простые сетки не всегда хорошо работают, а более сложные иногда и отучить нормально не получается. Это происходит из-за проблем в данных (доклад, статья), небольших объемов, проблем с трансфером знаний даже между единицами оборудованием одной модели.
Поэтому по-прежнему классические алгоритмы, экспертные правила и эвристики активно используются как минимум в промышленности.

Неужели научные статьи врут?
Не совсем так. Я выделяю большую проблему с публичными данными и бенчмарками, на которых в статьях показаны результаты. Совсем мало публичных качественных датасетов в области временных рядов, в области аномалии, в области промышленности и технических систем. Поэтому и в работах часто показаны результаты в очень ограниченных условиях, на каких-то синтетических или сгенерированных данных.

Интересное исследование
Хочу поделиться одним обзором работ поиска аномалий во временных рядах 2022 года. Сравнения были проведены для 71 (очень много!) алгоритма на 976 датасетах (это всего 23 бенчмарка, но согласитесь, что 900+ звучит солиднее!). Картинка из этой статьи с многообразием и классификацией алгоритмов будет в следующем посте. Мне она так понравилась, что теперь использую ее во всех докладах по теме. Нам интересны выводы по итогам сравнения, дальше цитата из статьи:
“we found that deep learning approaches are not (yet) competitive despite their higher processing effort on training data. We could also confirm that “simple methods yield performance almost as good as more sophisticated methods”. Still, no single algorithm clearly performs best.”
То есть по-прежнему нет серебряной пули или явных лидеров как в классическом ML с их бустингами, да и превосходство глубокого обучения пока не подтверждается. Так что подход как и раньше — перебор алгоритмов, пока один не окажется лучше для вашей конкретной задачи и ваших конкретных данных, а опыт и экспертные/доменные знания все еще важен и может бить большие модели. Но, думаю, это не на долго.

Please open Telegram to view this post

VIEW IN TELEGRAM

129 viewsAnatoly Alekseev, 07:18

Aspiring Data Science

Forwarded from Katser

📉Сегодняшние достижения в области ИИ просто невозможно представить без больших объемов данных (для обучения DALL-E использовались 250 млн пар картинка-описание, это очень много!). Вот области компьютерного зрения (CV) и обработки естественного языка (NLP) в основном не страдают от недостатка больших датасетов (корпусов текстов, наборов изображений и тд). Но в области временных рядов ситуация не такая радужная.

При этом не всегда важно собирать огромный датасет из реальных примеров текстов и изображений, хотя это и идеальный сценарий. Иногда можно аугментировать данные, то есть искусственно создать или синтезировать примеры, что может помочь в отсутствии больших датасетов. Понаучней определение аугментации возьмем из обзора: “The basic idea of data augmentation is to generate synthetic dataset covering unexplored input space while maintaining correct labels.”
Если рассмотреть аугментацию на примере изображений, то одним из простейших методов будет геометрическое преобразование: зеркальное отражение картинки (по вертикали или горизонтали) или поворот на 90/180/270 градусов. Это уже увеличивает количество доступных данных для обучения в 2 и более раза. В текстах можно переставлять слова в предложении. Подробнее об аугментации этих типов данных, включая подходы, код и библиотеки, можно почитать по ссылкам: CV и NLP

Но вернемся к временным рядам: и здесь опять все не очень хорошо. Аугментировать их сложнее, потому что, датасеты не такие большие и сильно отличаются между собой в зависимости от задачи и доменной области. Более того, в научных статьях постоянно пишут, что область аугментации временных рядов недоисследована. Это косвенно подтверждается и малым количеством open-source разработок для аугментации временных рядов в противовес CV и NLP. Но есть пара неплохих обзоров (раз, два) методов аугментации временных рядов. Обзоры совсем свежие — 2021-22 годов, немного по-разному классифицируют методы. В последнем, например, выделяют 3 основные группы:
• Классические преобразования (представлены на картинке в следующем посте)
• VAE
• GAN
Для деталей стоит почитать оригинальный обзор.

Из инструментов для аугментации временных рядов на python встречал только два:
• [3,4k звезд на гитхабе] https://github.com/timeseriesAI/tsai
• [300 звезд на гитхабе] https://github.com/arundo/tsaug

Please open Telegram to view this post

VIEW IN TELEGRAM

150 viewsAnatoly Alekseev, 07:20

Aspiring Data Science

Forwarded from Katser

Иллюстрация классических методов аугментации временных рядов к предыдущему посту.

205 viewsAnatoly Alekseev, 07:20

Aspiring Data Science

#ml #fun

Ахаха, вот это я понимаю, серьёзный подход к менторству. Аж прослезился!

😁3

2.67K viewsAnatoly Alekseev, edited 07:28

Aspiring Data Science

Forwarded from Машинное обучение от ИЦ "ГЕВИССТА"

О куколдах-хейтерах
Итак, что я вкладываю в понятие «куколд». Это инертный, ленивый участник, он все бы понаблюдать, мало тестестерона, мало действия, мало энергии. Живет с мамой или с женой, которая ему как мама. Зарабатывает мало, потому что ему «мешают» или «его не ценят». Любит косплей. Какой-нибудь хентай. Еще не вышел из детства. Днем работает в Лаборатории Омегабанка, а вечером передевается в служанку. Много боится. Все время. Действий мало, мыслей много, отсюда депрессия (да, ребята, если много мыслей и мало действий это всегда так), очень сильно завидует. Да, часто куколд и есть хейтер. Сам нихрена не делает, а завидует много и любопытный, на десятки каналов может быть подписан. Он типа хочет быть «в курсе». Еще он сильно орет, что все должно быть бесплатно, что все должно расшариваться свободно. Они ж чего, красавцы, в бусти оформили бесплатную подписку и ждут халявы. А ты сам-то попробуй создать, попробуй напиши код, запиши видео, а потом требуй. А еще он пишет плохие комментарии. Часто девушкам или мужчинам, которых считает ниже/глупее себя. Например, плохие комментарии на канале Анастасии Никулиной, из-за чего она даже приостановила канал. Валерию Бабушкину-то фигню всякую боязно написать, со штангой в переулке встретит, а девушке можно. А она бесплатный контент делала. Кстати, народ, кто на нее подписан, было бы здорово написать ей теплые слова поддержки. Мне-то тоже много такие твари гадят («ты все у американцев стащил и за свое выдаешь»), но я хоть платный контент делаю. В группе Machine Learning https://news.1rj.ru/str/datasciencecourse одно время был такой типичный куколд, который все время хейтил Карпова за какие-то мелкие недочеты. Посмотрел я этого хейтера, довольно серый преподаватель, преподающий в одном из израильских университетов, довольно плохо объясняющий предмет, ролики на YouTube по 15-20 просмотров. Стало все понятно. Ну вот мне здесь ставят какашечки, дислайки. В общем, суть куколдизма – это нереализованная энергия, откладывание, неудовлетворение и часто хейт. Жестко я сегодня? Возможно. Но куколды должны знать свое место.

Machine learning

Специализация «Машинное обучение и анализ данных» на Coursera.
* FAQ (читать обязательно) – https://news.1rj.ru/str/datasciencecourse/80206
* В чате запрещены оскорбления, мат, реклама, спам, политика

❤2👍1

199 viewsAnatoly Alekseev, 07:32

About

Blog

Apps

Platform