NEW BOT Телеграм, страница

Forwarded from See All

я не том смысле что тут написано про немастера, а что тут нет ссылок вот на это. Вероятно, кому-то здесь будет полезно, кто не видел или просто потерял/забыл:
ML System Design Interviews, с Валерой Бабушкиным: (1) выбор рекламы к показу в ленте соцсети, (2) ценообразование на маркетплейсе, (3) матчинг товаров в онлайн-магазине;

15 views18:52

Data notes

Весьма актуальная для реалий 2023 преза для подготовки к DS job interview (автор указан на первом слайде)

https://docs.google.com/presentation/d/16Fe8a87WPPcFbI3bFrwb7ndRugMNw3SxWOC2TbeiXO0/edit?usp=sharing

Google Docs

Опыт поиска работы в анализе данных в 2023 году

Опыт поиска работы в анализе данных в 2023 году Ануар Аймолдин

13 views18:54

Data notes

Книги академии Яндекса:

https://academy.yandex.ru/handbook/

education.yandex.ru

Яндекс.Образование: Руководства и справочники

Откройте для себя разнообразные руководства и справочники Яндекс.Образования для повышения ваших профессиональных навыков.

15 views18:55

Data notes

Интерактивное превью для pandas DataFrame. Правда, исходники находятся в read only mode с 2020 года и библиотека с тех пор не обновляется

https://github.com/CermakM/jupyter-datatables

GitHub

GitHub - CermakM/jupyter-datatables: Jupyter Notebook extension leveraging pandas DataFrames by integrating DataTables and ChartJS.

Jupyter Notebook extension leveraging pandas DataFrames by integrating DataTables and ChartJS. - CermakM/jupyter-datatables

17 viewsedited 15:50

Data notes

https://www.blog.dailydoseofds.com/p/the-limitation-of-linear-regression?utm_source=post-email-noscript&publication_id=1119889&post_id=126598054&isFreemail=true&token=eyJ1c2VyX2lkIjoxNDg1NDY1OTUsInBvc3RfaWQiOjEyNjU5ODA1NCwiaWF0IjoxNjg2MTI4NDA1LCJleHAiOjE2ODg3MjA0MDUsImlzcyI6InB1Yi0xMTE5ODg5Iiwic3ViIjoicG9zdC1yZWFjdGlvbiJ9.NyqeL19eOK-QclK762ARU-mj-foN6eYZZPatA5LSMBk&utm_medium=email

Dailydoseofds

The Limitation of Linear Regression Which is Often Overlooked By Many

...and how to address it.

15 views11:05

Data notes

Forwarded from Aspiring Data Science (sciuru)

#ml #featureselection #featureimportance

Интересный доклад
Ben Fowler: Traditional & Novel Feature Selection Approaches | PyData LA 2019

Упомянули пару инструментов, которыми я еще не пользовался

1 https://github.com/abhayspawar/featexp - визуализация, вроде dependency plots

2 https://github.com/limexp/xgbfir - нахождение двух- и трех-признаковых интеракций для xgboost-а (должно быть полезно)

Сказал, что weight of evidence - стандартная фича в риск менеджменте, тоже ее не пробовал.

В конце он сравнивает отбор фичей по стандартному бустинговому gain-у, по shap-у, но на единственном датасете, для задачи классификации. Поэтому неизвестно, насколько подход обобщается (хотя он добавил, что и на работе его применял). В целом здраво повествует.

19 views02:11

Data notes

Forwarded from BOGDANISSSIMO

ML LINKS

В недрах своего Notion откопал несколько подборок полезных статей, ссылок, видео по разным направлениям Machine Learning с которыми работал. Собрал их в одну кучу и делюсь с вами.

https://www.notion.so/uberkinder/b15ba7ccc032439bb5d282c8352f2e4e?v=0f9696310752456db047e94ab21c627f&pvs=4

Что имеем на момент 12/05/2023:

• Антифрод (36 ссылок)
• Ценообразование и прогноз спроса (17)
• Рекомендательные системы (42)
• A/B тесты (33, спасибо Валере)
• ML System Design (7)
• Ранжирование и поиск (6)

Список будет активно пополняться.
Буду благодарен репостам в ваши каналы и чаты.

#notion #links #ml #ml_system_design #mlsd #digest

🔥1

22 views12:29

Data notes

The second edition of "The Theory and Practice of Enterprise AI" has been released! You can now download the free PDF version from the book's website, and the hardcopy is available for purchase on Amazon.
Free PDF: https://lnkd.in/gjBv3DM7

lnkd.in

This link will take you to a page that’s not on LinkedIn

99 views14:06

Data notes

Forwarded from New Yorko Times (Yury Kashnitsky)

ML system design в реальных проектах – 200 блог-постов
#links_with_intro #ml

Команда Evidently (наверняка знаете Эмели Драль, она с кофаундером Elena Samuylova пилит решение для мониторинга и тестирования ML-моделей) собрала около 200 блог-постов про ML system design в реальных проектах – от Netflix, Doordash, Booking и т.д. Кажется неплохим источником знаний для “курса по Data Science, которого нет”, про который я рассказывал раньше. Я не большой фанат ссылок на в целом классные подборки, которые добавляешь в закладки, а потом забываешь про них навсегда. Но в данном случае действительно крутой ресурс, в том числе для подготовки к собеседованиям.

Сюда же можно добавить еще 10 case studies, собранных Chip Huyen в книге “Designing Machine Learning Systems” (вот мой пост в том числе про эту книгу). Там каждый из 10 кейсов еще вкратце пересказан.

Про видео-интервью про ML system design и книгу Валерия Бабушкина & Арсения Кравченко, думаю, тут все и так в курсе.

18 views14:46

Data notes

Forwarded from Aspiring Data Science (Anatoly Alekseev)

#trading #ml #chan

Любопытный подход к отбору признаков: сначала схожие фичи группируются в кластера, дальнейший отбор ведётся FS-алгоритмом уже по кластерам. Видимо, это сразу решает проблему колллинеарности.

https://www.youtube.com/watch?v=2-5HYJ0HhyQ

YouTube

E P Chan: Improving Trading Strategies with Machine Learning, Feature Selection 20210318

The overfitting quandary in Machine Learning.has been resolved using Random Forest Classifiers. For Financial Machine Learning, Lopez de Prado came up with Meta Labeling and Dr Chan and others are applying it in his Tail Reaper Fund, and offering a service.…

17 views00:06

Data notes

Собираюсь попробовать https://github.com/dunovank/jupyter-themes.

Вопрос, будут ли nbextensions при этом продолжать работать?

Вот тут пишут так, будто все будет ОК: https://khandelwal-shekhar.medium.com/enahnce-the-usability-of-jupyter-notebook-a917f7bb98aa

GitHub

GitHub - dunovank/jupyter-themes: Custom Jupyter Notebook Themes

Custom Jupyter Notebook Themes. Contribute to dunovank/jupyter-themes development by creating an account on GitHub.

15 views15:02

Data notes

FinGPT
https://www.marktechpost.com/2023/06/16/meet-fingpt-an-open-source-financial-large-language-model-llms/

MarkTechPost

Meet FinGPT: An End-To-End Open-Source Framework For Economic Large Language Models (FinLLMs)

Large language models have increased due to the ongoing development and advancement of artificial intelligence, which has profoundly impacted the state of natural language processing in various fields. The potential use of these models in the financial sector…

15 views00:54

Data notes

https://datapythonista.me/blog/pandas-20-and-the-arrow-revolution-part-i

datapythonista blog

pandas 2.0 and the Arrow revolution (part I)

Introduction At the time of writing this post, we are in the process of releasing pandas 2.0. The project has a large number of users,...

14 views01:01

Data notes

Forwarded from Aspiring Data Science (Anatoly Alekseev)

#mlops #clearml

https://www.youtube.com/watch?v=uQ--wxaxzSk

YouTube

MLOps: жизненный цикл ML-моделей от идеи до продакшна, Евгений Никитин

Все ML-системы проживают долгую и богатую на события жизнь. Ещё перед "рождением" нужно оценить, имеет ли смысл вообще разрабатывать такую систему, и насколько она технически осуществима. Затем нужно собрать, очистить и разметить данные, поставить множество…

14 views13:59

Data notes

Forwarded from Aspiring Data Science (Anatoly Alekseev)

#ml #featureselection #featureengineering #mrmr #sulov

Наткнулся на новую библиотечку по созданию и отбору признаков. Гордятся реализацией MRMR (Minimum Redundancy Maximum Relevance) и SULOV (Searching for Uncorrelated List of Variables).

https://github.com/AutoViML/featurewiz

GitHub

GitHub - AutoViML/featurewiz: Use advanced feature engineering strategies and select best features from your data set with a single…

Use advanced feature engineering strategies and select best features from your data set with a single line of code. Created by Ram Seshadri. Collaborators welcome. - AutoViML/featurewiz

16 views14:03

Data notes

Forwarded from Aspiring Data Science (Anatoly Alekseev)

#mlops #mlflow #vk

https://www.youtube.com/watch?v=rfEE4Yc4gXg

YouTube

MLflow в облаке. Простой и быстрый способ вывести ML модели в продакшен

https://mcs.mail.ru/bigdata/

MLflow — один из самых стабильных и легких современных инструментов, позволяющих специалистам по Data Science управлять жизненным циклом моделей машинного обучения на всем его протяжении.

В видео мы прошли все этапы установки…

16 views14:03

Data notes

Forwarded from Data Secrets

0:20

This media is not supported in your browser

VIEW IN TELEGRAM

Конспекты YouTube

Eightify.app — расширение для Google Chrome, которое извлекает ключевую информацию из видео и отдает пользователю в текстовом виде. Построено, к слову, на основе GPT-4. Ничего полезнее сегодня вы не найдете

😻

#advice

Please open Telegram to view this post

VIEW IN TELEGRAM

18 views14:17

Data notes

Forwarded from Data Secrets

Самый полный репозиторий библиотек Python для Data Science разработчика

Если ты занимаешься Data Science, то знаешь, как важно иметь под рукой нужные инструменты для эффективной работы. Мы тут как раз нашли заметку, в которой перечислены все самые полезные и эффективные библиотеки и модули Python для разных задач. Есть разделы "Очистка и обработка", "Рекомендательные системы", "Временные ряды", "NLP", "Визуализация". Все со ссылками на документацию.

https://analyticsindiamag.com/python-libraries-repository-for-data-science/

😻

#advice #python

Please open Telegram to view this post

VIEW IN TELEGRAM

Analytics India Magazine

Python Libraries Repository for Data Science | Analytics India Magazine

We have curated the most comprehensive list of 200+ python libraries for data science & machine learning; with tutorial, release date & docs.

17 views14:20

Data notes

Forwarded from Aspiring Data Science (Anatoly Alekseev)

#mlops #mlflow

Продолжаю изучать mlflow. Очень понравилась, что по обученной модели можно быстро получить список метрик и значимостей признаков. А ещё можно даже настроить критерии приёмки модели в бой, абсолютные (точность не менее X%) и относительные (точность не менее Y% лучше чем DummyClassifier). Ложка дёгтя в том, что указанный в доке вызов mlflow.models.list_evaluators() не работает.

https://mlflow.org/docs/latest/models.html#model-validation

19 views15:42

Data notes

Forwarded from Aspiring Data Science (Anatoly Alekseev)

#mlops #tracking #mlflow

Несколько классных трюков для продуктивной работы с mlflow. Мне оч понравилась встройка кастомных веб-страничек и дочерние эксперименты (UI с прошлого года поддерживает многоуровневость).

По идее, в МЛ эксперимент может равняться фичерсету+таргету, а запуски (runs) могут соответствовать разным конвейерам обработки (с/без FS,RS,OR,ES,HPT).

Дочерние запуски нужны, если хотим логировать промежуточные модели, обученные на фолдах CV. Или если хотим на одних и тех же данных/конвейере сравнить несколько моделей разных классов (gbdt, ann). Или если включено HPT, тогда каждый запуск порождает N субмоделей с разными гиперпараметрами.

К сожалению, вложенными могут быть только запуски, но не эксперименты, хотя это вроде бы на поверхности. У нас же в рамках одного проекта может быть несколько датасетов, несколько задач, у каждой много таргетов. (+Желательны свои уровни допуска разным юзерам, но об этом умолчим). Сейчас пользователям MLFlow приходится, видимо, эту иерархию разворачивать в плоские структуры. Или как-то лепить в тэги.

https://towardsdatascience.com/5-tips-for-mlflow-experiment-tracking-c70ae117b03f

Medium

5 Tips for MLflow Experiment Tracking

Push MLflow to its limits: visualize, organize, alter and correct your mlflow runs

17 views18:41

About

Blog

Apps

Platform