Data Mining | Анализ данных🚀 – Telegram
Data Mining | Анализ данных🚀
3.28K subscribers
1.73K photos
10 videos
5 files
1.7K links
• Купить рекламу: t.me/sahib_space
Админ: sahib_space
• Стоимость: https://www.notion.so/sahibspace/69ece414a4af49f2bdbdfe455e553e58?pvs=3&qid=
• Группа в ВК: vk.com/datamining.team
Download Telegram
👀 Шпаргалка о численных методах при решении граничных задач ОДУ предоставляет ясное понимание методов численного дифференцирования, прямого метода и метода стрельбы, обеспечивая важный инструментарий для решения граничных задач. Этот материал полезен для тех, кто занимается численными методами в контексте дифференциальных уравнений.
Please open Telegram to view this post
VIEW IN TELEGRAM
❤‍🔥7🔥32
🔠 Статья рассматривает сложности обучения моделей на несбалансированных данных и представляет метод Synthetic Minority Over-sampling Technique (SMOTE) в качестве решения.

*️⃣ Практическая реализация SMOTE на искусственно созданном несбалансированном наборе данных, модификации для категориальных признаков и экспериментальные оценки с использованием классификаторов, таких как C4.5, способствуют полному пониманию проблемы дисбаланса классов.
Please open Telegram to view this post
VIEW IN TELEGRAM
❤‍🔥5🔥4😁1
Обширный гайд о иерархической кластеризации, исследуя ее применения, различные типы и шаги выполнения. Охватывая вычисление матрицы близости, сходство кластеров и методы связи, такие как одиночная, полная, центроидная, средняя и метод Ворда, учебник также предоставляет практическую реализацию с использованием Python с Scipy и Scikit-Learn, демонстрируя применение на реальных данных.

https://www.learndatasci.com/glossary/hierarchical-clustering/
❤‍🔥8🔥32
〰️ В статье рассматриваются три фреймворка для параллельных вычислений — Spark, Dask и Ray. Авторы детально разбирают каждый и дают рекомендации когда и какой использовать.

🔠 Статья также анализирует преимущества и недостатки каждого фреймворка и предоставляет рекомендации по выбору подходящего в зависимости от конкретных задач.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥62
🔠 Статья посвящена интерпретации черных ящиков в ML, с фокусом на кредитном скоринге с использованием нейронных сетей.

🔠Автор разбрает методы: Partial Dependence Plots (PDPs) и Local Interpretable Model-agnostic Explanations (LIME), для облегчения понимания работы моделей и принятия решений.
Please open Telegram to view this post
VIEW IN TELEGRAM
🐳4❤‍🔥32
🔖Разбор внутренних механизмов машин опорных векторов (SVM), с акцентом на линейный классификатор SVM.

📎 Рассматривается вывод линейного SVM, с акцентом на важность максимизации зазора между классами.

Процесс подгонки демонстрируется с использованием квадратичного программирования с пакетом CVXOPT на языке Python.

🟢Статья включает в себя примеры кода, визуализации и сравнение с реализацией SVM в библиотеке scikit-learn для проверки корректности решения.

🫧 Рассматриваются такие темы, как основы SVM, лагранжиан двойственной задачи и практические детали реализации.
Please open Telegram to view this post
VIEW IN TELEGRAM
❤‍🔥5🔥3💯2
📎В статье рассматриваются вызовы в области выявления мошенничества, проводится сравнение rule-based и machine learning-based approaches, исследуется анализ данных, техника oversampling, обучение модели и её оценка, с акцентом на важности решения проблемы дисбаланса классов для эффективного выявления мошенничества.

🔖 Кроме того, статья подчеркивает значимость настройки порогов для балансировки ложных срабатываний и пропущенных мошеннических операций.
Please open Telegram to view this post
VIEW IN TELEGRAM
❤‍🔥6
⚡️В статье рассматриваются вопросы четкого структурирования ноутбуков, стиля и улучшения кода через рефакторинг.

📎 Статья выделяет важность создания читаемого и организованного кода, а также предоставляет рекомендации по тестированию кода и созданию модулей для повторного использования.
Please open Telegram to view this post
VIEW IN TELEGRAM
❤‍🔥4
🔆 Обсуждаются принципы работы кросс валидации, включая использование валидационного набора данных, k-fold кросс-валидацию, Leave-One-Out и Leave-P-Out кросс-валидацию, а также другие подходы и их применение к настройке гиперпараметров моделей.

🔆 Предоставляется обзор различных стратегий кросс-валидации, подчеркивая их важность для создания надежных и эффективных моделей.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥7
🔖 Разъясняется, как модели диффузии используются в создании изображений, описывается двухэтапный процесс диффузии и обратной реконструкции с использованием нейронных сетей.

⚪️Статья также проводит сравнение моделей диффузии с альтернативами, такими как вариационные автокодировщики (VAE), модели на основе потока и генеративно-состязательные сети (GAN), выделяя преимущества и недостатки каждого подхода.
Please open Telegram to view this post
VIEW IN TELEGRAM
❤‍🔥7
📢 Статья представляет концепцию кластеризации k-средних на Python, описывая применение в маркетинге, юридической области и анализе кредитных транзакций.

📎Она включает в себя шаги алгоритма, примеры кода, визуализацию и введение в применение "elbow rule" для определения оптимального количества кластеров.

🟢Темы включают основы k-средних, реализацию на Python, визуализацию и применение в Scikit-learn на примере набора данных Iris.
Please open Telegram to view this post
VIEW IN TELEGRAM
❤‍🔥5
👀Шпаргалка по теории вероятности включает пространство элементарных событий, перестановки, условную вероятность, правило Байеса, независимость, случайные величины, функцию плотности вероятности, кумулятивную функцию распределения, математическое ожидание, моменты и статистические показатели.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥5
⚡️Работа рассматривает использование C и C++ для ускорения ML с параллельной обработки данных и использованием Apache Spark.

📎Она подчеркивает эффективность и широкое использование C/C++ в библиотеках и инструментах ML. Статья вводит использование оператора RDD.pipe Spark для вызова внешнего кода на C/C++ параллельно, предоставляя примеры и выделяя необходимость доступности кода в кластере Spark.

📌 Кроме того, авторы исследуют интеграцию скомпилированных библиотек C/C++ в пользовательские определенные функции (UDF) Spark с использованием инструментов, таких как SWIG, демонстрируя пример вызова функции факториала из общей библиотеки.

📗 Статья завершается демонстрацией развертывания и выполнения этих приложений на кластере Spark.
Please open Telegram to view this post
VIEW IN TELEGRAM
❤‍🔥6🔥11
❗️ Статья рассматривает проблемы и этапы внедрения моделей в среду компании.

🟣 Описывает, что происходит на этапе построения и обучения модели, разъясняет понятие "производства" для модели, касающееся реального времени и переобучения, и раскрывает сложности интеграции модели с бизнес-приложением, интеграции данных, развертывания модели, мониторинга и валидации данных в процессе внедрения, как для реального времени, так и для батч-режима.
Please open Telegram to view this post
VIEW IN TELEGRAM
❤‍🔥6🔥3
🖇 Статья вводит в N-shot и zero-shot learning с использованием Python, обсуждая вызовы обучения сложных моделей на больших наборах данных и то, как трансферное обучение может

🫧 Предоставляет примеры применения zero-shot learning для задач классификации текста и распознавания именованных сущностей (NER) с использованием модели TARS. Также рассматривается one-shot learning с использованием Siamese Networks и набора данных MNIST в Keras.

🔖Акцент делается на демонстрации того, как эти техники предоставляют решения в сценариях с ограниченным или отсутствующим размеченным объемом данных.
Please open Telegram to view this post
VIEW IN TELEGRAM
2❤‍🔥2
🔠 Учебник рассматриваются настройка окружения, импорт библиотек, чтение и очистка данных, разделение их на обучающую и тестовую выборки, а также создание bag-of-words features. Обучение модели включает использование мультиномиального наивного байесовского классификатора, а также демонстрацию метрик оценки, таких как точность, полнота и F1-мера.

🔠 Дополнительно предоставлены предложения по кросс-валидации, настройке гиперпараметров и использованию подходов на основе трансформеров для дальнейшего исследования.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥4💯3