Data Mining | Анализ данных🚀 – Telegram
Data Mining | Анализ данных🚀
3.27K subscribers
1.73K photos
10 videos
5 files
1.7K links
• Купить рекламу: t.me/sahib_space
Админ: sahib_space
• Стоимость: https://www.notion.so/sahibspace/69ece414a4af49f2bdbdfe455e553e58?pvs=3&qid=
• Группа в ВК: vk.com/datamining.team
Download Telegram
Обзор API помощников (Python SDK).
4
Создание собственного мини-ChatGPT дома.

Эта статья научит вас создавать чат-бот с помощью большой языковой модели из библиотеки Hugging Face.

А именно рассматриваются 3 части:
•Что такое модели, следующие инструкциям?
•Как найти модели, следующие инструкциям
•Построение простого чат-бота.
🔥4❤‍🔥2
Деревья ltree в PostgreSQL – простым языком.

https://habr.com/ru/articles/774324/
2🔥2
80+ шпаргалок для аналитиков данных и data scientists.

Шпаргалки помогут:
•Подготовиться к экзамену
•Подготовиться к собеседованию
в повседневной работе – быстро •Вспомнить нужную информацию.
16
Библиотека PyTorch-Ignite.

В статье автор рассмотрел основные функции данной библиотеки, а также сравнил выполнение некоторых задач без использования PyTorch-Ignite и с использованием.
🔥61
Авторы предлагают взглянуть на среднее количество итераций (τ), которое требуется алгоритму k-means для сходимости. Они демонстрируют, что τ коррелирует с структурой анализируемого набора данных, особенно в случае наличия гауссовых кластеров.  Работа расширяет применение τ, предлагая его использование для выявления несущественных признаков в данных и определения оптимального числа кластеров.

https://www.sciencedirect.com/science/article/pii/S0925231223006707
❤‍🔥4🔥1
Статья о Feature Selection включает в себя подробное изучение концепции и необходимости таких методов. Автор предоставляeт обзор различных подходов, предостерегает от распространенных ошибок и рекомендуют эффективные методы выбора признаков, делая акцент на важности данной темы в крупных технологических компаниях.

https://neptune.ai/blog/feature-selection-methods
❤‍🔥6
В обзоре активационных функций, автор анализирует Sigmoid, Tanh и ReLU для скрытых слоев нейронных сетей. Каждая функция снабжается имплементацией на Python и TensorFlow, а также подробным перечислением их преимуществ и недостатков. Статья также предоставляет ценные инсайты о применении этих активационных функций в скрытых слоях.


https://www.enjoyalgorithms.com/blog/activation-function-for-hidden-layers-in-neural-networks
❤‍🔥6
Исчерпывающее сравнительное исследование методов Multi-Label Classification (MLC), включающее теоретический и экспериментальный анализ. Авторы рассматривают различные аспекты методов MLC, оценивают их преимущества и недостатки, способность справляться с особенностями задачи MLC и вычислительную эффективность.

Эксперименты включают анализ 26 методов на 42 наборах данных с использованием 18 метрик производительности и 2 критериев эффективности.

https://www.sciencedirect.com/science/article/pii/S0957417422005991
❤‍🔥51
Bayesian inferece — эффективный метод обучения для выявления закономерностей в данных. Отмечается, что моделирование prior knowledge в виде распределения может быть сложным, но байесовские методы позволяют точно их специфицировать, что особенно важно в ситуациях, где критически важны precision и accuracy.

Метод является классическим подходом для статистического анализа данных и выявления закономерностей.

https://www.wolfram.com/language/introduction-machine-learning/bayesian-inference/
❤‍🔥7
В работе представлен метод выбора параметров на примере поверхности для классификации дефектов. Авторы демонстрируют, что всего 4 описательных параметра, в сочетании с простым классификатором на основе дерева решений, достигают точности классификации на уровне 95%.


Подход также позволяет сократить объем необходимых усилий по выбору параметров и оптимизации модели, что делает его полезным инструментом для задач онлайн-инспекции поверхности с высокой скоростью обработки данных. 

https://www.sciencedirect.com/science/article/pii/S0278612523001528
❤‍🔥5🔥2
Туториал по визуализации моделей глубокого обучения предоставляет всесторонний обзор, затрагивающий ее значимость и область применения. Автор рассматривает различные виды визуализации в глубоком обучении, сопровождая рекомендациями по их эффективному использованию. 
 

https://neptune.ai/blog/deep-learning-visualization
4🔥1
Среди методов ансамблевой кластеризации метод Evidence Accumulation Clustering является одним из самых простых. В статье представлен эффективный способ вычисления плотности разбиения с использованием бинарной матрицы H, что существенно ускоряет процесс. Показано, что максимизация плотности эквивалентна минимизации потерь метода k-means. Сравнение с другими алгоритмами показывает, что k-means дает сопоставимые результаты в терминах нормализованной взаимной информации (NMI), при этом он прост в использовании.

https://arxiv.org/pdf/2311.09272.pdf
🍓42
Статья охватывает тему многоклассовой классификации с использованием softmax-регрессии, рассматривает ее применения, преимущества и недостатки, а также предоставляет практическую реализацию на Python и в PyTorch.

https://spotintelligence.com/2023/08/16/softmax-regression/
4💘3🍓1
Обширный обзор оценочных метрик для Binary Classification включает в себя подробное рассмотрение различных метрик, таких как confusion matrix, показатели точности, полноты, F-метрики, коэффициент Каппа, корреляция Мэтьюса, ROC-кривая и многие другие.

https://neptune.ai/blog/evaluation-metrics-binary-classification
❤‍🔥7🔥1
Обширный обзор на Forward Propagation. Начиная с инициализации весов и смещений, автор подробно останавливается на прямом распространении, описывая передачу входных данных через слои сети для получения предсказаний. Особое внимание уделено математической реализации Forward Propagation, примеры кода и подробные пошаговые объяснения.


https://www.enjoyalgorithms.com/blog/forward-propagation-in-neural-networks
🔥4🍓2❤‍🔥1
В исследовании проведен анализ связи между когнитивной функцией и функциональным исходом при шизофрении, где использовались ансамблевая обработка данных с выделением признаков и сравнениe c другими современными алгоритмами, такими как многослойные нейронные сети, метод опорных векторов, линейная регрессия и случайные леса.

https://www.nature.com/articles/s41598-021-86382-0
❤‍🔥3🔥21🍓1
Статья представляет собой полное руководство по пониманию описательной статистики с использованием Python. В ней рассматриваются основные концепции, такие как меры центральной тенденции, изменчивости и корреляции как для всей генеральной совокупности, так и для выборок. Включение практических примеров и методов визуализации, таких как ящиковые диаграммы, гистограммы и тепловые карты, делает ее ценным ресурсом для тех, кто хочет анализировать и интерпретировать данные с использованием Python. 

https://realpython.com/python-statistics/
❤‍🔥7🔥2
Проверим, ответишь ли ты на вопрос из собеса в Яндекс


Почему деревья решений не могут экстраполировать, и какие существуют решения?

Нет, здесь нет ответа)
Пиши свой вариант в комментарии🔥
🔥52
В данной статье предложены методы subbagging для оценки больших данных с ограничениями по памяти. Исследованы теоретические свойства, показано, что subbagging оценка может достичь √N-состоятельности и асимптотической нормальности при определенных условиях.  Проведены эксперименты симуляции для демонстрации производительности на конечных выборках. 

https://arxiv.org/pdf/2103.00631.pdf
5❤‍🔥2
Пошаговый туториал по веб-скрейпингу с использованием Python, начиная с основного скрипта для краулинга и извлечения данных в формат CSV до рассмотреня реального кейса, поднимая вопросы блокировок при краулинге и предлагая лучшие практики. Кроме того, авторы рассматривают инструменты, методы параллельного и распределенного скрапинга, а также принципы разделения ответственностей для упрощения отладки.

https://www.zenrows.com/blog/web-crawler-python#transitioning-to-a-real-world-web-crawler
🔥121