Data Mining | Анализ данных🚀 – Telegram
Data Mining | Анализ данных🚀
3.27K subscribers
1.73K photos
10 videos
5 files
1.7K links
• Купить рекламу: t.me/sahib_space
Админ: sahib_space
• Стоимость: https://www.notion.so/sahibspace/69ece414a4af49f2bdbdfe455e553e58?pvs=3&qid=
• Группа в ВК: vk.com/datamining.team
Download Telegram
«ИИ без границ»: как научить Transformer обрабатывать длинные тексты.

Статья посвящена проблеме обработки длинных входных последовательностей нейросетевыми моделями на основе архитектуры Transformer.
🔥31
Детальное сравнение последних моделей большого языка.

В статье рассматриваются последние достижения в области больших языковых моделей и дается всесторонний обзор новейших и наиболее совершенных моделей, доступных в настоящее время. В частности, в обзоре будет представлена общая информация о моделях и о том, как их использовать, являются ли они открытым исходным кодом или нет, и можно ли их использовать в коммерческих целях.
🔥5
Использование искусственного интеллекта для оптимизации быстрой нейронной визуализации.

https://news.mit.edu/2023/using-ai-optimize-rapid-neural-imaging-1106
3
Четыре эксперимента по почерку с помощью нейронной сети.

В этой статье автор попытался продвинуться в этом направлении, взяв генеративную модель почерка и визуализировать его разными способами.
4
Как преобразовать любой текст в график понятий.

Задача автора в данной статье — преобразовать любой текстовый корпус в график понятий и визуализировать его как красивый баннер.
❤‍🔥3
Статья о том, как превратить Google Таблицы в базу данных с помощью Python.
🔥7
Обзор API помощников (Python SDK).
4
Создание собственного мини-ChatGPT дома.

Эта статья научит вас создавать чат-бот с помощью большой языковой модели из библиотеки Hugging Face.

А именно рассматриваются 3 части:
•Что такое модели, следующие инструкциям?
•Как найти модели, следующие инструкциям
•Построение простого чат-бота.
🔥4❤‍🔥2
Деревья ltree в PostgreSQL – простым языком.

https://habr.com/ru/articles/774324/
2🔥2
80+ шпаргалок для аналитиков данных и data scientists.

Шпаргалки помогут:
•Подготовиться к экзамену
•Подготовиться к собеседованию
в повседневной работе – быстро •Вспомнить нужную информацию.
16
Библиотека PyTorch-Ignite.

В статье автор рассмотрел основные функции данной библиотеки, а также сравнил выполнение некоторых задач без использования PyTorch-Ignite и с использованием.
🔥61
Авторы предлагают взглянуть на среднее количество итераций (τ), которое требуется алгоритму k-means для сходимости. Они демонстрируют, что τ коррелирует с структурой анализируемого набора данных, особенно в случае наличия гауссовых кластеров.  Работа расширяет применение τ, предлагая его использование для выявления несущественных признаков в данных и определения оптимального числа кластеров.

https://www.sciencedirect.com/science/article/pii/S0925231223006707
❤‍🔥4🔥1
Статья о Feature Selection включает в себя подробное изучение концепции и необходимости таких методов. Автор предоставляeт обзор различных подходов, предостерегает от распространенных ошибок и рекомендуют эффективные методы выбора признаков, делая акцент на важности данной темы в крупных технологических компаниях.

https://neptune.ai/blog/feature-selection-methods
❤‍🔥6
В обзоре активационных функций, автор анализирует Sigmoid, Tanh и ReLU для скрытых слоев нейронных сетей. Каждая функция снабжается имплементацией на Python и TensorFlow, а также подробным перечислением их преимуществ и недостатков. Статья также предоставляет ценные инсайты о применении этих активационных функций в скрытых слоях.


https://www.enjoyalgorithms.com/blog/activation-function-for-hidden-layers-in-neural-networks
❤‍🔥6
Исчерпывающее сравнительное исследование методов Multi-Label Classification (MLC), включающее теоретический и экспериментальный анализ. Авторы рассматривают различные аспекты методов MLC, оценивают их преимущества и недостатки, способность справляться с особенностями задачи MLC и вычислительную эффективность.

Эксперименты включают анализ 26 методов на 42 наборах данных с использованием 18 метрик производительности и 2 критериев эффективности.

https://www.sciencedirect.com/science/article/pii/S0957417422005991
❤‍🔥51
Bayesian inferece — эффективный метод обучения для выявления закономерностей в данных. Отмечается, что моделирование prior knowledge в виде распределения может быть сложным, но байесовские методы позволяют точно их специфицировать, что особенно важно в ситуациях, где критически важны precision и accuracy.

Метод является классическим подходом для статистического анализа данных и выявления закономерностей.

https://www.wolfram.com/language/introduction-machine-learning/bayesian-inference/
❤‍🔥7
В работе представлен метод выбора параметров на примере поверхности для классификации дефектов. Авторы демонстрируют, что всего 4 описательных параметра, в сочетании с простым классификатором на основе дерева решений, достигают точности классификации на уровне 95%.


Подход также позволяет сократить объем необходимых усилий по выбору параметров и оптимизации модели, что делает его полезным инструментом для задач онлайн-инспекции поверхности с высокой скоростью обработки данных. 

https://www.sciencedirect.com/science/article/pii/S0278612523001528
❤‍🔥5🔥2
Туториал по визуализации моделей глубокого обучения предоставляет всесторонний обзор, затрагивающий ее значимость и область применения. Автор рассматривает различные виды визуализации в глубоком обучении, сопровождая рекомендациями по их эффективному использованию. 
 

https://neptune.ai/blog/deep-learning-visualization
4🔥1
Среди методов ансамблевой кластеризации метод Evidence Accumulation Clustering является одним из самых простых. В статье представлен эффективный способ вычисления плотности разбиения с использованием бинарной матрицы H, что существенно ускоряет процесс. Показано, что максимизация плотности эквивалентна минимизации потерь метода k-means. Сравнение с другими алгоритмами показывает, что k-means дает сопоставимые результаты в терминах нормализованной взаимной информации (NMI), при этом он прост в использовании.

https://arxiv.org/pdf/2311.09272.pdf
🍓42
Статья охватывает тему многоклассовой классификации с использованием softmax-регрессии, рассматривает ее применения, преимущества и недостатки, а также предоставляет практическую реализацию на Python и в PyTorch.

https://spotintelligence.com/2023/08/16/softmax-regression/
4💘3🍓1
Обширный обзор оценочных метрик для Binary Classification включает в себя подробное рассмотрение различных метрик, таких как confusion matrix, показатели точности, полноты, F-метрики, коэффициент Каппа, корреляция Мэтьюса, ROC-кривая и многие другие.

https://neptune.ai/blog/evaluation-metrics-binary-classification
❤‍🔥7🔥1