Data Mining | Анализ данных🚀 – Telegram
Data Mining | Анализ данных🚀
3.3K subscribers
1.73K photos
10 videos
5 files
1.7K links
• Купить рекламу: t.me/sahib_space
Админ: sahib_space
• Стоимость: https://www.notion.so/sahibspace/69ece414a4af49f2bdbdfe455e553e58?pvs=3&qid=
• Группа в ВК: vk.com/datamining.team
Download Telegram
Cравнительный анализ стратегий обучения, которые используют как выбор признаков для работы с высокой размерностью, так и методы обучения с учетом стоимости для справления с дисбалансом классов. Эксперименты проводились на трех бенчмарках из геномной области, что позволило оценить влияние комбинации выбора признаков и обучения с учетом стоимости на несбалансированных данных.

https://peerj.com/articles/cs-832/
3👍1
Статья исследует, улучшает ли увеличение данных обобщение в обработке естественного языка (NLP), помогая моделям отказаться от поверхностных признаков в пользу более общих и сильных.

Исследование показывает, что увеличение данных может сначала ухудшить производительность, прежде чем начать помогать, и что его эффективность ограничена, если более сильный признак значительно сложнее извлечь, чем конкурирующий поверхностный признак.

https://arxiv.org/abs/2004.15012
👍2
🧢 ROI – университетское образование

Наткнулся на сайт, который сделал визуализацию метрики ROI (возврат инвестиций) образования в разбивке по направлениям и университетам. Потом они составили рейтинг университетов по этому показателю 🤲

Здесь можно посмотреть на рейтинг универов, а здесь — подробнее почитать про методологию. Вот небольшое саммари методологии:

Факторы, учитываемые в расчете ROI:

🕚Вероятность и сроки завершения обучения.

🕚Ожидаемые доходы и долги как для выпускников, так и для тех, кто не завершил обучение.

🕚Альтернативные издержки, связанные с отказом от немедленного выхода на рынок труда после школы.

Процесс расчета ROI:

🕚Прогнозируются денежные потоки на 40 лет, включая ожидаемый доход и обязательства по долгу студентов.

🕚Эти потоки приводятся к текущей стоимости с учетом коэффициента дисконтирования.

🕚Приведенная стоимость взвешивается на вероятность завершения обучения, так как выгоды от образования ощущаются только у тех, кто завершил обучение.

🕚Взвешенная приведенная стоимость сравнивается с расчетной NPV при немедленном выходе на рынок труда после школы для определения ROI.

Интерпретация ROI: Например, если программа имеет ROI $50,000, это означает, что студент, начавший эту программу, становится на $50,000 "богаче" (в текущих деньгах) по сравнению с тем, если бы он сразу вышел на рынок труда после школы.

Получилась довольно занимательная статистика — кто бы мог подумать, что после обучения на visual and performing arts люди в среднем получают меньше, чем после computer science? 🤔

Занимательно, что университеты стоимостью $20.000 в среднем имеют меньший ROI университетов с более дорогим образованием. Еще интересно было сравнить частные вузы с публичными — вторые стоят в два раза дешевле, но ROI показывают на уровне верхушки частных вузов 😊

Что думаете про визуализацию? Нужно ли школьникам учитывать подобные рейтинги и метрики при поступлении в универ и выборе направлении? Прожимайте реакцию 🧢 и переходите в комментарии

t.me/dataminingteam

(C) t.me/tagir_analyzes
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥7😁2
В статье обзор 62 методов обучения с учетом шумных меток, категоризированных по пяти группам в рамках DL.

Авторы также провели систематическое сравнение шести характеристик для оценки их эффективности, а также осветили методы оценки шума и используемые наборы данных и метрики оценки. В заключении выделены перспективные направления для будущих исследований.

https://arxiv.org/pdf/2007.08199
4
В статье исследуются различные гиперпараметры для популярных алгоритмов, таких как Ридж и Лассо Регрессия, Логистическая Регрессия, Метод Опорных Векторов, Метод К-Ближайших Соседей, Деревья Решений и Градиентный Бустинг. Кроме того, она обозначает преимущества и недостатки настройки гиперпараметров и демонстрирует, как ее выполнять с помощью Python, используя такие техники, как Coarse to Finer Approach с использованием RandomizedSearchCV и GridSearchCV.
👍51
В статье представлен метод TranAD для обнаружения аномалий в многомерных временных рядах с использованием глубоких сетей трансформеров.

TranAD увеличивает F1-оценки на до 17%, сокращая время обучения на до 99% по сравнению с базовыми методами.

Модель использует внимание для кодирования данных и быстрого обнаружения аномалий, обеспечивая стабильное извлечение признаков и обучение с ограниченными данными через мета-обучение.

https://arxiv.org/pdf/2201.07284
👍5
Авторы представляют сеть на основе трансформера, направленную на атрибутивное обучение без образцов.

Рна использует кодировщик для улучшения переносимости визуальных признаков и декодер для локализации атрибутов на изображении, что позволяет эффективно взаимодействовать между визуальными и семантическими данными.
❤‍🔥3
Статья описывает новый метод поиска ближайших соседей с использованием анизотропной векторной квантизации в библиотеке ScaNN. Основное внимание уделено улучшению точности и скорости поиска на основе векторных эмбеддингов в больших данных.
👍4❤‍🔥2🔥2
https://vpnand.com/?ref=92

Наши друзья создали VPN. Рекомендуем. Скачивайте.

Мем для вас как бонус 💗
Please open Telegram to view this post
VIEW IN TELEGRAM
👍4❤‍🔥1💯1
Представлены предварительно обученные авторегрессивные модели, которые решают задачу генерации 3D-сеток моделирования LLM.

В основе MeshXL лежит явное представление координат с неявными нейронными вложениями, которое является простым и эффективным способом моделирования последовательных сеток большого масштаба.
🔥4👍1
Обзор методов уменьшения размерности данных, включая PCA, t-SNE и UMAP, анализирует их преимущества и недостатки. Подходы к уменьшению размерности включают линейные (PCA) и нелинейные методы (t-SNE, UMAP), каждый со своими особенностями.

Также представлен инструмент TensorFlow Embedding Projector для визуализации данных. Обзор помогает понять, какой метод выбрать в зависимости от задачи.
❤‍🔥6🔥31
Switch Transformers представляют новый подход к масштабированию моделей до триллионов параметров с помощью простой и эффективной разреженности.

Вместо того, чтобы использовать одни и те же параметры для всех входных данных, модели MoE выбирают разные параметры для каждого примера. Результатом является разреженно-активированная модель с огромным числом параметров, но постоянной вычислительной стоимостью.
❤‍🔥62
🔠Нашли для вас видео, где неплохо разъясняется понятие перестановочной важности, которая является универсальным и модельно-независимым способом вычисления значимости признаков на основе классификатора или регрессионной модели.

https://youtu.be/VUvShOEFdQo?si=6cmga6PCz19NC1H_
Please open Telegram to view this post
VIEW IN TELEGRAM
8❤‍🔥3🔥3
This media is not supported in your browser
VIEW IN TELEGRAM
Зацените впн админов — https://vpnand.com/?ref=92

Будем рады обратной связи и поддержки скачиванием🫶🏻💙
❤‍🔥4👍4🔥4
Разбираются формулы для оценки читаемости (формула Флеша-Кинкейда), затем автор переходит к более сложным подходам, включая использование человеческих бенчмарков, таких как CLEAR (CommonLit Ease of Readability) корпус, который позволяет оценивать тексты на основе их легкости восприятия человеком.

Завершающая часть статьи посвящена использованию LLMs, в частности модели GPT-4 Turbo, для оценки читаемости текстов и сравнения их с результатами, полученными с помощью традиционных формул.
🔥5❤‍🔥3
⚡️Обзор посвящен малым языковым моделям, которые используются на мобильных устройствах. Исследуются их архитектуры, данные для обучения и производительность в задачах, таких как логические рассуждения и обучение на контексте.
Please open Telegram to view this post
VIEW IN TELEGRAM
❤‍🔥33
Bидео демонстрирует примеры кода для вычисления перестановочной важности в mlxtend и scikit-learn.

Перестановочная важность (Feature Permutation Importance) - универсальный и модельно-независимый способ вычисления значимости признаков на основе классификатора или регрессионной модели.


https://youtu.be/meTXOuFV-s8?si=WgXUPGXGcb6Ixnti
❤‍🔥4👍1
Обзор посвящен малым языковым моделям, которые используются на мобильных устройствах. Исследуются их архитектуры, данные для обучения и производительность в задачах, таких как логические рассуждения и обучение на контексте.
🔥32
👀 Шпаргалка по моделям на основе состояний с оптимизацией поиска и процессам принятия решений Маркова — подробный обзор методов оптимизации поиска, таких как обратный поиск, поиск в ширину, поиск в глубину, итеративное углубление, графовый поиск, динамическое программирование.

➡️ Также рассматриваются ключевые аспекты Марковских процессов принятия решений, включая оценку политики, итерацию значений, переходы и вознаграждения.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥4👍31
Статья представляет обзор описательной статистики для распределений производительности. В ней рассматриваются такие аспекты, как центральная тенденция, квантильные оценки, скользящие квантильные оценки, вариация, плотность распределения, мультимодальность, теория экстремальных значений.

https://habr.com/ru/companies/jugru/articles/722342/
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥4❤‍🔥22
😑В статье рассматриваются темы, такие как исследование шаблонов пропущенных данных, выбор вспомогательных переменных, определение количества восполнений.

😠 Статья отвечает на вопросы о видах механизмов пропущенных данных, шагах множественного восполнения, значимости вспомогательных переменных и соображениях при выборе количества восполнений.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5