Data Mining | Анализ данных🚀 – Telegram
Data Mining | Анализ данных🚀
3.28K subscribers
1.73K photos
10 videos
5 files
1.7K links
• Купить рекламу: t.me/sahib_space
Админ: sahib_space
• Стоимость: https://www.notion.so/sahibspace/69ece414a4af49f2bdbdfe455e553e58?pvs=3&qid=
• Группа в ВК: vk.com/datamining.team
Download Telegram
В данной статье предложены методы subbagging для оценки больших данных с ограничениями по памяти. Исследованы теоретические свойства, показано, что subbagging оценка может достичь √N-состоятельности и асимптотической нормальности при определенных условиях.  Проведены эксперименты симуляции для демонстрации производительности на конечных выборках. 

https://arxiv.org/pdf/2103.00631.pdf
👍4❤‍🔥1🔥1
Автор разбирает подход к обучению нейронок, при котором вместо использования планировщиков скорости обучения предлагается увеличивать размер батча. Автор показывает, что это может привести к более быстрой сходимости и не худшим результатам обучения.

Темы статьи включают общие проблемы нейронных сетей, влияние размера батча на обобщающую способность модели и сравнение методов регулирования скорости обучения и размера батча.
🔥3❤‍🔥11
🌟 Введение в графовый анализ, объясняя структуру графов и их значимость в соц. сетях и электронной коммерции.

Исследуются концепции центральности по:
🟢степени
🟢близости
🟢собственному вектору

📎Каждая тема подкреплена real world примером. Обсуждаются многие вопросы выявления влиятельных узлов, оптимизации передачи.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍9🔥33
Статья о Feature Selection включает в себя подробное изучение концепции и необходимости таких методов.

🔳 Автор предоставляeт обзор различных подходов, предостерегает от распространенных ошибок и рекомендуют эффективные методы выбора признаков, делая акцент на важности данной темы в крупных технологических компаниях.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍621❤‍🔥1
🤎Выбор признаков на основе корреляции в Python
https://vk.com/wall-94208167_7725

🤎Введение в графовый анализ, концепции центральности
https://news.1rj.ru/str/dataminingteam/1795

🤎Обзор алгоритмов оптимизации
https://vk.com/wall-94208167_7722

🤎Модели диффузии — не просто добавление шума
https://vk.com/wall-94208167_7733

🤎Классификаторы минимаксного риска
https://news.1rj.ru/str/dataminingteam/1790
Please open Telegram to view this post
VIEW IN TELEGRAM
❤‍🔥5👍2🔥2
📎 Нашли для вас неплохое объяснение сети Колмогорова-Арнольда.

В видео рассматриваются: введение в многоуровневый перцептрон, введение в аппроксимацию данных, кривые Безье, B-сплайны, теорема универсальной аппроксимации, теорема представления Колмогорова-Арнольда, сети Колмогорова-Арнольда, сравнение MLP и KAN, обучаемые функции, количество параметров, расширение сетки, интерпретируемость и непрерывное обучение.

https://youtu.be/-PFIkkwWdnM?si=DlxRWw0YFQIdGiD5
Please open Telegram to view this post
VIEW IN TELEGRAM
8❤‍🔥31👍1🔥1
💡Обзорная статья рассматривает проблему обучения с помощью зашумленных меток в контексте глубокого обучения.

Представлен обзор 62 методов обучения с учетом шумных меток, категоризированных по пяти группам.

Авторы провели систематическое сравнение шести характеристик для оценки их эффективности. Осветили методы оценки шума и используемые метрики оценки.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍6❤‍🔥1
🧬 В статье рассматриваются ключевые аспекты квантового машинного обучения, включая NISQ и методы обеспечения устойчивости к ошибкам в квантовых вычислениях.

Обсуждаются основные концепции, алгоритмы и статистическая теория обучения.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍63
Прочитал любопытное исследование про распространение ИИ в науке. За последние 40 лет использование ИИ в научных публикациях выросло в 13 раз! Среди юзеров-лидеров — инженеры, экологи и медики 👏

Но есть нюанс: хотя исследования с ИИ и становятся более распространенными, они как бы существуют отдельно от традиционных исследований. Как масло в воде — вроде везде, но не смешивается.

В общем, видим, как ИИ захватывает науку, но пока не очень хорошо интегрируется. Авторы изучили около 80 млн публикаций, чтобы прийти к таким выводам.

Если интересно, полное исследование можно найти здесь.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥73👍2💯1
💥Статья касается различных аспектов развития языковых моделей, начиная от Transformer и BERT, до более новых моделей типа GPT и RETRO.

Обсуждаются методы предварительного обучения, контекстуализированные эмбеддинги, и использование баз данных для улучшения работы моделей при генерации текста.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5❤‍🔥2
Cтатья объясняет концепцию ранней остановки, ее плюсы и минусы, реализацию на Scikit-Learn и TensorFlow.

Она охватывает смещение и разброс, концепции переобучения и недообучения, регуляризацию, и дает примеры применения ранней остановки как в классических моделях машинного обучения (Scikit-Learn), так и в глубоком обучении (TensorFlow).
👍5❤‍🔥22
🚕 Kак Uber использует теорию графов, вложения и механизм самовнимания для предсказания времени прибытия машины?

Рассматриваются традиционные алгоритмы маршрутизации, интеграция ML для учета времени суток и погодных условий, и использование кодирования признаков и самообучающихся архитектур для повышения точности прогнозов.

https://codecompass00.substack.com/p/uber-billion-dollar-problem-predicting-eta
Please open Telegram to view this post
VIEW IN TELEGRAM
❤‍🔥6👍5🔥41
📍Рассматриваются основы позиционного кодирования в трансформерах, объясняя, как синусоидальные функции вводят информацию о позициях токенов, что помогает моделям распознавать порядок элементов в последовательности.

Обсуждаются различные методы позиционного кодирования, включая обучаемые векторы и роторные кодировки, которые улучшают обработку длинных контекстов.

https://codecompass00.substack.com/p/positional-encoding-transformers
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥6👍3❤‍🔥2
Любопытный подкаст с Francois Chollet (создатель Keros). Парни обсудили ARC Prize на $1🍋, а именно:

Предпосылки и значимость соревнования ARC.
Сравнение ARC с другими тестами ИИ.
Проблема закрытости передовых исследований.
Возможные подходы к решению задач ARC.
Роль масштабирования моделей и "базовых знаний" в ИИ.
Влияние подобных конкурсов на развитие общего ИИ.

https://youtu.be/UakqL6Pj9xo?si=J9eiX4Z8ph46gwD_
❤‍🔥53
Рассматриваются основные метрики оценки для NLP моделей, включая BLEU, NIST, METEOR, ROUGE, CIDEr, SPICE и BERTscore. Каждая метрика направлена на оценку качества перевода, суммаризации или других задач обработки естественного языка, используя различные подходы к сравнению гипотезы с эталоном, включая учет precision, recall, семантической аналогии и contextual embedding.
👍6
Подробное введение в LSTM сети, охватывая их уникальную архитектуру, роль ворот и важность функций активации tanh и sigmoid.

Книга также содержит практические примеры использования LSTM сетей в Python с использованием TensorFlow для различных задач, включая обработку естественного языка и прогнозирование временных рядов.

https://medium.com/@palashm0002/understanding-and-implementing-lstm-networks-41ca52495108
❤‍🔥4🔥21
➡️ Исследование проверяет эффективность стратегии обрезки слоев для предварительно обученных LLM, показывая минимальное снижение производительности до удаления значительной части слоев.

Авторы предлагают оптимальный блок слоев для обрезки на основе их сходства и применяют квантизаци и адаптеры низкого ранга, что позволяет значительно экономить вычислительные ресурсы и улучшать задержки при выводе.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥5💯2❤‍🔥1
Исследование анализирует, как внедрение синтетических данных влияет на масштабирование нейронных моделей.

Авторы разрабатывают теоретическую модель для предсказания возможного деградирования моделей при изменении масштабных законов, что подтверждается экспериментами с использованием трансформера и Llama2.
👍6