Data Mining | Анализ данных🚀 – Telegram
Data Mining | Анализ данных🚀
3.3K subscribers
1.73K photos
10 videos
5 files
1.7K links
• Купить рекламу: t.me/sahib_space
Админ: sahib_space
• Стоимость: https://www.notion.so/sahibspace/69ece414a4af49f2bdbdfe455e553e58?pvs=3&qid=
• Группа в ВК: vk.com/datamining.team
Download Telegram
👀 Шпаргалка по моделям на основе состояний с оптимизацией поиска и процессам принятия решений Маркова — подробный обзор методов оптимизации поиска, таких как обратный поиск, поиск в ширину, поиск в глубину, итеративное углубление, графовый поиск, динамическое программирование.

➡️ Также рассматриваются ключевые аспекты Марковских процессов принятия решений, включая оценку политики, итерацию значений, переходы и вознаграждения.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥4👍31
Статья представляет обзор описательной статистики для распределений производительности. В ней рассматриваются такие аспекты, как центральная тенденция, квантильные оценки, скользящие квантильные оценки, вариация, плотность распределения, мультимодальность, теория экстремальных значений.

https://habr.com/ru/companies/jugru/articles/722342/
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥4❤‍🔥22
😑В статье рассматриваются темы, такие как исследование шаблонов пропущенных данных, выбор вспомогательных переменных, определение количества восполнений.

😠 Статья отвечает на вопросы о видах механизмов пропущенных данных, шагах множественного восполнения, значимости вспомогательных переменных и соображениях при выборе количества восполнений.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5
🔵В статье рассматриваются потенциальные области применения, процессы прогнозирования и валидации, шаги по построению и обучению forest-based forecast, выявление выбросов во временных рядах, результаты работы инструмента, оптимальные методы и ограничения.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍4❤‍🔥21
🖇 Статья вводит в N-shot и zero-shot learning с использованием Python, обсуждая вызовы обучения сложных моделей на больших наборах данных и то, как трансферное обучение может

🫧 Предоставляет примеры применения zero-shot learning для задач классификации текста и распознавания именованных сущностей (NER) с использованием модели TARS. Также рассматривается one-shot learning с использованием Siamese Networks и набора данных MNIST в Keras.

🔖Акцент делается на демонстрации того, как эти техники предоставляют решения в сценариях с ограниченным или отсутствующим размеченным объемом данных.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥8
🤩Разбор регуляризации в глубоком обучении, подробно рассматривая компромисс между bias и variance для предотвращения переобучения и недообучения.

🩶Авторы охватывают различные методы регуляризации, включая L1, L2, Elastic Net, а также техники, такие как отсев, нормализация по батчам и аугментация данных, предоставляя обширный обзор для эффективного построения устойчивых моделей глубокого обучения.

https://theaisummer.com/regularization/
❤‍🔥42
⚡️Статья описывает процесс создания датасета для ML,  начиная с сбора данных через краудсорсинг и заканчивая их очисткой и аннотированием.

Особое внимание уделяется рекомендациям по увеличению объема данных, балансировке классов и соблюдению этических норм.
Please open Telegram to view this post
VIEW IN TELEGRAM
5👍3🔥2
📌 Статья представляет основные библиотеки Python для машинного обучения, включая NumPy, Pandas, Scikit-learn, XGBoost, LightGBM и CatBoost.

Также упоминаются библиотеки для нейросетей (PyTorch, TensorFlow) и обработки данных (NLTK, OpenCV).

От экспертов даны рекомендации для начинающих по последовательности шагов в изучении машинного обучения.
❤‍🔥3👍32
Статья описывает методы обучения с использованием SVM, включая классификацию и регрессию.

Она объясняет основные параметры моделей SVM, их применение для линейных и нелинейных данных, а также методы оптимизации и выбора гиперпараметров для улучшения точности модели.

https://scikit-learn.ru/stable/modules/svm.html
7
Статья охватывает методы обучения машинных моделей без использования меток данных, включая обучение без учителя, самообучение и генеративные модели.

Эти подходы минимизируют зависимость от размеченных наборов данных и находят применение в задачах кластеризации, обработки изображений и текстов.

https://habr.com/ru/amp/publications/842444/
🔥32
Статья описывает концепцию GraphRAG, объединяющая графы знаний с методами RAG для улучшения поиска и генерации ответов на основе структурированных данных.

Это позволяет моделям, таким как LLM, эффективно обрабатывать сложные и специализированные запросы, улучшая точность ответов.

https://www.kdnuggets.com/an-introduction-to-graph-rag
👍32❤‍🔥1
Статья о том, как GraphRAG улучшает традиционный метод RAG, интегрируя графы знаний с большими языковыми моделями, что позволяет более точно и контекстуализированно извлекать информацию для генерации ответов.

Автор описывает различные архитектуры GraphRAG, а также трудности, связанные с построением и поддержанием графов знаний.

https://gradientflow.substack.com/p/graphrag-design-patterns-challenges
❤‍🔥6🔥3
Статья рассказывает о том, как DS используется в социальных проектах для решения глобальных проблем, таких как экология, здравоохранение и образование.

Приводятся примеры реальных инициатив, где аналитика данных помогает организациям повысить свою эффективность и достичь позитивных изменений в обществе.

https://www.kdnuggets.com/data-science-for-social-good-real-world-projects-making-a-difference
🔥6
Пять шпаргалок в DS, которые обобщают ключевые концепции и инструменты в области DS, ML статистики.

Эти ресурсы помогают быстро освоить основные методы и алгоритмы, необходимые для успешного старта в сфере данных.

https://www.kdnuggets.com/5-cheat-sheets-getting-started-data-science
🔥4👍1
Статья знакомит с новым Python-менеджером пакетов, который призван улучшить работу с зависимостями и ускорить процесс разработки за счет оптимизированной архитектуры.

Инструмент предлагает решение для быстрого обновления пакетов и эффективного управления проектами, снижая сложность интеграции сторонних библиотек.

https://www.kdnuggets.com/new-python-package-manager
👍4
В статье описываются ключевые принципы создания устойчивых ETL пайплайнов для обработки данных, акцентируя внимание на автоматизации, масштабируемости и обработке ошибок.

Также рассматриваются лучшие практики для интеграции различных инструментов и обеспечения качества данных в процессе анализа и ML.

https://www.kdnuggets.com/developing-robust-etl-pipelines-for-data-science-projects
👍42❤‍🔥1
Статья раскрывает оптимизацию RAG через интеграцию ГБД, улучшая семантическое извлечение и контекстуализацию для LLM, что снижает галлюцинации.

Архитектурные подходы, включая кластеризацию и схемы, усиливают точность и осведомленность моделей в специфических доменах.

https://arxiv.org/abs/2411.09702
👍11
Статья представляет метод SG-Mixed применяет техники машинного обучения для повышения эффективности ГМ, комбинируя различные стратегии обучения с ограничениями на векторные представления.

Этот подход улучшает точность генерации при ограниченных данных, снижая вычислительные затраты.

https://arxiv.org/abs/2411.09678
👍7🔥2
Статья предлагает использование трансформеров (T) в контексте RL с механизмами внимания (A), что улучшает эффективность ГМ, минимизируя вычислительные расходы через оптимизацию векторных представлений (e).

Такой подход усиливает обучение на малых выборках, балансируя сложность архитектуры и ресурсные затраты.

https://arxiv.org/abs/2411.09591
👍6🔥2❤‍🔥1
В статье предложен метод, где модели создают данные, подражая существующим примерам, минимизируя необходимость в разметке.

Этот подход улучшает генерацию, обучая модели эффективно воспроизводить поведение без явных меток.

https://arxiv.org/abs/2411.09229
🔥4👍1
Статья исследует современные методы федеративного обучения, акцентируя внимание на решении проблем безопасности и оптимизации коммуникаций в распределённых системах.

Обсуждаются новые подходы для повышения эффективности и конфиденциальности данных.

https://dl.acm.org/doi/10.1145/3676164
🔥42