Data Mining | Анализ данных🚀 – Telegram
Data Mining | Анализ данных🚀
3.3K subscribers
1.73K photos
10 videos
5 files
1.7K links
• Купить рекламу: t.me/sahib_space
Админ: sahib_space
• Стоимость: https://www.notion.so/sahibspace/69ece414a4af49f2bdbdfe455e553e58?pvs=3&qid=
• Группа в ВК: vk.com/datamining.team
Download Telegram
This media is not supported in your browser
VIEW IN TELEGRAM
Зацените впн админов — https://vpnand.com/?ref=92

Будем рады обратной связи и поддержки скачиванием🫶🏻💙
❤‍🔥4👍4🔥4
Разбираются формулы для оценки читаемости (формула Флеша-Кинкейда), затем автор переходит к более сложным подходам, включая использование человеческих бенчмарков, таких как CLEAR (CommonLit Ease of Readability) корпус, который позволяет оценивать тексты на основе их легкости восприятия человеком.

Завершающая часть статьи посвящена использованию LLMs, в частности модели GPT-4 Turbo, для оценки читаемости текстов и сравнения их с результатами, полученными с помощью традиционных формул.
🔥5❤‍🔥3
⚡️Обзор посвящен малым языковым моделям, которые используются на мобильных устройствах. Исследуются их архитектуры, данные для обучения и производительность в задачах, таких как логические рассуждения и обучение на контексте.
Please open Telegram to view this post
VIEW IN TELEGRAM
❤‍🔥33
Bидео демонстрирует примеры кода для вычисления перестановочной важности в mlxtend и scikit-learn.

Перестановочная важность (Feature Permutation Importance) - универсальный и модельно-независимый способ вычисления значимости признаков на основе классификатора или регрессионной модели.


https://youtu.be/meTXOuFV-s8?si=WgXUPGXGcb6Ixnti
❤‍🔥4👍1
Обзор посвящен малым языковым моделям, которые используются на мобильных устройствах. Исследуются их архитектуры, данные для обучения и производительность в задачах, таких как логические рассуждения и обучение на контексте.
🔥32
👀 Шпаргалка по моделям на основе состояний с оптимизацией поиска и процессам принятия решений Маркова — подробный обзор методов оптимизации поиска, таких как обратный поиск, поиск в ширину, поиск в глубину, итеративное углубление, графовый поиск, динамическое программирование.

➡️ Также рассматриваются ключевые аспекты Марковских процессов принятия решений, включая оценку политики, итерацию значений, переходы и вознаграждения.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥4👍31
Статья представляет обзор описательной статистики для распределений производительности. В ней рассматриваются такие аспекты, как центральная тенденция, квантильные оценки, скользящие квантильные оценки, вариация, плотность распределения, мультимодальность, теория экстремальных значений.

https://habr.com/ru/companies/jugru/articles/722342/
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥4❤‍🔥22
😑В статье рассматриваются темы, такие как исследование шаблонов пропущенных данных, выбор вспомогательных переменных, определение количества восполнений.

😠 Статья отвечает на вопросы о видах механизмов пропущенных данных, шагах множественного восполнения, значимости вспомогательных переменных и соображениях при выборе количества восполнений.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5
🔵В статье рассматриваются потенциальные области применения, процессы прогнозирования и валидации, шаги по построению и обучению forest-based forecast, выявление выбросов во временных рядах, результаты работы инструмента, оптимальные методы и ограничения.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍4❤‍🔥21
🖇 Статья вводит в N-shot и zero-shot learning с использованием Python, обсуждая вызовы обучения сложных моделей на больших наборах данных и то, как трансферное обучение может

🫧 Предоставляет примеры применения zero-shot learning для задач классификации текста и распознавания именованных сущностей (NER) с использованием модели TARS. Также рассматривается one-shot learning с использованием Siamese Networks и набора данных MNIST в Keras.

🔖Акцент делается на демонстрации того, как эти техники предоставляют решения в сценариях с ограниченным или отсутствующим размеченным объемом данных.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥8
🤩Разбор регуляризации в глубоком обучении, подробно рассматривая компромисс между bias и variance для предотвращения переобучения и недообучения.

🩶Авторы охватывают различные методы регуляризации, включая L1, L2, Elastic Net, а также техники, такие как отсев, нормализация по батчам и аугментация данных, предоставляя обширный обзор для эффективного построения устойчивых моделей глубокого обучения.

https://theaisummer.com/regularization/
❤‍🔥42
⚡️Статья описывает процесс создания датасета для ML,  начиная с сбора данных через краудсорсинг и заканчивая их очисткой и аннотированием.

Особое внимание уделяется рекомендациям по увеличению объема данных, балансировке классов и соблюдению этических норм.
Please open Telegram to view this post
VIEW IN TELEGRAM
5👍3🔥2
📌 Статья представляет основные библиотеки Python для машинного обучения, включая NumPy, Pandas, Scikit-learn, XGBoost, LightGBM и CatBoost.

Также упоминаются библиотеки для нейросетей (PyTorch, TensorFlow) и обработки данных (NLTK, OpenCV).

От экспертов даны рекомендации для начинающих по последовательности шагов в изучении машинного обучения.
❤‍🔥3👍32
Статья описывает методы обучения с использованием SVM, включая классификацию и регрессию.

Она объясняет основные параметры моделей SVM, их применение для линейных и нелинейных данных, а также методы оптимизации и выбора гиперпараметров для улучшения точности модели.

https://scikit-learn.ru/stable/modules/svm.html
7
Статья охватывает методы обучения машинных моделей без использования меток данных, включая обучение без учителя, самообучение и генеративные модели.

Эти подходы минимизируют зависимость от размеченных наборов данных и находят применение в задачах кластеризации, обработки изображений и текстов.

https://habr.com/ru/amp/publications/842444/
🔥32
Статья описывает концепцию GraphRAG, объединяющая графы знаний с методами RAG для улучшения поиска и генерации ответов на основе структурированных данных.

Это позволяет моделям, таким как LLM, эффективно обрабатывать сложные и специализированные запросы, улучшая точность ответов.

https://www.kdnuggets.com/an-introduction-to-graph-rag
👍32❤‍🔥1
Статья о том, как GraphRAG улучшает традиционный метод RAG, интегрируя графы знаний с большими языковыми моделями, что позволяет более точно и контекстуализированно извлекать информацию для генерации ответов.

Автор описывает различные архитектуры GraphRAG, а также трудности, связанные с построением и поддержанием графов знаний.

https://gradientflow.substack.com/p/graphrag-design-patterns-challenges
❤‍🔥6🔥3
Статья рассказывает о том, как DS используется в социальных проектах для решения глобальных проблем, таких как экология, здравоохранение и образование.

Приводятся примеры реальных инициатив, где аналитика данных помогает организациям повысить свою эффективность и достичь позитивных изменений в обществе.

https://www.kdnuggets.com/data-science-for-social-good-real-world-projects-making-a-difference
🔥6
Пять шпаргалок в DS, которые обобщают ключевые концепции и инструменты в области DS, ML статистики.

Эти ресурсы помогают быстро освоить основные методы и алгоритмы, необходимые для успешного старта в сфере данных.

https://www.kdnuggets.com/5-cheat-sheets-getting-started-data-science
🔥4👍1
Статья знакомит с новым Python-менеджером пакетов, который призван улучшить работу с зависимостями и ускорить процесс разработки за счет оптимизированной архитектуры.

Инструмент предлагает решение для быстрого обновления пакетов и эффективного управления проектами, снижая сложность интеграции сторонних библиотек.

https://www.kdnuggets.com/new-python-package-manager
👍4
В статье описываются ключевые принципы создания устойчивых ETL пайплайнов для обработки данных, акцентируя внимание на автоматизации, масштабируемости и обработке ошибок.

Также рассматриваются лучшие практики для интеграции различных инструментов и обеспечения качества данных в процессе анализа и ML.

https://www.kdnuggets.com/developing-robust-etl-pipelines-for-data-science-projects
👍42❤‍🔥1