Data Mining | Анализ данных🚀 – Telegram
Data Mining | Анализ данных🚀
3.28K subscribers
1.73K photos
10 videos
5 files
1.7K links
• Купить рекламу: t.me/sahib_space
Админ: sahib_space
• Стоимость: https://www.notion.so/sahibspace/69ece414a4af49f2bdbdfe455e553e58?pvs=3&qid=
• Группа в ВК: vk.com/datamining.team
Download Telegram
🔆 Обсуждаются принципы работы кросс валидации, включая использование валидационного набора данных, k-fold кросс-валидацию, Leave-One-Out и Leave-P-Out кросс-валидацию, а также другие подходы и их применение к настройке гиперпараметров моделей.

🔆 Предоставляется обзор различных стратегий кросс-валидации, подчеркивая их важность для создания надежных и эффективных моделей.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥7
🔖 Разъясняется, как модели диффузии используются в создании изображений, описывается двухэтапный процесс диффузии и обратной реконструкции с использованием нейронных сетей.

⚪️Статья также проводит сравнение моделей диффузии с альтернативами, такими как вариационные автокодировщики (VAE), модели на основе потока и генеративно-состязательные сети (GAN), выделяя преимущества и недостатки каждого подхода.
Please open Telegram to view this post
VIEW IN TELEGRAM
❤‍🔥7
📢 Статья представляет концепцию кластеризации k-средних на Python, описывая применение в маркетинге, юридической области и анализе кредитных транзакций.

📎Она включает в себя шаги алгоритма, примеры кода, визуализацию и введение в применение "elbow rule" для определения оптимального количества кластеров.

🟢Темы включают основы k-средних, реализацию на Python, визуализацию и применение в Scikit-learn на примере набора данных Iris.
Please open Telegram to view this post
VIEW IN TELEGRAM
❤‍🔥5
👀Шпаргалка по теории вероятности включает пространство элементарных событий, перестановки, условную вероятность, правило Байеса, независимость, случайные величины, функцию плотности вероятности, кумулятивную функцию распределения, математическое ожидание, моменты и статистические показатели.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥5
⚡️Работа рассматривает использование C и C++ для ускорения ML с параллельной обработки данных и использованием Apache Spark.

📎Она подчеркивает эффективность и широкое использование C/C++ в библиотеках и инструментах ML. Статья вводит использование оператора RDD.pipe Spark для вызова внешнего кода на C/C++ параллельно, предоставляя примеры и выделяя необходимость доступности кода в кластере Spark.

📌 Кроме того, авторы исследуют интеграцию скомпилированных библиотек C/C++ в пользовательские определенные функции (UDF) Spark с использованием инструментов, таких как SWIG, демонстрируя пример вызова функции факториала из общей библиотеки.

📗 Статья завершается демонстрацией развертывания и выполнения этих приложений на кластере Spark.
Please open Telegram to view this post
VIEW IN TELEGRAM
❤‍🔥6🔥11
❗️ Статья рассматривает проблемы и этапы внедрения моделей в среду компании.

🟣 Описывает, что происходит на этапе построения и обучения модели, разъясняет понятие "производства" для модели, касающееся реального времени и переобучения, и раскрывает сложности интеграции модели с бизнес-приложением, интеграции данных, развертывания модели, мониторинга и валидации данных в процессе внедрения, как для реального времени, так и для батч-режима.
Please open Telegram to view this post
VIEW IN TELEGRAM
❤‍🔥6🔥3
🖇 Статья вводит в N-shot и zero-shot learning с использованием Python, обсуждая вызовы обучения сложных моделей на больших наборах данных и то, как трансферное обучение может

🫧 Предоставляет примеры применения zero-shot learning для задач классификации текста и распознавания именованных сущностей (NER) с использованием модели TARS. Также рассматривается one-shot learning с использованием Siamese Networks и набора данных MNIST в Keras.

🔖Акцент делается на демонстрации того, как эти техники предоставляют решения в сценариях с ограниченным или отсутствующим размеченным объемом данных.
Please open Telegram to view this post
VIEW IN TELEGRAM
2❤‍🔥2
🔠 Учебник рассматриваются настройка окружения, импорт библиотек, чтение и очистка данных, разделение их на обучающую и тестовую выборки, а также создание bag-of-words features. Обучение модели включает использование мультиномиального наивного байесовского классификатора, а также демонстрацию метрик оценки, таких как точность, полнота и F1-мера.

🔠 Дополнительно предоставлены предложения по кросс-валидации, настройке гиперпараметров и использованию подходов на основе трансформеров для дальнейшего исследования.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥4💯3
🔄 Статья о Batch Normalization в нейронных сетях рассматривает две основные теории: стабилизацию распределений активаций и сглаживание ландшафта потерь и градиента.

🗣Описываются преимущества, включая более быструю сходимость и сниженную чувствительность к инициализации весов. Также ограничения, такие как неэффективность при малых размерах пакетов и неприменимость к рекуррентным сетям.
Please open Telegram to view this post
VIEW IN TELEGRAM
❤‍🔥53
🔵 Статья обсуждает проблемы в ИИ, сосредотачиваясь на изоляции данных и вопросах конфиденциальности. Авторы предлагают комплексный подход с использованием федеративного обучения, включая горизонтальное, вертикальное и обучение с передачей.

➡️ Рассмотрены ключевые темы, такие как воздействие регулирования (например, GDPR), техники конфиденциальности и потенциальные утечки информации. Также рассматривается категоризация федеративного обучения и его архитектуры.
Please open Telegram to view this post
VIEW IN TELEGRAM
❤‍🔥5
Разбор следующих тем LSTM:
⭕️Введение в модель LSTM нейронной сети для анализа временных рядов.
⭕️Проблемы и сложности реализации LSTM модели через TensorFlow.
⭕️Представление библиотеки scalecast и ее преимущества для упрощения процесса прогнозирования временных рядов.
⭕️Учебник по предобработке данных и исследовательскому анализу данных.
⭕️Прогнозирование с использованием LSTM и библиотеки scalecast.
⭕️Сравнение производительности LSTM с моделью множественной линейной регрессии (MLR) через бенчмаркинг.
⭕️Обсуждение динамичной методики прогнозирования и тестирования в пакете scalecast, предотвращающей утечку данных.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥6❤‍🔥2
➡️ Работа обсуждает использование нейронок для снижения размерности данных с помощью Autoencoder.

🔆 Описываются понятия Autoencoder, функция стоимости, основные термины и приводится реализация в TensorFlow. Также обсуждаюся скорость обучения, регуляризация, предоставляется код и набор данных для примеров.
Please open Telegram to view this post
VIEW IN TELEGRAM
❤‍🔥543
🟡Анализ выживаемости с использованием моделей Каплана-Мейера и Нельсона-Аалена, а также внедрение модели пропорциональных рисков Кокса с использованием proc lifetest и proc phreg для обработки данных сердечных заболеваний.

⭕️ Проводится анализ распределения переменных и графическое представление оценок выживаемости.
Please open Telegram to view this post
VIEW IN TELEGRAM
❤‍🔥43
🟡 В статье рассматриваются различные типы автоэнкодеров, включая недокомплектные, регуляризованные, разреженные, конкретные, автоэнкодеры с добавлением шума и вариационные автоэнкодеры, обсуждая их математические основы, плюсы и минусы.

⭕️Руководство завершается практическим учебником по реализации автоэнкодеров с использованием PyTorch.
Please open Telegram to view this post
VIEW IN TELEGRAM
❤‍🔥52🔥1
😑В статье описываются стандартные архитектуры автоэнкодеров: недокомплектные, разреженные, автоэнкодеры с добавлением шума и контрактивные, обсуждая их компромиссы и применение для обеспечения чувствительности к входам и устойчивости к запоминанию.
Please open Telegram to view this post
VIEW IN TELEGRAM
❤‍🔥6🔥2
😱 Как дела с составлением резюме?

1️⃣Первый и наиболее распространенный промах — резюме на 6 страниц, в то время как оптимально 2 страницы. Рекрутеры в среднем уделяют просмотру всего 10 секунд, поэтому информация должна быть ясной и релевантной.

2️⃣Избыток обязанностей и недостаток достижений. Ваша задача — представить себя максимально выигрышно, а бизнес ценит цифры. Не стесняйтесь урезать блок с обязанностями, так как конкретные кейсы подчеркнут вашу область ответственности.

3️⃣Из резюме не ясно, почему именно вы подходите, а это должно быть явным. Поэтому для каждой вакансии стоит адаптировать резюме или иметь несколько готовых для разных должностей и отраслей. Это особенно важно, если вы меняете профессию. В "О себе" расскажите о завершенных курсах, о том, что вас всегда привлекал анализ данных/ML/тестирование, о вашей готовности организовать всех или, наоборот, вдумчиво погрузиться в задачи.

Ваш @dataminingteam❤️
Please open Telegram to view this post
VIEW IN TELEGRAM
❤‍🔥4🔥32
😑В статье рассматриваются темы, такие как исследование шаблонов пропущенных данных, выбор вспомогательных переменных, определение количества восполнений.

😠 Статья отвечает на вопросы о видах механизмов пропущенных данных, шагах множественного восполнения, значимости вспомогательных переменных и соображениях при выборе количества восполнений.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥7