Data Mining | Анализ данных🚀 – Telegram
Data Mining | Анализ данных🚀
3.28K subscribers
1.73K photos
10 videos
5 files
1.7K links
• Купить рекламу: t.me/sahib_space
Админ: sahib_space
• Стоимость: https://www.notion.so/sahibspace/69ece414a4af49f2bdbdfe455e553e58?pvs=3&qid=
• Группа в ВК: vk.com/datamining.team
Download Telegram
доброе утро, коллеги😉
Please open Telegram to view this post
VIEW IN TELEGRAM
15😁105
1️⃣Детальная шпаргалка по статистике. Все, что вам надо в 1 материале.  https://news.1rj.ru/str/dataminingteam/1623

2️⃣Практическое руководство по поддержке ML моделей в продакшене.
https://vk.com/wall-94208167_7513

3️⃣Практический туториал по BERT от препроцессинга до тренировки.  https://news.1rj.ru/str/dataminingteam/1575

4️⃣Разбор кластеризации временных рядов — популярные методы, разъяснение pros/cons, шумы и точность.
https://vk.com/wall-94208167_7519

5️⃣Реализация выбора признаков на Python для уменьшения размерности данных.
https://vk.com/wall-94208167_7500

Ваш @dataminingteam🤗
Please open Telegram to view this post
VIEW IN TELEGRAM
7🔥5❤‍🔥2
1️⃣В каких ситуациях возникает исключение NotImplementedError?

2️⃣ Какие функции из collections и itertools вы используете?

3️⃣Что делает флаг PYTHONOPTIMIZE?

4️⃣Как ускорить существующий код python? 

5️⃣Как упаковать бинарные зависимости?

Ставь «🔥» и пиши свои ответы комментах👇

Ваш @dataminingteam🤗
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥8❤‍🔥2🍓1
🔠Статья рассматривает ключевые аспекты выбора хранилища данных подчеркивая важность масштабируемости, гибкости и надежности.

🔠 Статья акцентирует внимание на воспроизводимости через версионирование данных и стратегии по долгосрочной перспективе в выборе поставщика хранилища данных.
Please open Telegram to view this post
VIEW IN TELEGRAM
❤‍🔥7🔥22
➡️ "Regression-Enhanced Random Forests" (RERFs) - как способ устранения ограничений случайных лесов, интегрируя силу штрафованной параметрической регрессии.

🤩 Методология включает запуск Lasso перед построением случайного леса на остатках, что приводит к лучшей предсказательной производительности, особенно в случаях, где важны известные отношения между предикторами и ответами или при прогнозировании вне обучающего диапазона данных. Исследование заключает, что RERFs превосходят случайные леса как в интерполяции, так и в экстраполяции.

тык на ссылку
Please open Telegram to view this post
VIEW IN TELEGRAM
❤‍🔥6🔥3
🔥 Behavior interview — вид собеседования, фокус которого направлен на оценку прошлого опыта кандидата.

Пару вопросов, которые вам скорее всего зададут на behavior interview:
1⃣ Расскажите о случае, когда ваши рабочие обязанности чувствовались немного подавляющими. Что вы предприняли в этой ситуации?

2⃣ Опишите проект, с которым у вас возникли наибольшие трудности. Что бы вы сделали по-другому?

3⃣ Расскажите о случае, когда у вас были запросы от разных сотрудников в одно время. Как вы с этим справились?

4⃣ Какой совет вы бы дали молодому человеку, который пытается пробиться в этой сфере?

5⃣ Назовите наиболее интересные проекты, над которыми вы работали, и как они могут быть актуальны для среды данной компании?

6⃣ Расскажите о случае, когда у вас возникло разногласие с вашим руководителем.

7⃣ Расскажите о проекте, к которому у вас была особая страсть, или о том, где вы продемонстрировали свой лучший редультат.

Было полезно? Ставь «🔥»👇

Ваш @dataminibgteam🤗
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥114❤‍🔥3
🔆 Разбор базовых AHC (Агломеративная иерархическая кластеризация) и K-Means.

🔵 Исследование сфокусировано на влиянии выбросов на качество кластеризации, сравнивая результаты до и после удаления выбросов с использованием алгоритмов выявления выбросов, таких как LOF (Локальный фактор выбросов) и COF (Фактор выбросов на основе связности), и анализируя улучшение качества кластеризации на трех реальных наборах данных с различным количеством экземпляров.

https://www.ncbi.nlm.nih.gov/pmc/articles/PMC9324173/pdf/entropy-24-00917.pdf
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥62❤‍🔥2
жиза
😁22💯2
🇸🇦 Модель, которую вы обучили, имеет низкий уровень смещения и высокую дисперсию. Что бы вы делали с этим?

🇸🇦 Какую технику кросс-валидации вы бы предложили для временного ряда и почему?

🇸🇦 Каковы шаги в типичном алгоритме обучения с подкреплением?

🇸🇦 Какие существуют методы уменьшения размерности?

🇸🇦 Как находить пороги для классификатора?

Ставь «🔥» и пиши свои ответы комментах👇

Ваш @dataminingteam🤗
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥10❤‍🔥43
🔥 Полный обзор на многоруких бандитов. Сохраняй себе!

Авторы рассматривают:
🟣Введение в модели принятия решений и компромисс между исследованием и использованием.
🟣Стратегия Epsilon-Greedy: Реализация на Python, вызовы и динамическая природа параметра исследования.
🟣Введение в алгоритм Softmax как улучшение по сравнению с стратегиями Epsilon-Greedy.
🟣Метод имитации отжига (Simulated Annealing): Постепенное уменьшение коэффициента исследования со временем.
🟣Введение в алгоритм Upper Confidence Bound (UCB) и его выбор на основе верхних границ уверенности.
🟣Байесовские бандиты: Введение в алгоритм Выборка Томпсона и байесовскую статистику.
🟣Объяснение теоремы Байеса и ее применение в принятии решений.
🟣Использование сопряженных априорных распределений и байесовской статистики в контексте бернуллиевских наград с бета-распределением.
🟣Ссылки для дополнительного изучения байесовской статистики.

Статья включает фрагменты кода на Python для реализации алгоритмов.

Ваш @dataminingteam🤗
Please open Telegram to view this post
VIEW IN TELEGRAM
❤‍🔥6🔥42
1️⃣Как перевернуть генератор?

2️⃣ Что такое pycache AND файлы .pyc?

3️⃣Как передать необязательные или ключевые параметры из одной функции в другую?

4️⃣Чем отличаются iter и next?

5️⃣Как работать с транзитивными зависимостями?

Ставь «🔥» и пиши свои ответы комментах👇

Ваш @dataminingteam🤗
Please open Telegram to view this post
VIEW IN TELEGRAM
❤‍🔥6🔥51
This media is not supported in your browser
VIEW IN TELEGRAM
Когда доделываешь последний таск и наконец можно расслабиться
😁10💯2
🔆 Статья вдается в суть проблемы исчезающего градиента в нейронных сетях, подчеркивая ее важность в контексте глубокого обучения. Предлагаются методы ее решения и подробно рассматривая расчеты градиентов, причины и признаки этой проблемы.
Please open Telegram to view this post
VIEW IN TELEGRAM
❤‍🔥6🔥31
📌 Обзор на Layer-wise Relevance Propagation (LRP) предоставляет понимание того, как обеспечить объяснимость прогнозов сложных нейронных сетей, выражая предсказания в терминах входных признаков.

🤩 Метод LRP обладает привлекательными свойствами, такими как эффективная и модульная реализация propagation rules в большинстве программных средств нейронных сетей, встроенных в фреймворк Deep Taylor Decomposition.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥6❤‍🔥21
Помощь Ямилю Намазбаеву

Студент 2 курса магистратуры Ямиль Намазбаев сейчас проходит крайне сложное медицинское лечение.

Он и его семья нуждаются в финансовой поддержке.

Ямилю 28 лет. Крайние десять лет он работал в образовании и активно занимался продвижением и сохранением башкирского языка и башкирской культуры: работал учителем  в сельской школе, преподавал историю и обществознание детям-сиротам, преподавал башкирский на курсах при МГУ и в арабском центре, был активным участником курултая башкир Москвы и Московской области.

Ямиль один из самых отзывчивых, добрых и сердечных людей, который никогда не оставил бы друга или просто знакомого в беде.
И мы не должны оставлять его.

Перевести любую сумму можно по номеру карты его мамы:

2202202380463400

(Сбер, Айгуль Нуритдиновна X.) в комментарии к переводу обязательно указать: ЯМИЛЬ.
💯17
🤩Разбор регуляризации в глубоком обучении, подробно рассматривая компромисс между bias и variance для предотвращения переобучения и недообучения.

🩶Авторы охватывают различные методы регуляризации, включая L1, L2, Elastic Net, а также техники, такие как отсев, нормализация по батчам и аугментация данных, предоставляя обширный обзор для эффективного построения устойчивых моделей глубокого обучения.

https://theaisummer.com/regularization/
Please open Telegram to view this post
VIEW IN TELEGRAM
❤‍🔥72
😁11🐳3❤‍🔥2
🤩Все о метрикax оценки алгоритмов обучения без учителя, включая аксиомы Клейнберга (инвариантность масштаба, согласованность и тд.), вопросы гиперпараметрической настройки алгоритмов кластеризации и метрики внутренней валидации, такие как когенетический коэффициент корреляции и статистика Хьюберта.

🟡 Также вопросы внешней валидации и метрик, основанных на теории информации, методы определения тенденций кластеризации в данных и оценки качества результатов кластеризации.


https://arxiv.org/pdf/1905.05667.pdf
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥62❤‍🔥1💯1
Статья затрагивает важные темы статистики, такие как вероятность, плотность вероятности, MLE (максимальное правдоподобие), а также их применение в линейной регрессии и классификации. Дополнительно рассматривается влияние использования MSE (среднеквадратичная ошибка) в бинарной классификации и бинарной кросс-энтропии.

https://theaisummer.com/mle/#quantifying-distribution-closeness-kl-div
❤‍🔥5🔥32
1️⃣ Приведите пример использования filter и reduce над итерируемым объектом.

2️⃣ Как сделать копию объекта? Как сделать глубокую копию объекта?

3️⃣ Что такое магические методы (dunder-методы)?

4️⃣ Что такое контекстный менеджер? Зачем он нужен?

5️⃣ Как передать необязательные или ключевые параметры из одной функции в другую?

Ставь «🔥» и пиши свои ответы комментах👇

Ваш @dataminingteam🤗
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥7❤‍🔥2