Data Secrets – Telegram
Data Secrets
78.8K subscribers
6.42K photos
666 videos
20 files
2.7K links
Главный по машинному обучению

Сотрудничество: @veron_28

РКН: clck.ru/3FY3GN
Download Telegram
Оказывается, у персонажей Гарри Поттера были реальные исторические прототипы из дореволюционной России.

Ну, это если верить Midjourney.
🔥34👍8🍌6
Ошибка выжившего

В статистике существует понятие систематической ошибки выжившего, когда исследователи ищут общие черты среди «выживших», не уделяя должного внимания информации о «погибших»❗️

Примером служит задача поиска места укрепления брони английских бомбардировщиков, поставленная перед математиком Абрахамом Вальдом во время Второй Мировой войны. У возвратившихся на базу самолётов пробоины были в основном на крыльях и хвосте, но Вальд рассудил, что укреплять нужно кабину и топливный бак, ведь бомбардировщики с попавшими туда снарядами не возвращаются.
🔥40👍1771
Media is too big
VIEW IN TELEGRAM
Data Scientist vs Statistician
👍19🔥9🤨5
🎄 Новогодняя подборка книг

Поздравляем всех с Новым 2023 годом! Чтобы не заскучать в праздники, составили подборку из 5 книг по ML, которые помогут вам создать прочную основу машинного обучения. Эти книги варьируются от начального до среднего, а затем продвинутого уровня.

📕Машинное обучение без лишних слов
✍️ Андрей Бурков
2020

Это, вероятно, одна из лучших вводных книг по машинному обучению. Ее можно прочитать через пару дней или чуть больше, так как она составляет всего около 180 страниц. Она является идеальным выбором для начинающих или практиков машинного обучения, которые применяют машинное обучение с помощью встроенных инструментов и хотели бы понять, что за ними происходит.

📕Прикладное машинное обучение с помощью Scikit-Learn и TensorFlow: концепции, инструменты и техники для создания интеллектуальных схем
✍️ Орельен Жерон
2018

Орельен Жерон работал менеджером по продуктам на YouTube, где руководил разработкой машинного обучения для классификации видео. Его опыт очевиден в практическом машинном обучении, поскольку каждая глава наполнена практическими советами и реалистичными методами построения моделей машинного обучения в отрасли.

📕Введение в статистическое обучение с примерами на языке R
✍️ Джеймс, Уиттон, Тибширани
2017

Эта книга предоставляет доступный обзор области статистического обучения, важный набор инструментов для понимания обширных и сложных наборов данных, которые появились в различных областях, начиная от биологии до финансов, маркетинга и астрофизики за последние двадцать лет.

📕Основы статистического обучения. Интеллектуальный анализ данных, логический вывод и прогнозирование
✍️ Хасти, Тибришани, Фридман
2020

Эта книга рассматривается многими как Библия машинного обучения. Чтобы стать серьезным экспертом в теории, лежащей в основе машинного обучения. Это очень концептуальная и теоретическая книга, в которой приводится много примеров, и она поставляется с очень иллюстративными и высококачественными картинками. Она охватывает темы, которые от обучения с учителем и без учителя до искусственных нейронных сетей.

📕Распознавание образов и машинное обучение
✍️ Кристофер Бишоп
2020

Эта книга представляет собой сборник тем, которые слабо организованы, но обсуждение тем чрезвычайно ясно. Свободная организация тем имеет то преимущество, что можно начать книгу и читать различные разделы без необходимости читать предыдущие главы. Тем не менее, новичок в машинном обучении должен начать с чтения глав 1, 2, 3 и 4 очень внимательно, а затем прочитать начальные разделы оставшихся глав, чтобы получить представление о том, какие типы тем они охватывают.
Please open Telegram to view this post
VIEW IN TELEGRAM
15👍10🔥5
Введение в PySpark: ЧАСТЬ 1

PySpark - фреймворк на базе Scala , используемый для обработки и анализа больших данных, а также машинного обучения.

#PySpark
👍254
Media is too big
VIEW IN TELEGRAM
Stable Diffusion сгенерировала эволюцию искусства от древних времён до современности и ближайшего будущего.
👍375🤯5🔥1
This media is not supported in your browser
VIEW IN TELEGRAM
Датасаентист на собеседовании
🔥40😁23🍌5👍2😐1
Преобразование Фурье

Суть преобразования Фурье в том, чтобы разложить функцию на простые составляющие. Коэффициенты в новой функции интерпретируются как гармонические колебания с разными частотами.

Но как используется такое преобразование в нейронных сетях? Ответ на этот вопрос ищи в посте 💡
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👏26👍8
Какие есть способы обработки недостающих данных? Какие методы вы рекомендуете?

Есть несколько способов обработки отсутствующих данных:
• Удалить строки с отсутствующими данными
• Удалить столбцы с отсутствующими данными (отказаться от части признаков)
• Заменить их на среднее / медиану
• Заменить константой (например, нулем)
• Попытаться предсказать недостающие значения
• Использовать алгоритм, который работает с пропущенными значениями. Например, Random forest

Наилучшим методом является удаление строк с отсутствующими данными, поскольку это гарантирует, что смещение или отклонение не будет добавлено или удалено, и в конечном итоге приведет к созданию надежной и точной модели. Однако это можно рекомендовать только в том случае, если есть достаточно данных и процент пропущенных значений невелик.

#вопросы_с_собеседования
👍31🔥7🕊3🐳1🙈1
Mean Shift Clustering 🌸

Средний сдвиг - это алгоритм обучения без учителя, который в основном используется для кластеризации. Он широко используется в реальном анализе данных (например, сегментация изображений), потому что он непараметрический и не требует какой-либо предопределенной формы кластеров в пространстве.

Проще говоря, "средний сдвиг" равно "переход на среднее" итеративным образом. В алгоритме каждая точка данных шаг за шагом переходит к «региональному среднему», а местоположение конечного пункта назначения каждой точки представляет собой кластер, к которому она принадлежит.

В этом посте кратко расскажем о том, как понять этот алгоритм, а также как его использовать на Python 🐍
Please open Telegram to view this post
VIEW IN TELEGRAM
👍12💯11