Data Secrets – Telegram
Data Secrets
78.8K subscribers
6.42K photos
666 videos
20 files
2.7K links
Главный по машинному обучению

Сотрудничество: @veron_28

РКН: clck.ru/3FY3GN
Download Telegram
Введение в PySpark: ЧАСТЬ 1

PySpark - фреймворк на базе Scala , используемый для обработки и анализа больших данных, а также машинного обучения.

#PySpark
👍254
Media is too big
VIEW IN TELEGRAM
Stable Diffusion сгенерировала эволюцию искусства от древних времён до современности и ближайшего будущего.
👍375🤯5🔥1
This media is not supported in your browser
VIEW IN TELEGRAM
Датасаентист на собеседовании
🔥40😁23🍌5👍2😐1
Преобразование Фурье

Суть преобразования Фурье в том, чтобы разложить функцию на простые составляющие. Коэффициенты в новой функции интерпретируются как гармонические колебания с разными частотами.

Но как используется такое преобразование в нейронных сетях? Ответ на этот вопрос ищи в посте 💡
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👏26👍8
Какие есть способы обработки недостающих данных? Какие методы вы рекомендуете?

Есть несколько способов обработки отсутствующих данных:
• Удалить строки с отсутствующими данными
• Удалить столбцы с отсутствующими данными (отказаться от части признаков)
• Заменить их на среднее / медиану
• Заменить константой (например, нулем)
• Попытаться предсказать недостающие значения
• Использовать алгоритм, который работает с пропущенными значениями. Например, Random forest

Наилучшим методом является удаление строк с отсутствующими данными, поскольку это гарантирует, что смещение или отклонение не будет добавлено или удалено, и в конечном итоге приведет к созданию надежной и точной модели. Однако это можно рекомендовать только в том случае, если есть достаточно данных и процент пропущенных значений невелик.

#вопросы_с_собеседования
👍31🔥7🕊3🐳1🙈1
Mean Shift Clustering 🌸

Средний сдвиг - это алгоритм обучения без учителя, который в основном используется для кластеризации. Он широко используется в реальном анализе данных (например, сегментация изображений), потому что он непараметрический и не требует какой-либо предопределенной формы кластеров в пространстве.

Проще говоря, "средний сдвиг" равно "переход на среднее" итеративным образом. В алгоритме каждая точка данных шаг за шагом переходит к «региональному среднему», а местоположение конечного пункта назначения каждой точки представляет собой кластер, к которому она принадлежит.

В этом посте кратко расскажем о том, как понять этот алгоритм, а также как его использовать на Python 🐍
Please open Telegram to view this post
VIEW IN TELEGRAM
👍12💯11
Фишки в pandas, о которых вы не знали

Методы которые облегчат/ускорят вашу работу 🐍

#Pandas
Please open Telegram to view this post
VIEW IN TELEGRAM
35🤔3😐3
This media is not supported in your browser
VIEW IN TELEGRAM
pov: ты забыл защититься от sql-инъекций
21👍8