Data Secrets – Telegram
Data Secrets
78.8K subscribers
6.44K photos
669 videos
20 files
2.71K links
Главный по машинному обучению

Сотрудничество: @veron_28

РКН: clck.ru/3FY3GN
Download Telegram
Анти-паттерн pandas: использование мутаций вместо цепочек методов

Большинство тех, кто использует pandas на практике, сначала осваивают не самый удачный подход к обработке данных. Он предусматривает пошаговое изменение (мутацию) объектов DataFrame, выполняемое с помощью набора отдельных операций. Но избыточные мутации объектов DataFrame могут приводить к проблемам. Рассказываем, почему так происходит, и что с этим делать.

😻 #python
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
74👍30🤯61
This media is not supported in your browser
VIEW IN TELEGRAM
На этой неделе Meta (признана в России экстремистской организацией) выкатила модель генерации музыки по описанию

Архитектура нейросети основана на авторегрессионном трансформере. При этом код опубликовали не просто так, а в составе новой библиотеки Audiocraft, которая специально задумана для дальнейших исследований в области генерации аудио. Уже можно попробовать:


🖥 Код и веса

🖥 Сайт с примерами

🤗 Демо на HuggingFace

🖥 Colab

😻 #news
Please open Telegram to view this post
VIEW IN TELEGRAM
35👍16🤯5
Backpropagation: главный нейросетевой алгоритм

Нейронные сети обучаются с помощью градиентного спуска, а чтобы применять его, нужно уметь эффективно вычислять градиенты функции потерь. Для какой-нибудь запутанной нейросети это может быть очень сложной задачей, но на помощь спешит метод обратного распространения ошибки: разбираемся.

😻 #NN
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍539🔥6🤯6❤‍🔥1
Пополняем ваш список ресурсов новыми сайтами для практики SQL

HackerRank’s SQL practice
StrataScratch
Mode SQL tutorial
SQLZoo
DataLemur

😻 #advice
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍57❤‍🔥10🔥6
Как с помощью OpenCV распознать объекты на изображении

OpenCV — это open source библиотека компьютерного зрения, которая предназначена для анализа, классификации и обработки изображений. С помощью этой библиотеки можно делать кучу интересного. Сегодня на примере игральных карт разберемся, как детектить объекты.

😻 #python
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
5045👍26🤯95🍌1😇1🗿1💘1
Про переобучение случайного леса

Вопрос про переобучение случайного леса и бустинга часто встречается на собеседованиях. Звучит он примерно так: объясните, от чего может переобучиться случайный лес, и в чем тут разница с бустингом?

Часто кандидаты отвечают: «Случайный лес не может переобучиться вообще, в отличии от бустинга». Но это правильно только отчасти.

Правильнее было бы сказать: случайный лес, в отличие от бустинга, не может переобучиться от увеличения количества деревьев. Это происходит потому что случайный лес усредняет предсказания всех деревьев. Это легко понять, если провести аналогию со средним генеральной совокупности. Возьмем из нее два случайных экземпляра и посчитаем их среднее. Очевидно, что это среднее будет сильно отличаться от среднего генеральной совокупности. Но если мы возьмем 1 000 000 случайных экземпляров, то среднее будет очень близко к генеральной совокупности, и добавление миллион первого, второго, третьего экземпляра сильно на среднее не повлияет.

Однако случайный лес все-таки может переобучиться, если задать большую глубину деревьев. Скажем, глубина 1000 – прямой путь к оверфиту, ведь тогда алгоритм просто выучит трейн.

😻 #train
Please open Telegram to view this post
VIEW IN TELEGRAM
59👍38🔥5😨4😐3🗿3🕊2