Data Secrets – Telegram
Data Secrets
78.8K subscribers
6.43K photos
669 videos
20 files
2.71K links
Главный по машинному обучению

Сотрудничество: @veron_28

РКН: clck.ru/3FY3GN
Download Telegram
Удобный способ посмотреть на пропуски в колонках и строках одновременно – использовать тепловую карту:

import seaborn as sns
import matplotlib.pyplot as plt

plt.figure(figsize=(25,10))
sns.heatmap(~df.isnull(), cbar=False, cmap=sns.cm.rocket_r) \
.set_noscript('Темные области - заполненные данные, светлые - пропуски');


Так можно оценить не только кол-во пропусков, но и их структуру.

😻 #analytics
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥43👍10
Про Nested Cross-Validation

Это самая дорогая из "классических" схем валидации. Состоит из двух вложенных кросс-валидаций: внешней и внутренней. Внутренняя используется для подбора гипер-параметров/выбора модели, а внешняя - для оценки модели.

😻 #train
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
12👍5
Советуем отличную книгу

Написана простым языком, мало формул, много практических историй. Она структурирует в себе ряд понятий, которые нигде прежде структурированы не были. Кроме того, в книге рассказывается про ML алгоритмы (без глубокой математики) и про особенности их примнения на практике. А ещё про OLAP кубы, историю Retail Rocket и очень интересную и насыщенную карьеру автора. В общем, рекомендуем.

😻 #advice
Please open Telegram to view this post
VIEW IN TELEGRAM
👌31👍4🔥4
Новый набор во время ближайшего ретроградного Меркурия

😻 #memes
Please open Telegram to view this post
VIEW IN TELEGRAM
😁376🤔2🙈1
Mojo – альтернатива питону для ИИ

Сегодня почти все модели ИИ разрабатываются на Python. Но мало кто знает, что есть прекрасная быстро развивающаяся альтернатива. Mojo — это новый язык программирования, использующий все прелести современных ускорителей и многоядерные вычисления (то есть Mojo просто летает). А еще Mojo — это Python. Стоп, что???

😻 #python
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍50
Про псевдо-лейблинг

Это полезный метод, который может помочь в построении более точной модели на не размеченных данных. Незаменимо в соревнованиях.

😻 #train
Please open Telegram to view this post
VIEW IN TELEGRAM
👍33🔥53👌1🤨1
Запускаем мозг перед рабочей неделей: интересная задача с собеседования аналитика

Представим, что у нас есть два входящих канала привлечения заявок на продукт. Для каждого из каналов аналитик считает конверсии, а также общую конверсию. Вдруг к аналитику приходит менеджер и говорит, что конверсия в обоих каналах выросла, а суммарная упала. Может ли такое быть?

Сразу хочется ответить нет, но задача с подвохом. А ответ – в картинке (но сначала попытайтесь подумать сами)

😻 #challenge
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥25👍74
Надо уменьшать learning rate

😻 #memes
Please open Telegram to view this post
VIEW IN TELEGRAM
😁64🍌4🤯3
Стратификация. Как разбиение выборки повышает чувствительность A/B теста

Сегодня о том, что такое стратифицированное семплирование и как с помощью него повысить чувствительность оценки AB экспериментов.

P.S. Конечно, все не так просто. В стратификации есть свои нюансы и проблемы, но об этом – в следующий раз.

😻 #analytics
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍195
Про pipe в pandas

pipe - это метод реализации паплайна в pandas через последовательную цепочку преобразований (не путать с Pipeline из скалерна).

Например, у нас есть ряд функций, каждая из которых отвечает за какое-то преобразование. Тогда пайплайн в pandas можно реализовать так:

def normilize(df):
...
return df

def fill_null(df, method):
...
return df

def parse_time(df):
...
return df

new_df = (df
.pipe(normilize)
.pipe(fill_null, method='median')
.pipe(parse_time)
)

😻 #analytics #python
Please open Telegram to view this post
VIEW IN TELEGRAM
👍78
This media is not supported in your browser
VIEW IN TELEGRAM
Что нового в дипфейках?

В последнее время было выпущено много статей и продуктов на рынке дипфейк. Вот, например, омолаживание лица Харрисона Форда с помощью Stable Diffusion, ControlNet, EbSynth и Fusion.

Автор рассказал, как он отслеживал лицо актера и стабилизировал его в 800x800 пикселей, а затем помещал каждый 30-й кадр в Stable Diffusion, где лицо омолаживалось. Затем он использовал EbSynth для наложения обработанных кадров на оригинальное видео.

Для сохранения реалистичности автор использовал маски, чтобы акцентировать внимание на омоложенной версии лица, а также скрыть глаза и рот. Единственное: у модели лапки, и она может плохо работать с актерами, у которых много волос (или с моментами поворота головы), поэтому автор отбирал материалы с учетом этих факторов.

😻 #news
Please open Telegram to view this post
VIEW IN TELEGRAM
🤯23👍9🍌3🔥2