NEW BOT Телеграм, страница

Удобный способ посмотреть на пропуски в колонках и строках одновременно – использовать тепловую карту:

import seaborn as sns
import matplotlib.pyplot as plt

plt.figure(figsize=(25,10))
sns.heatmap(~df.isnull(), cbar=False, cmap=sns.cm.rocket_r) \
.set_noscript('Темные области - заполненные данные, светлые - пропуски');

Так можно оценить не только кол-во пропусков, но и их структуру.

😻

#analytics

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥43👍10

4.37K viewsedited 16:07

Data Secrets

Про Nested Cross-Validation

Это самая дорогая из "классических" схем валидации. Состоит из двух вложенных кросс-валидаций: внешней и внутренней. Внутренняя используется для подбора гипер-параметров/выбора модели, а внешняя - для оценки модели.

😻

#train

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

❤12👍5

3.9K views07:07

Data Secrets

Советуем отличную книгу

Написана простым языком, мало формул, много практических историй. Она структурирует в себе ряд понятий, которые нигде прежде структурированы не были. Кроме того, в книге рассказывается про ML алгоритмы (без глубокой математики) и про особенности их примнения на практике. А ещё про OLAP кубы, историю Retail Rocket и очень интересную и насыщенную карьеру автора. В общем, рекомендуем.

😻

#advice

Please open Telegram to view this post

VIEW IN TELEGRAM

👌31👍4🔥4

4.54K viewsedited 11:11

Data Secrets

Новый набор во время ближайшего ретроградного Меркурия

😻

#memes

Please open Telegram to view this post

VIEW IN TELEGRAM

😁37❤6🤔2🙈1

5.28K viewsedited 16:03

Data Secrets

Доброе субботнее. Какая ты архитектура нейросети сегодня?

Anonymous Poll

Полносвязная – олдфаг

20%

CNN – свернул все дела на выходные

10%

LSTM – я тот самый, который помнит все, что было вчера на вечеринке

RNN – тоже помню, но не все

24%

Трансформер – фокусируюсь на важном

GNN – общаюсь со всеми и сразу

18%

GAN – во всем сомневаюсь

Другое

😁37🔥12😨3🤯2👏1

655 voters4.77K views07:55

Data Secrets

Mojo – альтернатива питону для ИИ

Сегодня почти все модели ИИ разрабатываются на Python. Но мало кто знает, что есть прекрасная быстро развивающаяся альтернатива. Mojo — это новый язык программирования, использующий все прелести современных ускорителей и многоядерные вычисления (то есть Mojo просто летает). А еще Mojo — это Python. Стоп, что???

😻

#python

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

👍50

4.93K views12:23

Data Secrets

Про псевдо-лейблинг

Это полезный метод, который может помочь в построении более точной модели на не размеченных данных. Незаменимо в соревнованиях.

😻

#train

Please open Telegram to view this post

VIEW IN TELEGRAM

👍33🔥5⚡3👌1🤨1

4.71K views08:34

Data Secrets

Запускаем мозг перед рабочей неделей: интересная задача с собеседования аналитика

Представим, что у нас есть два входящих канала привлечения заявок на продукт. Для каждого из каналов аналитик считает конверсии, а также общую конверсию. Вдруг к аналитику приходит менеджер и говорит, что конверсия в обоих каналах выросла, а суммарная упала. Может ли такое быть?

Сразу хочется ответить нет, но задача с подвохом. А ответ – в картинке (но сначала попытайтесь подумать сами)

😻

#challenge

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥25👍7❤4

4.67K viewsedited 15:45

Data Secrets

Надо уменьшать learning rate

😻

#memes

Please open Telegram to view this post

VIEW IN TELEGRAM

😁64🍌4🤯3

4.61K viewsedited 07:41

Data Secrets

Стратификация. Как разбиение выборки повышает чувствительность A/B теста

Сегодня о том, что такое стратифицированное семплирование и как с помощью него повысить чувствительность оценки AB экспериментов.

P.S. Конечно, все не так просто. В стратификации есть свои нюансы и проблемы, но об этом – в следующий раз.

😻

#analytics

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

👍19❤5

4.43K views11:58

Data Secrets

Про pipe в pandas

pipe - это метод реализации паплайна в pandas через последовательную цепочку преобразований (не путать с Pipeline из скалерна).

Например, у нас есть ряд функций, каждая из которых отвечает за какое-то преобразование. Тогда пайплайн в pandas можно реализовать так:

def normilize(df):
    ...
    return df

def fill_null(df, method):
    ...
    return df

def parse_time(df):
    ...
    return df

new_df = (df
    .pipe(normilize)
    .pipe(fill_null, method='median')
    .pipe(parse_time)
)

😻

#analytics #python

Please open Telegram to view this post

VIEW IN TELEGRAM

👍78

7.92K viewsedited 17:37

Data Secrets

0:17

This media is not supported in your browser

VIEW IN TELEGRAM

Что нового в дипфейках?

В последнее время было выпущено много статей и продуктов на рынке дипфейк. Вот, например, омолаживание лица Харрисона Форда с помощью Stable Diffusion, ControlNet, EbSynth и Fusion.

Автор рассказал, как он отслеживал лицо актера и стабилизировал его в 800x800 пикселей, а затем помещал каждый 30-й кадр в Stable Diffusion, где лицо омолаживалось. Затем он использовал EbSynth для наложения обработанных кадров на оригинальное видео.

Для сохранения реалистичности автор использовал маски, чтобы акцентировать внимание на омоложенной версии лица, а также скрыть глаза и рот. Единственное: у модели лапки, и она может плохо работать с актерами, у которых много волос (или с моментами поворота головы), поэтому автор отбирал материалы с учетом этих факторов.

😻

#news

Please open Telegram to view this post

VIEW IN TELEGRAM

🤯23👍9🍌3🔥2

4.01K views08:17

About

Blog

Apps

Platform