Удобный способ посмотреть на пропуски в колонках и строках одновременно – использовать тепловую карту:
Так можно оценить не только кол-во пропусков, но и их структуру.
😻 #analytics
import seaborn as sns
import matplotlib.pyplot as plt
plt.figure(figsize=(25,10))
sns.heatmap(~df.isnull(), cbar=False, cmap=sns.cm.rocket_r) \
.set_noscript('Темные области - заполненные данные, светлые - пропуски');Так можно оценить не только кол-во пропусков, но и их структуру.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥43👍10
Про Nested Cross-Validation
Это самая дорогая из "классических" схем валидации. Состоит из двух вложенных кросс-валидаций: внешней и внутренней. Внутренняя используется для подбора гипер-параметров/выбора модели, а внешняя - для оценки модели.
😻 #train
Это самая дорогая из "классических" схем валидации. Состоит из двух вложенных кросс-валидаций: внешней и внутренней. Внутренняя используется для подбора гипер-параметров/выбора модели, а внешняя - для оценки модели.
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤12👍5
Советуем отличную книгу
Написана простым языком, мало формул, много практических историй. Она структурирует в себе ряд понятий, которые нигде прежде структурированы не были. Кроме того, в книге рассказывается про ML алгоритмы (без глубокой математики) и про особенности их примнения на практике. А ещё про OLAP кубы, историю Retail Rocket и очень интересную и насыщенную карьеру автора. В общем, рекомендуем.
😻 #advice
Написана простым языком, мало формул, много практических историй. Она структурирует в себе ряд понятий, которые нигде прежде структурированы не были. Кроме того, в книге рассказывается про ML алгоритмы (без глубокой математики) и про особенности их примнения на практике. А ещё про OLAP кубы, историю Retail Rocket и очень интересную и насыщенную карьеру автора. В общем, рекомендуем.
Please open Telegram to view this post
VIEW IN TELEGRAM
👌31👍4🔥4
Доброе субботнее. Какая ты архитектура нейросети сегодня?
Anonymous Poll
7%
Полносвязная – олдфаг
20%
CNN – свернул все дела на выходные
10%
LSTM – я тот самый, который помнит все, что было вчера на вечеринке
7%
RNN – тоже помню, но не все
24%
Трансформер – фокусируюсь на важном
7%
GNN – общаюсь со всеми и сразу
18%
GAN – во всем сомневаюсь
5%
Другое
😁37🔥12😨3🤯2👏1
Mojo – альтернатива питону для ИИ
Сегодня почти все модели ИИ разрабатываются на Python. Но мало кто знает, что есть прекрасная быстро развивающаяся альтернатива. Mojo — это новый язык программирования, использующий все прелести современных ускорителей и многоядерные вычисления (то есть Mojo просто летает). А еще Mojo — это Python. Стоп, что???
😻 #python
Сегодня почти все модели ИИ разрабатываются на Python. Но мало кто знает, что есть прекрасная быстро развивающаяся альтернатива. Mojo — это новый язык программирования, использующий все прелести современных ускорителей и многоядерные вычисления (то есть Mojo просто летает). А еще Mojo — это Python. Стоп, что???
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍50
Про псевдо-лейблинг
Это полезный метод, который может помочь в построении более точной модели на не размеченных данных. Незаменимо в соревнованиях.
😻 #train
Это полезный метод, который может помочь в построении более точной модели на не размеченных данных. Незаменимо в соревнованиях.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍33🔥5⚡3👌1🤨1
Запускаем мозг перед рабочей неделей: интересная задача с собеседования аналитика
Представим, что у нас есть два входящих канала привлечения заявок на продукт. Для каждого из каналов аналитик считает конверсии, а также общую конверсию. Вдруг к аналитику приходит менеджер и говорит, что конверсия в обоих каналах выросла, а суммарная упала. Может ли такое быть?
Сразу хочется ответить нет, но задача с подвохом. А ответ – в картинке (но сначала попытайтесь подумать сами)
😻 #challenge
Представим, что у нас есть два входящих канала привлечения заявок на продукт. Для каждого из каналов аналитик считает конверсии, а также общую конверсию. Вдруг к аналитику приходит менеджер и говорит, что конверсия в обоих каналах выросла, а суммарная упала. Может ли такое быть?
Сразу хочется ответить нет, но задача с подвохом. А ответ – в картинке (но сначала попытайтесь подумать сами)
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥25👍7❤4
Стратификация. Как разбиение выборки повышает чувствительность A/B теста
Сегодня о том, что такое стратифицированное семплирование и как с помощью него повысить чувствительность оценки AB экспериментов.
P.S. Конечно, все не так просто. В стратификации есть свои нюансы и проблемы, но об этом – в следующий раз.
😻 #analytics
Сегодня о том, что такое стратифицированное семплирование и как с помощью него повысить чувствительность оценки AB экспериментов.
P.S. Конечно, все не так просто. В стратификации есть свои нюансы и проблемы, но об этом – в следующий раз.
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍19❤5
Про pipe в pandas
pipe - это метод реализации паплайна в pandas через последовательную цепочку преобразований (не путать с Pipeline из скалерна).
Например, у нас есть ряд функций, каждая из которых отвечает за какое-то преобразование. Тогда пайплайн в pandas можно реализовать так:
😻 #analytics #python
pipe - это метод реализации паплайна в pandas через последовательную цепочку преобразований (не путать с Pipeline из скалерна).
Например, у нас есть ряд функций, каждая из которых отвечает за какое-то преобразование. Тогда пайплайн в pandas можно реализовать так:
def normilize(df):
...
return df
def fill_null(df, method):
...
return df
def parse_time(df):
...
return df
new_df = (df
.pipe(normilize)
.pipe(fill_null, method='median')
.pipe(parse_time)
)
Please open Telegram to view this post
VIEW IN TELEGRAM
👍78
This media is not supported in your browser
VIEW IN TELEGRAM
Что нового в дипфейках?
В последнее время было выпущено много статей и продуктов на рынке дипфейк. Вот, например, омолаживание лица Харрисона Форда с помощью Stable Diffusion, ControlNet, EbSynth и Fusion.
Автор рассказал, как он отслеживал лицо актера и стабилизировал его в 800x800 пикселей, а затем помещал каждый 30-й кадр в Stable Diffusion, где лицо омолаживалось. Затем он использовал EbSynth для наложения обработанных кадров на оригинальное видео.
Для сохранения реалистичности автор использовал маски, чтобы акцентировать внимание на омоложенной версии лица, а также скрыть глаза и рот. Единственное: у модели лапки, и она может плохо работать с актерами, у которых много волос (или с моментами поворота головы), поэтому автор отбирал материалы с учетом этих факторов.
😻 #news
В последнее время было выпущено много статей и продуктов на рынке дипфейк. Вот, например, омолаживание лица Харрисона Форда с помощью Stable Diffusion, ControlNet, EbSynth и Fusion.
Автор рассказал, как он отслеживал лицо актера и стабилизировал его в 800x800 пикселей, а затем помещал каждый 30-й кадр в Stable Diffusion, где лицо омолаживалось. Затем он использовал EbSynth для наложения обработанных кадров на оригинальное видео.
Для сохранения реалистичности автор использовал маски, чтобы акцентировать внимание на омоложенной версии лица, а также скрыть глаза и рот. Единственное: у модели лапки, и она может плохо работать с актерами, у которых много волос (или с моментами поворота головы), поэтому автор отбирал материалы с учетом этих факторов.
Please open Telegram to view this post
VIEW IN TELEGRAM
🤯23👍9🍌3🔥2