Чёрная пятница завершается…
Если вы откладывали решение, дальше уже некуда. Сегодня и завтра до конца дня можно получить скидки до 35% на любые курсы Simulative и зафиксировать цену, которая больше не повторится в этом году.
С понедельника обучение станет дороже — это тот самый момент, когда один клик меняет траекторию к реальным навыкам, проектам и первой работе.
Не упустите финальный шанс ноября!
➡️ Оставить заявку
📊 Simulative
Если вы откладывали решение, дальше уже некуда. Сегодня и завтра до конца дня можно получить скидки до 35% на любые курсы Simulative и зафиксировать цену, которая больше не повторится в этом году.
С понедельника обучение станет дороже — это тот самый момент, когда один клик меняет траекторию к реальным навыкам, проектам и первой работе.
Не упустите финальный шанс ноября!
Please open Telegram to view this post
VIEW IN TELEGRAM
❤7🔥3 2
Всем привет! На связи Павел Беляев 👋
12 декабря стартует новый поток курса «Аналитик данных» со мной в качестве ментора.
Команда аналитиков eLama под моим руководством выполняет следующие задачи:
➖ Разработка и поддержка витрин данных (Clickhouse, SQL);
➖ Автоматизация и оптимизация процессов, связанных с данными: обновление витрин, мониторинг качества данных, чистка устаревшего и т. д.;
➖ Разработка внутренних сервисов аналитики: модель данных, self service и др.;
➖ Настройка веб-аналитики;
➖ Прогнозирование метрик;
➖ Поддержка различных отделов компании требуемыми данными;
➖ Содействие другим аналитикам в сборе, визуализации и интерпретации данных;
➖ Консалтинг и обучение конечных пользователей.
За время работы в сфере аналитики я успел побывать в разных ролях: бизнес-аналитик, веб-аналитик, дата-инженер, дата-аналитик, BI-аналитик, тимлид. Поэтому на личном опыте понимаю, как выглядит в бизнесе вся цепочка обработки данных от потребности до выводов.
Уверен, что мой опыт поможет студентам привязать полученные знания к реальным бизнес-задачам из деловой жизни!
➡️ Узнать подробнее и забронировать место на потоке
📊 Simulative
12 декабря стартует новый поток курса «Аналитик данных» со мной в качестве ментора.
😶 Немного обо мне для тех, кто ещё со мной не знаком: я уже более 5 лет руковожу командой аналитиков в компании Яндекс eLama, а также веду Telegram-канал Тимлидское об аналитике.
Команда аналитиков eLama под моим руководством выполняет следующие задачи:
За время работы в сфере аналитики я успел побывать в разных ролях: бизнес-аналитик, веб-аналитик, дата-инженер, дата-аналитик, BI-аналитик, тимлид. Поэтому на личном опыте понимаю, как выглядит в бизнесе вся цепочка обработки данных от потребности до выводов.
Уверен, что мой опыт поможет студентам привязать полученные знания к реальным бизнес-задачам из деловой жизни!
Please open Telegram to view this post
VIEW IN TELEGRAM
❤5🔥3 2👍1
Топ ошибок при проведении A/B-тестов и как их избежать
A/B-тестирование — это наука, лежащая в основе успешной оптимизации продуктов. Однако нередко даже самые опытные команды допускают ошибки, которые сильно искажают результаты и могут приводить к неверным решениям.
Подготовили для вас материал с наиболее распространёнными «ловушками», реальными примерами из практики и действенными способами их избежать.
Что разберём в материале:
✅ Преждевременное завершение тестов;
✅ Неправильный выбор метрик;
✅ Предотвращайте фальсификацию данных (p-hacking).
Обязательно сохраните к себе, чтобы не потерять!
➡️ Получить материал
📊 Simulative
A/B-тестирование — это наука, лежащая в основе успешной оптимизации продуктов. Однако нередко даже самые опытные команды допускают ошибки, которые сильно искажают результаты и могут приводить к неверным решениям.
Подготовили для вас материал с наиболее распространёнными «ловушками», реальными примерами из практики и действенными способами их избежать.
Что разберём в материале:
Обязательно сохраните к себе, чтобы не потерять!
Please open Telegram to view this post
VIEW IN TELEGRAM
❤8 2🔥1
Учиться можно (и даже нужно!) в конце года, чтобы в новом году блистать новыми знаниями. Переходите по ссылкам и бронируйте себе место на потоках!
5 декабря🟠 Инженер данных
Ментор потока: Георгий Семенов, Chief Data Officer🟠 Тренинг Андрона Алексаняна «Как делать аналитику»
12 декабря🟠 Аналитик данных и BI-аналитик
Ментор потоков: Павел Беляев, руководитель группы дата-аналитиков в Яндекс eLama
19 декабря🟠 ML-инженер
Ментор потока: Кристина Желтова, директор по разработке моделей в Газпромбанке
26 декабря🟠 Аналитик данных
Ментор потока: Вячеслав Потапов, руководитель продуктовой аналитики в Lamoda
Сохраняйте к себе, делитесь с коллегами, и ждём вас на наших курсах!
Please open Telegram to view this post
VIEW IN TELEGRAM
❤4🔥1 1
Ну что, остался месяц до нового 2026 года — и самое время начать подготовку к нему! 🎄
Для этих целей (и для успешного старта в аналитике, разумеется) мы собрали адвент-календарь — в нём вы найдёте полезные материалы, видео и записи вебинаров, которые обогатят ваши знания, а также помогут вам преодолеть сомнения относительно обучения и карьеры в области аналитики.
➡️ Переходите в адвент-календарь, регистрируйтесь в боте и получайте новые знания каждый день!
📊 Simulative
Для этих целей (и для успешного старта в аналитике, разумеется) мы собрали адвент-календарь — в нём вы найдёте полезные материалы, видео и записи вебинаров, которые обогатят ваши знания, а также помогут вам преодолеть сомнения относительно обучения и карьеры в области аналитики.
А начнём мы путь к обновлению карьеры с приятной скидки на наши курсы — до 35% на fullstack-аналитика и менторские программы😉
Please open Telegram to view this post
VIEW IN TELEGRAM
❤7🔥5 2
Качаем скиллы дата-инженера
Открываем новую карточку адвент-календаря — из него вы узнаете, какие технологии полезно изучить и в каком порядке следует изучать темы по инжинирингу данных. Скачивайте роадмап, сохраните его и используйте как чек-лист, чтобы не сбиваться с пути и не тратить время на лишнее.
😶 Перейти в адвент-календарь
📊 Simulative
Открываем новую карточку адвент-календаря — из него вы узнаете, какие технологии полезно изучить и в каком порядке следует изучать темы по инжинирингу данных. Скачивайте роадмап, сохраните его и используйте как чек-лист, чтобы не сбиваться с пути и не тратить время на лишнее.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥5❤2 2
Кто такой fullstack-аналитик
Короткий ответ: человек, который умеет довести задачу до результата без передачи между пятью специалистами🙂
Длинный ответ: https://simulative.ru/blog/who-is-fullstack-analyst
➡️ Зарегистрироваться на вебинар
📊 Simulative
Короткий ответ: человек, который умеет довести задачу до результата без передачи между пятью специалистами
Длинный ответ: https://simulative.ru/blog/who-is-fullstack-analyst
🤔 Но это всё теория. Приходите на вебинар 3 декабря, где эксперт на живых кейсах покажет, как этот универсальный аналитик живёт и работает. А HR поделится лайфхаками, как упаковать резюме и отклики, чтобы вас чаще звали на собеседования.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥5❤2👍1 1
Привет, это Кристина Желтова 👋🏻
Напомню несколько фактов о себе:
😶 Я директор по разработке моделей в Газпромбанке — одном из ведущих российских банков.
😶 Уже более 5 лет работаю в области машинного обучения и Data Science. Сейчас активно развиваю аналитические решения и ML-продукты на сеньорных и руководящих позициях.
😶 Имею богатый опыт в области классического машинного обучения: реализовывала проекты по оптимальному размещению АТМ и торговых точек с использованием геопространственной аналитики, разрабатывала систему кредитного скоринга с нейросетевыми моделями, а также решения для модерации контента, построения RAG-пайплайнов и систем матчинга текстов с помощью NLP и LLM моделей.
😶 Также я преподаватель курсов по машинному обучению, глубокому обучению и анализу естественного языка в ведущих российских вузах: ИТМО, УрФУ и ЧелГУ.
😶 Выпускница магистратуры по искусственному интеллекту ИТМО × Napoleon IT, где также выступаю ментором и экспертом образовательных программ.
⚡️ Узнать подробнее о курсе и оставить заявку
📊 Simulative
19 декабря стартует новый поток курса «ML-инженер» с моим менторским сопровождением!
Напомню несколько фактов о себе:
Кстати, я являюсь ментором на VIP-тарифе программы, где также помогу вам с собеседованиями и трудоустройством. На него сейчас действует скидка 35% до 12 декабря, так что успевайте и присоединяйтесь!
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥8❤3 2👍1
Следующая карточка адвента уже открыта!
Приходите вечером на вебинар — расскажем, как живёт и работает универсальный аналитик:
➖ Старший аналитик данных Dodo Brands Илья Ковалёв на живых кейсах покажет, где брать данные, как их готовить, во что превращать и как на их основе принимают решения.
➖ А HR-эксперт Наталья Рожкова разберёт, каких специалистов сейчас реально нанимают и что отличает кандидата, которому дают оффер, от того, кто «не дотягивает» до ожиданий рынка.
➡️ Перейти в адвент-календарь
📊 Simulative
Приходите вечером на вебинар — расскажем, как живёт и работает универсальный аналитик:
Ждём вас 3 декабря в 19:00 МСК!
Please open Telegram to view this post
VIEW IN TELEGRAM
❤7☃5🔥4
Ищем новых менторов и преподавателей в Simulative
Мы в Simulative ищем специалистов в DA/DE/BI/ML, которые будут сопровождать группы наших студентов с первого дня обучения.
Если вы:
🟠 Любите обучать людей;
🟠 Вам интересно вести вебинары;
🟠 Вы любите писать статьи/посты/полезные материалы;
🟠 Вы хотите записывать уроки или ещё как-то хотите повзаимодействовать с нашей школой;
🟠 Не боитесь (или даже хотите!) проявляться медийно —
То мы точно ждём вашу заявку и в ближайшее время с вами свяжемся!
🔗 Ссылка на короткую форму
📊 Simulative
Мы в Simulative ищем специалистов в DA/DE/BI/ML, которые будут сопровождать группы наших студентов с первого дня обучения.
Если вы:
То мы точно ждём вашу заявку и в ближайшее время с вами свяжемся!
Please open Telegram to view this post
VIEW IN TELEGRAM
❤5👍2🔥2
Привет, это Андрон, основатель Simulative 👋🏻
На днях думал о том, какие уровни владения аналитикой проходил я сам, какие проходят все мои знакомые из индустрии и что отличает крутышей от начального уровня. И выявил несколько общих паттернов.
➡️ Движение по наитию
В этой стадии решения принимаются без оглядки на данные вообще. Захотели запустить рекламу — запустили. Захотели привести 500 лидов — привели 500. Решили отключить пару кампаний — отключили.
➡️ Данные — это важно, «но»
На следующем шаге ты понимаешь и признаёшь, что данные — это важно. Например, ты прошел какой-то курс и решил принимать решения на основании данных. Но у тебя нет глубокого понимания, как это должно работать — почти любая инициатива упирается во что-то и в итоге гаснет.
Например, ты понял, что нельзя просто так планировать следующий год — нужно опираться на исторические данные, смотреть поведение текущих когорт и прогнозировать будущие когорты. Но сразу же ты сталкиваешься с кучей проблем:
➖ У тебя есть только часть данных. Не понятно, какие брать.
➖ Компания последние несколько лет растёт и прогноз получается слишком плоским, позитивным и нереалистичным.
➖ ...
В итоге ты потратил кучу времени, а никакой пользы это не принесло — возникла куча «но», из-за которых твоя аналитика стала просто «аналитикой для галочки».
➡️ Владение аналитикой на уровне рабочего инструмента
Это последняя стадия, когда ты реально умеешь применять аналитические подходы в реальной жизни, даже если есть куча «но».
Когда ты достиг этой стадии, ты можешь спрогнозировать следующий год с помощью когорт, сезонности и прочих штук, даже если возникает много «но». Ты можешь проанализировать ассортиментную матрицу, даже если там 10 000 SKU, есть ограничения по месту на полке, требования к минимальной представленности брендов и другие «но». Ты можешь провести достоверное тестирование гипотезы, даже если невозможно провести чистый A/B-тест, потому что много разных «но».
Самое интересное, что с точки зрения технических знаний, между вторым и третьим уровнем нет абсолютно никакой разницы — оба человека будут абсолютно одинаково считать когорты, абсолютно одинаково делать какую-нибудь кластеризацию товаров и т. д.
Основное отличие — как в раз в умении адаптировать тот или иной аналитический подход даже под самую нетривиальную задачу с большим количеством «но».
И этому можно научиться. В этом вопросе главное — совершить единоразовый квантовый скачок со второго на третий уровень. А дальше реакция необратима — ваше мышление навсегда перестроится.
Такой «скачок» можно запустить двумя вещами:
➖ Ты подробно посмотрел на стороннем примере, как это работает и словил эффект «о, а так можно было?!»
➖ Ты на примере какой-то близкой тебе темы прочувствовал, почему твой старый «топорный» подход не работал и какой результат может дать новый подход.
Если чувствуете, что находитесь на втором уровне и хотите запустить квантовый переход на третий — приглашаю вас сделать это вместе на новом потоке тренинга, который стартует уже завтра😎
📊 Simulative
На днях думал о том, какие уровни владения аналитикой проходил я сам, какие проходят все мои знакомые из индустрии и что отличает крутышей от начального уровня. И выявил несколько общих паттернов.
В этой стадии решения принимаются без оглядки на данные вообще. Захотели запустить рекламу — запустили. Захотели привести 500 лидов — привели 500. Решили отключить пару кампаний — отключили.
На следующем шаге ты понимаешь и признаёшь, что данные — это важно. Например, ты прошел какой-то курс и решил принимать решения на основании данных. Но у тебя нет глубокого понимания, как это должно работать — почти любая инициатива упирается во что-то и в итоге гаснет.
Например, ты понял, что нельзя просто так планировать следующий год — нужно опираться на исторические данные, смотреть поведение текущих когорт и прогнозировать будущие когорты. Но сразу же ты сталкиваешься с кучей проблем:
В итоге ты потратил кучу времени, а никакой пользы это не принесло — возникла куча «но», из-за которых твоя аналитика стала просто «аналитикой для галочки».
Это последняя стадия, когда ты реально умеешь применять аналитические подходы в реальной жизни, даже если есть куча «но».
Когда ты достиг этой стадии, ты можешь спрогнозировать следующий год с помощью когорт, сезонности и прочих штук, даже если возникает много «но». Ты можешь проанализировать ассортиментную матрицу, даже если там 10 000 SKU, есть ограничения по месту на полке, требования к минимальной представленности брендов и другие «но». Ты можешь провести достоверное тестирование гипотезы, даже если невозможно провести чистый A/B-тест, потому что много разных «но».
Самое интересное, что с точки зрения технических знаний, между вторым и третьим уровнем нет абсолютно никакой разницы — оба человека будут абсолютно одинаково считать когорты, абсолютно одинаково делать какую-нибудь кластеризацию товаров и т. д.
Основное отличие — как в раз в умении адаптировать тот или иной аналитический подход даже под самую нетривиальную задачу с большим количеством «но».
И этому можно научиться. В этом вопросе главное — совершить единоразовый квантовый скачок со второго на третий уровень. А дальше реакция необратима — ваше мышление навсегда перестроится.
Такой «скачок» можно запустить двумя вещами:
Именно такой эффект я хочу активировать у студентов своего тренинга «Как делать аналитику». Чтобы после прохождения вы не просто прокачались в продвинутых подходах к проведению аналитики, а чтобы случился этот самый квантовый переход на новый уровень.
Если чувствуете, что находитесь на втором уровне и хотите запустить квантовый переход на третий — приглашаю вас сделать это вместе на новом потоке тренинга, который стартует уже завтра
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥5❤2👍1 1
Не только мы делимся своими адвентами!
У наших друзей и партнёров AW BI стартовал новогодний адвент-календарь — уютный интерактив, где каждый день открывает что-то приятное и полезное☃️
Нам такая идея показалась тёплой и по-праздничному правильной, поэтому мы тоже решили присоединиться к этому формату.
🔔 Подключайтесь к адвенту, ловите настроение приближающихся праздников и не пропускайте наше окошко!
📊 Simulative
У наших друзей и партнёров AW BI стартовал новогодний адвент-календарь — уютный интерактив, где каждый день открывает что-то приятное и полезное
Нам такая идея показалась тёплой и по-праздничному правильной, поэтому мы тоже решили присоединиться к этому формату.
🎁 В одном из окошек вас будет ждать небольшой сюрприз от Simulative. Бонус, который мы подготовили специально для календаря. Пусть пока останется интригой, но уверены: тем, кто развивается в аналитике данных и любит узнавать новое, подарок придётся по вкусу.
Please open Telegram to view this post
VIEW IN TELEGRAM
❤5☃3🔥2🎄1
Привет, коллеги! На связи Павел Беляев, ментор курса «Аналитик данных» и ведущий канала Тимлидское об аналитике 👋🏻
Важнейший инструмент дата-аналитика (не считая его головы, конечно) — это SQL. Очевидно, нужно не только знать синтаксис и структуру запросов — нужно расширять свой арсенал приёмов использования SQL.
Предлагаю пару лайфхаков SQL, которые мы используем в своей работе.
📌 Последний элемент в исторических данных
В таблицах с историческими данными строки, отражающие состояние некоей сущности, не изменяют своё значение со временем. Если состояние изменилось, к таблице добавляется новая строка для той же сущности, но с другим значением соответствующего поля (например, поля status). Каждая строка при этом снабжена полем date_updated, содержащим дату и время обновления.
Так вот, чтобы вытащить строку с текущим состоянием сущности, можно использовать оконную функцию:
📌 Сводные таблицы
Предположим, у нас есть таблица с фильмами, где для каждого из них имеется столбец release_year с годом выпуска и length с длительностью в минутах. Мы хотим подсчитать количество фильмов до 90 минут, до 120 минут и более 120 минут.
Когда нужно подсчитать суммы или количество величин из разных категорий, содержащихся в одном столбце, в PostgreSQL можно делать так:
📊 Simulative
Важнейший инструмент дата-аналитика (не считая его головы, конечно) — это SQL. Очевидно, нужно не только знать синтаксис и структуру запросов — нужно расширять свой арсенал приёмов использования SQL.
Предлагаю пару лайфхаков SQL, которые мы используем в своей работе.
📌 Последний элемент в исторических данных
В таблицах с историческими данными строки, отражающие состояние некоей сущности, не изменяют своё значение со временем. Если состояние изменилось, к таблице добавляется новая строка для той же сущности, но с другим значением соответствующего поля (например, поля status). Каждая строка при этом снабжена полем date_updated, содержащим дату и время обновления.
Так вот, чтобы вытащить строку с текущим состоянием сущности, можно использовать оконную функцию:
SELECT *
FROM
(
SELECT *
MAX(updated_at) OVER (PARTITION BY payment_id) AS last_update
FROM payment
)
WHERE updated_at = last_update
📌 Сводные таблицы
Предположим, у нас есть таблица с фильмами, где для каждого из них имеется столбец release_year с годом выпуска и length с длительностью в минутах. Мы хотим подсчитать количество фильмов до 90 минут, до 120 минут и более 120 минут.
Когда нужно подсчитать суммы или количество величин из разных категорий, содержащихся в одном столбце, в PostgreSQL можно делать так:
WITH films AS
(
SELECT 2006 AS release_year, 86 AS "length"
UNION ALL
SELECT 2006 AS release_year, 180 AS "length"
UNION ALL
SELECT 2006 AS release_year, 95 AS "length"
UNION ALL
SELECT 2006 AS release_year, 135 AS "length"
UNION ALL
SELECT 2006 AS release_year, 120 AS "length"
UNION ALL
SELECT 2007 AS release_year, 85 AS "length"
UNION ALL
SELECT 2007 AS release_year, 130 AS "length"
UNION ALL
SELECT 2007 AS release_year, 120 AS "length"
UNION ALL
SELECT 2007 AS release_year, 97 AS "length"
)
SELECT release_year,
SUM(CASE WHEN "length"<90 THEN 1 ELSE 0 END) AS less_90 ,
SUM(CASE WHEN "length">=90 AND "length"<120 THEN 1 ELSE 0 END) AS less_120,
SUM(CASE WHEN "length">=120 THEN 1 ELSE 0 END) AS over_120
FROM films
GROUP BY 1
-- GROUP BY ROLLUP (1) -- добавляет в конец строку с итогом
ORDER BY 1
Больше приёмов SQL смотрите в моих статьях — и сохраняйте к себе, чтобы не потерять:
💡 Семь лайфхаков SQL
💡 Ещё шесть лайфхаков SQL
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥16❤6 3
Изучаем SQL с нуля
За новой карточкой нашего адвент-календаря — полезный курс для начинающих аналитиков, ведь SQL это база😎
Уже через несколько дней вы поймёте основы SQL, решите 70+ практических задач в PostgreSQL и создадите свой первый проект — анализ активных пользователей платформы. Мы на связи, если что-то непонятно!
➡️ Перейти в адвент-календарь
📊 Simulative
За новой карточкой нашего адвент-календаря — полезный курс для начинающих аналитиков, ведь SQL это база
Уже через несколько дней вы поймёте основы SQL, решите 70+ практических задач в PostgreSQL и создадите свой первый проект — анализ активных пользователей платформы. Мы на связи, если что-то непонятно!
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥6❤4☃2
Мини-курс в прямом эфире: протестируйте профессию аналитика данных за 3 дня
На этом бесплатном мини‑курсе вы за три вечера пройдёте путь от «ничего не знаю» до первого реального аналитического кейса: поработаете с таблицами, SQL и Python, выполните практические задания и соберёте понятный отчёт по данным. В итоге вы примерите на себя рабочие задачи аналитика, поймёте, насколько комфортно чувствуете себя с инструментами и цифрами, и наконец-то снимете страх перед кодом и «сложной аналитикой».
Что будет на трёхдневном мини-курсе:
➡️ 9 декабря, 19:00 МСК: разберётесь, чем занимается аналитик и какие метрики помогают бизнесу зарабатывать. Научитесь смотреть на продукт через цифры и соберёте простую воронку в таблицах.
➡️ 10 декабря, 19:00 МСК: напишете свои первые запросы на SQL и посчитаете ключевые показатели из базы. Увидите, что код писать запросы на SQL можно освоить с нуля и быстро извлекать пользу из данных.
➡️ 11 декабря, 19:00 МСК: откроете для себя Python, загрузите данные, очистите их и сделаете простые графики. В итоге получите понятный отчёт и поймёте, готовы ли идти в аналитику дальше.
➡️ Зарегистрироваться на мини-курс
📊 Simulative
На этом бесплатном мини‑курсе вы за три вечера пройдёте путь от «ничего не знаю» до первого реального аналитического кейса: поработаете с таблицами, SQL и Python, выполните практические задания и соберёте понятный отчёт по данным. В итоге вы примерите на себя рабочие задачи аналитика, поймёте, насколько комфортно чувствуете себя с инструментами и цифрами, и наконец-то снимете страх перед кодом и «сложной аналитикой».
Все три дня с вами в прямом эфире будет Денис Иванов, Senior Product Analyst с опытом более 5 лет в Тинькофф и других крупных компаниях, который запускал аналитические системы с нуля.
Что будет на трёхдневном мини-курсе:
❗️ Смотрите занятия в прямом эфире, чтобы успевать делать домашки и получать разбор от спикера. Самые сильные участники получат грант на дальнейшее обучение!
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥8 5❤4
Исследуем Seaborn
Новая карточка в нашем адвент-календаре! Из неё вы узнаете, как работать с Seaborn — мощной библиотекой для визуализации данных в Python. Она предоставляет высокоуровневый интерфейс для создания привлекательных и информативных статистических графиков.
➡️ Перейти в адвент-календарь
📊 Simulative
Новая карточка в нашем адвент-календаре! Из неё вы узнаете, как работать с Seaborn — мощной библиотекой для визуализации данных в Python. Она предоставляет высокоуровневый интерфейс для создания привлекательных и информативных статистических графиков.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥7❤3 2
Большой пак знаний по SQL со скидкой 20%
Вы просили, мы сделали — собрали все наши модули по SQL в отдельный курс! В нём будут как основы SQL, так и продвинутый модуль из авторского тренинга Владимира Лунёва.
Что вас ждёт на полном курсе:
➖ Подробная база: ознакомитесь с SQL и получите первые навыки, даже если до этого никогда не работали с базами данных;
➖ Продвинутый SQL для работы с большими данными: анонимные блоки и переменные, условные операторы и циклы, курсоры функции и процедуры, триггеры, обработка ошибок и оптимизация.
➖ Авторский тренинг «Продвинутый SQL» и ещё больше практических задачек;
➖ ClickHouse и хранилища данных: все ключевые функции в ClickHouse, соединения данных, работа с сырыми данными и закрепление всего пройденного на кейсах.
💪 Узнать больше о курсе и оставить заявку
📊 Simulative
Вы просили, мы сделали — собрали все наши модули по SQL в отдельный курс! В нём будут как основы SQL, так и продвинутый модуль из авторского тренинга Владимира Лунёва.
Что вас ждёт на полном курсе:
➖ Подробная база: ознакомитесь с SQL и получите первые навыки, даже если до этого никогда не работали с базами данных;
➖ Продвинутый SQL для работы с большими данными: анонимные блоки и переменные, условные операторы и циклы, курсоры функции и процедуры, триггеры, обработка ошибок и оптимизация.
➖ Авторский тренинг «Продвинутый SQL» и ещё больше практических задачек;
➖ ClickHouse и хранилища данных: все ключевые функции в ClickHouse, соединения данных, работа с сырыми данными и закрепление всего пройденного на кейсах.
Для первых записавшихся держим ранние цены — скидка 20% на курс. Чем не повод начать обучение в этом году?
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥7❤4 2
Отбор признаков в машинном обучении
Привет! На связи Кристина Желтова, ментор курса «ML-инженер» 👋🏻
Представьте, что вы обучаете ML-модель на датасете из 50-ти признаков с точностью 87%. Добавили еще 20 признаков и качество упало до 83% — разве больше данных не значит лучше? Нет, если данные некачественные. Чем больше бесполезных признаков, тем быстрее модель переобучается и хуже обобщается на новые данные.
В этой ситуации на помощь приходит отбор признаков (feature selection) — одна из самых недооценённых техник классического ML. Во многих моделях есть «встроенные» способы отбора признаков — например, для случайного леса можно оценить важности признаков простым способом за 30 секунд:
Однако этот метод не лишён недостатков, поэтому на практике есть большое количество алгоритмов отбора признаков, которые можно разделить на три группы:
1️⃣ Filter-методы (фильтруем признаки по статистике)
Это самый быстрый способ. Мы смотрим на каждый признак отдельно без построения модели: например, удаляем признаки с низкой дисперсией (по сути делаем предположение, что раз они не очень разнообразны, то и не очень полезны).
Отличный вариант на случай, если у вас очень много признаков и нужно быстро сократить их количество.
2️⃣ Wrapper-методы (обёртки)
Более медленные, но умные методы — тренируем модель много раз, удаляя или добавляя признаки.
Отличный баланс скорости и качества, когда признаков не слишком много, и есть время подождать.
3️⃣ Embedded-методы (встроенные в модель)
Как раз к ним относятся
📊 Simulative
Привет! На связи Кристина Желтова, ментор курса «ML-инженер» 👋🏻
Представьте, что вы обучаете ML-модель на датасете из 50-ти признаков с точностью 87%. Добавили еще 20 признаков и качество упало до 83% — разве больше данных не значит лучше? Нет, если данные некачественные. Чем больше бесполезных признаков, тем быстрее модель переобучается и хуже обобщается на новые данные.
В этой ситуации на помощь приходит отбор признаков (feature selection) — одна из самых недооценённых техник классического ML. Во многих моделях есть «встроенные» способы отбора признаков — например, для случайного леса можно оценить важности признаков простым способом за 30 секунд:
from sklearn.ensemble import RandomForestClassifier
from sklearn.datasets import make_classification
X, y = make_classification(n_samples=1000, n_features=50, n_informative=10, random_state=42)
# Обучили модель
rf = RandomForestClassifier(n_estimators=100, random_state=42)
rf.fit(X, y)
# Посмотрели важность признаков
importances = rf.feature_importances_
top_features = sorted(range(len(importances)), key=lambda i: importances[i], reverse=True)[:10]
print(f"Топ-10 признаков: {top_features}")
Почему это работает? Потому что случайный лес рассчитывает, насколько каждый признак уменьшает ошибку на каждом шаге построения каждого дерева решений. Если признак не помогает, он не будет использоваться часто.
Однако этот метод не лишён недостатков, поэтому на практике есть большое количество алгоритмов отбора признаков, которые можно разделить на три группы:
Это самый быстрый способ. Мы смотрим на каждый признак отдельно без построения модели: например, удаляем признаки с низкой дисперсией (по сути делаем предположение, что раз они не очень разнообразны, то и не очень полезны).
from sklearn.feature_selection import VarianceThreshold
selector = VarianceThreshold(threshold=0.01)
X_filtered = selector.fit_transform(X)
Отличный вариант на случай, если у вас очень много признаков и нужно быстро сократить их количество.
Более медленные, но умные методы — тренируем модель много раз, удаляя или добавляя признаки.
from sklearn.feature_selection import RFE
from sklearn.linear_model import LogisticRegression
# RFE (recursive feature elimination): обучаем модель, удаляем худший признак, повторяем
estimator = LogisticRegression(random_state=42, max_iter=1000)
rfe = RFE(estimator, n_features_to_select=10, step=1)
X_rfe = rfe.fit_transform(X, y)
print(f"Выбранные признаки: {rfe.support_}")
Отличный баланс скорости и качества, когда признаков не слишком много, и есть время подождать.
Как раз к ним относятся
feature_importances_ из случайного леса. Быстро, но зависит от конкретной модели.Эти методы в совокупности помогут вам отобрать лучшие признаки для своих моделей и быстро улучшить качество.
Ставьте🔥 , если интересно!
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥20❤3 2
