🏁 Мой трехмесячный марафон фарминга подошел к концу.
Плеяда соревнований закончилась под эгидой DataFussion contest от ВТБ. В рамках основной задачи марафонцам предстояло решить проблему матчинга пользователей на основе данных о банковских транзакиях и данных о кликстриме.
Дополнительную сложность вносил лимит по времени на докер контейнер и тп. Лучшей тиме немного не хватило до призовых мест в основной задаче, но удалось взять серебро (а также 50 к и мерч) в номинации "публичное решение". В финальном решении марафонцы нагенерировали фичей, отобрали наиболее важные и на полученных векторах обучили catboost😻. Из прикольного, попробовали сетки и даже подход с SAX-PAA для временных рядов, но не выстрелило. В топе как всегда лютый блендинг 😍
🤖🤑Следующие три месяца лучшие ребята будут фармить соревы уже на ставке в Red Mad Robot 🤑🤖
🧠🤔Своими личными выводами и мыслями поделюсь позже
Плеяда соревнований закончилась под эгидой DataFussion contest от ВТБ. В рамках основной задачи марафонцам предстояло решить проблему матчинга пользователей на основе данных о банковских транзакиях и данных о кликстриме.
Дополнительную сложность вносил лимит по времени на докер контейнер и тп. Лучшей тиме немного не хватило до призовых мест в основной задаче, но удалось взять серебро (а также 50 к и мерч) в номинации "публичное решение". В финальном решении марафонцы нагенерировали фичей, отобрали наиболее важные и на полученных векторах обучили catboost😻. Из прикольного, попробовали сетки и даже подход с SAX-PAA для временных рядов, но не выстрелило. В топе как всегда лютый блендинг 😍
🤖🤑Следующие три месяца лучшие ребята будут фармить соревы уже на ставке в Red Mad Robot 🤑🤖
🧠🤔Своими личными выводами и мыслями поделюсь позже
👍33👎1
Моя аудитория напрямую влияет на жизнь моего канала!
Мы тут с Андреем спорим как следующий выпуск назвать.
⚽️ Сам сюжет такой - на вход попадает 6 джунов и каждый раунд вопросов по DS мы отсеиваем одного самого слабого джуна. До этого выпуски назывались по типу _Типичное собеседование__Позиция__Результат_.
🎨 Как назвать эти выпуски? Ведь собес на 6 ждунов типичным собесом уже точно не назовешь.
🎰 Крч, кидайте/выбирайте варианты в комменты. Я выберу тот, за который больше всего проголосуют другие.
🤔Версия Андрея - "Мы собесили 6 джунов. Они орали".
Мы тут с Андреем спорим как следующий выпуск назвать.
⚽️ Сам сюжет такой - на вход попадает 6 джунов и каждый раунд вопросов по DS мы отсеиваем одного самого слабого джуна. До этого выпуски назывались по типу _Типичное собеседование__Позиция__Результат_.
🎨 Как назвать эти выпуски? Ведь собес на 6 ждунов типичным собесом уже точно не назовешь.
🎰 Крч, кидайте/выбирайте варианты в комменты. Я выберу тот, за который больше всего проголосуют другие.
🤔Версия Андрея - "Мы собесили 6 джунов. Они орали".
👍21🔥10👎2
🚀 Ловите пушку!
✅ Новый выпуск типичного собеседования по Data Science.
⚔️ В этот раз встретились с опытным DS кандидатом и матерым хакатонщиком - Иваном из Сбера. Идеальный выпуск, чтоб посмотреть в обеденный перерыв. Ваня держался очень хорошо, но что-то пошло не так…
👨💻 Кстати, после этой встречи, решили с Ваней поучаствовать совместно в ближайших чемпионатах. Посмотрим что из этого выйдет. Расскажу про совместные результаты позже.
Совместно с t.me/dzis_science
✅ Новый выпуск типичного собеседования по Data Science.
⚔️ В этот раз встретились с опытным DS кандидатом и матерым хакатонщиком - Иваном из Сбера. Идеальный выпуск, чтоб посмотреть в обеденный перерыв. Ваня держался очень хорошо, но что-то пошло не так…
👨💻 Кстати, после этой встречи, решили с Ваней поучаствовать совместно в ближайших чемпионатах. Посмотрим что из этого выйдет. Расскажу про совместные результаты позже.
Совместно с t.me/dzis_science
YouTube
Типичное собеседование #3. Позиция Senior Data Scientist. Rejected!
На этот раз мы встретились уже с опытным кандидатом в Data Science.
Будет много разноплановых практических вопросов по ML!
Канал Александра: t.me/datafeeling
Канал Андрея t.me/dzis_science
Таймкоды встречи:
0:00:00 - Расказ о кандидате
0:09:23 - Фидбек…
Будет много разноплановых практических вопросов по ML!
Канал Александра: t.me/datafeeling
Канал Андрея t.me/dzis_science
Таймкоды встречи:
0:00:00 - Расказ о кандидате
0:09:23 - Фидбек…
👍11🔥11🤔2👎1
🙊 Ауффф! Знаковый день в моей жизни!🙈
😱 Приняли мою научную статью в журнал уровня Q2. Первая! В прошлый жизни я был биоинформатиком ежжи🤫. Вот доходят отголоски.
👨🔬Теперь True Scientist! Теперь и на PhD будет проще попасть в долину🤔
🧝♂️ Тему исследования даже называть не стану, чтоб не пугать людей🧛♂️. Чтоб вы понимали, я трижды был вписан ранее в биологические статьи, но каждый раз что-то шло не так, и исследования стопорились🤷♀️. В этот раз хватило сил и удачи.
✅ Одна из целей на год выполнена!🤪
😱 Приняли мою научную статью в журнал уровня Q2. Первая! В прошлый жизни я был биоинформатиком ежжи🤫. Вот доходят отголоски.
👨🔬Теперь True Scientist! Теперь и на PhD будет проще попасть в долину🤔
🧝♂️ Тему исследования даже называть не стану, чтоб не пугать людей🧛♂️. Чтоб вы понимали, я трижды был вписан ранее в биологические статьи, но каждый раз что-то шло не так, и исследования стопорились🤷♀️. В этот раз хватило сил и удачи.
✅ Одна из целей на год выполнена!🤪
👍77🔥35🎉8👎2
Как проверить, что ты True DS?!
👉 Если ты можешь из текстового датасета BERT'ом извлечь эмбеддинги предложений 👉 дальше пихнуть в бустинг 👉 выбить высокие метрики для задачи мульти-классификации... При этом проворачиваешь все это дело за < 30 минут☝️, то ты красавчик🤠
✅ Это я вчера на летную школу в Сириус отбирался. В прошлом году мне очень понравилось.
👉 Если ты можешь из текстового датасета BERT'ом извлечь эмбеддинги предложений 👉 дальше пихнуть в бустинг 👉 выбить высокие метрики для задачи мульти-классификации... При этом проворачиваешь все это дело за < 30 минут☝️, то ты красавчик🤠
✅ Это я вчера на летную школу в Сириус отбирался. В прошлом году мне очень понравилось.
👍38👎9🔥5❤1
Наткнулся с тимой на любопытный факап модели, пока фармили чемпионат.
Бустинг опирается сильнее всего на рандомно-сгенерированные признаки при этом дает очень высокую точность ~70% accuracy для 10 классов
😳🙅♂️Это к вопросу о том, что деревья умеют находить закономерности даже в шуме. На рисунке типичный Feature Importance.
Мдамс... дата саенс такой дата саенс...
Чтоб такого не было, используйте Permutation Importance
Бустинг опирается сильнее всего на рандомно-сгенерированные признаки при этом дает очень высокую точность ~70% accuracy для 10 классов
😳🙅♂️Это к вопросу о том, что деревья умеют находить закономерности даже в шуме. На рисунке типичный Feature Importance.
Мдамс... дата саенс такой дата саенс...
Чтоб такого не было, используйте Permutation Importance
🤔24👍15
пока фармил очередной чемпионат, сгенерировал ~800 hand-made фичей.
Вы только посмотрите, как красиво это выглядит со стороны😍
Если не всматриваться в текст, можно увидеть лица. (та самая структура данных, про которую все говорят 😂)
#feature_engineering_king
Вы только посмотрите, как красиво это выглядит со стороны😍
Если не всматриваться в текст, можно увидеть лица. (та самая структура данных, про которую все говорят 😂)
#feature_engineering_king
❤24👍6🤔4👎3🔥2
🤔 Ни разу еще не высказывался про отношение к IT курсам.
🤫 С высоты преподавания в МФТИ и на базе еще 5-ти онлайн школ, скажу, что онлайн курсы действительно помогают прокачаться и получить IT профессию. Особенно, если эти курсы готовишь и читаешь ты сам.
🤫 С высоты преподавания в МФТИ и на базе еще 5-ти онлайн школ, скажу, что онлайн курсы действительно помогают прокачаться и получить IT профессию. Особенно, если эти курсы готовишь и читаешь ты сам.
👍58👎3🤔3😱2
This media is not supported in your browser
VIEW IN TELEGRAM
Если вы забыли, как должен выглядит вид из вашего офиса, то вот…
Это я в гости к red_mad_robot зашел.
Какой вид у вас?
Это я в гости к red_mad_robot зашел.
Какой вид у вас?
🔥25👎5👍4
Стабильно захожу в бронзу.
⚔️ Ради професильонального роста и тонуса периодически тренируюсь решать нестандартные задачи.
🎳 В последних двух чемпионтах на boosters.pro из-за недостатка времени не выбился в лидеры, зато пока решал, набрался прикольного опыта и написал кучу вспомогательных фрагментов для дальнейшего переиспользования. Один чемпионат заменяет несколько месяцев/лет работы в компании.
Из интересного:
- Расширил свой кругозор в анализе ошибок модели. Теперь буду хитрее подходить к генерации фичей и поиску gold features. Полезно читать статьи, даже если не хочется.
- Ощутил насколько сильно дает прирост блендинг моделей в задачах мульти-классификации.
Из более интересного:
Кажется, иногда выиграть без погружения в доменную область просто нереально. Несколько сильных доменных фичей может заменить 10 моделей и часы/дни подбора гипер-параметров.
🎰 За летние месяцы сделаю акцент на Kaggle. Там призовые так просто не урвешь, зато толк от медалей больше. Поднимает статус твоего профиля.
⚔️ Ради професильонального роста и тонуса периодически тренируюсь решать нестандартные задачи.
🎳 В последних двух чемпионтах на boosters.pro из-за недостатка времени не выбился в лидеры, зато пока решал, набрался прикольного опыта и написал кучу вспомогательных фрагментов для дальнейшего переиспользования. Один чемпионат заменяет несколько месяцев/лет работы в компании.
Из интересного:
- Расширил свой кругозор в анализе ошибок модели. Теперь буду хитрее подходить к генерации фичей и поиску gold features. Полезно читать статьи, даже если не хочется.
- Ощутил насколько сильно дает прирост блендинг моделей в задачах мульти-классификации.
Из более интересного:
Кажется, иногда выиграть без погружения в доменную область просто нереально. Несколько сильных доменных фичей может заменить 10 моделей и часы/дни подбора гипер-параметров.
🎰 За летние месяцы сделаю акцент на Kaggle. Там призовые так просто не урвешь, зато толк от медалей больше. Поднимает статус твоего профиля.
👍51👎4🔥1
#зашквары
😍 Меня часто веселят маркетинговые заголовки онлайн-школ.
😱 Вот один из них: "Создайте искусственный интеллект сами! 20–22 ..." - За три дня? ИИ?! Серьезно?! Так просто?!
🤷♀️ Весь мир пока не смог, а ты сейчас за два дня бах и сделаешь свой искусственный интеллект, и пупок даже не развяжется.
🤔 Жалко наивных людей, кто на этот маркетинг ведется. Я за прозрачность. Писали бы уже хоть явно про машинное обучение.
😍 Меня часто веселят маркетинговые заголовки онлайн-школ.
😱 Вот один из них: "Создайте искусственный интеллект сами! 20–22 ..." - За три дня? ИИ?! Серьезно?! Так просто?!
🤷♀️ Весь мир пока не смог, а ты сейчас за два дня бах и сделаешь свой искусственный интеллект, и пупок даже не развяжется.
🤔 Жалко наивных людей, кто на этот маркетинг ведется. Я за прозрачность. Писали бы уже хоть явно про машинное обучение.
🔥26👎9👍6😱2
🚀 Запуск "Хочу крутой оффер 2.0"
Наш эксперимент с разгоном группы 4-х человек оказался успешным. Один участник уже вот-вот умчит в Германию, а остальные имеют отшлифованные резюме, привычку каждый день откликаться на вакансии и отсутствие страха перед периодическими собесами на английском. Для них оффер это уже вопрос времени.
😎 Ты тоже можешь дойти до оффера в $50к+ в год.
Мы систематизировали тренировки: участники пробегут марафон 30-дневных заданий, что поможет проработать все аспекты поиска работы зарубежом. Под присмотром 4-х опытных наставников.
‼️ Ты имеешь все шансы попасть в набор, если:
- У тебя разговорный английский (B1+)
- Твой уровень > Junior+ (опыт работы от 1 года)
- Ты готов уделять программе минимум 2 часа в день в течение месяца
- Имеешь $250 или $800 (в зависимости, насколько интенсивно ты хочешь, чтоб мы командой тебя "мучали")
А если, окажется, что ты "машина", и за месяц накосишь самые "жирные" офферы, то мы вернём тебе деньги
Подробности о программе
Подать заявку
Старт 27.06
Наш эксперимент с разгоном группы 4-х человек оказался успешным. Один участник уже вот-вот умчит в Германию, а остальные имеют отшлифованные резюме, привычку каждый день откликаться на вакансии и отсутствие страха перед периодическими собесами на английском. Для них оффер это уже вопрос времени.
😎 Ты тоже можешь дойти до оффера в $50к+ в год.
Мы систематизировали тренировки: участники пробегут марафон 30-дневных заданий, что поможет проработать все аспекты поиска работы зарубежом. Под присмотром 4-х опытных наставников.
‼️ Ты имеешь все шансы попасть в набор, если:
- У тебя разговорный английский (B1+)
- Твой уровень > Junior+ (опыт работы от 1 года)
- Ты готов уделять программе минимум 2 часа в день в течение месяца
- Имеешь $250 или $800 (в зависимости, насколько интенсивно ты хочешь, чтоб мы командой тебя "мучали")
А если, окажется, что ты "машина", и за месяц накосишь самые "жирные" офферы, то мы вернём тебе деньги
Подробности о программе
Подать заявку
Старт 27.06
🔥34👎9👍7
Вчера закончился очередной компетишен по NLP на Kaggle.
⚔️ Суть задачи была в определение схожести двух текстов исходя из контекста.
🤔 Пока решали, столкнулись с проблемой, которую вижу не первый раз. Проверив кучу гипотез и натренировав десятки моделей, мы откладывали вопрос стекинга решений до последних дней.
🤷♀️ Как итог, вылезла куча подводный камней и впихнуть 20 BERT-моделей в стекинг за сутки физически просто не смогли. В итоге, тупо поблендили все, но эффекта это сильного не принесло. Из 2К участников, остались в ~ топ-300. Стекайте заранее! ✅
🤔 Вторая проблема - это распыление.
Выиграть можно только если полностью фокусируешься на одной задаче. Иначе все чемпионаты превращаются в безпризовое участие.
Всем хорошей недели! Ждите новый выпуск собесов)
⚔️ Суть задачи была в определение схожести двух текстов исходя из контекста.
🤔 Пока решали, столкнулись с проблемой, которую вижу не первый раз. Проверив кучу гипотез и натренировав десятки моделей, мы откладывали вопрос стекинга решений до последних дней.
🤷♀️ Как итог, вылезла куча подводный камней и впихнуть 20 BERT-моделей в стекинг за сутки физически просто не смогли. В итоге, тупо поблендили все, но эффекта это сильного не принесло. Из 2К участников, остались в ~ топ-300. Стекайте заранее! ✅
🤔 Вторая проблема - это распыление.
Выиграть можно только если полностью фокусируешься на одной задаче. Иначе все чемпионаты превращаются в безпризовое участие.
Всем хорошей недели! Ждите новый выпуск собесов)
👍42👎11❤4🔥1
✅ Вот есть модели Text2Text (GPT-3)
✅ Есть уже Text2Image (DALL-E)
🤔 А когда будет уже Sound2Image? Можно было бы наорать под запись и потом посмотреть, какая картинка получится. Вроде же изи задумка. На фильмах можно обучить такую модель. Звуки китов не расшифрует, но по звуку воды сгенерирует картинки водопадов и тп.
🤐 Вариант со Speech2Text, а затем Text2Image не предлагать!
😴 Это я расфантазировался, пока готовил лекцию по обзору последних достижений в нейронках. Кстати, похожую картинку поста, сгенерированную нейронкой из текста “киберпанк город” планирую повесить дома на стене. Выглядит прям кайфово.
✅ Есть уже Text2Image (DALL-E)
🤔 А когда будет уже Sound2Image? Можно было бы наорать под запись и потом посмотреть, какая картинка получится. Вроде же изи задумка. На фильмах можно обучить такую модель. Звуки китов не расшифрует, но по звуку воды сгенерирует картинки водопадов и тп.
🤐 Вариант со Speech2Text, а затем Text2Image не предлагать!
😴 Это я расфантазировался, пока готовил лекцию по обзору последних достижений в нейронках. Кстати, похожую картинку поста, сгенерированную нейронкой из текста “киберпанк город” планирую повесить дома на стене. Выглядит прям кайфово.
👍25👎3🔥3🤔1
🤷♀️ Тяжелый пациент
- Здравствуйте, мне бы модель отвалидировать, чем поможете?
- Начните с классического Train-Test Split
- А можно, чтоб оценка была несмещенная?
- Могу посоветовать K-Fold Validation.
- А если у меня в данных есть временная ось?
- Тогда берите Time Series K-Fold Validation
- Там еще есть группы, которые не должны пересекаться!
- Нестрашно, есть Grouped Time Series K-Fold Validation
- Ой, про дисбаланс таргета еще забыл!!!
- Ок, воткните Stratified Grouped Time Series K-Fold Validation
- Вы не поняли! Eще важно нормальное распределение фичей
- О, у нас как раз осталась последняя Bootstrap Stratified Grouped Time Series K-Fold Validation
- Здорово! А это учитывает шум в данных?
- Нет, но вот Robust Bootstrap Stratified Grouped Time Series K-Fold Validation ...
- А устаревание объектов во времени учтет?
- Sample Weighted Through Time Robust Bootstrap Stratified Grouped Time Series K-Fold Validation
- Ой, сложно, я, пожалуй, просто Train-Test Split возьму.
- Здравствуйте, мне бы модель отвалидировать, чем поможете?
- Начните с классического Train-Test Split
- А можно, чтоб оценка была несмещенная?
- Могу посоветовать K-Fold Validation.
- А если у меня в данных есть временная ось?
- Тогда берите Time Series K-Fold Validation
- Там еще есть группы, которые не должны пересекаться!
- Нестрашно, есть Grouped Time Series K-Fold Validation
- Ой, про дисбаланс таргета еще забыл!!!
- Ок, воткните Stratified Grouped Time Series K-Fold Validation
- Вы не поняли! Eще важно нормальное распределение фичей
- О, у нас как раз осталась последняя Bootstrap Stratified Grouped Time Series K-Fold Validation
- Здорово! А это учитывает шум в данных?
- Нет, но вот Robust Bootstrap Stratified Grouped Time Series K-Fold Validation ...
- А устаревание объектов во времени учтет?
- Sample Weighted Through Time Robust Bootstrap Stratified Grouped Time Series K-Fold Validation
- Ой, сложно, я, пожалуй, просто Train-Test Split возьму.
👍90🤔19🔥16👎5❤1🎉1
Ты собесы вообще проходишь? А зарубеж? А на английском?
А когда начнешь? А знаешь, что "там" зп не сравнимы с РФ?
Кто тебя сдвинет с места, если не я и моя тима?!
Время сбора заявок на марафон "Хочу крутой оффер 2.0" подоходит к концу ⌛️
Это значит, что уже завтра я со своей командой начну отбирать мини группу. Суть марафона проста. Ребята тренируются проходить собесы. По ходу дела мы закрываем их слабые места. Ломаем языковой барьер и прорабатываем прочие слабости по типу кодинга и тд.
Сбор анкет закроем сегодня в 21:00 по Москве. Поэтому не спи!
Вот анкета. Вот программа
Помни, что это не бесплатно!
От $250, но если Ты способный, мы вернем деньги!
А когда начнешь? А знаешь, что "там" зп не сравнимы с РФ?
Кто тебя сдвинет с места, если не я и моя тима?!
Время сбора заявок на марафон "Хочу крутой оффер 2.0" подоходит к концу ⌛️
Это значит, что уже завтра я со своей командой начну отбирать мини группу. Суть марафона проста. Ребята тренируются проходить собесы. По ходу дела мы закрываем их слабые места. Ломаем языковой барьер и прорабатываем прочие слабости по типу кодинга и тд.
Сбор анкет закроем сегодня в 21:00 по Москве. Поэтому не спи!
Вот анкета. Вот программа
Помни, что это не бесплатно!
От $250, но если Ты способный, мы вернем деньги!
Telegram
Data Feeling
🚀 Запуск "Хочу крутой оффер 2.0"
Наш эксперимент с разгоном группы 4-х человек оказался успешным. Один участник уже вот-вот умчит в Германию, а остальные имеют отшлифованные резюме, привычку каждый день откликаться на вакансии и отсутствие страха перед периодическими…
Наш эксперимент с разгоном группы 4-х человек оказался успешным. Один участник уже вот-вот умчит в Германию, а остальные имеют отшлифованные резюме, привычку каждый день откликаться на вакансии и отсутствие страха перед периодическими…
👍22👎8
Не смог не написать.
✅ Еще один знаковый день в моей жизнь. Я открыл ИП.
Запустили с кентами стартапчик в сфере аналитики чужих данных. Оказалось, что без ИП даже первые тесты и продажи запустить не сможем 🤷♀️
Кстати, идею проекта мы придумали, пока был в Турции. Спасибо турецкому чаю и ворк спейсам в отелях. Нетворкинг в путешествиях это кайф 😎
🤔 Преп ли я дрожащий или право запустить стартап имею!?
✅ Еще один знаковый день в моей жизнь. Я открыл ИП.
Запустили с кентами стартапчик в сфере аналитики чужих данных. Оказалось, что без ИП даже первые тесты и продажи запустить не сможем 🤷♀️
Кстати, идею проекта мы придумали, пока был в Турции. Спасибо турецкому чаю и ворк спейсам в отелях. Нетворкинг в путешествиях это кайф 😎
🤔 Преп ли я дрожащий или право запустить стартап имею!?
👍46🔥11👎5🎉2