🏆 Data Feeling | AI – Telegram
🏆 Data Feeling | AI
15.9K subscribers
732 photos
222 videos
6 files
469 links
IT предприниматель и препод 🧑‍🏫
ex-ML лидер в Dodo Brands 🦤🍕
Прокачиваю людей в Data Science 🚀
Победитель Stepik Awards 🏆
Kaggle Expert 🤹‍♀️
Создатель @Speakadora_bot @big_llm_course

РКН https://clik.now/datafeeling
Алерон @Ale_v2
Download Telegram
Когда собесишь джуна и в конце спрашиваешь его, какими задачами он хотел бы заниматься. А он такой:
👍117🤔11😁8🎉4😱2👎1
Логарифмируй таргет иначе зачем математики придумали логарифм?!

Помните пост про логарифмирование таргета в задаче регрессии? Логарифмирование таргета хорошо помогает в случае линейных моделей📈 А вот более сложным моделям по типу градиентных бустингов (Catboost / LigthGBM / XgBoost) неважно распределение таргета📉 И или все-таки важно?

🤓 С одной стороны, при построении "дерева" в бустинге абсолютно неважна шкала по которой делать сплит, то есть логарифмирование таргета не важно.

🤔 Однако, как показывает практика (Raif-Hack 2021), логарифмирование таргета все же может помочь поднять скор. Как так?!

Моя версия: при построении дерева валидационная метрика все же зависит от шкалы (MSE/MAE/MAPE и тп). Поэтому от логарифмирования все же зависит построение дерева.

А как вы думаете, что может при построении дерева в бустинге измениться? Или это все бред и эффекта от этого не будет?!

Услышал еще клевую идею про влияние на сцепку признаков от @Ppilif и про влияние на бинаризацию признаков от @slivka_83


🤫 Умение самому себе отвечать на такие вопросы делает вас сильным оппонентом в вопросе построения моделей.
👍26🏆31👎1
👨🏻‍🌾 Мне в личку часто пишут платные предложения о размещении вакансий. Однако, мой канал был придуман не для этого, и я почти всегда отказываюсь или реферю кентов.

🧠 Тем не менее, я хочу, чтоб HR'ы присылали не только мне свои открытые и интересные вакансии. Поэтому, как вы помните, я создал под это дело специальный канал, куда регулярно отправляю всех HR'ов, которые стучатся мне в личку. Так я делюсь вакансиями с вами.

🤫 Недавно там снова замелькали вакансии на Data Engineer'ов и ML Engineer'ов в Турцию. Кому-то это будет интересно. Забирайте.

Вот сам канал. В нем уже больше 3к человек😱🤪😊

Добавляйтесь сами и добавляйте знакомых HR'ов. Свободу информации! Всем крутых вакансий!

#Алерон_делится
👍174👎2🔥2🎉1
В Русский орфографический словарь внесли 150 новых слов. Это первое масштабное обновление словаря в текущем году. Множество новых слов относится к IT-сфере. Я погуглил и был приятно удивлен, среди новых есть такие слова как:

- Телеграм-канал
- Погуглить
- Фармить
- Каглер / Грендмастер
- Бэггинг / Бустинг
- Блендинг / Стэкинг
- Приват / Паблик
- Бутстрэп / Семплирование
- Псевдолейблинг
- Шейкап
- Голда / Сологолд
- Фаанг
- Удаленка / Коворкинг
- Пруф / Апвот / Апруф
- ...

Можете на досуге изучить значения, чтоб понимать меня и других блогеров лучше😅

#fake_news
👍30😁13🤔6🔥5👎32
Доброе утро!

Мы тут с парнями из red_mad_robot пытаемся выиграть медали в HubMAP (задача сегментации изображений). Вчера миновали точку объединения в команды. Остается неделя - неделя упорной работы и отчаянной проверки новых гипотез, в надежде подняться вверх. Сейчас мы в топ-200 из 1200 участников.

🤔 Ради эксперимента, решил пригласить пару Kaggle мастеров в команду. Как итог, проснулись с новыми тиммейтами.

🤹‍♂️ Посмотрим к чему это приведет. Пока что я скептичен. Буду держать вас updated.

👇 Гоу "приват шейринг" в комменты!
🔥35👍4👎3🎉1
🏆 Data Feeling | AI
Из соло моделей не заходит пока ничего, но мы пытаемся поднять скор блендингом 😌 А у вас как дела?)
Пока некогда думать о какой-то там "мобилизации". Обидно будет, если медаль на Kaggle сгорит из-за расфокуса. Подняли еще скор, кстати. Скоро будем минимум в бронзе.

Update:
Насчет недавних новостей. Парни, не переживайте раньше времени! Лучше сейчас сесть и спокойно подумать, что можно сделать лично вам. Главное, не сходите с ума из-за фоновой паники, действуйте обдумано. Алерон с вами, всем удачи!
👎170👍409😁1🤔1😱1🏆1
🏆 Data Feeling | AI
Пока некогда думать о какой-то там "мобилизации". Обидно будет, если медаль на Kaggle сгорит из-за расфокуса. Подняли еще скор, кстати. Скоро будем минимум в бронзе. Update: Насчет недавних новостей. Парни, не переживайте раньше времени! Лучше сейчас сесть…
Ситуация непростая. Для тех кто решил релокейтиться куда-нибудь вот вам мои мысли по личному опыту.

С февраля я успел попробовать три страны для проживания. Турция, Казахстан и Таиланд. Если вы прям вот уж совсем в панике и уже выбираете куда можно поехать пока всё не утихнет, то это хорошие варианты для раздумий. Сразу скажу, что русско-говорящих там везде навалом. Начну с самого простого.

🇰🇿 Казахстан. Тут все понятно. Близко. Говорят все на русском. Горы. Еда относительно дешевая. Жилья много, со съемом его проблем нет. Успел там пробыть около суток у друзей. За день в центре Астаны на еду в рестиках/лофтах на двоих ушло примерно ~ 3к. Если выбирать что-то скромнее, то жить там можно долго. Чат по Казахстану.

🇹🇷 Турция. Если раньше там не прибывали на долгое время, то это не самый простой вариант. Найти жилье и закупаться там едой по оптимальным ценам чтоб долго протянуть сложно. Жилье дорогое, так просто его не снять. Но если туда ехать, я бы советовать побережье Алании или Анталии, где вне сезона цены ниже. Оставаться в Турции по заграну можно только на два месяца. Дальше надо что-то делать. Чат по Турции.

🇹🇭 Таиланд. Не очевидно, но это самый лучший из этих трех вариантов. Еда дешевая. Население очень дружелюбное. Весь год лето. Океан. Базового английского для общения хватает. Жилье доступно. Сам снимал двухэтажную виллу с бассейном за 14К бат в месяц (~45к рублей). Единственное, что билеты дорогие (от 35к до 70к в среднем). Продлевать визу там можно бесконечно. Лететь советую через Казахстан. Через Турцию сейчас будет очень дорого. Чат по Таиланду.

Пост будет обновляться.

Вот тут Олег рассказывает про Армению 🇦🇲

🥳 Кстати, мы еще подняли скор. Шаг за шагом идем в медали, не поддаваясь панике.

Берегите себя и действуйте обдуманно!
91👍33👎6🔥4😁4
🏆 Data Feeling | AI
Ситуация непростая. Для тех кто решил релокейтиться куда-нибудь вот вам мои мысли по личному опыту. С февраля я успел попробовать три страны для проживания. Турция, Казахстан и Таиланд. Если вы прям вот уж совсем в панике и уже выбираете куда можно поехать…
🙈 Ого, у нас тут с пацанами разворачивается настоящий фарм-кипишь. (138 и 140 строки)

🤠 Начинали фармить вместе, теперь фармим по разным тимам 💪

Идем в медали ноздря в ноздрю. Вот-вот доблендить еще парочку моделей и зайдем в бронзу, надеюсь.

👇 🙈😅Делайте ставки в комменты.
Кстати, мои приглашенные мастера в команду вообще не внесли вклада. Вот так вот и бери потом опытных.
🏆18👍4🔥2👎1
🏆 Data Feeling | AI
🙈 Ого, у нас тут с пацанами разворачивается настоящий фарм-кипишь. (138 и 140 строки) 🤠 Начинали фармить вместе, теперь фармим по разным тимам 💪 Идем в медали ноздря в ноздрю. Вот-вот доблендить еще парочку моделей и зайдем в бронзу, надеюсь. 👇 🙈😅Делайте…
Что ж. Финиш. Закрепились в HubMap в топ-150 из 1300 человек. Надо подняться всего лишь на 8 мест наверх и будет медалька.

Собрали ансамбль из 16 моделей. Ждем шейкапа наверх.

Ставьте 👍 или 👎 если верите что зайду с тимой в медали или не зайду соответственно.

Кстати, сегодня сходил на конференцию возобновившихся ML тренировок. Если буду активнее фармить возможно когда-нибудь там выступлю. Добрых снов😌

P.S - угадайте парня посередине 😅
👍141👎17🏆5
🏆 Data Feeling | AI
Что ж. Финиш. Закрепились в HubMap в топ-150 из 1300 человек. Надо подняться всего лишь на 8 мест наверх и будет медалька. Собрали ансамбль из 16 моделей. Ждем шейкапа наверх. Ставьте 👍 или 👎 если верите что зайду с тимой в медали или не зайду соответственно.…
Не повезло, не фартануло.

Корреляция между приватной выборкой и тестовой оказалось очень неплохой. Не заняв медальную зону сразу, мы не заняли ее и после шейкапа на привате.

Что зашло?
Систематичность. Мы почти каждый день созванивались с командой. Заполняли табличку гипотез. Приоретизировали и распределяли задачи.
Мощности. Повезло, что в этот раз было относительно не много проблем с GPU. Почти все время могли запускать что-то. Модели одного фолда учились всего по два-три часа.
Опыт. Множество технических проблем с архитектурой сеток и инфраструктурой решались быстро, либо еще быстрее командным бруд-форсом.

Какие вижу ошибки?
Секрет победы был прост. Надо было верно подобрать трешхолды для классов.
Поздно разгадали, какие архитектуры и приемы поднимают скор. Бленд двух моделей со скором 0.71 и 0.72 давал финальный скор в 0.76. То есть бери и просто бленди разные по природе модели. Всего у нас было 4 архитектуры. Стоило проверить больше.
Зацикливались. Вместо того чтобы идти дальше по списку гипотез, тратили время на бесперспективные улучшения уже сильных моделей.
Слабо изучили датасет. Данные как всегда с мусором, который в идеале почистить или переразметить. (Pseudo labeling)
Не решились закинуть модельку в Optuna на денек, чтоб провести эксперименты более массово.
Бленд с моделью мастеров по каким-то причинам только ухудшал скор. Возможно неверные трешхолдны на классы при смешивании моделей. Возможно, не тех мастеров взяли в тиму😅
Не успели добавить в бленд сильную модель наших друзей-аппонентов из поста выше. (Да, мы делились идеями через форум, но применить доп модели друг друга не смогли из-за неудобства разных подходов и недостатка времени.)
Под конец только пришла идея использовать в Test Time Augmentation еще и цвето-коррекцию.
Мало наресерчели оригинальных идей. Стоило заложить на это время.

🤔 В целом, если бы получили бронзу это бы погоды нам не сделало. Для титула "Мастер" нам нужны только золотые и серебряные медали. Будем решать теперь еще агрессивнее!
👍51🏆15🔥4👎32
👀 Тут на Kaggle приехала интересная биологическая задачка - Novozymes Enzyme Stability Prediction

😓 Предлагается по аминокислотной последовательности белка фиксированный длины предсказать температуру плавления.

🤓 В общем, просят реализовать AlphaFold от DeepMind на минималках. AlphaFold предсказывал 3D структуру, а тут все намного проще - надо всего лишь температуру плавления.

🤔 Что-то похожее я уже решал однажды в прошлой жизни биоинформатика. Посмотрел, как люди на форуме пытаются решить эту задачу и там какой-то детский сад. По типу tf-idf + модель. Очевидно, это никак не раскрывает свойства такого сложного 3D объекта как белок.

👨‍🚒 Решил, что буду участвовать. Хочу усилить свою команду и провести эксперимент. Ищу новых тиммейтов с биологическим бэкграундом!

👨🏻‍🌾 Я ищу именно тебя, если ты:
- Понимаешь основы молекулярной биологии. Отличаешь ДНК от аминокислот.
- Имеешь опыт аннотации белков.
- Любишь ресерчить статейки и даже слышал, как устроен AlphaFold.

🧞‍♂️ С меня вся ML часть. Ресурсы и личный соревновательный опыт. В планах пойти "каглерским" путем. Настакать фичей разной природы и дальше по классике ансамбль бустинга, сетки и линеек.

Пиши в личку, если тебе интересна задача и нужны медали на Kaggle! Думаю, что особенно актуально для тех кто переходит из биоинфы в DS/ML.
👍324👎4🔥4🤔3
Динамическое ценообразование любопытная вещь.

🤔 Интересно, это руками так подбирается или действительно есть алгоритм на такие случаи...

Москва - Алания.

Теперь в Сочи отдыхать снова дешевле, чем в Турции😳

Есть вариант еще - можно попасть в Казахстан. Кстати, вот чат по взаимопомощи в Казахстане.
😱27👍5👎4🤔3😁1
🏆 Data Feeling | AI
Динамическое ценообразование любопытная вещь. 🤔 Интересно, это руками так подбирается или действительно есть алгоритм на такие случаи... Москва - Алания. Теперь в Сочи отдыхать снова дешевле, чем в Турции😳 Есть вариант еще - можно попасть в Казахстан.…
Продолжаю восхищаться динамическим ценообразованием авиасейлс.

Оповещают о понижение цены на билет, хотя из билета просто убрали багаж. Мдам-с

А ведь какой-то гений маркетинга (продукт-менеджер) получает зп за придумку этой фичи.
😁45👍2👎1
Так, ну окей. Теперь я еще спокойнее и вот-вот буду радовать вас прикольными приемами и техниками в ML/DS снова.

Хотя пару дней назад думал, что буду делиться армейскими лайф-хаками и анекдотами.
🔥53😁12🏆5👎21
🥳 Идем дальше!

Пока люди активно паниковали и уезжали из РФ, мы с Дашей активно паниковали и писали для вас курсец. Мы собрали основные приемы, которые помогают успешнее искать работу.

🎯 Курс проведет вас "за ручку" через весь путь от подготовки резюме до получения оффера.

🥳 Мы только что опубликовали курс, но еще его не тестировали на других людях. У вас есть возможность пройти этот курс в первых рядах до основного релиза. Для этого напишите в комменты почему этот курс по получению оффера нужен именно вам? Авторы 10 самых релевантных и развернутых ответов получат автомобиль доступ к курсу со скидкой 91% (Меньше чисто технически сделать нельзя)

Ссылка на курс
👎61🔥34👍11🤔3
Пирсон не ловит нелинейные зависимости!

Все знают, для проверки линейной зависимости/корреляции между двумя переменными можно взять коэффициент корреляции Пирсона. Однако, что делать, если надо поймать что-то не линейное? Ответ не очевидный.

🚀 Не так давно узнал, про Phik корреляцию. Штука мощная. Посмотрите как Phik ловит сложные зависимости, где Пирсон теряется.

При генерации признаков такой подход позволяет не отсеивать более сложные зависимости, которые потом бустинги смогут уловить.
88👍36🔥8😱5👎1
Есть в моей карьере темное пятно, которое я обычно не раскрываю без необходимости.

😓 Работал в неплохой компании, где хорошо платили и мало требовали. Можно было сделать все свои задачи за несколько часов и оставшееся время заниматься изучением курсов, фармингом и прочим.

🏋️ Основная DS задача, которую мне приходилось решать в том месте - прогнозирование спроса. Задача понятная. Не первый раз решаемая. При достаточной сноровке решается быстро, лишь бы под рукой были готовые SQL-запросы нужные данные. Так вот, почему я не долго там пробыл?! Мне быстро стало скучно. И вот какие были предпосылки:

✍️ Несколько раз, когда мы представляли начальнику отвалидированные прогнозы ML модели, начальник каждый раз смотрел на графики прогнозов и говорил что-то типо: "Так, тут у вас прирост спроса в следующем месяце 5%, но, мне кажется, это много, давайте поставим 3%". По итогу таких встреч мы почти полностью исправляли цифры в отчете, заменяя data-driven результаты на from my boss's head driven результаты.

🛩 На валидации такой подход показывал метрики чуть хуже, но зато работал без обучения и прогнозировал моментально.

Вывод: ML методы важны, но опытные начальники важнее.
Please open Telegram to view this post
VIEW IN TELEGRAM
😁101👍30🤔13🏆4👎32
Ну а что?! Можно себе и нетворкинг позволить

🤬 Сейчас много ребят из IT едут на удаленку в другие страны. У всех разные причины. Кто-то едет сам, кто-то в паре, кто-то с друзьями. Вижу в своем окружении много ребят, кто не решается поехать в какой-нибудь Таиланд, потому что ему просто на просто сложно ехать одному или есть бытовые вопросы, которые непонятно как решать. Я подумал, что это необычные проблемы, которые полезно обсудить.

🥳 А давайте сделаем небольшую неформальную встречу? Встречу для тех, кто ищет себе единомышленников для поездки? Кто-то ищет себе пару. Кто-то ищет просто друзей. Все решаемо одной качественной встречей. Идея такая - собрать 15 - 20 человек из IT и пообщаться.

🤫 Что будет? Соберемся в лофте на высоте 20-го этаже в центре Мск. Поиграем в настолки. Пообщаемся. Поедим пиццу. Поболтаем за IT, про карьеру. Затронем тему выгорания, релокейта и прочего. Приглашенные интересные гости выступят с небольшими спитчами на актуальны темы. Смотри картинку.

🙂 Это мероприятие для тебя, если:
- Твой возраст от 22
- Ты из сферы IT или около того.
- Планируешь релокейт в будущем
- Ты свободен вечером воскресенья в 17:00!

😏 Форма для заполнения тут. Мы постараемся собрать парней/девушек в пропорции 50/50 максимально схожих по интересам.

😈 Девушки бесплатно, с парней 2к за вход. Возможно это сексизм, зато мы с ребятами не разоримся на пицце и лофте)
Please open Telegram to view this post
VIEW IN TELEGRAM
👎10123👍18🔥3🤔2
Мало кто слышал про сегментацию временных рядов.

Задача не тривиальная, но когда твои временные рядочки вдруг аккуратно разбиваются по сегментам испытываешь кайф в чистом виде.
37🔥15👍10👎1🏆1