🏆 Data Feeling | AI – Telegram
🏆 Data Feeling | AI
15.9K subscribers
732 photos
222 videos
6 files
470 links
IT предприниматель и препод 🧑‍🏫
ex-ML лидер в Dodo Brands 🦤🍕
Прокачиваю людей в Data Science 🚀
Победитель Stepik Awards 🏆
Kaggle Expert 🤹‍♀️
Создатель @Speakadora_bot @big_llm_course

РКН https://clik.now/datafeeling
Алерон @Ale_v2
Download Telegram
А что далеко ходить то!?

Оставляете книжку про вашу сферу деятельности на доступном языке в уборной. Как итог, через пару месяцев родня внезапно начинает вас понимать. Проверено.
👍87🔥27😁10🤔7👎5
🥳 С первым днем осени вас, чемпионы!

🤔 Утром понял, что надо вести мелкого в первый класс написать статью, про свои идеи решений по недавним двум соревнованиями на Kaggle, принесшим мне медали🥉🥈. Amex оказался самым разнообразным в плане идей💪

Прикладываю схему, которую разберу в статье на Хабр. Так же, расскажу еще про решение других участников. Там есть очень классные задумки😳

Вижу тренд, как трансформеры начинают успешно конкурировать сочетаться с бустингами.
🔥59👍6👎1
Год назад слушал доклад по авто-ML от LAMA, и как тот автоматизирует работу DS'ов в Сбере.

🧠 Тогда пришел мыслями к критерию. Если ты знаешь, как обойти авто-ML по точности, значит, ты будешь востребованным специалистом.

🙅‍♂️ Кстати, наивную идею на изи выигрывать, используя авто-ML я слил еще год назад, когда три чемпионата подряд ничего не выиграл. Под капотом много сильных идей. Быстро выходишь в топ, но потом тебя запросто скидывают вниз скилованные ребята без всякого автомл'я.

Update:
🤔 А вот критерий успешности для AutоML - это способность обойти 95% участников по точности в задаче классификации / регрессии.
31👍16🔥5👎1🤔1
Переверну календарь за вас. Недорого.
44👎13🎉10
Когда собесишь джуна и в конце спрашиваешь его, какими задачами он хотел бы заниматься. А он такой:
👍117🤔11😁8🎉4😱2👎1
Логарифмируй таргет иначе зачем математики придумали логарифм?!

Помните пост про логарифмирование таргета в задаче регрессии? Логарифмирование таргета хорошо помогает в случае линейных моделей📈 А вот более сложным моделям по типу градиентных бустингов (Catboost / LigthGBM / XgBoost) неважно распределение таргета📉 И или все-таки важно?

🤓 С одной стороны, при построении "дерева" в бустинге абсолютно неважна шкала по которой делать сплит, то есть логарифмирование таргета не важно.

🤔 Однако, как показывает практика (Raif-Hack 2021), логарифмирование таргета все же может помочь поднять скор. Как так?!

Моя версия: при построении дерева валидационная метрика все же зависит от шкалы (MSE/MAE/MAPE и тп). Поэтому от логарифмирования все же зависит построение дерева.

А как вы думаете, что может при построении дерева в бустинге измениться? Или это все бред и эффекта от этого не будет?!

Услышал еще клевую идею про влияние на сцепку признаков от @Ppilif и про влияние на бинаризацию признаков от @slivka_83


🤫 Умение самому себе отвечать на такие вопросы делает вас сильным оппонентом в вопросе построения моделей.
👍26🏆31👎1
👨🏻‍🌾 Мне в личку часто пишут платные предложения о размещении вакансий. Однако, мой канал был придуман не для этого, и я почти всегда отказываюсь или реферю кентов.

🧠 Тем не менее, я хочу, чтоб HR'ы присылали не только мне свои открытые и интересные вакансии. Поэтому, как вы помните, я создал под это дело специальный канал, куда регулярно отправляю всех HR'ов, которые стучатся мне в личку. Так я делюсь вакансиями с вами.

🤫 Недавно там снова замелькали вакансии на Data Engineer'ов и ML Engineer'ов в Турцию. Кому-то это будет интересно. Забирайте.

Вот сам канал. В нем уже больше 3к человек😱🤪😊

Добавляйтесь сами и добавляйте знакомых HR'ов. Свободу информации! Всем крутых вакансий!

#Алерон_делится
👍174👎2🔥2🎉1
В Русский орфографический словарь внесли 150 новых слов. Это первое масштабное обновление словаря в текущем году. Множество новых слов относится к IT-сфере. Я погуглил и был приятно удивлен, среди новых есть такие слова как:

- Телеграм-канал
- Погуглить
- Фармить
- Каглер / Грендмастер
- Бэггинг / Бустинг
- Блендинг / Стэкинг
- Приват / Паблик
- Бутстрэп / Семплирование
- Псевдолейблинг
- Шейкап
- Голда / Сологолд
- Фаанг
- Удаленка / Коворкинг
- Пруф / Апвот / Апруф
- ...

Можете на досуге изучить значения, чтоб понимать меня и других блогеров лучше😅

#fake_news
👍30😁13🤔6🔥5👎32
Доброе утро!

Мы тут с парнями из red_mad_robot пытаемся выиграть медали в HubMAP (задача сегментации изображений). Вчера миновали точку объединения в команды. Остается неделя - неделя упорной работы и отчаянной проверки новых гипотез, в надежде подняться вверх. Сейчас мы в топ-200 из 1200 участников.

🤔 Ради эксперимента, решил пригласить пару Kaggle мастеров в команду. Как итог, проснулись с новыми тиммейтами.

🤹‍♂️ Посмотрим к чему это приведет. Пока что я скептичен. Буду держать вас updated.

👇 Гоу "приват шейринг" в комменты!
🔥35👍4👎3🎉1
🏆 Data Feeling | AI
Из соло моделей не заходит пока ничего, но мы пытаемся поднять скор блендингом 😌 А у вас как дела?)
Пока некогда думать о какой-то там "мобилизации". Обидно будет, если медаль на Kaggle сгорит из-за расфокуса. Подняли еще скор, кстати. Скоро будем минимум в бронзе.

Update:
Насчет недавних новостей. Парни, не переживайте раньше времени! Лучше сейчас сесть и спокойно подумать, что можно сделать лично вам. Главное, не сходите с ума из-за фоновой паники, действуйте обдумано. Алерон с вами, всем удачи!
👎170👍409😁1🤔1😱1🏆1
🏆 Data Feeling | AI
Пока некогда думать о какой-то там "мобилизации". Обидно будет, если медаль на Kaggle сгорит из-за расфокуса. Подняли еще скор, кстати. Скоро будем минимум в бронзе. Update: Насчет недавних новостей. Парни, не переживайте раньше времени! Лучше сейчас сесть…
Ситуация непростая. Для тех кто решил релокейтиться куда-нибудь вот вам мои мысли по личному опыту.

С февраля я успел попробовать три страны для проживания. Турция, Казахстан и Таиланд. Если вы прям вот уж совсем в панике и уже выбираете куда можно поехать пока всё не утихнет, то это хорошие варианты для раздумий. Сразу скажу, что русско-говорящих там везде навалом. Начну с самого простого.

🇰🇿 Казахстан. Тут все понятно. Близко. Говорят все на русском. Горы. Еда относительно дешевая. Жилья много, со съемом его проблем нет. Успел там пробыть около суток у друзей. За день в центре Астаны на еду в рестиках/лофтах на двоих ушло примерно ~ 3к. Если выбирать что-то скромнее, то жить там можно долго. Чат по Казахстану.

🇹🇷 Турция. Если раньше там не прибывали на долгое время, то это не самый простой вариант. Найти жилье и закупаться там едой по оптимальным ценам чтоб долго протянуть сложно. Жилье дорогое, так просто его не снять. Но если туда ехать, я бы советовать побережье Алании или Анталии, где вне сезона цены ниже. Оставаться в Турции по заграну можно только на два месяца. Дальше надо что-то делать. Чат по Турции.

🇹🇭 Таиланд. Не очевидно, но это самый лучший из этих трех вариантов. Еда дешевая. Население очень дружелюбное. Весь год лето. Океан. Базового английского для общения хватает. Жилье доступно. Сам снимал двухэтажную виллу с бассейном за 14К бат в месяц (~45к рублей). Единственное, что билеты дорогие (от 35к до 70к в среднем). Продлевать визу там можно бесконечно. Лететь советую через Казахстан. Через Турцию сейчас будет очень дорого. Чат по Таиланду.

Пост будет обновляться.

Вот тут Олег рассказывает про Армению 🇦🇲

🥳 Кстати, мы еще подняли скор. Шаг за шагом идем в медали, не поддаваясь панике.

Берегите себя и действуйте обдуманно!
91👍33👎6🔥4😁4
🏆 Data Feeling | AI
Ситуация непростая. Для тех кто решил релокейтиться куда-нибудь вот вам мои мысли по личному опыту. С февраля я успел попробовать три страны для проживания. Турция, Казахстан и Таиланд. Если вы прям вот уж совсем в панике и уже выбираете куда можно поехать…
🙈 Ого, у нас тут с пацанами разворачивается настоящий фарм-кипишь. (138 и 140 строки)

🤠 Начинали фармить вместе, теперь фармим по разным тимам 💪

Идем в медали ноздря в ноздрю. Вот-вот доблендить еще парочку моделей и зайдем в бронзу, надеюсь.

👇 🙈😅Делайте ставки в комменты.
Кстати, мои приглашенные мастера в команду вообще не внесли вклада. Вот так вот и бери потом опытных.
🏆18👍4🔥2👎1
🏆 Data Feeling | AI
🙈 Ого, у нас тут с пацанами разворачивается настоящий фарм-кипишь. (138 и 140 строки) 🤠 Начинали фармить вместе, теперь фармим по разным тимам 💪 Идем в медали ноздря в ноздрю. Вот-вот доблендить еще парочку моделей и зайдем в бронзу, надеюсь. 👇 🙈😅Делайте…
Что ж. Финиш. Закрепились в HubMap в топ-150 из 1300 человек. Надо подняться всего лишь на 8 мест наверх и будет медалька.

Собрали ансамбль из 16 моделей. Ждем шейкапа наверх.

Ставьте 👍 или 👎 если верите что зайду с тимой в медали или не зайду соответственно.

Кстати, сегодня сходил на конференцию возобновившихся ML тренировок. Если буду активнее фармить возможно когда-нибудь там выступлю. Добрых снов😌

P.S - угадайте парня посередине 😅
👍141👎17🏆5
🏆 Data Feeling | AI
Что ж. Финиш. Закрепились в HubMap в топ-150 из 1300 человек. Надо подняться всего лишь на 8 мест наверх и будет медалька. Собрали ансамбль из 16 моделей. Ждем шейкапа наверх. Ставьте 👍 или 👎 если верите что зайду с тимой в медали или не зайду соответственно.…
Не повезло, не фартануло.

Корреляция между приватной выборкой и тестовой оказалось очень неплохой. Не заняв медальную зону сразу, мы не заняли ее и после шейкапа на привате.

Что зашло?
Систематичность. Мы почти каждый день созванивались с командой. Заполняли табличку гипотез. Приоретизировали и распределяли задачи.
Мощности. Повезло, что в этот раз было относительно не много проблем с GPU. Почти все время могли запускать что-то. Модели одного фолда учились всего по два-три часа.
Опыт. Множество технических проблем с архитектурой сеток и инфраструктурой решались быстро, либо еще быстрее командным бруд-форсом.

Какие вижу ошибки?
Секрет победы был прост. Надо было верно подобрать трешхолды для классов.
Поздно разгадали, какие архитектуры и приемы поднимают скор. Бленд двух моделей со скором 0.71 и 0.72 давал финальный скор в 0.76. То есть бери и просто бленди разные по природе модели. Всего у нас было 4 архитектуры. Стоило проверить больше.
Зацикливались. Вместо того чтобы идти дальше по списку гипотез, тратили время на бесперспективные улучшения уже сильных моделей.
Слабо изучили датасет. Данные как всегда с мусором, который в идеале почистить или переразметить. (Pseudo labeling)
Не решились закинуть модельку в Optuna на денек, чтоб провести эксперименты более массово.
Бленд с моделью мастеров по каким-то причинам только ухудшал скор. Возможно неверные трешхолдны на классы при смешивании моделей. Возможно, не тех мастеров взяли в тиму😅
Не успели добавить в бленд сильную модель наших друзей-аппонентов из поста выше. (Да, мы делились идеями через форум, но применить доп модели друг друга не смогли из-за неудобства разных подходов и недостатка времени.)
Под конец только пришла идея использовать в Test Time Augmentation еще и цвето-коррекцию.
Мало наресерчели оригинальных идей. Стоило заложить на это время.

🤔 В целом, если бы получили бронзу это бы погоды нам не сделало. Для титула "Мастер" нам нужны только золотые и серебряные медали. Будем решать теперь еще агрессивнее!
👍51🏆15🔥4👎32
👀 Тут на Kaggle приехала интересная биологическая задачка - Novozymes Enzyme Stability Prediction

😓 Предлагается по аминокислотной последовательности белка фиксированный длины предсказать температуру плавления.

🤓 В общем, просят реализовать AlphaFold от DeepMind на минималках. AlphaFold предсказывал 3D структуру, а тут все намного проще - надо всего лишь температуру плавления.

🤔 Что-то похожее я уже решал однажды в прошлой жизни биоинформатика. Посмотрел, как люди на форуме пытаются решить эту задачу и там какой-то детский сад. По типу tf-idf + модель. Очевидно, это никак не раскрывает свойства такого сложного 3D объекта как белок.

👨‍🚒 Решил, что буду участвовать. Хочу усилить свою команду и провести эксперимент. Ищу новых тиммейтов с биологическим бэкграундом!

👨🏻‍🌾 Я ищу именно тебя, если ты:
- Понимаешь основы молекулярной биологии. Отличаешь ДНК от аминокислот.
- Имеешь опыт аннотации белков.
- Любишь ресерчить статейки и даже слышал, как устроен AlphaFold.

🧞‍♂️ С меня вся ML часть. Ресурсы и личный соревновательный опыт. В планах пойти "каглерским" путем. Настакать фичей разной природы и дальше по классике ансамбль бустинга, сетки и линеек.

Пиши в личку, если тебе интересна задача и нужны медали на Kaggle! Думаю, что особенно актуально для тех кто переходит из биоинфы в DS/ML.
👍324👎4🔥4🤔3
Динамическое ценообразование любопытная вещь.

🤔 Интересно, это руками так подбирается или действительно есть алгоритм на такие случаи...

Москва - Алания.

Теперь в Сочи отдыхать снова дешевле, чем в Турции😳

Есть вариант еще - можно попасть в Казахстан. Кстати, вот чат по взаимопомощи в Казахстане.
😱27👍5👎4🤔3😁1
🏆 Data Feeling | AI
Динамическое ценообразование любопытная вещь. 🤔 Интересно, это руками так подбирается или действительно есть алгоритм на такие случаи... Москва - Алания. Теперь в Сочи отдыхать снова дешевле, чем в Турции😳 Есть вариант еще - можно попасть в Казахстан.…
Продолжаю восхищаться динамическим ценообразованием авиасейлс.

Оповещают о понижение цены на билет, хотя из билета просто убрали багаж. Мдам-с

А ведь какой-то гений маркетинга (продукт-менеджер) получает зп за придумку этой фичи.
😁45👍2👎1
Так, ну окей. Теперь я еще спокойнее и вот-вот буду радовать вас прикольными приемами и техниками в ML/DS снова.

Хотя пару дней назад думал, что буду делиться армейскими лайф-хаками и анекдотами.
🔥53😁12🏆5👎21
🥳 Идем дальше!

Пока люди активно паниковали и уезжали из РФ, мы с Дашей активно паниковали и писали для вас курсец. Мы собрали основные приемы, которые помогают успешнее искать работу.

🎯 Курс проведет вас "за ручку" через весь путь от подготовки резюме до получения оффера.

🥳 Мы только что опубликовали курс, но еще его не тестировали на других людях. У вас есть возможность пройти этот курс в первых рядах до основного релиза. Для этого напишите в комменты почему этот курс по получению оффера нужен именно вам? Авторы 10 самых релевантных и развернутых ответов получат автомобиль доступ к курсу со скидкой 91% (Меньше чисто технически сделать нельзя)

Ссылка на курс
👎61🔥34👍11🤔3
Пирсон не ловит нелинейные зависимости!

Все знают, для проверки линейной зависимости/корреляции между двумя переменными можно взять коэффициент корреляции Пирсона. Однако, что делать, если надо поймать что-то не линейное? Ответ не очевидный.

🚀 Не так давно узнал, про Phik корреляцию. Штука мощная. Посмотрите как Phik ловит сложные зависимости, где Пирсон теряется.

При генерации признаков такой подход позволяет не отсеивать более сложные зависимости, которые потом бустинги смогут уловить.
88👍36🔥8😱5👎1