🏆 Data Feeling | AI – Telegram
🏆 Data Feeling | AI
15.9K subscribers
732 photos
222 videos
6 files
469 links
IT предприниматель и препод 🧑‍🏫
ex-ML лидер в Dodo Brands 🦤🍕
Прокачиваю людей в Data Science 🚀
Победитель Stepik Awards 🏆
Kaggle Expert 🤹‍♀️
Создатель @Speakadora_bot @big_llm_course

РКН https://clik.now/datafeeling
Алерон @Ale_v2
Download Telegram
Наткнулся с тимой на любопытный факап модели, пока фармили чемпионат.

Бустинг опирается сильнее всего на рандомно-сгенерированные признаки при этом дает очень высокую точность ~70% accuracy для 10 классов

😳🙅‍♂️Это к вопросу о том, что деревья умеют находить закономерности даже в шуме. На рисунке типичный Feature Importance.

Мдамс... дата саенс такой дата саенс...

Чтоб такого не было, используйте Permutation Importance
🤔24👍15
💡идея для фрод стартапа

🧠 Написать сетку, которая вместо тебя размечает данные на сервисах разметки по типу Толоки

🤔 Сегментацию, насколько знаю, сетки уже очень хорошо решают - почему бы на этом не заработать?!

U-net крутится, бабки мутятся
🤔14👍10👎2🔥1
пока фармил очередной чемпионат, сгенерировал ~800 hand-made фичей.

Вы только посмотрите, как красиво это выглядит со стороны😍

Если не всматриваться в текст, можно увидеть лица. (та самая структура данных, про которую все говорят 😂)

#feature_engineering_king
24👍6🤔4👎3🔥2
🤔 Ни разу еще не высказывался про отношение к IT курсам.

🤫 С высоты преподавания в МФТИ и на базе еще 5-ти онлайн школ, скажу, что онлайн курсы действительно помогают прокачаться и получить IT профессию. Особенно, если эти курсы готовишь и читаешь ты сам.
👍58👎3🤔3😱2
This media is not supported in your browser
VIEW IN TELEGRAM
Если вы забыли, как должен выглядит вид из вашего офиса, то вот…

Это я в гости к red_mad_robot зашел.

Какой вид у вас?
🔥25👎5👍4
Стабильно захожу в бронзу.

⚔️ Ради професильонального роста и тонуса периодически тренируюсь решать нестандартные задачи.

🎳 В последних двух чемпионтах на boosters.pro из-за недостатка времени не выбился в лидеры, зато пока решал, набрался прикольного опыта и написал кучу вспомогательных фрагментов для дальнейшего переиспользования. Один чемпионат заменяет несколько месяцев/лет работы в компании.

Из интересного:
- Расширил свой кругозор в анализе ошибок модели. Теперь буду хитрее подходить к генерации фичей и поиску gold features. Полезно читать статьи, даже если не хочется.
- Ощутил насколько сильно дает прирост блендинг моделей в задачах мульти-классификации.

Из более интересного:
Кажется, иногда выиграть без погружения в доменную область просто нереально. Несколько сильных доменных фичей может заменить 10 моделей и часы/дни подбора гипер-параметров.

🎰 За летние месяцы сделаю акцент на Kaggle. Там призовые так просто не урвешь, зато толк от медалей больше. Поднимает статус твоего профиля.
👍51👎4🔥1
#зашквары

😍 Меня часто веселят маркетинговые заголовки онлайн-школ.

😱 Вот один из них: "Создайте искусственный интеллект сами! 20–22 ..." - За три дня? ИИ?! Серьезно?! Так просто?!

🤷‍♀️ Весь мир пока не смог, а ты сейчас за два дня бах и сделаешь свой искусственный интеллект, и пупок даже не развяжется.

🤔 Жалко наивных людей, кто на этот маркетинг ведется. Я за прозрачность. Писали бы уже хоть явно про машинное обучение.
🔥26👎9👍6😱2
🚀 Запуск "Хочу крутой оффер 2.0"

Наш эксперимент с разгоном группы 4-х человек оказался успешным. Один участник уже вот-вот умчит в Германию, а остальные имеют отшлифованные резюме, привычку каждый день откликаться на вакансии и отсутствие страха перед периодическими собесами на английском. Для них оффер это уже вопрос времени.

😎 Ты тоже можешь дойти до оффера в $50к+ в год.
Мы систематизировали тренировки: участники пробегут марафон 30-дневных заданий, что поможет проработать все аспекты поиска работы зарубежом. Под присмотром 4-х опытных наставников.

‼️ Ты имеешь все шансы попасть в набор, если:
- У тебя разговорный английский (B1+)
- Твой уровень > Junior+ (опыт работы от 1 года)
- Ты готов уделять программе минимум 2 часа в день в течение месяца
- Имеешь $250 или $800 (в зависимости, насколько интенсивно ты хочешь, чтоб мы командой тебя "мучали")

А если, окажется, что ты "машина", и за месяц накосишь самые "жирные" офферы, то мы вернём тебе деньги

Подробности о программе
Подать заявку
Старт 27.06
🔥34👎9👍7
Это я чилю и жду пока мою тиму топовых DS’ов шейкапнет на привате в голду🥇и мы пойдем потом на радостях в бар 🙋‍♂️🍷

В противном случае новую сореву начнем фармить 🤷‍♀️
14👍5👎3😱1
Вчера закончился очередной компетишен по NLP на Kaggle.

⚔️ Суть задачи была в определение схожести двух текстов исходя из контекста.

🤔 Пока решали, столкнулись с проблемой, которую вижу не первый раз. Проверив кучу гипотез и натренировав десятки моделей, мы откладывали вопрос стекинга решений до последних дней.

🤷‍♀️ Как итог, вылезла куча подводный камней и впихнуть 20 BERT-моделей в стекинг за сутки физически просто не смогли. В итоге, тупо поблендили все, но эффекта это сильного не принесло. Из 2К участников, остались в ~ топ-300. Стекайте заранее!

🤔 Вторая проблема - это распыление.
Выиграть можно только если полностью фокусируешься на одной задаче. Иначе все чемпионаты превращаются в безпризовое участие.

Всем хорошей недели! Ждите новый выпуск собесов)
👍42👎114🔥1
Вот есть модели Text2Text (GPT-3)
Есть уже Text2Image (DALL-E)

🤔 А когда будет уже Sound2Image? Можно было бы наорать под запись и потом посмотреть, какая картинка получится. Вроде же изи задумка. На фильмах можно обучить такую модель. Звуки китов не расшифрует, но по звуку воды сгенерирует картинки водопадов и тп.

🤐 Вариант со Speech2Text, а затем Text2Image не предлагать!

😴 Это я расфантазировался, пока готовил лекцию по обзору последних достижений в нейронках. Кстати, похожую картинку поста, сгенерированную нейронкой из текста “киберпанк город” планирую повесить дома на стене. Выглядит прям кайфово.
👍25👎3🔥3🤔1
🤷‍♀️ Тяжелый пациент

- Здравствуйте, мне бы модель отвалидировать, чем поможете?
- Начните с классического Train-Test Split
- А можно, чтоб оценка была несмещенная?
- Могу посоветовать K-Fold Validation.
- А если у меня в данных есть временная ось?
- Тогда берите Time Series K-Fold Validation
- Там еще есть группы, которые не должны пересекаться!
- Нестрашно, есть Grouped Time Series K-Fold Validation
- Ой, про дисбаланс таргета еще забыл!!!
- Ок, воткните Stratified Grouped Time Series K-Fold Validation
- Вы не поняли! Eще важно нормальное распределение фичей
- О, у нас как раз осталась последняя Bootstrap Stratified Grouped Time Series K-Fold Validation
- Здорово! А это учитывает шум в данных?
- Нет, но вот Robust Bootstrap Stratified Grouped Time Series K-Fold Validation ...
- А устаревание объектов во времени учтет?
- Sample Weighted Through Time Robust Bootstrap Stratified Grouped Time Series K-Fold Validation
- Ой, сложно, я, пожалуй, просто Train-Test Split возьму.
👍90🤔19🔥16👎51🎉1
Ты собесы вообще проходишь? А зарубеж? А на английском?
А когда начнешь? А знаешь, что "там" зп не сравнимы с РФ?

Кто тебя сдвинет с места, если не я и моя тима?!

Время сбора заявок на марафон "Хочу крутой оффер 2.0" подоходит к концу ⌛️
Это значит, что уже завтра я со своей командой начну отбирать мини группу. Суть марафона проста. Ребята тренируются проходить собесы. По ходу дела мы закрываем их слабые места. Ломаем языковой барьер и прорабатываем прочие слабости по типу кодинга и тд.

Сбор анкет закроем сегодня в 21:00 по Москве. Поэтому не спи!
Вот анкета. Вот программа

Помни, что это не бесплатно!
От $250, но если Ты способный, мы вернем деньги!
👍22👎8
Не смог не написать.

Еще один знаковый день в моей жизнь. Я открыл ИП.

Запустили с кентами стартапчик в сфере аналитики чужих данных. Оказалось, что без ИП даже первые тесты и продажи запустить не сможем 🤷‍♀️

Кстати, идею проекта мы придумали, пока был в Турции. Спасибо турецкому чаю и ворк спейсам в отелях. Нетворкинг в путешествиях это кайф 😎

🤔 Преп ли я дрожащий или право запустить стартап имею!?
👍46🔥11👎5🎉2
Ребята с вышкой все время умничают, что в DS нужна "математика", но стоит капнуть глубже, оказывается, что это не математика, а вышмат.

В реальной повседневной работе я каждый день использую математику. Притом очень часто, но это далеко не вышмат. Никакие интегралы не считаю, детерминанты матриц не ищу, а нужные формулы и алгоритмы мне оперативнее загуглить.

Решил накидать чек-лист из 30 простых математических фактов, без понимания которых тебе точно будет сложно в DS. Мощь вышмата не принижаю, но на старте все сильно проще, чем кажется.

Через пару дней закину статью на Хабр.
👍127🔥23👎6
Не успели разгрести заявки на марафон, как кто-то уже получает оффер до начала 😳

🤔 Получается, на Junior DS тоже релокейтят, если хорошо показать себя. Мотивация для джунов. Почитайте историю парня в комментах 🔥

Что ж, есть еще одно вакантное место. Заполняй анкету

*шутка про ауру*
👍26👎3🔥1
Постепенно разгоняюсь в CV

🏁 Сегодня огласили результаты соревы от VisionLabs по верификации моделей машин.

Из особенностей:
- В сореве не были выданы данные для обучения, лишь примеры датасетов с машинами 😳
- Было достаточно сильные лимиты на инференс модели. (Блендить тут все подряд было нельзя 😢)

Секрет успеха, имхо:
- Количество/качество собранных данных
- Удачный лосс (arcface)
- Хороший бэгбон (EfficientNet).

Разбор решений победителей можно глянуть тут

На левой картинке лб меня даже не видно, т.к сперва решение едва влезло в топ-15, а на привате закинуло в топ-7.

🤔 Еще приятный факт, решение с 6-го места, это ребята, которые участвовали в "марафоне по фармингу" и теперь работают в Red_Mad_Robot. Действительно прокачиваю, значит?!
👍32🔥5👎21
Мы явно недооцениваем простой взгляд коллег на свои баги
👍41🔥4👎2🤔1
В предверии статьи, где я прямым текстом пишу, что в «Data Science не нужна математика» дайте-ка сделаю пост, где я с красным дипломом Физтеха. Так у меня будет ссылка на аргумент, что я все-таки что-то понимаю в математических сферах, а не просто рандомный чел с улицы.

Update: поставил публикацию на утро вторника
🔥72👍2210👎9🎉6
Да уж, вот это жаркие баталии вы устроили 😳

Ловите статью. Надеюсь, она добавит мотивации новичкам!

Смысл статьи очень прост. Нужда в глубоких знания математики сильно зависит от контекста.

Да, математика хорошо помогает, но какая математика? И кому именно она нужна? А в каких ситуациях?

Зная эти ответы, можно намного качественнее распорядиться своим бесценными временем. Так ты не успеешь потерять мотивацию до того, как начнешь работать в этой сфере. Особенно актуально, если входишь в IT после 30 лет.

😊 Буду рад лайкам статьи на Хабре. Cильно запарился с оформлением в этот раз.
👍69🔥18👎6🤔1
🧞‍♂️ Вырвали бронзу на Kaggle!🥉

😳 Три недели решали задачу сегментации. Учили разные вариации Unet'ов. Не все успели проверить. Успели проиграть на паблике, но стабильные модели при шейкапе поднимает на привате наверх 👆🤪💪

👨🏻‍🌾🥉 Как итог в топ-96 из ~1560

Еще одна моя цель на этот год выполнена. Затащил себя и двух новичков в первую бронзу.

🤠 Дальше будем биться за золото! Чемпионатов прикольных сейчас в обилии, а скиллов прибавилось изрядно.

😱 Один из самых больших шафлов наверх в этой сореве

🤔 Eсли посмотреть на лидеров этой соревы, то там какие-то бешеные скопления мастеров и грендастеров

📈 Спасибо Redmadrobot за поддержку.
👍42🔥25🎉7👎2😱1