🏆 Data Feeling | AI – Telegram
🏆 Data Feeling | AI
15.9K subscribers
732 photos
222 videos
6 files
469 links
IT предприниматель и препод 🧑‍🏫
ex-ML лидер в Dodo Brands 🦤🍕
Прокачиваю людей в Data Science 🚀
Победитель Stepik Awards 🏆
Kaggle Expert 🤹‍♀️
Создатель @Speakadora_bot @big_llm_course

РКН https://clik.now/datafeeling
Алерон @Ale_v2
Download Telegram
Финишировали American Express на Kaggle.

Ставьте 👍 или 👎
Если верите или не верите, что меня подкинет в медали соответственно.

Всего 5к участников. До медалей лететь 400 мест =)

Добрых снов.
👍103👎28🔥4🤔4
🏆 Data Feeling | AI
Финишировали American Express на Kaggle. Ставьте 👍 или 👎 Если верите или не верите, что меня подкинет в медали соответственно. Всего 5к участников. До медалей лететь 400 мест =) Добрых снов.
Плох тот преподаватель по Data Science, который не может попасть в медали на Kaggle.

Как итог, поднялись на привате на 700 мест вверх и забрали серебро🥈🏆

💪🤪 Это мой самый большой шейкап к топу. А вы знаете, я всегда поднимаюсь только вверх, и в этом нет никакой случайности. Про стабилизации и диверсификации моделей я знаю не мало. Это один из крупнейших чемпионатов по количеству участников - 5к человек 😱

😊 Отдельная гордость - это мои марафонцы с 169 места. Ребята одной рукой решают производственные задачи в red_mad_robot, а другой фармят медали на Kaggle. Мечта, а не жизнь! Мы с ними уже сильно прокачались и дальше будем фармить уже только золото🥇 Целимся в Computer Vision 🚀

Кстати, с моим товарищем / тиммейтом Иваном я познакомился, когда тот пришел к нам разносить мок-интервью. Собес не разнёс, но медали зарабатывать научился.

Секрет успеха:
🏌️ Не брать решения с форума на Kaggle
🧠 Умение писать хороший код
👨🏻‍🌾 Feature Engineering
🤠 Навык тюнить бустинги
📈 Качественная валидация
🔥80👍17🎉10👎41
Да кто такой этот ваш Алерон?!

Меня зовут Александр Миленькин, я IT предприниматель, создавший суммарно решений на $300к 💸.

А еще я разработчик с опытом 9+ лет в сфере машинного обучения и AI. Тут рассказываю про личный опыт ML инженера, лайфхаки и неудачи в IT и AI проектах.

Ты найдешь тут много полезного. Про взлом маркетинга, разработку и применение технологий. Про важные конференции и хакатоны.

🚦Кратко про себя:
Вырос в Сочи. Окончил Физтех. Работал генным инженером. C 2016 года в IT. Пожил год в Азии. Сейчас в Бразилии. Организовал бизнес с оборотом 15М+ в год. Выиграл Stepik Awards 2023. Kaggle Expert. Сейчас развиваю AI тренажер английского.

Как прокачиваю людей?
🏆 Автор интенсива по ML и LLM технологиям
🤖 Учу людей вайб-кодингу (AI программированию)
🧠 и продвинутым ML инструментам

Начни с этих постов:
🟢 Упрощение ежедневной рутины с n8n
🟢 +5 инноваций в вашу жизнь
🟢 IT предпринимательство
🟢 Как экономить на токенах ChatGPT и других моделей
🟢 Про доп доход с фриланса
🟢 Что такое MCP и почему это модно?

🏄 Где я работал?
👉 Insilico Medicine 👉 Gero 👉 Асна 👉 Х5 👉 red_mad_robot 👉 Dodo Brands. В последнем лидировал команду из 10+ Data Scientist'ов. Решали технологичные задачи огромной сети из 1200+ пиццерий 🍕

🏎 Почему стоит изучать Data Science?
Данные в мире
растут сверх быстро, а умение конвертировать данные в деньги делает меня востребованным специалистом. Выработанная интуиция извлекать пользу из данных - это залог успеха. Отсюда название канала - Data Feeling.

А еще
, тут есть чемпионаты с крупными призовыми и лидербордами (рейтинг участников). Это драйвит чувство конкуренции. Строя ML модели и вскарабкиваясь по лидерборду вверх, испытываешь теплое чувство азарта. Желание обойти лидеров индустрии и занять топ-1 вынуждает быстро развиваться и погружаться в задачи глубже. Об этом тут.

🎯 Какие планы на жизнь?
Д
о конца года развиться в роли лидера быстрорастущего ML отдела, поднять $1М выручки на Gen AI, завоевать титул Kaggle Grand Master'а. Следи за каналом, буду прокачивать тебя своими постами!

Почему друзья зовут меня Алерон?
Так меня в шутку называют дома. А еще к имени Алерон проще привязать личный бренд. Мне нравится имя Александр, но Алерон такой один.

Чем увлекаюсь?
Запускаю IT проекты. Путешествую. Обожаю активности (вейк-борд / сноуборд / коньки). Раньше профессионально занимался парусным спортом, выигрывал регаты. Любовь соревноваться осталась, но деятельность поменялась. Киноман. Много гуляю по паркам. Нравятся art выставки и прогулки «глазами инженера». Люблю стейки и свиные ребра.

🎚️ Подписывайтесь @datafeeling, буду прокачивать ваши навыки!

РНК
Please open Telegram to view this post
VIEW IN TELEGRAM
136🔥68👍52👎6🤔3😱32😁2
А что далеко ходить то!?

Оставляете книжку про вашу сферу деятельности на доступном языке в уборной. Как итог, через пару месяцев родня внезапно начинает вас понимать. Проверено.
👍87🔥27😁10🤔7👎5
🥳 С первым днем осени вас, чемпионы!

🤔 Утром понял, что надо вести мелкого в первый класс написать статью, про свои идеи решений по недавним двум соревнованиями на Kaggle, принесшим мне медали🥉🥈. Amex оказался самым разнообразным в плане идей💪

Прикладываю схему, которую разберу в статье на Хабр. Так же, расскажу еще про решение других участников. Там есть очень классные задумки😳

Вижу тренд, как трансформеры начинают успешно конкурировать сочетаться с бустингами.
🔥59👍6👎1
Год назад слушал доклад по авто-ML от LAMA, и как тот автоматизирует работу DS'ов в Сбере.

🧠 Тогда пришел мыслями к критерию. Если ты знаешь, как обойти авто-ML по точности, значит, ты будешь востребованным специалистом.

🙅‍♂️ Кстати, наивную идею на изи выигрывать, используя авто-ML я слил еще год назад, когда три чемпионата подряд ничего не выиграл. Под капотом много сильных идей. Быстро выходишь в топ, но потом тебя запросто скидывают вниз скилованные ребята без всякого автомл'я.

Update:
🤔 А вот критерий успешности для AutоML - это способность обойти 95% участников по точности в задаче классификации / регрессии.
31👍16🔥5👎1🤔1
Переверну календарь за вас. Недорого.
44👎13🎉10
Когда собесишь джуна и в конце спрашиваешь его, какими задачами он хотел бы заниматься. А он такой:
👍117🤔11😁8🎉4😱2👎1
Логарифмируй таргет иначе зачем математики придумали логарифм?!

Помните пост про логарифмирование таргета в задаче регрессии? Логарифмирование таргета хорошо помогает в случае линейных моделей📈 А вот более сложным моделям по типу градиентных бустингов (Catboost / LigthGBM / XgBoost) неважно распределение таргета📉 И или все-таки важно?

🤓 С одной стороны, при построении "дерева" в бустинге абсолютно неважна шкала по которой делать сплит, то есть логарифмирование таргета не важно.

🤔 Однако, как показывает практика (Raif-Hack 2021), логарифмирование таргета все же может помочь поднять скор. Как так?!

Моя версия: при построении дерева валидационная метрика все же зависит от шкалы (MSE/MAE/MAPE и тп). Поэтому от логарифмирования все же зависит построение дерева.

А как вы думаете, что может при построении дерева в бустинге измениться? Или это все бред и эффекта от этого не будет?!

Услышал еще клевую идею про влияние на сцепку признаков от @Ppilif и про влияние на бинаризацию признаков от @slivka_83


🤫 Умение самому себе отвечать на такие вопросы делает вас сильным оппонентом в вопросе построения моделей.
👍26🏆31👎1
👨🏻‍🌾 Мне в личку часто пишут платные предложения о размещении вакансий. Однако, мой канал был придуман не для этого, и я почти всегда отказываюсь или реферю кентов.

🧠 Тем не менее, я хочу, чтоб HR'ы присылали не только мне свои открытые и интересные вакансии. Поэтому, как вы помните, я создал под это дело специальный канал, куда регулярно отправляю всех HR'ов, которые стучатся мне в личку. Так я делюсь вакансиями с вами.

🤫 Недавно там снова замелькали вакансии на Data Engineer'ов и ML Engineer'ов в Турцию. Кому-то это будет интересно. Забирайте.

Вот сам канал. В нем уже больше 3к человек😱🤪😊

Добавляйтесь сами и добавляйте знакомых HR'ов. Свободу информации! Всем крутых вакансий!

#Алерон_делится
👍174👎2🔥2🎉1
В Русский орфографический словарь внесли 150 новых слов. Это первое масштабное обновление словаря в текущем году. Множество новых слов относится к IT-сфере. Я погуглил и был приятно удивлен, среди новых есть такие слова как:

- Телеграм-канал
- Погуглить
- Фармить
- Каглер / Грендмастер
- Бэггинг / Бустинг
- Блендинг / Стэкинг
- Приват / Паблик
- Бутстрэп / Семплирование
- Псевдолейблинг
- Шейкап
- Голда / Сологолд
- Фаанг
- Удаленка / Коворкинг
- Пруф / Апвот / Апруф
- ...

Можете на досуге изучить значения, чтоб понимать меня и других блогеров лучше😅

#fake_news
👍30😁13🤔6🔥5👎32
Доброе утро!

Мы тут с парнями из red_mad_robot пытаемся выиграть медали в HubMAP (задача сегментации изображений). Вчера миновали точку объединения в команды. Остается неделя - неделя упорной работы и отчаянной проверки новых гипотез, в надежде подняться вверх. Сейчас мы в топ-200 из 1200 участников.

🤔 Ради эксперимента, решил пригласить пару Kaggle мастеров в команду. Как итог, проснулись с новыми тиммейтами.

🤹‍♂️ Посмотрим к чему это приведет. Пока что я скептичен. Буду держать вас updated.

👇 Гоу "приват шейринг" в комменты!
🔥35👍4👎3🎉1
🏆 Data Feeling | AI
Из соло моделей не заходит пока ничего, но мы пытаемся поднять скор блендингом 😌 А у вас как дела?)
Пока некогда думать о какой-то там "мобилизации". Обидно будет, если медаль на Kaggle сгорит из-за расфокуса. Подняли еще скор, кстати. Скоро будем минимум в бронзе.

Update:
Насчет недавних новостей. Парни, не переживайте раньше времени! Лучше сейчас сесть и спокойно подумать, что можно сделать лично вам. Главное, не сходите с ума из-за фоновой паники, действуйте обдумано. Алерон с вами, всем удачи!
👎170👍409😁1🤔1😱1🏆1
🏆 Data Feeling | AI
Пока некогда думать о какой-то там "мобилизации". Обидно будет, если медаль на Kaggle сгорит из-за расфокуса. Подняли еще скор, кстати. Скоро будем минимум в бронзе. Update: Насчет недавних новостей. Парни, не переживайте раньше времени! Лучше сейчас сесть…
Ситуация непростая. Для тех кто решил релокейтиться куда-нибудь вот вам мои мысли по личному опыту.

С февраля я успел попробовать три страны для проживания. Турция, Казахстан и Таиланд. Если вы прям вот уж совсем в панике и уже выбираете куда можно поехать пока всё не утихнет, то это хорошие варианты для раздумий. Сразу скажу, что русско-говорящих там везде навалом. Начну с самого простого.

🇰🇿 Казахстан. Тут все понятно. Близко. Говорят все на русском. Горы. Еда относительно дешевая. Жилья много, со съемом его проблем нет. Успел там пробыть около суток у друзей. За день в центре Астаны на еду в рестиках/лофтах на двоих ушло примерно ~ 3к. Если выбирать что-то скромнее, то жить там можно долго. Чат по Казахстану.

🇹🇷 Турция. Если раньше там не прибывали на долгое время, то это не самый простой вариант. Найти жилье и закупаться там едой по оптимальным ценам чтоб долго протянуть сложно. Жилье дорогое, так просто его не снять. Но если туда ехать, я бы советовать побережье Алании или Анталии, где вне сезона цены ниже. Оставаться в Турции по заграну можно только на два месяца. Дальше надо что-то делать. Чат по Турции.

🇹🇭 Таиланд. Не очевидно, но это самый лучший из этих трех вариантов. Еда дешевая. Население очень дружелюбное. Весь год лето. Океан. Базового английского для общения хватает. Жилье доступно. Сам снимал двухэтажную виллу с бассейном за 14К бат в месяц (~45к рублей). Единственное, что билеты дорогие (от 35к до 70к в среднем). Продлевать визу там можно бесконечно. Лететь советую через Казахстан. Через Турцию сейчас будет очень дорого. Чат по Таиланду.

Пост будет обновляться.

Вот тут Олег рассказывает про Армению 🇦🇲

🥳 Кстати, мы еще подняли скор. Шаг за шагом идем в медали, не поддаваясь панике.

Берегите себя и действуйте обдуманно!
91👍33👎6🔥4😁4
🏆 Data Feeling | AI
Ситуация непростая. Для тех кто решил релокейтиться куда-нибудь вот вам мои мысли по личному опыту. С февраля я успел попробовать три страны для проживания. Турция, Казахстан и Таиланд. Если вы прям вот уж совсем в панике и уже выбираете куда можно поехать…
🙈 Ого, у нас тут с пацанами разворачивается настоящий фарм-кипишь. (138 и 140 строки)

🤠 Начинали фармить вместе, теперь фармим по разным тимам 💪

Идем в медали ноздря в ноздрю. Вот-вот доблендить еще парочку моделей и зайдем в бронзу, надеюсь.

👇 🙈😅Делайте ставки в комменты.
Кстати, мои приглашенные мастера в команду вообще не внесли вклада. Вот так вот и бери потом опытных.
🏆18👍4🔥2👎1
🏆 Data Feeling | AI
🙈 Ого, у нас тут с пацанами разворачивается настоящий фарм-кипишь. (138 и 140 строки) 🤠 Начинали фармить вместе, теперь фармим по разным тимам 💪 Идем в медали ноздря в ноздрю. Вот-вот доблендить еще парочку моделей и зайдем в бронзу, надеюсь. 👇 🙈😅Делайте…
Что ж. Финиш. Закрепились в HubMap в топ-150 из 1300 человек. Надо подняться всего лишь на 8 мест наверх и будет медалька.

Собрали ансамбль из 16 моделей. Ждем шейкапа наверх.

Ставьте 👍 или 👎 если верите что зайду с тимой в медали или не зайду соответственно.

Кстати, сегодня сходил на конференцию возобновившихся ML тренировок. Если буду активнее фармить возможно когда-нибудь там выступлю. Добрых снов😌

P.S - угадайте парня посередине 😅
👍141👎17🏆5
🏆 Data Feeling | AI
Что ж. Финиш. Закрепились в HubMap в топ-150 из 1300 человек. Надо подняться всего лишь на 8 мест наверх и будет медалька. Собрали ансамбль из 16 моделей. Ждем шейкапа наверх. Ставьте 👍 или 👎 если верите что зайду с тимой в медали или не зайду соответственно.…
Не повезло, не фартануло.

Корреляция между приватной выборкой и тестовой оказалось очень неплохой. Не заняв медальную зону сразу, мы не заняли ее и после шейкапа на привате.

Что зашло?
Систематичность. Мы почти каждый день созванивались с командой. Заполняли табличку гипотез. Приоретизировали и распределяли задачи.
Мощности. Повезло, что в этот раз было относительно не много проблем с GPU. Почти все время могли запускать что-то. Модели одного фолда учились всего по два-три часа.
Опыт. Множество технических проблем с архитектурой сеток и инфраструктурой решались быстро, либо еще быстрее командным бруд-форсом.

Какие вижу ошибки?
Секрет победы был прост. Надо было верно подобрать трешхолды для классов.
Поздно разгадали, какие архитектуры и приемы поднимают скор. Бленд двух моделей со скором 0.71 и 0.72 давал финальный скор в 0.76. То есть бери и просто бленди разные по природе модели. Всего у нас было 4 архитектуры. Стоило проверить больше.
Зацикливались. Вместо того чтобы идти дальше по списку гипотез, тратили время на бесперспективные улучшения уже сильных моделей.
Слабо изучили датасет. Данные как всегда с мусором, который в идеале почистить или переразметить. (Pseudo labeling)
Не решились закинуть модельку в Optuna на денек, чтоб провести эксперименты более массово.
Бленд с моделью мастеров по каким-то причинам только ухудшал скор. Возможно неверные трешхолдны на классы при смешивании моделей. Возможно, не тех мастеров взяли в тиму😅
Не успели добавить в бленд сильную модель наших друзей-аппонентов из поста выше. (Да, мы делились идеями через форум, но применить доп модели друг друга не смогли из-за неудобства разных подходов и недостатка времени.)
Под конец только пришла идея использовать в Test Time Augmentation еще и цвето-коррекцию.
Мало наресерчели оригинальных идей. Стоило заложить на это время.

🤔 В целом, если бы получили бронзу это бы погоды нам не сделало. Для титула "Мастер" нам нужны только золотые и серебряные медали. Будем решать теперь еще агрессивнее!
👍51🏆15🔥4👎32
👀 Тут на Kaggle приехала интересная биологическая задачка - Novozymes Enzyme Stability Prediction

😓 Предлагается по аминокислотной последовательности белка фиксированный длины предсказать температуру плавления.

🤓 В общем, просят реализовать AlphaFold от DeepMind на минималках. AlphaFold предсказывал 3D структуру, а тут все намного проще - надо всего лишь температуру плавления.

🤔 Что-то похожее я уже решал однажды в прошлой жизни биоинформатика. Посмотрел, как люди на форуме пытаются решить эту задачу и там какой-то детский сад. По типу tf-idf + модель. Очевидно, это никак не раскрывает свойства такого сложного 3D объекта как белок.

👨‍🚒 Решил, что буду участвовать. Хочу усилить свою команду и провести эксперимент. Ищу новых тиммейтов с биологическим бэкграундом!

👨🏻‍🌾 Я ищу именно тебя, если ты:
- Понимаешь основы молекулярной биологии. Отличаешь ДНК от аминокислот.
- Имеешь опыт аннотации белков.
- Любишь ресерчить статейки и даже слышал, как устроен AlphaFold.

🧞‍♂️ С меня вся ML часть. Ресурсы и личный соревновательный опыт. В планах пойти "каглерским" путем. Настакать фичей разной природы и дальше по классике ансамбль бустинга, сетки и линеек.

Пиши в личку, если тебе интересна задача и нужны медали на Kaggle! Думаю, что особенно актуально для тех кто переходит из биоинфы в DS/ML.
👍324👎4🔥4🤔3
Динамическое ценообразование любопытная вещь.

🤔 Интересно, это руками так подбирается или действительно есть алгоритм на такие случаи...

Москва - Алания.

Теперь в Сочи отдыхать снова дешевле, чем в Турции😳

Есть вариант еще - можно попасть в Казахстан. Кстати, вот чат по взаимопомощи в Казахстане.
😱27👍5👎4🤔3😁1
🏆 Data Feeling | AI
Динамическое ценообразование любопытная вещь. 🤔 Интересно, это руками так подбирается или действительно есть алгоритм на такие случаи... Москва - Алания. Теперь в Сочи отдыхать снова дешевле, чем в Турции😳 Есть вариант еще - можно попасть в Казахстан.…
Продолжаю восхищаться динамическим ценообразованием авиасейлс.

Оповещают о понижение цены на билет, хотя из билета просто убрали багаж. Мдам-с

А ведь какой-то гений маркетинга (продукт-менеджер) получает зп за придумку этой фичи.
😁45👍2👎1