🏆 Data Feeling | AI – Telegram
🏆 Data Feeling | AI
15.9K subscribers
732 photos
222 videos
6 files
470 links
IT предприниматель и препод 🧑‍🏫
ex-ML лидер в Dodo Brands 🦤🍕
Прокачиваю людей в Data Science 🚀
Победитель Stepik Awards 🏆
Kaggle Expert 🤹‍♀️
Создатель @Speakadora_bot @big_llm_course

РКН https://clik.now/datafeeling
Алерон @Ale_v2
Download Telegram
🏆 Data Feeling | AI
Временной фан факт для тех, кто в своей карьере планирует создавать авторский курс. 🧠 В нашем курсе мы очень старательно относимся к дизайну практических задач для участников. Вот вам статистика по последнему модулю. Чтоб научить людей делать пост-процессинг…
🤖 Как и обещал, ловите хитрую задачку на Feature Engineering

📔 Условия на скрине. Датасет для решения тут. Одни только условия должны сломать вашу возможную парадигму, что все решают ML модели. Увы, чаще решают именно «фичи», а не ансамбль моделей.

🧠 Как понять, что верно решено? - Классы разделятся однозначно. В рамках тг заслать тест не получится, но пока хотя бы так. Возможно позже скину пример решения в комментарии.
👍31👎8🔥31
🏆 Data Feeling | AI
🤖 Как и обещал, ловите хитрую задачку на Feature Engineering 📔 Условия на скрине. Датасет для решения тут. Одни только условия должны сломать вашу возможную парадигму, что все решают ML модели. Увы, чаще решают именно «фичи», а не ансамбль моделей. 🧠 Как…
Очень уважаю таких людей. Кто-то еще решал?)

Первый вывод. Это миф, что модели сами по себе могут извлечь нужные зависимости.

🤖 Решение это всего две не хитрые фичи. Рекомендую комбинировать визуализацию с генерацией фичей.

🔥 - Пробовали
👎- Не решали
Please open Telegram to view this post
VIEW IN TELEGRAM
👎69🔥14👍72😁2
🏆 Data Feeling | AI
Очень уважаю таких людей. Кто-то еще решал?) Первый вывод. Это миф, что модели сами по себе могут извлечь нужные зависимости. 🤖 Решение это всего две не хитрые фичи. Рекомендую комбинировать визуализацию с генерацией фичей. 🔥 - Пробовали 👎- Не решали
Для полноты картины все-таки напишу, что тот парень таки добил задачу 💪

Всем желаю такой упорности!

Кстати, сейчас на Kaggle опубликовали еще несколько сочных сорев. Много табличек и везде можно отпрактиковать feature engineering в бою
👍44👎143
Да харе уже Бабушкина приглашать на всякие стримы по поводу и без повода. Валера от раза к разу отвечает на одни и те же вопросы независимо от темы. Дайте ему хотя бы пол годика пожить спокойно. Пусть накопит новых шуток.
👎111😁82👍235🤔1
Ого, вот это новый уровень спама.

Только что в лс прислали вот это. И ведь действительно тут же доказали, что они шарят за нейронки. Берите за вооружение идею:)

Updated: Буквально через минуту аккаунт стал приведением =)

#страшный_таргет
#агрессивный_маркетинг

https://telesco.pe/datafeeling/390
👍12👎43
Forwarded from Deleted Account
This media is not supported in your browser
VIEW IN TELEGRAM
🤔16👍12🔥8👎6😁42
Любишь фичи генерировать, люби и отсеивать

На прошлых выходных фармил чемпионат по предсказанию игровой активности студентов.

Решил решать с нуля и генерировать признаки сам. Сильно скоррелированная локальная валидация с лб позволила почти не смотреть на лб и проверять гипотезы локально. Все шло хорошо, пока число фичей не достигло ~2к. А как известно, много фичей не очень хорошо, влияет на стабильность и скорость.

Поставил считаться эксперимент с рекурсивным удалением фичей на несколько дней. RFE это ресурсоемкая процедура, поэтому я решил удалять фичи из нескольких группы одновременно.

Группа 1 - признаки с очень низкой важностью для модели.
Группа 2 - признаки с большим числом пропусков
Группа 3 - подозрительные на мой субъективный взгляд признаки и агрегаты
Группа 4 - слабо вариативные
Группа 5 - просто брут-форс.

Фильтрация шла по всем группам, синхронизируя результаты через единый файл, чтоб алгоритмы не повторяли эксперименты и всегда знали текущий лучший скор валидации. Модель и валидация фиксированные.

Несколько полезных выводов, к которым пришел.
🤔 Фильтрация поднимает скор.
🤔 Брут-форс находил вредную фичу 1 раз на 20 экспериментов. (~1/20)
🤔 Среди маловажных реально много не влияющих. (~1/5)
🤔 Фичи с пропусками тоже чаще отлетают (~1/10), но удаление некоторых сильно просаживает скор.
🤔 Подозрительные фичи хорошо отсеиваются. Все что было не нормировано на длину сессии часто вредило (~1/8).
🤔 Слабо вариативные чуть лучше бруд-форса, но не сильно (~1/15)
🤔 Полезно увидеть закономерность и добавлять эвристику для повышения приоритета в удаление фичей. Так фичи будут отлетать сразу пачками.
🧠 Вредные признаки бывают не очевидны.
🧠 Вредные признак помогают найти полезные.
🧠 Самописная фильтрация удобнее и быстрее. Сможете задавать порядок обхода, хеширование, логирование и синхронизацию .

🤖 Эксперимент кустарный, воспроизвести его не возьмусь. Считалось это 4 дня на 20 ядрах. Все как всегда зависит от данных, но зато выводы согласовываются с моим ранним представлением!
👍43👎7🔥41
Ощущение, что для интервью про современные нейросети надо всего лишь уметь иносказательно объяснить, что такое перцептрон (нейрон).

Пришел к такому выводу после череды последних интервью от популярных СМИ у людей из мира AI. Вообще плевать, что ты там знаешь, просто проводишь аналогию с биологическим нейроном в мозге, и уже всем понравится. Уж слишком все поверхностно.

Если спросят про chatGPT тоже можешь про перцептрон рассказать. Схавают.
👎71👍37😁262
Так-с, это что получается, теперь в Data Science можно попасть двумя путями? 😳

В целом, когда длина промптов доходит до 1000+ токенов, и у сервиса уже есть монетизация, то я готов поверить, что для промпт инжиниринга нужна отдельная позиция.

Впервые увидел вакансию по затравкам 🤔
👎43😁24👍4🔥4
This media is not supported in your browser
VIEW IN TELEGRAM
Копался сейчас в коде, присланным подписчиком. Надо было помочь пробить скор. Не знал, что код сгенерирован chatGPT. Спустя время нашел незаметную ошибку, которая не давала побить порог по точности.

Если кратко: Цикл обходился по строчкам, а не по столбам. Не сразу заметишь, если не сам писал.

Мораль для новичков: Если ты новичок, будь осторожнее с нейросеточным кодом, это игрушка дьявола.

Мораль для меня: Спрашивать предварительно людей откуда код - это новая реальность.

Видосик чисто потому что другой пикчи для поста не нашел.
👎46🔥41😁10👍5
🏆 Data Feeling | AI
Если вы забыли, как должен выглядит вид из вашего офиса, то вот… Это я в гости к red_mad_robot зашел. Какой вид у вас?
Давно мы с вами не обменивались вайбом рабочих мест.

Накидайте своих ворк спейсов в комменты
🔥78👎12👍63
Последний раз пользуюсь своим положением.

😅 Застрял в центре Крыма еще на сутки, поэтому с радостью бы познакомился с кем-то из местных DS'ов. Подеюсь опытом, если будет запрос.

🎰 Если вы вдруг сегодня в Симферополе. То как вам идея встретиться? Пишите в лс, сходим в кино на "Магалодон" 🙈😅.

🤔 Однажды, я так виделся с DS ребятами в Казахстане. До сих пор в коннекте. Очень классный опыт.

👨‍💻 Так-то это личный блог про меня живого. Не могу же писать все время сугубо про IT.

📦 Кстати, на завтра я приготовил для вас серию постов про свой годовой опыт жизни digital кочевником вне РФ. После него, вы вряд ли сможете оставаться в пределах одного города.
👍56👎484🔥3😁1
This media is not supported in your browser
VIEW IN TELEGRAM
Итак, небольшая затравка про право рассказывать о digital кочевничестве.

За последний год я посетил 7 стран. В каждой прожил не меньше недели. Таиланд был самый долгий. Суммарно прожил тут без месяца год. И лето бы прожил, если бы не семейные обстоятельства. Пишу про тай, чтоб прокачать свою аудиторию и расширить кругозор.

За этот год я приобрёл несколько тайско-кочевнических деформацией:
Освоил силу временного шифт в +4 часа, без него теперь мне сложно представить утро. Из-за него же перестал преподавать, но полюбил кроссфит.
Нашел новых единомышленников и друзей из других стран. Почти все экспаты - это таланты или предприимчивые ребята.
Научился не работать в обед хотя бы час, а тратить время на спорт/плавание в бассике.
Могу заказать себе еды на тайском. Сходу отличаю ингландов от американцев по акценту.
Привык ко всей этой теме с «no have» и «can not» в тайском английском.
Уверен в английском, когда надо поторговаться на рынке за фрукты, забронировать что-либо по телефону, съездить в госпиталь или завести знакомство на улице.

Мои следующие три поста будут про:

🍍Зачем и почему в Тай?
🍌 Условия и сложности
🥥 Личные ощущения и планы

#traveling
#thailand
🔥52👎23👍171
🏆 Data Feeling | AI
Итак, небольшая затравка про право рассказывать о digital кочевничестве. За последний год я посетил 7 стран. В каждой прожил не меньше недели. Таиланд был самый долгий. Суммарно прожил тут без месяца год. И лето бы прожил, если бы не семейные обстоятельства.…
💼🌴 Зачем и почему Таиланд?

🗽 Смена обстановки.

Когда устаешь от городской суеты и поездок в метро, начинаешь мечтать о тихом уголке, где можно забыть о суете и информационном шуме. Просто насладиться жизнью. В этом году для меня таким местом стал Таиланд.

Этот южноазиатский рай предлагает богатый выбор культурных и природных чудес: от великолепных буддистских храмов до невероятных пляжей с белым песком, прозрачной водой и «парящими» скалами. Здесь каждый найдёт что-то по душе!

🗣 Языковая практика

У меня с вуза была мечта прыгнуть в языковую среду. Если вы тоже давно хотели попрактиковать английский в боевых условиях, тогда Таиланд может стать идеальным местом для погружения в языковую среду.

Хотя тайский язык - это главный язык в стране, английский широко используется в туристическом секторе, гостиничном бизнесе и, конечно, в международном коммьюнити цифровых номадов. Это создает возможности для практики английского в ежедневной жизни. Да, у тайцев средний уровень английского плох, но это не влияет на приезжающих туда носителей.

В Тае много языковых школ, где можно получить визу на год и улучшить английский. Многие школы предлагают гибкие графики обучения, которые подходят для совмещения с работой.

🤝 Нетворкинг.

На остров кто попало не приезжает. Входной барьер высок. Тут все по принципу Эвереста. Если ты видишь человека живущего в Тае, то сразу очень много про него знаешь. Каждый встречный, это либо предприниматель, либо программист, либо просто творческая личность, которая научит тебя через рилсы по инсте двигаться или закроет тебе пару гештальтов. .

🏞 Путешествия и фотки.

Спустя еще пол года жизни на Пхукете мог сказать, что посетил только лишь ~50% популярных мест. В какую часть острова ты бы не приехал, ты всегда проведешь вечер либо с новым красивым видом, либо вкусно и в интересной компании. И все вокруг выглядит эстетично. До сих пор фотки в телефоне разгребаю.
👍39👎24🔥4🏆2
🏆 Data Feeling | AI
💼🌴 Зачем и почему Таиланд? 🗽 Смена обстановки. Когда устаешь от городской суеты и поездок в метро, начинаешь мечтать о тихом уголке, где можно забыть о суете и информационном шуме. Просто насладиться жизнью. В этом году для меня таким местом стал Таиланд.…
🍌 Условия, сложности, цены.

🏝 Про качество жизни в Тае

Сниженный информационный шум. Буст продуктивности. Доступная и очень разнообразная еда. Нет метро. До любой точки острова долетаешь за 15 минут байком. Трассы такие, что хочется все время снимать. В каждой вилле бассейн. Забываешь про уборки и мытье посуды - все это берут на себя тайки. Высвобождается дополнительное времени. Инвестируешь больше времени в творчество. Каждый день лето. Не заморачиваешь из-за одежды. Экзотические фрукты, которые ты скупаешь килограммами. В основном в виде смузи. Все онлайн сервисы тебе все еще доступны.

🎠 Разнообразие отдыха и развлечений

Удивительно, но если отбросить всякую туристическую тему с экскурсиями, то все еще остается много чего для бесплатного "проветривания" головы. Походы на вьюпоинты к закату, сноркинг, массаж, хайкинг, зал для кроссфита, корт для бадминтона - и это только то, что в пределах 10 минут от дома. Подкрепляя это все компанией единомышленников и приятелей - получаем идеальный work-life balance.

😛 Сложности и риски

То, что все-таки не нравилось в Тае.
- Уличные тайцы в среднем слабо знают английский. Они часто отвечают короткими пресловутыми фразами "no have" вместо "I don't have" или "can not" вместо "I can't". Может резать слух, но привыкаешь. Замечал, как британцев это бесило.
- В Таиланде нельзя получить вечное ВНЖ или что-то в таком духе. Присутствует чувство, что ты тут чужой, даже если тебе тут рады.
- Тай - это все-таки более агрессивная среда, чем та же Москва. Всегда есть риск встретиться с животными в лесу, у океана или в парке. Так мне однажды приходилось прокалывать курс уколов от бешенства. Неприятная вещь. Приходилось держать в голове даты уколов.

💰 Цены и чеки

Прикрепляю один из чеков за жилье в батах. Если учесть только жилье (28к бат), аренду байка (3к бат), еду (1к бат), страховку (1к бат), визу (2к бат/месяц) и накинуть еще 15% всякую операционку (интернет, бензин), то выходит за месяц так: ~70к бат. Если считать по текущему курсу 2.3, то выходит в районе ~160к рублей.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍30👎123
🏆 Data Feeling | AI
🍌 Условия, сложности, цены. 🏝 Про качество жизни в Тае Сниженный информационный шум. Буст продуктивности. Доступная и очень разнообразная еда. Нет метро. До любой точки острова долетаешь за 15 минут байком. Трассы такие, что хочется все время снимать. В…
This media is not supported in your browser
VIEW IN TELEGRAM
🏁 На этом все. Все мои гештальты по Таиланду в плане постов закрыты. Смогу теперь на вопросы про Тай отправлять ссылки на эти посты. Спасибо за внимание! Как бонус, вот чатик @thailand_IT_nomads

🍿 Заключение и планы.

Это была моя вторая зима, проведенная не в России. Этой серией постов хотел привести вас к мысли, что путешествия в других странах, особенно будучи в IT, очень сильно вас прокачивают.

Похожее чувство, мы могли уже испытывать, когда уезжали учиться в ВУЗ, а по приезде назад в родной город, вы ощущали как ваши сверстники отстали от вас в развитии. Тут конечно есть тонкости, но в целом, личностный рост ощутите.

Понял лично для себя, что теперь уже не смогу спокойно проживать годами напролет в одной стране. Каждый раз, когда слышу про новую страну, где не был - задумываюсь, а вот прикольно было б там пожить хотя бы пару месяцев?!

🤔 Из следующих мест на зимовку обдумывал Бали или Боготу.

Путешествуйте, чемпионы!
👍36👎16🔥75
Курс по соревновательному анализу данных бесплатно на лето!

🙈 Напомню, что на этот год моя преподавательско-каглерская цель - вырастить 30 Kaggle медалистов. Мои цели на год для меня не пустой звук.

👨‍💻 Для выполнения этой цели, я с несколькими авторами создали курс по соревновательному анализу данных. Курсу исполнилось 3+ месяца. Курс уже оттестирован. Проходит его уже 400+ человек. Из них 20+ дошло до сертификата, и даже есть 3 Kaggle медалиста!🥈🥈🥈🤫

🤔 Однако, нужно еще 27 медалей. Просто делиться своим соревновательным опытом круто, но еще важна практика участников. А так же нужна пнуть под зад мотивация, окружение единомышленников и вычислительные ресурсы.

Все эти аспекты мы закрываем в рамках комьюнити нашего курса. Делимся боевыми соревновательным ML техниками, снабжаем вычислительными ресурсами лучших, помогаем найти мотивированных тиммейтов, периодически проводим разборы соревнований.

🥳 Так вот чтоб все-таки выполнить цель в 30 медалистов я объявляю конкурс.

🧠 Если вы сейчас купите курс и до конца лета выиграете хотя бы одну медаль на Kaggle, то мы вернем деньги. При этом, все лето я и моя команда опытных DS'ов будем вам в этом помогать - снабжать вас GPU/CPUs/RAM ресурсами, делиться знаниями, мотивировать побеждать и слушать про ваши успехи.

🙂 Покупать строго по рефералке (иначе акция не действует, так как Степик берет свою комиссию и мы не сможем вернуть ваши деньги в полном объеме).
Please open Telegram to view this post
VIEW IN TELEGRAM
👎73🔥48👍172🤔1
🏆 Data Feeling | AI
Такс, вижу некоторое неодобрение по реакциям. Что не так? Давайте пообщаемся)
Так, прочитал все возражения. Их глобально три.

🧠 Непонятно, а про что курс и какая вообще программа? Что там и что вам это даст?
И тут я осознал, что почти ничего не сказал о том, что мы вообще рассказываем на курсе и каких целей хотим достичь!? Хорошо, в последующих постах расскажу про наше видение соревновательного ML и чему мы можем научить в рамках курса.

🧠 10 000 это большая цена за авторский курс.
Про то, почему мы сделали наш курс платным и на что тратим написал в посте тут. Плата за курс дает нам большие возможности для творчества. Вычислительный сервер с большой оперативкой, мерч, качество материала, интеллектуальная ценность и другое.

🧠 Курс про соревновательный ML, но пока авторы не Kaggle Grand Master'а.
Это оказался самый болезненный пункт. Почему-то считается, чтоб научить людей каким-то вещам в ML, обязательно надо завоевать титул именно на Kaggle. Однако, все забывают, что для качественного и методически правильного курса только этого мало. Чтобы после каждой решенной задачи человек произносил: "Вау, а так разве можно было?!" - требуется иметь еще ряд скиллов.

Напомню, что соревновательный опыт можно получить не только на Kaggle. Да, Kaggle самый популярный и мы в нем участвуем, но вне Kaggle так же проходит большое число чемпионатов, которые дают больше шансов выиграть призовые, но не дают медалей на Kaggle. Команда курса имеет хороший боевой опыт в решении чемпионатов. Не всегда это были топ-1, но часто в пределах топ-3 с призовыми.

Лично сам, я сильно согласен с последней претензией. Поэтому систематично трачу время на решение Kaggle. Особенно хорошо это получается делать летом. Есть много времени. И сейчас как раз такой шанс. Однако, пока я и мои соавторы идем к титулу Мастеров, ничего не мешает нам наплодить Kaggle Expert'ов. Кто запретит нам быть примером?!

Можно бесконечно рассуждать, кто имеет право учить людей, а кто нет. Однако, мы уже здесь и сейчас помогаем большому числу ребят в достижении титулов. Дело ресурсоемкое. Даже мой титул эксперта дался мне с трудом. Ушло три недели на первое серебро. И тем не менее, мой азарт от соревнований огромен. Мне и команде в кайф участвовать и проверять свои соревновательные технические скиллы, которые никогда бы не смогли отработать в рамках компании. А еще нам в кайф делиться опытом в доступной форме.

#by_Aleron
👍68👎405🔥5
🏆 Data Feeling | AI
🍌 Условия, сложности, цены. 🏝 Про качество жизни в Тае Сниженный информационный шум. Буст продуктивности. Доступная и очень разнообразная еда. Нет метро. До любой точки острова долетаешь за 15 минут байком. Трассы такие, что хочется все время снимать. В…
📦 Получил много обратной связи про Тай. Рад, что пост оказался полезным.

Кстати, для тех, кто хочет остаться на Пхукете надолго и вести здесь бизнес - рекомендую обратиться в компанию «Expoint» by SLS CENTER”. Вот пост про этих ребят.
👎57👍133🔥1
Кстати, тут продлили на две недели чемпионат этот.

🚀 Рекомендую его, как хороший вариант для старта соревновательного сезона. Какие есть особенности? Несколько фактов, к которым пришел пока решал.

📦 Табличные данные, а значит тема горячая. Блендинг, стекинг и прочее 😉
📦 Задача мульти-лейбл классификации
📦 Code Competition - ответ должен генерироваться кодом, тест скрыт.
📦 Данные это логи пользователей, размер которых больше, чем может позволить оперативка Kaggle.
📦 Легко можно батчами обработать и собрать готовый датасет из фичей.
📦 Нельзя использовать при инференсе GPU или TPU, только два ядра CPU
📦 Инференс посемпельный. Очень долгий.
📦 Локальная валидация хорошо отражает скор на лидерборде
👍17👎8🔥5