🏆 Data Feeling | AI – Telegram
🏆 Data Feeling | AI
15.9K subscribers
732 photos
222 videos
6 files
470 links
IT предприниматель и препод 🧑‍🏫
ex-ML лидер в Dodo Brands 🦤🍕
Прокачиваю людей в Data Science 🚀
Победитель Stepik Awards 🏆
Kaggle Expert 🤹‍♀️
Создатель @Speakadora_bot @big_llm_course

РКН https://clik.now/datafeeling
Алерон @Ale_v2
Download Telegram
🏆 Data Feeling | AI
🏆 Мы тут со своими чемпиончиками решили «ограбить» Kaggle и раздать мерч. Мини марафончик в сореве playground 😜 Последнее время меня часто хейтят в комментах из-за отсутствия движа. Что ж, го порамсим на лб? Есть 6 дней, чтоб скинуть меня с Ваней ⬇️. 🤫
🤔 Если вам не охота соперничать в соревнованиях нa Kaggle с опытными участниками со всего мира, а хочется просто привлечь внимание, то можно поразводить хейт против чужих инициатив. Вполне себе способ заработать "Discussion Contributor" - но только вот зачем?!

🤯 Это мы словили нездоровую реакцию за привлечение людей к участию в без медальном соревновании ради фана. Вот не лень же кому-то так запариваться.

🙂 Скажу, что авторы марафона не одобряют приват шейринг вне Kaggle. Иначе зачем нам тогда разыгрывать свой собственный мерч!? Не удивительно, что как только участники мини-марафона начали подниматься в топ лидерборда, другие тут же начали переживать.
👎90👍10😁83
Возвращаясь к теме чемпионатов.

🏆 На Kaggle подвезли свежий чемпионат с призовыми, не много не мало, 1М$.

🤔 Как правило, призовые редко выше 100к$. Собственно, почему в этом чемпионате такой фонд?

🕵️‍♀️ Суть в уникальности задачи. Если совсем кратко, то предлагается научиться разворачивать и читать древние свитки, которые нельзя развернуть физически (они настолько высохли и окаменели, что рассыпаются при физическом воздействии).

🩻 То есть по рентгену свернутой окаменелости надо уловить углеродный след надписей и распознать.

🫣 Фантазию щекочет мысль, что в найденных свитках реально могут быть бесценные знания, которые прольют свет на неизвестные пятна в истории.

😤 Осталось только развернуть, не разворачивая. Из особенностей - один слайс весит ~ 12 гигов. То есть в лоб задачу не решить.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍62🤔15🔥10👎43
Если вы давно хотели начать делать свой стартап с ML модельками внутри, то вот вам знак. Стартуйте!
🔥27😁18👎9👍2🏆2
🏆 Data Feeling | AI
Привет, чемпионы. Скрывал свой курс как мог, но момент настал. Что ж, погнали! 🥳 Объявляю официальный старт моего авторского курса по соревновательному анализу данных. 🎯 На этот год, как помните, у меня в планах вывести 30 человек в медали на Kaggle. В…
Временной фан факт для тех, кто в своей карьере планирует создавать авторский курс.

🧠 В нашем курсе мы очень старательно относимся к дизайну практических задач для участников. Вот вам статистика по последнему модулю. Чтоб научить людей делать пост-процессинг предиктов модели, Я приготовил 4 задачи.

(Пост-процессинг - это хитрая техника, которой вы адаптируете выход модели под метрику так, чтобы скор был выше при прочих равных)

🤪 Так вот, на полное оформление этих 4-х задач на Степике с написанием тестов у меня ушло 3 дня фултайм работы.

🍏 На скрине одна из реакций на другую задачу, на которую когда-то ранее ушло два дня работы фул-тайм. Моя маленькая гордость.

🔥 Жми огонечек, если хочешь увидеть условия этой задачи
🔥90👎164👍2🤔1
🏆 Data Feeling | AI
✈️ Как сейчас приехать в Тай? Покупаешь любой билет и летишь сюда. Сам летел через Индию. Пришлось делать визу и ПЦР, зато билет дешевле, чем через Дубай. Собирал маршрут руками, ибо, как помните, авиасейлс хотел меня по-тихому разорить. 🤑 Как расплачиваюсь?…
Если вы эффективнее работаете утром, но утром вам мешают рабочие созвоны, то просто переезжайте в Азию.

🧠 Уже осознал, насколько сильно мне помогает режим - утром кодинг, днем созвоны и встречи. С временным шифтом в +4 часа я больше успеваю.

🤜 Почему шифт помогает? К беду в РФ еще только утро, но зато я успеваю собрать всем мысли в один TODO лист и далее презентую его команде.

🗳 В целом, такой совет вы уже могли слышать от предпринимателей. До обеда операционка, после обеда время для стратегических решений.
👍38👎14🔥42
Карьерная мини история или лайфхак для начинающих.

Контекст
: После запуска курса окончательно решил нигде больше не преподавать на внешних курсах. Однако, делюсь уникальным опытом. Ранее я успел поработать в 4 онлайн школах, если не считать МФТИ и Deep Learning School. Однако, как человек, который сам освоил вторую профессию в онлайне, скажу что грамотные авторские курсы это пушка. Эти курсы полезны как для студентов, так и для самих преподавателей. В МФТИ даже развита культура, где сами студенты преподают другим студентам некоторые дисциплины. Куда даже препы ходят 🤫 Мой самый первый курс по машинке вели как раз матерые старшекуры.

Предыстория: Когда только вкатывался в DS из биоинформатики, я был все еще студентом. Чтоб совместить изучение интересной сферы с работой - придумал для себя попробовать попреподавать в онлайн школах. Мне тогда казалось, что преподавать DS и получать за это плату - это идеальный баланс. К этому моменту у меня уже был опыт работы в IT фарм компании и серия проведенных вебинаров в DLS. Я тогда знал про несколько известных онлайн школ, куда мне интересно было попробовать попасть.

Проблема: Куда бы я не пробовался, не было либо вакансий, либо мне никто не отвечал на отклик. Почему так? Любая компания это уже сложившийся коллектив, в который пускают всегда с осторожностью. Да, конечно, иногда просто HR'ры тупят и теряют лиды, но это реже. Онлайн школы не исключение, преподавательский коллектив и продюсеры курсов тоже мало заинтересованы искать к себе в команду новые таланты. Что делать в такой ситуации? Об этом ниже 👇
👎37👍18🔥5
Решение: Ищем контакты продуктов/HR'ов из компании вашей мечты и прицельно пишем им запрос в личку. Из трех школ, в которые так постучался, мне ответили все три. Это же 100% конверсия! Две школы, как итог, пригласили меня сразу, а одна добавила в резерв. Резерв мне не понравился, поэтому через время я написал продюсеру смежного курса. Тот пообещав мне DS попозже, взял вести статистку и аб тесты. Пришлось полюбить статистику и превратить этот сложный предмет в свое хобби, в ожидании открытых позиций. (Забегая вперед, уйду из этой школы спустя год, проведя около 40 вебинаров, так и не познав вебинаров по DS)

Вывод: Если ну очень хотите в конкретную команду/компанию, то не надо надеяться только лишь на общую воронку. В общем пайплайне выше риск, что ваша вакансия мечты так и останется мечтой.
👎64👍46🔥10🤔1
This media is not supported in your browser
VIEW IN TELEGRAM
😁26👎172
🤪 Остановите это новое безумие с папками из телеграм каналов.

🙀 Телеги многих уже тонут в сотнях не читаемых каналов и чатах. Какие-то телеграмы уже не спасти. А лидеры мнений подписывают вас на очередную пачку таких сущностей.

👻 Это же бешеный скачок информационного шума… Обходите такие «бомбы».

🙌 Цените свое ментальное здоровье. Меньше шума, больше фокус.

🫣 Если уж подписывайтесь на очередную пачку каналов, то делайте это избирательно, с выбором в пользу личных брендов.
👍60👎4012
🏆 Data Feeling | AI
Временной фан факт для тех, кто в своей карьере планирует создавать авторский курс. 🧠 В нашем курсе мы очень старательно относимся к дизайну практических задач для участников. Вот вам статистика по последнему модулю. Чтоб научить людей делать пост-процессинг…
🤖 Как и обещал, ловите хитрую задачку на Feature Engineering

📔 Условия на скрине. Датасет для решения тут. Одни только условия должны сломать вашу возможную парадигму, что все решают ML модели. Увы, чаще решают именно «фичи», а не ансамбль моделей.

🧠 Как понять, что верно решено? - Классы разделятся однозначно. В рамках тг заслать тест не получится, но пока хотя бы так. Возможно позже скину пример решения в комментарии.
👍31👎8🔥31
🏆 Data Feeling | AI
🤖 Как и обещал, ловите хитрую задачку на Feature Engineering 📔 Условия на скрине. Датасет для решения тут. Одни только условия должны сломать вашу возможную парадигму, что все решают ML модели. Увы, чаще решают именно «фичи», а не ансамбль моделей. 🧠 Как…
Очень уважаю таких людей. Кто-то еще решал?)

Первый вывод. Это миф, что модели сами по себе могут извлечь нужные зависимости.

🤖 Решение это всего две не хитрые фичи. Рекомендую комбинировать визуализацию с генерацией фичей.

🔥 - Пробовали
👎- Не решали
Please open Telegram to view this post
VIEW IN TELEGRAM
👎69🔥14👍72😁2
🏆 Data Feeling | AI
Очень уважаю таких людей. Кто-то еще решал?) Первый вывод. Это миф, что модели сами по себе могут извлечь нужные зависимости. 🤖 Решение это всего две не хитрые фичи. Рекомендую комбинировать визуализацию с генерацией фичей. 🔥 - Пробовали 👎- Не решали
Для полноты картины все-таки напишу, что тот парень таки добил задачу 💪

Всем желаю такой упорности!

Кстати, сейчас на Kaggle опубликовали еще несколько сочных сорев. Много табличек и везде можно отпрактиковать feature engineering в бою
👍44👎143
Да харе уже Бабушкина приглашать на всякие стримы по поводу и без повода. Валера от раза к разу отвечает на одни и те же вопросы независимо от темы. Дайте ему хотя бы пол годика пожить спокойно. Пусть накопит новых шуток.
👎111😁82👍235🤔1
Ого, вот это новый уровень спама.

Только что в лс прислали вот это. И ведь действительно тут же доказали, что они шарят за нейронки. Берите за вооружение идею:)

Updated: Буквально через минуту аккаунт стал приведением =)

#страшный_таргет
#агрессивный_маркетинг

https://telesco.pe/datafeeling/390
👍12👎43
Forwarded from Deleted Account
This media is not supported in your browser
VIEW IN TELEGRAM
🤔16👍12🔥8👎6😁42
Любишь фичи генерировать, люби и отсеивать

На прошлых выходных фармил чемпионат по предсказанию игровой активности студентов.

Решил решать с нуля и генерировать признаки сам. Сильно скоррелированная локальная валидация с лб позволила почти не смотреть на лб и проверять гипотезы локально. Все шло хорошо, пока число фичей не достигло ~2к. А как известно, много фичей не очень хорошо, влияет на стабильность и скорость.

Поставил считаться эксперимент с рекурсивным удалением фичей на несколько дней. RFE это ресурсоемкая процедура, поэтому я решил удалять фичи из нескольких группы одновременно.

Группа 1 - признаки с очень низкой важностью для модели.
Группа 2 - признаки с большим числом пропусков
Группа 3 - подозрительные на мой субъективный взгляд признаки и агрегаты
Группа 4 - слабо вариативные
Группа 5 - просто брут-форс.

Фильтрация шла по всем группам, синхронизируя результаты через единый файл, чтоб алгоритмы не повторяли эксперименты и всегда знали текущий лучший скор валидации. Модель и валидация фиксированные.

Несколько полезных выводов, к которым пришел.
🤔 Фильтрация поднимает скор.
🤔 Брут-форс находил вредную фичу 1 раз на 20 экспериментов. (~1/20)
🤔 Среди маловажных реально много не влияющих. (~1/5)
🤔 Фичи с пропусками тоже чаще отлетают (~1/10), но удаление некоторых сильно просаживает скор.
🤔 Подозрительные фичи хорошо отсеиваются. Все что было не нормировано на длину сессии часто вредило (~1/8).
🤔 Слабо вариативные чуть лучше бруд-форса, но не сильно (~1/15)
🤔 Полезно увидеть закономерность и добавлять эвристику для повышения приоритета в удаление фичей. Так фичи будут отлетать сразу пачками.
🧠 Вредные признаки бывают не очевидны.
🧠 Вредные признак помогают найти полезные.
🧠 Самописная фильтрация удобнее и быстрее. Сможете задавать порядок обхода, хеширование, логирование и синхронизацию .

🤖 Эксперимент кустарный, воспроизвести его не возьмусь. Считалось это 4 дня на 20 ядрах. Все как всегда зависит от данных, но зато выводы согласовываются с моим ранним представлением!
👍43👎7🔥41
Ощущение, что для интервью про современные нейросети надо всего лишь уметь иносказательно объяснить, что такое перцептрон (нейрон).

Пришел к такому выводу после череды последних интервью от популярных СМИ у людей из мира AI. Вообще плевать, что ты там знаешь, просто проводишь аналогию с биологическим нейроном в мозге, и уже всем понравится. Уж слишком все поверхностно.

Если спросят про chatGPT тоже можешь про перцептрон рассказать. Схавают.
👎71👍37😁262
Так-с, это что получается, теперь в Data Science можно попасть двумя путями? 😳

В целом, когда длина промптов доходит до 1000+ токенов, и у сервиса уже есть монетизация, то я готов поверить, что для промпт инжиниринга нужна отдельная позиция.

Впервые увидел вакансию по затравкам 🤔
👎43😁24👍4🔥4
This media is not supported in your browser
VIEW IN TELEGRAM
Копался сейчас в коде, присланным подписчиком. Надо было помочь пробить скор. Не знал, что код сгенерирован chatGPT. Спустя время нашел незаметную ошибку, которая не давала побить порог по точности.

Если кратко: Цикл обходился по строчкам, а не по столбам. Не сразу заметишь, если не сам писал.

Мораль для новичков: Если ты новичок, будь осторожнее с нейросеточным кодом, это игрушка дьявола.

Мораль для меня: Спрашивать предварительно людей откуда код - это новая реальность.

Видосик чисто потому что другой пикчи для поста не нашел.
👎46🔥41😁10👍5
🏆 Data Feeling | AI
Если вы забыли, как должен выглядит вид из вашего офиса, то вот… Это я в гости к red_mad_robot зашел. Какой вид у вас?
Давно мы с вами не обменивались вайбом рабочих мест.

Накидайте своих ворк спейсов в комменты
🔥78👎12👍63
Последний раз пользуюсь своим положением.

😅 Застрял в центре Крыма еще на сутки, поэтому с радостью бы познакомился с кем-то из местных DS'ов. Подеюсь опытом, если будет запрос.

🎰 Если вы вдруг сегодня в Симферополе. То как вам идея встретиться? Пишите в лс, сходим в кино на "Магалодон" 🙈😅.

🤔 Однажды, я так виделся с DS ребятами в Казахстане. До сих пор в коннекте. Очень классный опыт.

👨‍💻 Так-то это личный блог про меня живого. Не могу же писать все время сугубо про IT.

📦 Кстати, на завтра я приготовил для вас серию постов про свой годовой опыт жизни digital кочевником вне РФ. После него, вы вряд ли сможете оставаться в пределах одного города.
👍56👎484🔥3😁1