Запрети мне псевдолейблить – Telegram
Запрети мне псевдолейблить
2.76K subscribers
153 photos
3 files
148 links
Канал о пути к Kaggle competitions (теперь уже) GrandMaster и пиве, которым обливаешься в процессе

Последний авторский канал про мл, претендующий на искренность и позволяющий ставить клоунов
Download Telegram
(sci)Berloga Всех Наук и Технологий
🚀 @SBERLOGACOMPETE webinar on  data science: 👨‍🔬 Dmitrii Rudenko "IceCube - Neutrinos in Deep Ice Overview" ⌚️ 10 Febraury, Friday, 19.00  (Moscow Time) Add to Google Calendar We are going to review Neutrinos in Deep Ice. This competition challenges participants…
Короче, Подписчики, я вам шарю презу за 20 минут до выступления в благородство играть не буду: выполните для меня пару заданий — и мы в расчете. Заодно посмотрим, как быстро у вас башка после биоинформатики прояснится. А по вашей теме постараюсь разузнать. Хрен его знает, на кой ляд вам эти медальки сдались, но я в чужие дела не лезу, хотите получить, значит есть за что...
👍5😁1🌚1
Считаю ведущим показателем качества английской речи то, что ютюб генерит корректные субтитры.

Кстати, решил, что нечего добру пропадать и написал небольшой разбор метрики на форум каггла. Не пропадать же затеханому добру.
👍1
Forwarded from Alexander C
Sberloga Rudenko Kaggle IceCube - Neutrinos in Deep Ice.pdf
1.6 MB
📖 Presentation:
👨‍🔬 Dmitrii Rudenko: "Kaggle competition: IceCube - Neutrinos in Deep Ice Overview"
📹 Video: https://youtu.be/Kl1jTE9hbew
✔️ Abstract: https://news.1rj.ru/str/sberlogabig/230
📰 @pseudolabeling - subscribe to Dmitry's telegram-channel devoted to Kaggle and data science.
🔥5
Что там с Breast Cancer?
Я чет приуныл от того, что сильный бейзлайн считался на 4xA100 и не делал ничего недели две с половиной. Сейчас готовлюсь к экзу и как-то прям сильно решать времени нет. Внезапно, меня пинганули об этом и я видимо буду немножко менеджерить процесс решения соревы, но сам не буду слишком много кода писать. Нативная интеграция лидерских качеств какая-то
Запилю обязательно разбор соревы через неделю после ее окончания, но возможно получится за эту неделю нафармить каких-нибудь дешевых гипотез и залететь все же в медальки. Вдруг выйдет взять наскоком, кто знает!
👍2
Очень люблю визаулизации.
Этот график явно делали программисты/дсы. Прямо вижу, как люди смотрели на график и такие:
-Как-то недружелюбно для пользователя. Надо сделать приятнее.
-Добавим облака?
-Добавим облака.

В следующих сериях:
1. Разбор Breast Cancer и почему ничего не взяли. По классике будет еще и созвон в зуме в следующую пятницу (поставьте себе встречу и приходите ко мне!)
2. Самый энергоэффективный способ фармить кагл, который наверно я переизобрел
3. Мысли про новую сореву, чтобы участвовать
👍5😁2
Играл с ChatGpt и просил сгенерировать мне Dockerfile, который устанавливал бы нужное окружение с помощью poetry.
Что интересно, так это то, что ChatGPT выдал мне такую строчку для усатновки самого poetry в image:
RUN curl -sSL https://raw.githubusercontent.com/python-poetry/poetry/master/get-poetry.py | python -
Ссылка недействительная. Но что мешает поискать еще битых ссылок по похожим запросам и залить туда шпионящий модифицированный вариант софта и скамить мамонтов?
ChatGPT уже генерил ненастоящие статьи. Кажется, может генерить ненастоящие ссылки.
Беглое гугление говорит, что ChatGPT вообще довольно редко генерит рабочие ссылки
Так может, пора заставить их быть рабочими?
5🔥4
🚀 @SBERLOGACOMPETE webinar on data science:
👨‍🔬 Dmitrii Rudenko "Kaggle competition debrief: RSNA Screening Mammography Breast Cancer Detection "
⌚️ 17 March, Friday, 19.00 (Moscow Time)

Add to Google Calendar

Discussion of the Kaggle computer vision competition "RSNA Screening Mammography Breast Cancer Detection" (link). The task formulation, input data, some domain knowledge, and ideas of some solutions will be discussed.

Zoom link will be available at
https://news.1rj.ru/str/sberlogabig shortly before the start.

Video records of the talks: https://www.youtube.com/c/SciBerloga - subscribe our channel !

📰 Telegram channel by Dmitry on Kaggle: https://news.1rj.ru/str/pseudolabeling - subscribe it !
🔥1
Сегодня 16 человек пришло послушать. Спасибо!
🔥71
Все сегодня плачут по отключению ODS. Из всех фреймворков выбрал пока singularis.ai, поддавшись на Валерину пропаганду. Хотя для меня уже давно чаты Берлоги заменили ODS, пачивший на лаврах и застывший в своей неповоротливости. Слишком много людей и мало вовлеченности, ничего не добиться нормально
UPD: чет много людей все еще не понимают, о чем речь. Я в своем контексте и введения людеям не дал. Напишу короткия и грязный пост видимо о том, что вообще случилось с одсом
👍7
Что же случилось с ODS?
ОДС начал погибать еще до ковида. Стало очень много людей. Когда становится много людей, много нерелвантных мнений. От этого средний уровень вовлеченности падал и типичным было увидеть раз в три дня одно сообщение в условном kaggle_crackers.

Коронваирус дозаправли топлива: многим людям было скучно дома и они вернулись в одс для общения. Я тоже тогда вернулся и даже стал проходить курс по графовым нейросеткам от стендфорда. Оказалось, что его проходят парни из AI лабы Сбера, которые даже сделали отдельную группу. Оказалось, что это уже тоже целое околосбер-сообщество. Люди стали привыкать к короне и одс снова стал остывать примерно через полгода-год.

В этот момент многие большие мальчики из ODS поняли, куда дует ветер и стали собирать вокруг себя комьюнити, чтобы держать людей в курсе и дальше качать личный бренд. Примеры: канал Валеры, незаслуженно непопулярный канал Сережи Колесникова (scitator). Последний кстати пытался еще и собрать людей вокруг Catalyst и контрибьюшнов в него, но почему-то история заглохла.

Когда начались боевые действия, ОДС попал под волну банов Slack для российских компаний. Как я понимаю, Slack чарджит за пользователей и раздутый (и в основном мертвый) ODS стал слишком дорого обходиться. Кто-то из основателей ODS оплатил со своей карты хост хаба, но это было временным решением. Было ясно, что ОДС умрет/var/folders/l1/b01fb2tx5l12nfvrxfmqxggh0000gn/T/TemporaryItems/NSIRD_screencaptureui_RjiDKU/Снимок экрана 2023-03-24 в 14.19.47.png не сегодня, так через пару месяцев.

Натекин решил перетащить всех в другую селф-хостед платформу даже до февраля 2022, но дело шло тухло. Я кажется даже подался на инвайт, но так в матрикс инвайта и не получил. Сейчас, когда Натекин помогает РКН строить цифровой гулаг, не сильно сожалею о отсутствии инвайта.

Более либеральным форком ОДС стал singularis.ai. В нем все по-старому с точки зрения организации, пока люди туда только подтягиваются. Можно считать его ODS 1.1.

Есть еще комьюнити NoML, которое можно занести в личные каналы, пытающиеся вырасти в сообщество.
Сберлога переродилась и перестала быть частью Сбера. Теперь она (sci) Berloga, что даже немножко смешно, но соответствует духу времени.

Алгоритм принятия решений для вас по взглядам на картинке
👍4💩1
Сегодня закончился IceCube. Закончился на 327 месте
Разбор ждем на следующей неделе:
Почему не выиграли
Что великолепного придумали лучшие команды
Как же хендлить 400 гб графовых обучающих данных?

У авторов соревнования есть отдельный приз за лучшее описание решения, так что должно быть жирно. Постараюсь мощный разбор подготовить
🔥10💩1
🚀 @SBERLOGACOMPETE webinar on data science:
👨‍🔬 Дмитрий Руденко: "О Каггл соревновании Neutrinos in Deep Ice"
⌚️ 28 Апреля, пятница, 18.00 (Moscow Time)

Add to Google Calendar

Join us for the follow-up session of the IceCube: Neutrinos in Deep Ice competition, where we'll be discussing the best tricks to predict azimuths and zeniths, the best approaches for detector-compensation NN, and how to handle 400 GB of graphs. This competition was extraordinary, as it offered "best write" prizes, so you can expect to hear some excellent explanations from the winners.

The goal of this competition was to predict the direction of neutrino particles using data from the IceCube detector at the South Pole. By improving the accuracy and speed of reconstructing neutrino events, we can gain a better understanding of the universe and its violent astrophysical sources. This challenge required a balance between accuracy and computational costs, as existing solutions have limitations. The winning solution will aid the international IceCube Collaboration in their research of the nearly massless and electrically neutral neutrinos.

Zoom link will be available at https://news.1rj.ru/str/sberlogabig shortly before the start. Don't forget to subscribe to our YouTube channel (https://www.youtube.com/c/SciBerloga) to watch the video recordings of the session later.

📢 Also subscribe to Dmitry's telegram-channel @pseudolabeling devoted to Kaggle and data science.
💩1
Ключевая идея из соревнования, которую можно использовать:
Если у вас объекты в датасете переменного объема, то можно просто разделить их на несколько этапов-лоудеров и тренироват вашу модель с разным батчсайзом.

Например тут берут лоудер, в которой много 'мальенких' объектов и учатся на нем с батчсайзом в 200 каждую эпоху, а для больших объектов берут батчсайз 20.
ТАким образом за одну эпоху мы используем два Loader, проходим по полным данным один раз и максимально утилизируем и данные и GPU.
Вроде бы на поверхности, но большая часть участников в сореве большие события просто выкидывала.
👍72💩1
Выступаю в Мюнхене через 18 дней. Приходите слушать 🙂
👍5🔥5💩1
На канал произошла атака ботов. Казалось бы, откуда столько счастья?
Вероятно с внедрением LLM эффективность труда еще больше выросла, и теперь даже каналы читают 18 ботов на одного человека.
Ваши версии произошедшего можно оставить под этим постом 🔽:
Please open Telegram to view this post
VIEW IN TELEGRAM
4👏3💩2
Телеграм все же режет ботнеты и теперь вы официально подписаны на кладбище аккаунтов
2💩1
Участвую сейчас в соревнования Predict Student Performance from Game Play! 🤓🎮🎓

Задача: по сессиям игроков определить, смогут ли они правильно ответить на контрольные вопросы. Игра историческая и рассказывает о суфражистках Висконсина. Представляет из себя квест, в котором нужно расследовать простенькую детективную историю и отвечать на вопросы по сюжету расследования. Это помогает закрепить знания о суфражистках.

Как всегда, начал смотреть топовый паблик кернел, и там как раз было достаточно базовое и лобовое решение. Решил его допилить.

Что удалось выяснить? Кернел не работает. 😕 Он забирает слишком много памяти, а то что работает, работает медленно. Автор использует Polars и Pandas для предобработки. К слову, Polars - это Pandas на стероидах! 💪

Polars написан на Rust, что позволяет ему легко параллелизироваться на multi-CPU. И в этом плане он действительно хорош. Если заглянуть в
htop
, то сразу видно как Polars использует все ресурсы.
Более того, он не копирует объекты при изменении, а модифицирует их напрямую, экономя память. В Pandas же при изменении объекта сначала выделяется память размером этот же объект (если тип не меняется), затем осуществляются вычисления и, наконец, старая память освобождается.
Еще, в Pandas каждое значение в колонке занимает память, даже если оно Null. Для представления Null всегда хранится служебная Pandas колонка типа byte, которая как раз и показывает пустое там значение или нет. Стало быть к каждому значению таблицы добавляется этот дополнительный байт. Если вдруг вы работаете с bool значениями, то оверхед по памяти будет два раза :0
В Polars же есть отдельный validity_bitmap, который хранит один byte array для всей колонки. Это ускоряет подсчет Null и уменьшает потребление памяти в 8 раз для каждой колонки (байт -> бит)
И еще одно ключевое отличие: в Polars нет индексов! В Pandas индексы могут вызывать проблемы, но в Polars их просто нет. Когда-то коллега спросил меня, почему я всегда использую df.reset_index(drop=True) в Pandas. Я объяснил, что индексы могут быть проблематичными и что это полезная привычка на мой взгляд. Через пару недель он вернулся и сказал, что день дебага помог и ему заиметь полезную привычку.

В итоге я переписал куски Pandas полностью на Polars. В память стало влезать чуть лучше, но все еще не отрабатывало до конца.

(в этом посте будет три части: еще одна про Polars Lazy API и про то, что CatBoost- это целая скрытая метавселенная без документации)
👍43💩1🐳1
По заявкам из прошлого поста:
Забнчмаркал Pandas Vs Polars Vs Vaex на разных поплуярных операциях. Накатаю на выходных статью на мидиум с бенчмарками по производительности, но с вами делюсь свежайшим прямо сейчас
Polars в достаточно примитивной постановке в три раза аутперформит Pandas, и в два Vaex.
Еще и памяти меньше потребляет!
👍72🔥1💩1
Фух, допилил статью на Мидиуме
В сухом остатке:
Пример достаточно синтетический, можно покритиковать в комментах и предложить, как сделать лучше.
Пандас нигде не победил (мб только по юзабилити)
Polars быстрый и меткий, но Vaex внезапно быстрее для merge и select операций. В то же время на этих операциях Vaex ест больше памяти, чем Polars.
По памяти Polars выигрывает немножко по бутылочному горлышку, но в среднем больше памяти расходует.
🔥3👍2💩1