#sklearn #metrics #optimization #numba
В гитхабе sklearn-а началась некая дискуссия о том, нужны ли быстрые метрики или даже использование Numba в sklearn. Возможно, у Вас тоже есть своё мнение?
В гитхабе sklearn-а началась некая дискуссия о том, нужны ли быстрые метрики или даже использование Numba в sklearn. Возможно, у Вас тоже есть своё мнение?
GitHub
Speed up classification_report · Issue #26808 · scikit-learn/scikit-learn
Describe the workflow you want to enable I'm concerned with slow execution speed of the classification_report procedure which makes it barely suitable for production-grade workloads. On a 8M sa...
❤🔥3
#physics #electrons
"Стандартная модель физики частиц предсказывает равное количество материи и антиматерии вокруг нас, что на самом деле не так. Частицы материи и антиматерии должны были аннигилировать вскоре после Большого взрыва — они идентичны по всем характеристикам за исключением знака заряда. Тем самым сегодня Вселенная была бы пуста, и нас бы в ней не было. Следовательно, есть вероятность, что частицы и античастицы могут отличаться чем-то пока неуловимым, поэтому так важно измерить все доступные для этого свойства частиц. Отсутствие симметрии заряда у электрона — если у него обнаружится электрический дипольный момент, пусть даже слабый — могло бы дать пищу для новых теорий о дисбалансе вещества и антивещества во Вселенной.
В эксперименте характеристики электронов измерялись лазерами, а сам подопытный электрон был помещён внутрь ионизированной молекулы (или обнаружен там). Затем на систему наводилось мощнейшее электромагнитное поле. Если бы заряд электрона был растянут, а не сосредоточен в одной точке, то он упал бы на бок «как яйцо на столе» при смене направления магнитного поля, поясняют учёные. Но электрон оставался в стабильном положении «как теннисный мячик», которому некуда и незачем катиться.
Новая точность измерений магнитного диполя электрона в 2,4 раза превысила точность измерений в предыдущем эксперименте. И эта точность была в 1 млрд выше предсказанной Стандартной моделью. Если бы электрон был размером с Землю, то учёные смогли бы увидеть асимметрию заряда размерами с радиус одного атома. Похоже, дальше нет смысла искать дипольный момент у электрона. Даже если он обнаружится, то его влияние на дисбаланс материи и антиматерии во Вселенной будет настолько небольшим, что его можно будет не учитывать."
https://3dnews.ru/1089770/elektronu-otkazano-prinimat-ovalnuyu-formu-on-popregnemu-sharik-pokazalo-novoe-issledovanie
"Стандартная модель физики частиц предсказывает равное количество материи и антиматерии вокруг нас, что на самом деле не так. Частицы материи и антиматерии должны были аннигилировать вскоре после Большого взрыва — они идентичны по всем характеристикам за исключением знака заряда. Тем самым сегодня Вселенная была бы пуста, и нас бы в ней не было. Следовательно, есть вероятность, что частицы и античастицы могут отличаться чем-то пока неуловимым, поэтому так важно измерить все доступные для этого свойства частиц. Отсутствие симметрии заряда у электрона — если у него обнаружится электрический дипольный момент, пусть даже слабый — могло бы дать пищу для новых теорий о дисбалансе вещества и антивещества во Вселенной.
В эксперименте характеристики электронов измерялись лазерами, а сам подопытный электрон был помещён внутрь ионизированной молекулы (или обнаружен там). Затем на систему наводилось мощнейшее электромагнитное поле. Если бы заряд электрона был растянут, а не сосредоточен в одной точке, то он упал бы на бок «как яйцо на столе» при смене направления магнитного поля, поясняют учёные. Но электрон оставался в стабильном положении «как теннисный мячик», которому некуда и незачем катиться.
Новая точность измерений магнитного диполя электрона в 2,4 раза превысила точность измерений в предыдущем эксперименте. И эта точность была в 1 млрд выше предсказанной Стандартной моделью. Если бы электрон был размером с Землю, то учёные смогли бы увидеть асимметрию заряда размерами с радиус одного атома. Похоже, дальше нет смысла искать дипольный момент у электрона. Даже если он обнаружится, то его влияние на дисбаланс материи и антиматерии во Вселенной будет настолько небольшим, что его можно будет не учитывать."
https://3dnews.ru/1089770/elektronu-otkazano-prinimat-ovalnuyu-formu-on-popregnemu-sharik-pokazalo-novoe-issledovanie
3DNews - Daily Digital Digest
Электрону отказано принимать овальную форму — он по-прежнему «шарик», показало новое исследование
Учёные из Университета Колорадо установили самые жёсткие на сегодня ограничения на потенциальное разнесение электрических зарядов в электроне.
#astronomy
"Поиск в районе разрушения метеорита IM1 магнитным тралом принёс результат. После просеивания магнитных частиц вулканического происхождения удалось обнаружить магнитные образцы размером меньше миллиметра, которые отличались от «фоновых» частиц, поднятых со дна на контрольном участке. Анализ показал, что частички состоят на 84 % из железа, на 8 % из кремния, на 4 % из магния и на 2 % из титана, плюс микроэлементы. Кроме того, в образцах были выявлены изотопы урана и свинца, что позволяет оценить возраст образцов по периоду полураспада урана. Данные по двум образцам показали возраст 13,8 млрд лет, тогда как образцы с контрольного участка показывали возраст 4,6 млрд лет (возраст Солнечной системы). Это стало ещё одним доказательством происхождения метеорита IM1 вне нашей системы."
https://3dnews.ru/1089757/so-dna-tihogo-okeana-podnyati-fragmenti-pervogo-megzvyozdnogo-meteorita-uchyonie-nadeyalis-nayti-v-nih-priznaki-inoplanetnih-tehnologiy
"Поиск в районе разрушения метеорита IM1 магнитным тралом принёс результат. После просеивания магнитных частиц вулканического происхождения удалось обнаружить магнитные образцы размером меньше миллиметра, которые отличались от «фоновых» частиц, поднятых со дна на контрольном участке. Анализ показал, что частички состоят на 84 % из железа, на 8 % из кремния, на 4 % из магния и на 2 % из титана, плюс микроэлементы. Кроме того, в образцах были выявлены изотопы урана и свинца, что позволяет оценить возраст образцов по периоду полураспада урана. Данные по двум образцам показали возраст 13,8 млрд лет, тогда как образцы с контрольного участка показывали возраст 4,6 млрд лет (возраст Солнечной системы). Это стало ещё одним доказательством происхождения метеорита IM1 вне нашей системы."
https://3dnews.ru/1089757/so-dna-tihogo-okeana-podnyati-fragmenti-pervogo-megzvyozdnogo-meteorita-uchyonie-nadeyalis-nayti-v-nih-priznaki-inoplanetnih-tehnologiy
3DNews - Daily Digital Digest
На дне Тихого океана нашли фрагменты первого межзвёздного метеорита — учёные надеются найти в них признаки инопланетных технологий
Группа учёных проекта «Галилей» (Galileo) по поиску инопланетных технологий подняла со дна Тихого океана множество микроскопических шариков с признаками метеоритного происхождения.
Forwarded from Машинное обучение от ИЦ "ГЕВИССТА"
Марк – американец русского происхождения. Традиционно он приезжает на годовщины компании, ну и постоянно смешит меня своими реакциями.
- Слышал, в марте прошлого года у Яндекс.Еды произошла утечка данных?
- Ого, и сколько в итоге они по индивидуальным, коллективным искам выплатили?
- Слышал, в марте прошлого года у Яндекс.Еды произошла утечка данных?
- Ого, и сколько в итоге они по индивидуальным, коллективным искам выплатили?
#ml #voting #ensembling #err #borda #bucklin #condorcet #coombs #reciprocalranking #instantrunoff #fs #featureselection
Гуглил методы голосования (БордА и прочее), и неожиданно наткнулся на их применение в... отборе признаков! Вот уж чего никогда не видел раньше. Есть некий шанс, что это полезно, т.к. один из методов такого "демократического ансамблирования" (Ensemble Reciprocal Ranking) зарулил "лучший одиночный метод" (это был SHAP).
https://towardsdatascience.com/ensemble-feature-selection-for-machine-learning-c0df77b970f9
Гуглил методы голосования (БордА и прочее), и неожиданно наткнулся на их применение в... отборе признаков! Вот уж чего никогда не видел раньше. Есть некий шанс, что это полезно, т.к. один из методов такого "демократического ансамблирования" (Ensemble Reciprocal Ranking) зарулил "лучший одиночный метод" (это был SHAP).
https://towardsdatascience.com/ensemble-feature-selection-for-machine-learning-c0df77b970f9
#dl #tensorflow
Сильно удивился, что с релиза 2.11 TF перестал поддерживать GPU на винде. Да и правильно, хрен с ней, ведь в мире никто не пользуется виндой. Но вроде появились какие-то плагины directml, которые якобы могут задействовать на винде любой GPU, в т.ч. и от AMD. Тестить пока страшно. Кстати, версии куда, которые использует TF, по-прежнему отстают от того что релизит Нвидия. отстают уже почти на 2 года. почему команде tensorflow настолько насрать на их продукт?
conda install -c conda-forge cudatoolkit=11.2 cudnn=8.1.0
# Anything above 2.10 is not supported on the GPU on Windows Native
pip install "tensorflow<2.11"
При том, что текущая версия Cuda уже 12+.
Сильно удивился, что с релиза 2.11 TF перестал поддерживать GPU на винде. Да и правильно, хрен с ней, ведь в мире никто не пользуется виндой. Но вроде появились какие-то плагины directml, которые якобы могут задействовать на винде любой GPU, в т.ч. и от AMD. Тестить пока страшно. Кстати, версии куда, которые использует TF, по-прежнему отстают от того что релизит Нвидия. отстают уже почти на 2 года. почему команде tensorflow настолько насрать на их продукт?
conda install -c conda-forge cudatoolkit=11.2 cudnn=8.1.0
# Anything above 2.10 is not supported on the GPU on Windows Native
pip install "tensorflow<2.11"
При том, что текущая версия Cuda уже 12+.
TensorFlow
GPU device plugins | TensorFlow
😨1
#catboost
В Катбусте тоже всем пофигу на баги, похоже. Уже вторую неделю висит issue, что с Precision и F1 в early stopping модели не обучаются из-за неправильного дефолта при расчёте точности. Всем насрать, хотя и в чате у них этот вопрос обсудили, и даже с другим юзером из чата сами нашли причину. На производительность тоже пофиг, roc_auc у них считается даже немного медленнее, чем в sklearn. На мой пост о том, что с помощью numba и алгоритма из fastauc можно запросто ускорить её расчёт в 8 раз никто из команды не отреагировал. Я был об этой команде лучшего мнения, видимо, зря.
В Катбусте тоже всем пофигу на баги, похоже. Уже вторую неделю висит issue, что с Precision и F1 в early stopping модели не обучаются из-за неправильного дефолта при расчёте точности. Всем насрать, хотя и в чате у них этот вопрос обсудили, и даже с другим юзером из чата сами нашли причину. На производительность тоже пофиг, roc_auc у них считается даже немного медленнее, чем в sklearn. На мой пост о том, что с помощью numba и алгоритма из fastauc можно запросто ускорить её расчёт в 8 раз никто из команды не отреагировал. Я был об этой команде лучшего мнения, видимо, зря.
GitHub
Precision calculation error in Early Stopping. Request to add pos_label. · Issue #2422 · catboost/catboost
Problem: catboost version: 1.2 Operating System: Win CPU: + GPU: + Я думаю, в коде catboost вычисляющем precision где-то перепутаны предсказания и истинные значения, поэтому ранняя остановка по точ...
🎉1💔1
#ml #mlops #mlflow #me #metrics #multimodel
Очень срезонировало это выступление. Я сейчас разрабатываю как раз такую систему, с мультиметриками, несколькими моделями разных классов. Даже ещё добавляю сразу ансамбли. Про ME (Maximum Error) как обязательную regression-метрику кажется очень полезно, никогда раньше не слышал. От себя бы добавил в обязательные метрики классификации что-то калибрационное: MAE/std над бинами калибрационной кривой, к примеру.
https://www.youtube.com/watch?v=VJWrSTAlxEs
Очень срезонировало это выступление. Я сейчас разрабатываю как раз такую систему, с мультиметриками, несколькими моделями разных классов. Даже ещё добавляю сразу ансамбли. Про ME (Maximum Error) как обязательную regression-метрику кажется очень полезно, никогда раньше не слышал. От себя бы добавил в обязательные метрики классификации что-то калибрационное: MAE/std над бинами калибрационной кривой, к примеру.
https://www.youtube.com/watch?v=VJWrSTAlxEs
YouTube
Андрей Зубков - Без чего с ML в проде жизнь не мила
Data Fest 2023:
https://ods.ai/events/datafestonline2023
Трек "MLOps":
https://ods.ai/tracks/df23-mlops
Наши соц.сети:
Telegram: https://news.1rj.ru/str/datafest
Вконтакте: https://vk.com/datafest
https://ods.ai/events/datafestonline2023
Трек "MLOps":
https://ods.ai/tracks/df23-mlops
Наши соц.сети:
Telegram: https://news.1rj.ru/str/datafest
Вконтакте: https://vk.com/datafest
#docs #keras #bollocks
Пример плохо, по-мудацки написанной документации.
Вроде технически все опции описаны, но не сказано, в какой ситуации какую применять и зачем. Будущий юзер отрывает доку, читает, и не может понять, а нафига это всё нагородили вообще. Например: когда может понадобиться mask_token? Какая выгода от multi_hot? итд
https://keras.io/api/layers/preprocessing_layers/categorical/string_lookup/#stringlookup-class
Хреновая дока ведёт к тому, что люди постоянно задают на других ресурсах вопросы: а в чём различие, а какую опцию мне лучше использовать, а что это даст? типа этого. Особенно это касается специфичной для продукта функциональности, которая не является общеизвестной в области, или вообще является "уникальной фишкой". А всё потому, что разработчики поленились и не подумали объяснить концепции на высоком уровне в форме, понятной для пользователей. То же самое, кстати, чувствуется при чтении документации Catboost.
Пример плохо, по-мудацки написанной документации.
Вроде технически все опции описаны, но не сказано, в какой ситуации какую применять и зачем. Будущий юзер отрывает доку, читает, и не может понять, а нафига это всё нагородили вообще. Например: когда может понадобиться mask_token? Какая выгода от multi_hot? итд
https://keras.io/api/layers/preprocessing_layers/categorical/string_lookup/#stringlookup-class
Хреновая дока ведёт к тому, что люди постоянно задают на других ресурсах вопросы: а в чём различие, а какую опцию мне лучше использовать, а что это даст? типа этого. Особенно это касается специфичной для продукта функциональности, которая не является общеизвестной в области, или вообще является "уникальной фишкой". А всё потому, что разработчики поленились и не подумали объяснить концепции на высоком уровне в форме, понятной для пользователей. То же самое, кстати, чувствуется при чтении документации Catboost.
keras.io
Keras documentation: StringLookup layer
#featureselection #masters #mlgems
Нашёл в книге Тима Мастерса "Data Mining Algorithms in C++" такую любопытную модификацию Forward Selection:
Forward Selection Preserving Subsets
"There is a straightforward extension of forward stepwise selection that can often produce a significant improvement in performance at little cost. We simply preserve the best few candidates at each step, rather than preserving just the single best. For example, we may find that X4, X7, and X9 are the three best single variables. (Three is an arbitrary choice made by the developer, considering the trade-off between quality and compute time.) We then test X4 paired with each remaining candidate, X7 paired with each, and finally X9 paired with each. Of these many pairs tested, we identify the best three pairs. These pairs will each be tested with the remaining candidates as trios, and so forth. The beauty of this algorithm is that we gain a lot with relatively little cost. The chance of missing an important combination is greatly reduced, while compute time goes up linearly, not exponentially. I highly recommend this approach."
Нашёл в книге Тима Мастерса "Data Mining Algorithms in C++" такую любопытную модификацию Forward Selection:
Forward Selection Preserving Subsets
"There is a straightforward extension of forward stepwise selection that can often produce a significant improvement in performance at little cost. We simply preserve the best few candidates at each step, rather than preserving just the single best. For example, we may find that X4, X7, and X9 are the three best single variables. (Three is an arbitrary choice made by the developer, considering the trade-off between quality and compute time.) We then test X4 paired with each remaining candidate, X7 paired with each, and finally X9 paired with each. Of these many pairs tested, we identify the best three pairs. These pairs will each be tested with the remaining candidates as trios, and so forth. The beauty of this algorithm is that we gain a lot with relatively little cost. The chance of missing an important combination is greatly reduced, while compute time goes up linearly, not exponentially. I highly recommend this approach."
👍2
#featureselection #masters #mlgems #chisquare #cramerv
The chi-square test need not be restricted to categorical variables. It is legitimate to partition the range of numeric variables into bins and treat these bins as if they were categories. Of course, this results in some loss of information because variation within each bin is ignored. But if the data is noisy or if one wants to detect relationship patterns of any form without preconceptions, a chi-square formulation may be appropriate.
Chi-squared itself has little intuitive meaning in terms of its values. It is highly dependent on the number of cases and the number of bins for each variable, so any numeric value of chi-squared is essentially uninterpretable. This can be remedied by a simple monotonic transformation to produce a quantity called Cramer’s V.
The chi-square test need not be restricted to categorical variables. It is legitimate to partition the range of numeric variables into bins and treat these bins as if they were categories. Of course, this results in some loss of information because variation within each bin is ignored. But if the data is noisy or if one wants to detect relationship patterns of any form without preconceptions, a chi-square formulation may be appropriate.
Chi-squared itself has little intuitive meaning in terms of its values. It is highly dependent on the number of cases and the number of bins for each variable, so any numeric value of chi-squared is essentially uninterpretable. This can be remedied by a simple monotonic transformation to produce a quantity called Cramer’s V.