Aspiring Data Science – Telegram
Aspiring Data Science
386 subscribers
465 photos
12 videos
12 files
2.15K links
Заметки экономиста о программировании, прогнозировании и принятии решений, научном методе познания.
Контакт: @fingoldo

I call myself a data scientist because I know just enough math, economics & programming to be dangerous.
Download Telegram
#ml #classificaion #probabilistic #brierscore

Возвращаясь к недавнему посту про оценку Бриера, суммаризирую:

1) Бриер=0 достигается не просто когда вероятности идеально откалиброваны. Для "нулевых" примеров предсказанные вероятности должны быть строго равны нулю, для "единичных" - единице.
2) в реальной задаче Бриер даже очень хорошей модели никогда не достигнет 0
3) более того, в каждой задаче своё распределение таргета, соответственно, минимально и максимально достижимые Бриер скоры РАЗНЫЕ. Например, для упоминавшегося выше равномерного распределения, Бриер идеальной модели стремится к 0.166, нерелевантной модели к 0.333, "антимодели" к 0.5
4) вещи становятся страннее, когда меняется распределение таргета. для "ненормального" и уж точно не равномерного таргета с картинки в комментах Бриер идеальной модели 0.221, Бриер перемешанных примеров 0.238, Бриер DummyClassifier (всегда предсказывает фактическую частоту класса 1) 0.230.

Т.е. абсолютная разница в оценках Бриера может быть мизерная, хотя на самом деле сравниваются идеальная модель и "почти случайное" угадывание.

Вывод: в каждом случае оценивайте границы оценок Бриера, хотя бы косвенными методами, прежде чем принимать решение о качестве модели.
👍21
#ml #python #earlystoppping

У нас недавно было обсуждение ранней остановки для sklearn-овских моделей, напрямую ES не поддерживающих. Я не смог нагуглить никакого готового решения, что кажется крайне странным для мирового DS сообщества. Кто попробует написать такую универсальную ES-обёртку? Если эстиматор поддерживает parial_fit, надо юзать его, если нет, пересоздавать с разными niters/nestimators. для validation set желательно передавать не только fraction:float, но и shuffle:bool. И хорошо бы сделать сравнение vanilla/ES-powered на паре задач. Ведь по сути отстутствие ES, как мне кажется, убивает применимость многих классов моделей в реальной работе. Я не помню, чтобы я где-то использовал SVM или леса в чистом виде из-за боязни оверфита. Для GradientBoostingClassifier ES соизволили сделать, но без shuffle, т.е., с временными рядами такой ES будет неприменим.
Forwarded from NOdata Миша
Как понять, что пора искать новую работу?

Многие ответят на этот вопрос словами «Ну когда на текущем месте работы трудно расти дальше» или «Когда не получаешь удовольствие от своей работы» и подобные ответы.

Я с ними не согласен, это, конечно все важно, но вот только это не бинарные величины, мы не можем сказать, что сейчас мы кайфуем от работы на 0, а после перехода на новое место будем кайфовать на 1, скорее правильнее будет сказать сейчас я счастлив на работе на 5 из 10, а хочу больше. И возникает вопрос «А можно ли больше?».

Самый простой способ ответить на этот вопрос - проходить собесы, ну или хотя бы смотреть вакансии. Проходя собесы, ты будешь составлять картину того, что тебе могут предложить в других местах - какую зп, какие обязанности. Понимая, то что тебе готовы предложить и что имеешь на данный момент ты будешь готов ответить на вопрос «Пора?»
Forwarded from Записки C3PO
Мои кореша (читайте это голосом Дудя) из GoPractice наконец-то выпустили новый симулятор - "Симулятор управления ML/AI-проектами"!

В симуляторе вы станете главным героем увлекательной истории, где будете работать над тремя проектами с машинным обучением. Все нацелено на то, чтобы помочь вам на практике освоить скилы управления проектами с машинным обучением, даже если у вас нет навыков программирования или глубокого знания математики. Если вы давно хотели попробовать свои силы в машинном обучении, то данный симулятор - идеальный способ для старта.

Мне очень нравится контент и продукты, которые выпускает команда GoPractice. Всегда высокий уровень и качество. И этот курс не исключение: не просто собранный на коленке онлайн-курс по машинному обучению, а продукт, который разрабатывался более трех лет!

Давно ждал появления симулятора, так как подобный формат - это лучший способ, на мой взгляд, получить знания и практику применения ML теории, решая реальные кейсы, а не слушая бесконечные лекции и решая тесты после них.

Присоединиться можно по ссылке https://gopractice.ru/course/ml/.
#ml #applied #dyakonov #pzad

Крайне интересная идея о дополнительных фичах: взять одномерный сигнал, предсказывать его на N шагов (каким-то простым способом), считать от такого прогноза разные метрики, и уже их использовать как фичи (ну и сами коэффициенты приближения). Высший пилотаж.

https://youtu.be/zX7hzjVBqeM?list=PLaRUeIuewv8CMFox0oEjlyePUhUmo-x0h&t=151
3
#gpt

"О своём опыте общения с ИИ агентству Bloomberg рассказал Майло Ван Слик (Milo Van Slyck), работающий помощником юриста в Чарльстоне (США, шт. Южная Каролина) — у него нестандартный подход к собственной идентичности, который не могут принять его родители, придерживающиеся характерных для южного штата традиционных ценностей. Пропустив встречу со своим психотерапевтом в начале апреля, Ван Слик решил обратиться к ChatGPT и обнаружил, что общение с ИИ дало ему ощущение психологического комфорта.

«Когда снова увидитесь с родителями, важно будет расставить приоритеты в ваших потребностях и благополучии. Подумайте, что вам нужно, чтобы ощущать комфорт и безопасность в их присутствии. Это нормально — устанавливать границы того, сколько времени вы с ними проводите, каких тем не следует касаться, и как они относятся к вам и вашей идентичности», — такой совет ChatGPT дал «пациенту», у которого назрел конфликт с родителями."

https://3dnews.ru/1085307/vmesto-pohoda-k-psihoterapevtu-lyudi-stali-obrashchatsya-k-chatgpt-hotya-posledstviya-mogut-bit-nepredskazuemimi
#vk

Давно пора было.

"При активном фильтре нецензурных выражений относящиеся к ненормативной лексике слова и выражения в публикациях и комментариях заменяются на набор символов. При необходимости пользователь сможет увидеть их в исходном виде — соответствующая плашка появляется при клике на скрытые системой слова.

Новая функция является частью общей стратегии платформы по формированию комфортной цифровой среды для всех пользователей. Ранее администрация соцсети предложила им функцию «Личное пространство», которая позволяет оградить себя от лишнего внимания и нежелательных собеседников; а также уведомления о подозрительных собеседниках в фирменном мессенджере."

https://3dnews.ru/1085326/polzovateli-vkontakte-teper-mogut-skrivat-nenormativnuyu-leksiku-v-publikatsiyah-i-kommentariyah
👎1
#hardware

"Новинка одной из первых на рынке предлагает поддержку разрешения 4K и частоты обновления 240 Гц. Яркость представленного дисплея составляет 400 кд/м2. Производитель также заявляет для дисплея скорость отклика в 1 мс и 95-процентный охват цветового пространства DCI-P3.

Показанная компанией 65-дюймовая панель поддерживает разрешение 7680 × 4320 (8K) и частоту обновления до 120 Гц."

https://3dnews.ru/1085319/auo-pokazala-novinki-s-antiblikovoy-tehnologiey-art-32dyuymoviy-4kmonitor-s-chastotoy-240-gts-i-65dyuymovuyu-8kpanel-s-chastotoy-120-gts
#facebook

"Первыми под сокращения попали сотрудники кадровой службы, сейчас настал черёд технических специалистов, а в мае увольнения ждут работников бизнес-сегмента компании. По некоторым оценкам, в текущем раунде Meta* потеряет 4000 человек из запланированных 10 000. Многие теперь уже бывшие сотрудники компании публично сообщили о своих увольнениях в профессиональной соцсети LinkedIn и на других ресурсах. Одним из них стал глава подразделения, обеспечивающего благополучие пользователей платформ Meta* — оно производит «надзор за стратегией в области проблемного использования, запугивания и преследования, а также других ключевых вопросов». Компания также решила объединить подразделения, занимающиеся модерацией рекламы и пользовательского контента, хотя здесь никаких сокращений не будет.

В марте Цукерберг заявил, что в рамках реструктуризации будет произведено выравнивание организационной структуры Meta*, отменены менее приоритетные проекты, а также сокращены найм и кадровая служба компании. В общей сложности планируется увольнение примерно 10 000 человек и ликвидация 5000 вакансий. В ноябре компания анонсировала сокращения 11 000 человек, и до начала этой процедуры её численность на конец года была 86 482 человека. Это значит, что по окончании двух этапов увольнения в ней останутся около 66 000 сотрудников. Некоторые из попавших под сокращения въехали в США по рабочей визе H-1B, а значит, у них будет 60 дней, чтобы найти новую работу — в противном случае придётся покинуть страну.

Объявленному главой Meta* «году эффективности» предшествовал неудачный 2022 год, когда выручка компании упала на 4 %, а расходы выросли на 22 %. Это отчасти связано с изменениями политики конфиденциальности Apple iOS, которые обошлись гиганту соцсетей в $10 млрд. Ещё $13,7 млрд компания потеряла на подразделении Reality Labs, занимающемся разработками в сфере метавселенной — при этом Марк Цукерберг уже охладел к этому направлению и назвал новым приоритетом ИИ."

https://3dnews.ru/1085366/v-meta-nachalsya-ocherednoy-raund-sokrashcheniy-rabotu-poteryayut-tisyachi-tehnicheskih-spetsialistov
1
#tesla #autopilot


Прям как я , когда оцениваю сроки выполнения работы.

"Летопись обещаний главы Tesla внедрить полный автопилот на электромобилях этой марки к концу года тянется c 2019 года, и поскольку сейчас в самом разгаре 2023 год, а соответствующая технология до сих пор не внедрена, Илону Маску (Elon Musk) на отчётной конференции Tesla на этой неделе пришлось давать новый прогноз на эту тему. Без привычной уверенности он заявил, что рассчитывает представить полный автопилот до конца текущего года."

https://3dnews.ru/1085370/o-vozmognosti-vnedrit-polniy-avtopilot-v-etom-godu-ilon-mask-zayavil-ne-stol-reshitelno-kak-ranshe
🤡1
#spacex #starship #astronomy #superheavy

"Уже тот факт, что ракета оторвалась от земли и пролетела несколько минут, является успехом для SpaceX — это ведь был лишь первый тест с запуском Starship в полностью собранном состоянии. Данные, собранные сегодня, помогут лучше подготовиться к следующим пускам. Starship состоит из огромного ускорителя (первой ступени), называемой Super Heavy, а также космического корабля (верхней ступени), известного как Starship. В текущем испытательном полете использовался 24-й прототипы корабля и седьмой ускорителя."


https://3dnews.ru/1085165/spacex-vpervie-zapustila-v-kosmos-ogromniy-raketu-starship
1
#astronomy #supernova

"Используя данные рентгеновской обсерватории NASA «Чандра» (Chandra) и других телескопов учёные обнаружили неизвестную ранее угрозу для жизни на планетах земного типа. На определённой фазе процесса образования сверхновых исходящее от области взрыва рентгеновское излучение способно уничтожить биологическую жизнь на планетах в радиусе до 100 световых лет и больше. Раньше это явление не принималось во внимание. Но теперь к нему надо отнестись со всей серьёзностью."

https://3dnews.ru/1085456/sverhnovie-okazalis-namnogo-opasnee-chem-schitalos-oni-sposobni-unichtogit-gizn-na-planetah-eshchyo-odnim-sposobom
#astronomy #ligo

Говорят, Россия на войну в день тратит ~$300M. Не на научные комплексы, не на улучшение жизни граждан, а на убийства и разрушения.

"Власти Индии выделят на реализацию проекта около $320 млн. Строительство будет вестись недалеко от города Аундха в индийском штате Махараштра. Это будет комплекс зданий, включая L-образный интерферометр с 4-километровыми рукавами. Проекты зданий уже завершены, дороги к объекту подведены, часть оборудования — вакуумные камеры — испытаны в лаборатории. Поскольку проект LIGO-India станет калькой с проекта LIGO-USA, то с передачей технологий и проектной документацией всё хорошо. Индийская сторона просто должна следовать проверенным рекомендациям и повторить уже реализованный проект."

https://3dnews.ru/1085462/v-indii-postroyat-sobstvenniy-detektor-gravitatsionnih-voln-eto-na-poryadok-uluchshit-tochnost-opredeleniya-istochnikov-sobitiy-v-nebe
1
#truedetective #openings

Шедевр.

When the last light warms the rocks,
And the rattlesnakes unfold,
Mountain cats will come
To drag away your bones.
So rise with me forever,
Across the silent sand,
And the stars will be your eyes,
And the wind will be my hands...

https://www.youtube.com/watch?v=ZRPpCqXYoos
1
#книга
Jakub M. Tomczak "Deep Generative Modeling"
По ощущениям это как раз книга для продвинутого ML, т.к. в стандартных программах не всегда глубокие генеративные модели подробно излагаются. Автор довольно известен, у него очень симпатичный сайт и доклады о генеративных моделях на разных научных школах. Там и блог есть, но в нём излагаются главы книги.

Минус у книги один:
- не смотря на объём, глубоко в специфику отдельных методов автор не погружается.

Зато много плюсов:
+ обзор всех популярных классов генеративных моделей;
+ для каждого класса даётся перечень приёмов/улучшений со ссылками на первоисточниками;
+ даны примеры кода.
11
#ml #featureselection #experiment #advicewanted

Готовлю большое сравнение методов отбора признаков (Feature Selection) на синтетическом датасете (12k rows, 240 numerical columns, 7 categorical columns), сделанном из реального. Наблюдения я перемешиваю по каждому признаку, удаляя любые старые корреляции, но сохраняя распределения. Затем создаю точно известные вероятностные (нелинейные) связи таргета с небольшим количеством числовых и категориальных признаков, причём у большинства признаков связь формируется на всей области определения, у двух - только на тех наблюдениях, где их значения одновременно меньше их выборочных средних (а-ля Проблема XOR).

Задача бинарной классификации. Планирую 2 режима:
1) вероятность позитивного исхода ПОЛНОСТЬЮ определяется входами.
2) вероятность позитивного исхода лишь частично определяется входами (признаки сдвигают среднюю вероятность на 5-10%, имитируем неполную осведомлённость наблюдателя о всех влияющих факторах).
Всё это для 2 вариантов средней частоты позитивного класса: высокой, около 30%-50%, и низкой (несбалансированный набор), около 3%-5%.

Метрики хочу взять в вероятностном пространстве: BrierScore, CRPS. Можно добавить и "обычные" для классификации метрики (accuracy, precision, recall, f1, etc.), но в несбалансированном режиме при низкой частоте они будут иметь мало смысла из-за низкого % реализаций положительного класса.

Классификаторов хочу использовать несколько: логрег, лес, бустинг, бустинг с ранней остановкой (ES).

Методы FS: по сути хочу попробовать все из sklearn,+BorutaPy+BorutaShap. Как вариант, есть ещё идея своего multivariate filter: та же Mutual Information (MI), но над всеми парами фичей, вместо индивидуальных признаков (плюс свои тонкости для пар вида число-категория).

How the process is organized:
1) each estimator`s performance is shown on a CV using
1) all features
2) only influencing features
3) raw probability feature
4) features selected by the FS step in a pipeline
features selected on all CV subsets are reported along with their frequencies
5) features EXCEPT the influencing features
early stopping is used where possible, results are reported separately.
2) as a reference, Brier score of ideal (true) probs, shuffled probs, mean target freq are given
3) resulting variables impact is analyzed & reported.
libs used are SHAP and RAPIDS (cuml)

Если есть пожелания и советы к организации процесса, положительный опыт использования каких-то фичеселекторов, присылайте свои мудрые замечания в личку или комменты.
👍521