Aspiring Data Science – Telegram
Aspiring Data Science
386 subscribers
465 photos
12 videos
12 files
2.15K links
Заметки экономиста о программировании, прогнозировании и принятии решений, научном методе познания.
Контакт: @fingoldo

I call myself a data scientist because I know just enough math, economics & programming to be dangerous.
Download Telegram
#astronomy #surdin

Достойный человек этот Сурдин. Профессионал, хороший лектор, действительно любит астрономию. Против войны. Я часто ловлю себя на мысли, какой бы это классный был руководитель Роскосмоса, вместо очередного путинского вора. С Сурдиным мы бы уже давно полетели на Энцелад и построили базы на Луне и Марсе. На его "Неземной подкаст" можно подписаться на бусти, от 200 р./мес. Я вот подписался, чтобы поддержать его просветительские выпуски. Там пока всего 188 человек. Кто со мной?
PS. Ого ) Спасибо тем, кто подписался, приятно.
1
#ml #applied #dyakonov #pzad

На 16:48 про генерацию некоррелирующих признаков MAD из двух видов средних подумалось провести мини-исследование: нагенерить много случайных 1d массивов с разным распределением, возможно, взять какие-то реальные датасеты, для них всех рассчитать все возможные комбинации таких средних и MAD, посмотреть, какие наиболее некоррелированы (в линейном смысле и смысле взаимной информации) с остальными того же датасета. Возможно, даже потестировать предсказательную силу таких фичей (если составить искусственные зависимости) по сравнению со случайной подвыборкой. Не знаю, можно ли тут ожидать вообще какого-то стабильного обобщения, но если такое вдруг обнаружится, это позволит в реальной работе быстро проверять экзотические "киллер фичи", до которых в конкретном проекте и руки бы не дошли.. Хм, тогда уже и комбинации математических операций полезные исследовать на 18:40.

https://www.youtube.com/watch?v=kOaMvRo2YPI
Серый АВ - что делать дальше?

Недавно АВ важной для меня фичи покрасился в серый. Эмоционально я прям расстроился. Если у вас тоже такое бывает, то помните о 4 важных вещах:

1. Проверьте ваш MDE и процедуру тестирования
Убедитесь, что нет багов, и вы можете детектить достаточно маленькие эффекты (MDE - minimum detectable effect). Часто разумный эффект на крупной метрике задетектить статистически невозможно - переходите к прокси. Например, от общей конверсии к конверсии определенного шага воронки

2. Около 70% АВ тестов серые, и это нормально
В тестах мы проверяем гипотезы. И какими бы гениальными вы ни были, 2 из 3 ваших невероятных идей ничего не принесут в бизнес-метриках - это неприятно, но факт. Поэтому лучше учиться быстро проверять много гипотез, а не делать ставку на одну крупную

3. Серый АВ дает знание о том, чего делать дальше НЕ нужно
Знать, что точно не работает - прекрасно. Поэтому обычно из пула гипотез (про персональные рекомендации, способы оплаты и тп) тестируют самую сильную. И если она не работает - возможно, вам нужно копать в другую сторону

4. А что еще хорошего приносит ваша фича?
Может быть, технической стабильности - теперь не нужно дежурить по ночам? Или лучше RPS? Или прозрачность для бизнеса? В денежных метриках это не измерить, но такие вещи тоже очень важны


В общем, если ваш АВ вдруг стал серым, вспомните про эти 4 пункта,
выдохните, и продолжайте тестировать новые гипотезы 😉
#ml #classificaion #probabilistic #brierscore

Возвращаясь к недавнему посту про оценку Бриера, суммаризирую:

1) Бриер=0 достигается не просто когда вероятности идеально откалиброваны. Для "нулевых" примеров предсказанные вероятности должны быть строго равны нулю, для "единичных" - единице.
2) в реальной задаче Бриер даже очень хорошей модели никогда не достигнет 0
3) более того, в каждой задаче своё распределение таргета, соответственно, минимально и максимально достижимые Бриер скоры РАЗНЫЕ. Например, для упоминавшегося выше равномерного распределения, Бриер идеальной модели стремится к 0.166, нерелевантной модели к 0.333, "антимодели" к 0.5
4) вещи становятся страннее, когда меняется распределение таргета. для "ненормального" и уж точно не равномерного таргета с картинки в комментах Бриер идеальной модели 0.221, Бриер перемешанных примеров 0.238, Бриер DummyClassifier (всегда предсказывает фактическую частоту класса 1) 0.230.

Т.е. абсолютная разница в оценках Бриера может быть мизерная, хотя на самом деле сравниваются идеальная модель и "почти случайное" угадывание.

Вывод: в каждом случае оценивайте границы оценок Бриера, хотя бы косвенными методами, прежде чем принимать решение о качестве модели.
👍21
#ml #python #earlystoppping

У нас недавно было обсуждение ранней остановки для sklearn-овских моделей, напрямую ES не поддерживающих. Я не смог нагуглить никакого готового решения, что кажется крайне странным для мирового DS сообщества. Кто попробует написать такую универсальную ES-обёртку? Если эстиматор поддерживает parial_fit, надо юзать его, если нет, пересоздавать с разными niters/nestimators. для validation set желательно передавать не только fraction:float, но и shuffle:bool. И хорошо бы сделать сравнение vanilla/ES-powered на паре задач. Ведь по сути отстутствие ES, как мне кажется, убивает применимость многих классов моделей в реальной работе. Я не помню, чтобы я где-то использовал SVM или леса в чистом виде из-за боязни оверфита. Для GradientBoostingClassifier ES соизволили сделать, но без shuffle, т.е., с временными рядами такой ES будет неприменим.
Forwarded from NOdata Миша
Как понять, что пора искать новую работу?

Многие ответят на этот вопрос словами «Ну когда на текущем месте работы трудно расти дальше» или «Когда не получаешь удовольствие от своей работы» и подобные ответы.

Я с ними не согласен, это, конечно все важно, но вот только это не бинарные величины, мы не можем сказать, что сейчас мы кайфуем от работы на 0, а после перехода на новое место будем кайфовать на 1, скорее правильнее будет сказать сейчас я счастлив на работе на 5 из 10, а хочу больше. И возникает вопрос «А можно ли больше?».

Самый простой способ ответить на этот вопрос - проходить собесы, ну или хотя бы смотреть вакансии. Проходя собесы, ты будешь составлять картину того, что тебе могут предложить в других местах - какую зп, какие обязанности. Понимая, то что тебе готовы предложить и что имеешь на данный момент ты будешь готов ответить на вопрос «Пора?»
Forwarded from Записки C3PO
Мои кореша (читайте это голосом Дудя) из GoPractice наконец-то выпустили новый симулятор - "Симулятор управления ML/AI-проектами"!

В симуляторе вы станете главным героем увлекательной истории, где будете работать над тремя проектами с машинным обучением. Все нацелено на то, чтобы помочь вам на практике освоить скилы управления проектами с машинным обучением, даже если у вас нет навыков программирования или глубокого знания математики. Если вы давно хотели попробовать свои силы в машинном обучении, то данный симулятор - идеальный способ для старта.

Мне очень нравится контент и продукты, которые выпускает команда GoPractice. Всегда высокий уровень и качество. И этот курс не исключение: не просто собранный на коленке онлайн-курс по машинному обучению, а продукт, который разрабатывался более трех лет!

Давно ждал появления симулятора, так как подобный формат - это лучший способ, на мой взгляд, получить знания и практику применения ML теории, решая реальные кейсы, а не слушая бесконечные лекции и решая тесты после них.

Присоединиться можно по ссылке https://gopractice.ru/course/ml/.
#ml #applied #dyakonov #pzad

Крайне интересная идея о дополнительных фичах: взять одномерный сигнал, предсказывать его на N шагов (каким-то простым способом), считать от такого прогноза разные метрики, и уже их использовать как фичи (ну и сами коэффициенты приближения). Высший пилотаж.

https://youtu.be/zX7hzjVBqeM?list=PLaRUeIuewv8CMFox0oEjlyePUhUmo-x0h&t=151
3
#gpt

"О своём опыте общения с ИИ агентству Bloomberg рассказал Майло Ван Слик (Milo Van Slyck), работающий помощником юриста в Чарльстоне (США, шт. Южная Каролина) — у него нестандартный подход к собственной идентичности, который не могут принять его родители, придерживающиеся характерных для южного штата традиционных ценностей. Пропустив встречу со своим психотерапевтом в начале апреля, Ван Слик решил обратиться к ChatGPT и обнаружил, что общение с ИИ дало ему ощущение психологического комфорта.

«Когда снова увидитесь с родителями, важно будет расставить приоритеты в ваших потребностях и благополучии. Подумайте, что вам нужно, чтобы ощущать комфорт и безопасность в их присутствии. Это нормально — устанавливать границы того, сколько времени вы с ними проводите, каких тем не следует касаться, и как они относятся к вам и вашей идентичности», — такой совет ChatGPT дал «пациенту», у которого назрел конфликт с родителями."

https://3dnews.ru/1085307/vmesto-pohoda-k-psihoterapevtu-lyudi-stali-obrashchatsya-k-chatgpt-hotya-posledstviya-mogut-bit-nepredskazuemimi
#vk

Давно пора было.

"При активном фильтре нецензурных выражений относящиеся к ненормативной лексике слова и выражения в публикациях и комментариях заменяются на набор символов. При необходимости пользователь сможет увидеть их в исходном виде — соответствующая плашка появляется при клике на скрытые системой слова.

Новая функция является частью общей стратегии платформы по формированию комфортной цифровой среды для всех пользователей. Ранее администрация соцсети предложила им функцию «Личное пространство», которая позволяет оградить себя от лишнего внимания и нежелательных собеседников; а также уведомления о подозрительных собеседниках в фирменном мессенджере."

https://3dnews.ru/1085326/polzovateli-vkontakte-teper-mogut-skrivat-nenormativnuyu-leksiku-v-publikatsiyah-i-kommentariyah
👎1
#hardware

"Новинка одной из первых на рынке предлагает поддержку разрешения 4K и частоты обновления 240 Гц. Яркость представленного дисплея составляет 400 кд/м2. Производитель также заявляет для дисплея скорость отклика в 1 мс и 95-процентный охват цветового пространства DCI-P3.

Показанная компанией 65-дюймовая панель поддерживает разрешение 7680 × 4320 (8K) и частоту обновления до 120 Гц."

https://3dnews.ru/1085319/auo-pokazala-novinki-s-antiblikovoy-tehnologiey-art-32dyuymoviy-4kmonitor-s-chastotoy-240-gts-i-65dyuymovuyu-8kpanel-s-chastotoy-120-gts
#facebook

"Первыми под сокращения попали сотрудники кадровой службы, сейчас настал черёд технических специалистов, а в мае увольнения ждут работников бизнес-сегмента компании. По некоторым оценкам, в текущем раунде Meta* потеряет 4000 человек из запланированных 10 000. Многие теперь уже бывшие сотрудники компании публично сообщили о своих увольнениях в профессиональной соцсети LinkedIn и на других ресурсах. Одним из них стал глава подразделения, обеспечивающего благополучие пользователей платформ Meta* — оно производит «надзор за стратегией в области проблемного использования, запугивания и преследования, а также других ключевых вопросов». Компания также решила объединить подразделения, занимающиеся модерацией рекламы и пользовательского контента, хотя здесь никаких сокращений не будет.

В марте Цукерберг заявил, что в рамках реструктуризации будет произведено выравнивание организационной структуры Meta*, отменены менее приоритетные проекты, а также сокращены найм и кадровая служба компании. В общей сложности планируется увольнение примерно 10 000 человек и ликвидация 5000 вакансий. В ноябре компания анонсировала сокращения 11 000 человек, и до начала этой процедуры её численность на конец года была 86 482 человека. Это значит, что по окончании двух этапов увольнения в ней останутся около 66 000 сотрудников. Некоторые из попавших под сокращения въехали в США по рабочей визе H-1B, а значит, у них будет 60 дней, чтобы найти новую работу — в противном случае придётся покинуть страну.

Объявленному главой Meta* «году эффективности» предшествовал неудачный 2022 год, когда выручка компании упала на 4 %, а расходы выросли на 22 %. Это отчасти связано с изменениями политики конфиденциальности Apple iOS, которые обошлись гиганту соцсетей в $10 млрд. Ещё $13,7 млрд компания потеряла на подразделении Reality Labs, занимающемся разработками в сфере метавселенной — при этом Марк Цукерберг уже охладел к этому направлению и назвал новым приоритетом ИИ."

https://3dnews.ru/1085366/v-meta-nachalsya-ocherednoy-raund-sokrashcheniy-rabotu-poteryayut-tisyachi-tehnicheskih-spetsialistov
1
#tesla #autopilot


Прям как я , когда оцениваю сроки выполнения работы.

"Летопись обещаний главы Tesla внедрить полный автопилот на электромобилях этой марки к концу года тянется c 2019 года, и поскольку сейчас в самом разгаре 2023 год, а соответствующая технология до сих пор не внедрена, Илону Маску (Elon Musk) на отчётной конференции Tesla на этой неделе пришлось давать новый прогноз на эту тему. Без привычной уверенности он заявил, что рассчитывает представить полный автопилот до конца текущего года."

https://3dnews.ru/1085370/o-vozmognosti-vnedrit-polniy-avtopilot-v-etom-godu-ilon-mask-zayavil-ne-stol-reshitelno-kak-ranshe
🤡1
#spacex #starship #astronomy #superheavy

"Уже тот факт, что ракета оторвалась от земли и пролетела несколько минут, является успехом для SpaceX — это ведь был лишь первый тест с запуском Starship в полностью собранном состоянии. Данные, собранные сегодня, помогут лучше подготовиться к следующим пускам. Starship состоит из огромного ускорителя (первой ступени), называемой Super Heavy, а также космического корабля (верхней ступени), известного как Starship. В текущем испытательном полете использовался 24-й прототипы корабля и седьмой ускорителя."


https://3dnews.ru/1085165/spacex-vpervie-zapustila-v-kosmos-ogromniy-raketu-starship
1