Aspiring Data Science – Telegram
Aspiring Data Science
386 subscribers
465 photos
12 videos
12 files
2.15K links
Заметки экономиста о программировании, прогнозировании и принятии решений, научном методе познания.
Контакт: @fingoldo

I call myself a data scientist because I know just enough math, economics & programming to be dangerous.
Download Telegram
Что-то мне уже кажется, что проще самому написать поднятие контейнера с установленным dask для воркеров и шедулера, присоединение к кластеру, отработку задач и удаление кластера, чем убеждать команду coiled из 30 человек добавить функциональность многопроцессовости, раз уж они за несколько лет не захотели/не смогли/не догадались это сделать. Ну как так можно работать, тупо штаны протирать годами. Я за 1 день столько проблем увидел, требующих решения, а у них там и конь не валялся, хотя в штате 30 высококлассных спецов и это платный сервис, т.е. они должны быть заинтересованы в развитии продукта. Самая очевидная проблема в подборе инстансов, регионов и облаков оптимальных по цене/скорости работы для данной клиентской нагрузки. А они в доке уныло бубнят, мол, мы не знаем, какой инстанс будет лучше для вашей задачи, попробуйте сами несколько.. Так блять сделайте удбную фишку для клиента, чтобы его нагрузка бенчилась автоматом на нескольких инстансах,и потом ему предлагалась лучшая конфигурация, возьмите за это больше денег.. Добавьте ML чтобы предсказывать производительнось, не гоняя нагрузку на всех 100500 возможных инстансах... Да нет, нахер надо.
А, так у них ещё и конский ценник.

10,000 CPU-hours free every month
$0.05 per CPU-hour thereafter
Bulk discounts starting at $10,000
(Costs are in addition to your AWS or Google Cloud costs, which we work to help you minimize.)

Эти 10k CPU-часов пролетят незаметно, за сутки работы 200 мелких машинок с 2 ядрами. А потом надо будет платить coiled по сути БОЛЬШЕ, чем за сами сервера облачному провайдеру, потому что на спот-рынке даже не самые мелкие 2 vCPU сервера стоят $0.0134/hr. А Coiled за такой будет брать уже 0.05*2=$0.1/hr, фига себе, в 10 раз больше.
Разные области математики в представлении бота Kandinsky 2:

- Mathematical analysis
- Linear algebra
- Abstract algebra
- Topology
- Geometry
- Mathematical statistics and probability
- Number theory
- Equations of Mathematical Physics
- Category theory
- Foundations of Mathematics (4k).

P.S. Чтобы не получать в генерации обложки учебников, можно добавить модификатор стиля (4k) или переформулировать запрос
2❤‍🔥1🆒1
Forwarded from Борис опять
#работа
Посмотрел резюме, которые нам прислали через линкдин (не отсюда) на вакансию Data Engineer. И это фестиваль кринжа.

Мое любимое из разных резюме:
* Резюме на 12 страниц
* Парень, который вставил в резюме сканы шести своих бангладешских дипломов
* Ярко синий текст на белом фоне
* Прошлое место работы: клерк в банке
* Прошлое место работы: студент магистратуры
* Прошлое место работы: настраивал Майкрософт ворд и все такое
* Всратые пережатые сотней шакалов фотки
* Таблица на половину страницы, показывающая уровень знания четырёх языков в разрезе райтинг, листенинг, спикинг
* Простыня текста на половину первой и половину второй страницы
* Никакой верстки, просто ворд документ с текстом сплошняком сверху вниз. 3 страницы
* Резюме из конструкторов резюме с кучей разноцветных иконок
* Резюме файлом в формате .docx

Я и не предполагал, что обычное резюме из одной страницы, сверстанное в латехе, это такое большое преимущество. Среди всей пачки из 30+ резюме таких нашлось три штуки
👍2
#ml #metrics #brier

Как известно, оценка Бриера (Брайера?) для бинарного классификатора представляет собой по сути среднеквадратическую ошибку между реальными исходами и предсказанными вероятностями. В теории это число между 0 и 1, где 0 означает идеальную калибрацию (из всех событий, предсказанных с вероятностью 25%, реализовались точно 25%, и тд). Я на эту метрику в работе часто смотрю, т.к. откалиброванность модельки очень важна, особенно когда бизнес-решения принимаются на вероятностях. И вот сегодня узнал нечто новое. Задумался, а чего вообще можно ожидать от модели, идеально предсказывающей вероятности, в терминах оценки Бриера. Давайте для этого скрафтим реализации миллиона событий, следующие заранее известным вероятностям:

probs = np.random.uniform(size=1000_000)
realizations = np.random.uniform(size=len(probs))
realizations = (realizations < probs).astype(np.int8)

В теории, у нас теперь есть массив единичек и нулей realizations, порождённый "истинными" вероятностями probs. Если ситуацию перевернуть, рассмотреть probs как вероятности, предсказанные моделью машинного обучения, а realizations как то, что мы реально пронаблюдали в жизни, то подобная точность должна быть мечтой любого ML-щика!
1
↑ Какой же будет оценка Бриера для такой отличной модели? Что выдаст brier_score_loss(realizations, probs)?
Anonymous Quiz
0%
0
38%
0.166
25%
0.5
38%
1
А что, если реализации никак не связаны с вероятностями? realizations = (realizations < 0.5).astype(np.int8), какой будет оценка Бриера?
Anonymous Quiz
13%
1
63%
0.5
13%
0.33
13%
0
Ну и последнее. Что за оценку получит "антимодель", которая прогнозирует, что событие не случится, а оно обычно случается, и наоброт? realizations = (realizations > probs).astype(np.int8)
Anonymous Quiz
33%
1
22%
0.99
44%
0.5
0%
0
#astronomy #surdin

Достойный человек этот Сурдин. Профессионал, хороший лектор, действительно любит астрономию. Против войны. Я часто ловлю себя на мысли, какой бы это классный был руководитель Роскосмоса, вместо очередного путинского вора. С Сурдиным мы бы уже давно полетели на Энцелад и построили базы на Луне и Марсе. На его "Неземной подкаст" можно подписаться на бусти, от 200 р./мес. Я вот подписался, чтобы поддержать его просветительские выпуски. Там пока всего 188 человек. Кто со мной?
PS. Ого ) Спасибо тем, кто подписался, приятно.
1