Aspiring Data Science – Telegram
Aspiring Data Science
386 subscribers
465 photos
12 videos
12 files
2.15K links
Заметки экономиста о программировании, прогнозировании и принятии решений, научном методе познания.
Контакт: @fingoldo

I call myself a data scientist because I know just enough math, economics & programming to be dangerous.
Download Telegram
#war #politics #relocation #savva

Поразительно, какая каша у этого человека (математика, доктора наук) в голове. Корпорации хотят чтоб люди не размножались, религиозное знание достоверно. Миллионы самых активных и умных людей, покинувшие Россию после начала войны - глупцы, не способные предвидеть последствия своих поступков.

https://www.youtube.com/watch?v=UabGSrpEV5c
#hardware #cpu #amd

"Флагманской моделью серии является 96-ядерный Ryzen Threadripper PRO 7995WX с поддержкой 192 виртуальных потоков, работающий в диапазоне частот от 2,5 до 5,1 ГГц. Процессоры Ryzen Threadripper PRO 7000 предназначены для использования с новой платформой WRX90. Для неё заявляется поддержка восьмиканальной оперативной памяти DDR5-5200 общим объёмом до 2 Тбайт, поддержка 148 (доступны 144) линий PCIe, до 128 из которых относятся к стандарту PCIe 5.0, поддержка разгона процессоров, оперативной памяти, а также наличие дополнительных функций для удалённого управления и повышения безопасности."

https://3dnews.ru/1094721/amd-predstavila-desktopnie-hedtprotsessori-ryzen-threadripper-7000-i-modeli-ryzen-threadripper-7000-pro-dlya-rabochih-stantsiy
#politics #war

А вот другой приспособленец, а скорее даже, мурло пропагандонское, т.н. гоблач. Единственная критика современной исполнительной власти, что он себе позволял, это стеб над Медведевым, когда тот грел кресло. А так оправдает любое преступление, ложь, некомпетентность руководства страны. Язык подвешен отлично, врёт складно. Плюс много читает, много знает. Как он классифицирует резню евреев, устроенную недавно террористами Хамаз? "Порезвились, за каким-то бесом". Редкостный ублюдок, однако.

https://vk.com/video-3156562_456246881
👍1👀1
#ml

Чёт задумался: что, если в большинстве примеров датасета точность прогноза примерно на одном уровне, но в некоторые нечастые моменты (например, при стечении некоторых обстоятельств) она резко повышается или резко падает? Как это увидеть при моделировании?
#huang #nvidia

Удивительно, насколько Дженсен в теме про ИИ, графику и железо. Также интересен его подход к управлению компанией.
А ещё он считает, что развитие ИИ вовсе не приведёт к безработице - напротив, с увеличением производительности компании станут больше нанимать для более глубоких исследований.

"Дженсен Хуанг родился на Тайване 60 лет назад; когда он был ребёнком, его семья перебралась сначала в Таиланд, а затем в США. Решение о создании NVIDIA было принято в 1993 году на встрече с двумя другими учредителями в ресторане Denny’s в калифорнийском Сан-Хосе. До этого Хуанг успел поработать в AMD и LSI Logic; сейчас же он уверяет, что не стал бы создавать собственную компанию, будь ему снова 30 лет.

В недавнем интервью подкасту Acquired лидер NVIDIA заявил, что главная «сверхспособность» предпринимателя — способность обмануть самого себя и заставить себя поверить, что «не так уж это и сложно». А самый большой его страх — неспособность поддержать сотрудников на пути к успеху, и этот вопрос терзает его с самого основания компании: приходящие в компанию новые сотрудники в итоге начинают верить в её видение и принимают устремления NVIDIA как свои собственные. Налаженная в компании «сеть поддержки» помогла подчиненным ни разу не разочароваться в нём за все 30 лет, говорит Хуанг, и это позволило NVIDIA стать такой, какой она является сегодня."

https://youtu.be/y6NfxiemvHg
#supercomputers #hardware

"Ливерморская национальная лаборатория им. Э. Лоуренса (LLNL) Министерства энергетики США опубликовала видео (см. ниже), демонстрирующее процесс сборки вычислительного комплекса El Capitan, которому предстоит стать самым мощным суперкомпьютером мира. В текущем рейтинге TOP500 лидирует система Frontier, установленная в Национальной лаборатории Окриджа (ORNL), также принадлежащей Министерству энергетики США. Быстродействие Frontier достигает 1,194 Эфлопс.

Суперкомпьютер El Capitan сможет демонстрировать производительность более 2 Эфлопс (FP64). Сборка комплекса началась в июле нынешнего года, а ввод в эксплуатацию запланирован на середину 2024-го. Стоимость проекта оценивается приблизительно в $600 млн. В основе El Capitan — платформа HPE Cray Shasta.

В проекте El Capitan задействованы сотни сотрудников LLNL и отраслевых партнёров. Суперкомпьютер состоит из тысяч вычислительных узлов и требует столько же энергии, сколько город среднего размера. В течение нескольких лет специалисты готовили инфраструктуру для El Capitan, создавая подсистемы электропитания и охлаждения, устанавливая компоненты и монтируя сетевые соединения. После запуска суперкомпьютер будет использоваться для решения задач в сферах ядерной энергетики, национальной безопасности, здравоохранения, изменений климата и пр."

https://youtu.be/MPRjIlgVwlg
#physics

Удивительно, оказывается, концепция супердетерминизма всё ещё оставляет лазейку идеям Эйнштейна! Как тут не задуматься о предопределённости бытия и не стать фаталистом... Хотя, кажется, супердетерминизм сродни идеям, что в центре каждой ЧД есть новая вселенная (да ещё со своими физическими законами), или что частица не просто выбирает одну из случайных траекторий, а нас самом деле проходит их все, но только в параллельно ветвящихся вселенных.

https://youtu.be/gKWN5y5O-6s
#probabilities #outcomes #synthetic #calibration #decisionmaking #python

Зная вероятности событий, сгенерировать по ним возможные бинарные исходы тривиально. Проще всего сравнить вероятность со случайным числом из интервала [0;1], если число оказалось меньше исходной вероятности, записываем в исход 1, иначе 0.

Внезапно возникла обратная задача: мы знаем исходы (они взяты из реального процесса), но интересно, какие ground truth вероятности могли бы привести к таким исходам? Для чего это может понадобиться: я тестирую систему принятия решений по ML модели, и хочется понять границы возможностей такой связки для конкретной задачи. Допустим, нам удалось построить "идеальную" в вероятностном плане модель, т.е. прекрасно откалиброванную (раз она сказала в какие-то моменты, что вероятность положительного исхода 60%, то примерно в 60% случаев такой исход и случился) - чего тогда можно ожидать от неё в плане онлайн метрик? Понятно, что получить такую модель сложно, часто и невозможно, но нам же хочется знать, каких результатов вообще возможно достичь?

И вот тут оказалось сложнее, чем кажется. Попробуйте поставит текст на паузу и предложить решение )

На удивление, ИИ в лице Чат ГПТ оказался совершенно бессилен, и пришлось думать. (Если сможете получить от него ответ, напишите.)

@njit()
def generate_probs_from_outcomes(
outcomes: np.ndarray, chunk_size: int = 20, scale: float = 0.1, nbins: int = 10, bins_std: float = 0.1, flip_percent: float = 0.6
) -> np.ndarray:
"""Can we generate hypothetical ground truth probs knowing the outcomes in advance?
Our model probs will (hopefully) be calibrated. So, we need synthetic probs to be calibrated, too. With some degree of fitness.
We also need to cover broad range of probs.
So, how to achieve this?

0) if flip_percent is specified, for a random portion of data zeroes and ones are flipped. this will lower ROC AUC.
1) we can work with small random chunks/subsets of data
2) for every chunk, its real freq is computed.
3) for every observation, 'exact' prob is drawn from some distribution (uniform or, say, gaussian) with center in real freq.
then, if bins_std is specified, constant bin noise is applied to all observations of the chunk.

final result is clipped to [0,1]
"""
n = len(outcomes)
indices = np.arange(n)
np.random.shuffle(indices)

probs = np.empty(n, dtype=np.float32)
bin_offsets = (np.random.random(size=nbins) - 0.5) * bins_std

if flip_percent:
# flip some bits to worsen our so far perfect predictive power
flip_size = int(n * flip_percent)
if flip_size:
outcomes = outcomes.copy()
flip_indices = np.random.choice(indices, size=flip_size)
outcomes[flip_indices] = 1 - outcomes[flip_indices]

l = 0 # left border
for idx in range(n // chunk_size): # traverse randomly selected chunks/subsets of original data
r = (idx + 1) * chunk_size # right border
freq = outcomes[l:r].mean() # find real event occuring frequency in current chunk of observation

# add pregenerated offset for particular bin
bin_idx = int(freq * nbins)
freq = freq + bin_offsets[bin_idx]

# add small symmetric random noise. it must be higher when freq approaches [0;1] borders.
probs[l:r] = freq + (np.random.random(size=chunk_size) - 0.5) * scale * np.abs(freq - 0.5)

l = r

return np.clip(probs, 0.0, 1.0)
#trading #books

Со многими рекомендациями согласен, кроме Карвера/Винса/Кауфман (хотя The Leverage Space Trading Model не читал, кажется любопытной). Элерса надо бы прочесть.

И надо будет найти Permutation and Randomization Tests for Trading System Development, Statistically Sound Indicators For Financial Market Prediction, The Universal Tactics of Successful Trend Trading, Cybernetic Trading Strategies.

"I love money and I have no shame" понравилось ))

https://www.youtube.com/watch?v=ftFptCxm5ZU
Forwarded from Записки Ппилифа (Ppilif)
https://habr.com/ru/companies/X5Tech/articles/768008/

Вот есть в ВУЗах курс по эконометрике. Чаще всего его читают плохо, либо в контексте каких-нибудь очень специфичных экономических данных. У студентов в итоге остаётся осадочек, что это бесполезная фигня.

А на самом деле нет. Вся эконометрика — это про АБ-тестирование. Все “современные” методы вроде DnD и CUPED это ребрендинг линейной регрессии. Я довольно давно топлю за то, что про линейную регрессию надо рассказывать именно с точки зрения АБ-тестов, а не каких-нибудь экономических моделей. В прошлом семестре даже лекцию про это собрал.

Ребята из X5 тоже понимают, что линейная регрессия это про АБ и раскатили у себя целый пайплайн для тестов. В статейке подробное описание, а бонусом в комментах срач с Валерой Бабушкиным (я не участвовал).

Статья очень хороша.
🔥1
#db #duckdb #columnar #featurestore

Что интересно, запросы слать в duckdb можно через psycopg, и используется PostgreSQL диалект. Ингест из файлов, судя по презенташке, очень быстрый. Поддерживает сжатие. Колоночная СУБД. Может читать в сессии питона напрямую из фреймов пандас и массивов нампай. Кандидат на featurestore?

https://www.youtube.com/watch?v=q_SKaOeRiOI