NEW BOT Телеграм, страница

Aspiring Data Science

#ml

Чёт задумался: что, если в большинстве примеров датасета точность прогноза примерно на одном уровне, но в некоторые нечастые моменты (например, при стечении некоторых обстоятельств) она резко повышается или резко падает? Как это увидеть при моделировании?

93 viewsAnatoly Alekseev, 11:23

Aspiring Data Science

Forwarded from V-Stock Школа трейдинга Вадима Федосенко

Написал небольшую статейку про динамический хедж - рекомендую!
https://smart-lab.ru/company/alorbroker/blog/951811.php

smart-lab.ru

Как купить акции Сбера и захеджировать их бесплатно

По акциям Сбера выплачивают неплохие дивиденды. В 2023г было выплачено 25р на акцию – 565млрд. По РСБУ Сбер уже

91 viewsAnatoly Alekseev, 12:45

Aspiring Data Science

#timeseries

Классно оформленная презентация!

https://www.youtube.com/watch?v=zmfe2RaX-14

YouTube

Aileen Nielsen - Time Series Analysis - PyCon 2017

"Speaker: Aileen Nielsen

Time series analysis is more relevant than ever with the rise of big data, the internet of things, and the general availability of data that follows events through time. This tutorial will introduce participants to the many versatile…

116 viewsAnatoly Alekseev, edited 06:39

Aspiring Data Science

#huang #nvidia

Удивительно, насколько Дженсен в теме про ИИ, графику и железо. Также интересен его подход к управлению компанией.
А ещё он считает, что развитие ИИ вовсе не приведёт к безработице - напротив, с увеличением производительности компании станут больше нанимать для более глубоких исследований.

"Дженсен Хуанг родился на Тайване 60 лет назад; когда он был ребёнком, его семья перебралась сначала в Таиланд, а затем в США. Решение о создании NVIDIA было принято в 1993 году на встрече с двумя другими учредителями в ресторане Denny’s в калифорнийском Сан-Хосе. До этого Хуанг успел поработать в AMD и LSI Logic; сейчас же он уверяет, что не стал бы создавать собственную компанию, будь ему снова 30 лет.

В недавнем интервью подкасту Acquired лидер NVIDIA заявил, что главная «сверхспособность» предпринимателя — способность обмануть самого себя и заставить себя поверить, что «не так уж это и сложно». А самый большой его страх — неспособность поддержать сотрудников на пути к успеху, и этот вопрос терзает его с самого основания компании: приходящие в компанию новые сотрудники в итоге начинают верить в её видение и принимают устремления NVIDIA как свои собственные. Налаженная в компании «сеть поддержки» помогла подчиненным ни разу не разочароваться в нём за все 30 лет, говорит Хуанг, и это позволило NVIDIA стать такой, какой она является сегодня."

https://youtu.be/y6NfxiemvHg

YouTube

NVIDIA CEO Jensen Huang

We finally sit down with the man himself: Nvidia Cofounder & CEO Jensen Huang. After three parts and seven+ hours of covering the company, we thought we knew everything but — unsurprisingly — Jensen knows more. A couple teasers: we learned that the company’s…

100 viewsAnatoly Alekseev, edited 13:40

Aspiring Data Science

#trading

https://www.youtube.com/watch?v=HFt4teGC71g

YouTube

Путь в алготрейдинг.

11 октября в 19:30 проведу открытый вебинар "Как создавать торговых роботов для криптобирж и Московской биржи".

Вебинар подходит для:
- новичков, которые хотят освоить новую сферу деятельности
- программистов, которые хотят стать профессионалами для мировых…

100 viewsAnatoly Alekseev, 04:15

Aspiring Data Science

#supercomputers #hardware

"Ливерморская национальная лаборатория им. Э. Лоуренса (LLNL) Министерства энергетики США опубликовала видео (см. ниже), демонстрирующее процесс сборки вычислительного комплекса El Capitan, которому предстоит стать самым мощным суперкомпьютером мира. В текущем рейтинге TOP500 лидирует система Frontier, установленная в Национальной лаборатории Окриджа (ORNL), также принадлежащей Министерству энергетики США. Быстродействие Frontier достигает 1,194 Эфлопс.

Суперкомпьютер El Capitan сможет демонстрировать производительность более 2 Эфлопс (FP64). Сборка комплекса началась в июле нынешнего года, а ввод в эксплуатацию запланирован на середину 2024-го. Стоимость проекта оценивается приблизительно в $600 млн. В основе El Capitan — платформа HPE Cray Shasta.

В проекте El Capitan задействованы сотни сотрудников LLNL и отраслевых партнёров. Суперкомпьютер состоит из тысяч вычислительных узлов и требует столько же энергии, сколько город среднего размера. В течение нескольких лет специалисты готовили инфраструктуру для El Capitan, создавая подсистемы электропитания и охлаждения, устанавливая компоненты и монтируя сетевые соединения. После запуска суперкомпьютер будет использоваться для решения задач в сферах ядерной энергетики, национальной безопасности, здравоохранения, изменений климата и пр."

https://youtu.be/MPRjIlgVwlg

YouTube

Building El Capitan: How LLNL’s Exascale Supercomputer Came to Be

When Lawrence Livermore National Laboratory’s next-generation supercomputer El Capitan is deployed in 2024, it will likely be the most powerful computing machine in the world, delivering more than two quintillion floating-point operations per second (2 exaFLOPs)…

120 viewsAnatoly Alekseev, 14:21

Aspiring Data Science

#tools #carpentry

Роллс-ройс всех верстаков! )

https://www.youtube.com/watch?v=pvVrVdqA9OE

YouTube

A New Style of Workbench

READ BELOW TO FIND OUT MORE ABOUT THIS BENCH…

****

Thanks to Britton Timbers for supplying the Hard Maple - https://brittontimbers.com.au/

****

Patreon Videos (click on the link to watch a preview before joining)

- Roubo Workbench Review (45mins) - …

104 viewsAnatoly Alekseev, edited 15:21

Aspiring Data Science

#physics

Удивительно, оказывается, концепция супердетерминизма всё ещё оставляет лазейку идеям Эйнштейна! Как тут не задуматься о предопределённости бытия и не стать фаталистом... Хотя, кажется, супердетерминизм сродни идеям, что в центре каждой ЧД есть новая вселенная (да ещё со своими физическими законами), или что частица не просто выбирает одну из случайных траекторий, а нас самом деле проходит их все, но только в параллельно ветвящихся вселенных.

https://youtu.be/gKWN5y5O-6s

YouTube

Нобелевская премия-2022: запутанные частицы, неравенство Белла и структура реальности

Официально открываем нашу новую рубрику, посвящённую разбору содержания открытий, удостоенных Нобелевской премии по физике в различные годы, и сегодня поговорим о премии 2022 года, присуждённой за весьма любопытные эксперименты, призванные установить, насколько…

100 viewsAnatoly Alekseev, 16:17

Aspiring Data Science

#timeseries #irregular #nonperiodic #lombscargle #gatspy

https://www.youtube.com/watch?v=E4NMZyfao2c

YouTube

Aileen Nielsen - Irregular time series and how to whip them

PyData London 2016

This talk will present best-practices and most commonly used methods for dealing with irregular time series. Though we'd all like data to come at regular and reliable intervals, the reality is that most time series data doesn't come this…

120 viewsAnatoly Alekseev, edited 03:25

Aspiring Data Science

#probabilities #outcomes #synthetic #calibration #decisionmaking #python

Зная вероятности событий, сгенерировать по ним возможные бинарные исходы тривиально. Проще всего сравнить вероятность со случайным числом из интервала [0;1], если число оказалось меньше исходной вероятности, записываем в исход 1, иначе 0.

Внезапно возникла обратная задача: мы знаем исходы (они взяты из реального процесса), но интересно, какие ground truth вероятности могли бы привести к таким исходам? Для чего это может понадобиться: я тестирую систему принятия решений по ML модели, и хочется понять границы возможностей такой связки для конкретной задачи. Допустим, нам удалось построить "идеальную" в вероятностном плане модель, т.е. прекрасно откалиброванную (раз она сказала в какие-то моменты, что вероятность положительного исхода 60%, то примерно в 60% случаев такой исход и случился) - чего тогда можно ожидать от неё в плане онлайн метрик? Понятно, что получить такую модель сложно, часто и невозможно, но нам же хочется знать, каких результатов вообще возможно достичь?

И вот тут оказалось сложнее, чем кажется. Попробуйте поставит текст на паузу и предложить решение )

На удивление, ИИ в лице Чат ГПТ оказался совершенно бессилен, и пришлось думать. (Если сможете получить от него ответ, напишите.)

@njit

()
def generate_probs_from_outcomes(
outcomes: np.ndarray, chunk_size: int = 20, scale: float = 0.1, nbins: int = 10, bins_std: float = 0.1, flip_percent: float = 0.6
) -> np.ndarray:
"""Can we generate hypothetical ground truth probs knowing the outcomes in advance?
Our model probs will (hopefully) be calibrated. So, we need synthetic probs to be calibrated, too. With some degree of fitness.
We also need to cover broad range of probs.
So, how to achieve this?

0) if flip_percent is specified, for a random portion of data zeroes and ones are flipped. this will lower ROC AUC.
1) we can work with small random chunks/subsets of data
2) for every chunk, its real freq is computed.
3) for every observation, 'exact' prob is drawn from some distribution (uniform or, say, gaussian) with center in real freq.
then, if bins_std is specified, constant bin noise is applied to all observations of the chunk.

final result is clipped to [0,1]
"""
n = len(outcomes)
indices = np.arange(n)
np.random.shuffle(indices)

probs = np.empty(n, dtype=np.float32)
bin_offsets = (np.random.random(size=nbins) - 0.5) * bins_std

if flip_percent:
# flip some bits to worsen our so far perfect predictive power
flip_size = int(n * flip_percent)
if flip_size:
outcomes = outcomes.copy()
flip_indices = np.random.choice(indices, size=flip_size)
outcomes[flip_indices] = 1 - outcomes[flip_indices]

l = 0 # left border
for idx in range(n // chunk_size): # traverse randomly selected chunks/subsets of original data
r = (idx + 1) * chunk_size # right border
freq = outcomes[l:r].mean() # find real event occuring frequency in current chunk of observation

# add pregenerated offset for particular bin
bin_idx = int(freq * nbins)
freq = freq + bin_offsets[bin_idx]

# add small symmetric random noise. it must be higher when freq approaches [0;1] borders.
probs[l:r] = freq + (np.random.random(size=chunk_size) - 0.5) * scale * np.abs(freq - 0.5)

l = r

return np.clip(probs, 0.0, 1.0)

109 viewsAnatoly Alekseev, edited 03:06

Aspiring Data Science

#trading #marketprofile #kde #prominence #scipy

https://www.youtube.com/watch?v=mNWPSFOVoYA

YouTube

Market Profile and Support/Resistance Levels With Python

In this video I show python code to create the market profile with a kernel density estimate (a.k.a Parzen window). We find and filter peaks of the market profile using prominence to extract support and resistance levels. The code has customizable time weighting…

106 viewsAnatoly Alekseev, edited 09:12

Aspiring Data Science

#trading #books

Со многими рекомендациями согласен, кроме Карвера/Винса/Кауфман (хотя The Leverage Space Trading Model не читал, кажется любопытной). Элерса надо бы прочесть.

И надо будет найти Permutation and Randomization Tests for Trading System Development, Statistically Sound Indicators For Financial Market Prediction, The Universal Tactics of Successful Trend Trading, Cybernetic Trading Strategies.

"I love money and I have no shame" понравилось ))

https://www.youtube.com/watch?v=ftFptCxm5ZU

YouTube

Books for Algorithmic Trading I Wish I Had Read Sooner

In this video I show my favorite books for algorithmic trading. These are not the only books I've read but they are the ones I've found most useful.
Amazon Links (Affiliate links)
Systematic Trading: https://amzn.to/3ClXosm
Trading Systems and Methods: …

103 viewsAnatoly Alekseev, edited 10:57

Aspiring Data Science

Forwarded from Записки Ппилифа (Ppilif)

https://habr.com/ru/companies/X5Tech/articles/768008/

Вот есть в ВУЗах курс по эконометрике. Чаще всего его читают плохо, либо в контексте каких-нибудь очень специфичных экономических данных. У студентов в итоге остаётся осадочек, что это бесполезная фигня.

А на самом деле нет. Вся эконометрика — это про АБ-тестирование. Все “современные” методы вроде DnD и CUPED это ребрендинг линейной регрессии. Я довольно давно топлю за то, что про линейную регрессию надо рассказывать именно с точки зрения АБ-тестов, а не каких-нибудь экономических моделей. В прошлом семестре даже лекцию про это собрал.

Ребята из X5 тоже понимают, что линейная регрессия это про АБ и раскатили у себя целый пайплайн для тестов. В статейке подробное описание, а бонусом в комментах срач с Валерой Бабушкиным (я не участвовал).

Статья очень хороша.

Хабр

От A/B-тестирования к Causal Inference в офлайн ритейле

Приветствуем всех читателей! Сегодня команда Ad-Hoc аналитики X5 Tech приоткроет дверь в увлекательный мир A/B-тестирования Causal Inference. С момента написания предыдущей статьи...

🔥1

77 viewsAnatoly Alekseev, 12:16

Aspiring Data Science

#abtesting #x5

А ещё у поста выше есть приквел )

https://habr.com/ru/companies/X5Tech/articles/466349/

Хабр

Как проводить A/B-тестирование на 15 000 офлайн-магазинах

Привет! На связи команда Ad-hoc аналитики Big Data из X5 Retail Group. В этой статье мы расскажем о нашей методологии A/B-тестирования и сложностях, с которыми мы ежедневно сталкиваемся. В Big Data Х5...

107 viewsAnatoly Alekseev, 12:30

Aspiring Data Science

#db #duckdb #columnar #featurestore

Что интересно, запросы слать в duckdb можно через psycopg, и используется PostgreSQL диалект. Ингест из файлов, судя по презенташке, очень быстрый. Поддерживает сжатие. Колоночная СУБД. Может читать в сессии питона напрямую из фреймов пандас и массивов нампай. Кандидат на featurestore?

https://www.youtube.com/watch?v=q_SKaOeRiOI

YouTube

Gábor Szárnyas - DuckDB: The Power of a Data Warehouse in your Python Process

Gábor Szárnyas, a Developer Relations Advocate and Technical Writer at DuckDB Labs, provides a talk on “DuckDB: The Power of a Data Warehouse in your Python Process.”

DuckDB is an in-process analytical database management system, a powerful data warehouse…

116 viewsAnatoly Alekseev, edited 16:23

Aspiring Data Science

#trading

Очень рассудительно и понятно. 2 hrs weather forecast понравилось. Ведущий по-своему уникален абсолютно неразборчивой речью )

https://www.youtube.com/watch?v=Jjv7DC4-Bf4

YouTube

Secrets To Scalping For A Living - Jean-Francois Boucher | Trader Interview

In this Forex trading video, Etienne sits down with Jean-Francois Boucher, and they discuss secrets to scalping for a living. Learn how to measure volatility and get an exclusive glimpse of his day's live trade.

Chapters:
00:00 Secrets To Scalping For A…

119 viewsAnatoly Alekseev, edited 16:34

Aspiring Data Science

Forwarded from Small Data Science for Russian Adventurers

#визуализация
Странно, что я ещё не упоминал здесь такой интересный ресурс. Можно использовать для освежения в памяти тем по ML. Полно интересных рисунков по каждой теме. Есть три блока: ML, ML-Engineering, проективная геометрия, по DL совсем чуть-чуть и ресурс не обновляется с начала года.
https://illustrated-machine-learning.github.io/

👍1

85 viewsAnatoly Alekseev, 11:06

Aspiring Data Science

#piano #mr #quest

https://www.youtube.com/watch?v=_SbtpXZWGxs

YouTube

WHAT? The Quest 3 Now Teaches Me Playing PIANO?! MRTV Plays: PianoVision

The Quest 3 is an amazing device. And it now even could become your Piano teacher! And the best thing: you don't even need a Piano. Your Quest 3 and PianoVision is enough. In this video I show you how it works!

PianoVision: https://www.meta.com/experien…

104 viewsAnatoly Alekseev, 18:19

Aspiring Data Science

#games #returntomoria #fantasy #tolkien

Не удержался, купил игрушку ) Надо же поддержать разработчиков. Теперь буду днём трейдить, а ночью отстраивать Морию!

https://www.youtube.com/watch?v=75nbOL7GOPE

YouTube

The Lord of the Rings™: Return to Moria™ - Official Announcement Trailer 4K

The only survival crafting game set in the Fourth Age of Middle-earth™, the iconic fantasy world created by J.R.R. Tolkien

Find out more at www.ReturnToMoria.com

❤‍🔥3

106 viewsAnatoly Alekseev, 14:31

Aspiring Data Science

Forwarded from Записки Ппилифа (Ppilif)

Про speech2text и скорость смены чудес

Никогда раньше особо не работал со звуком. Максимум — дёргал ручку яндексового speech2text, чтобы вытащить из видосов текст и прогнать его через свои языковые модели.

Появилась задачка — прогнать много гигов записей сапорта через speech2text. Стал искать какую-нибудь SOTA в опенсорсе и узнал про whisper от OpenAI.

Запустил на тестовой пачке аудио мелкую модель, она выдала какой-то странный текст о том, кто первый пойдёт в ванную. Прослушал аудиозапись, там недозвон и нет ничего кроме гудков. Я не понял прикола и стал искать баг в коде, мб что-то закешировалось при загрузке. А потом кааааак понял.

Прослушал запись ещё раз и услышал еле заметные голоса на заднем фоне, которые поймал микрофон сапорта. Люди о чём-то разговаривали. Моё ухо не поймало, зато DL-модель прекрасно поймала этот разговор и транскрибировала его. Ещё и в качестве бонуса на лету перевела его с локального языка на английский.

Когда модель выкладывают в паблик, часто сравнивают её качество с человеком. Впервые почувствовал на своей шкуре, как я проиграл модели. Всратые картинки с ImageNet, на которых фиг поймёшь чё нарисовано, меня не впечатляли, а транскрибация впечатлила довольно сильно.

Более того, в интернете валяется ещё и квантизованная, более быстрая и лёгкая версия faster-whisper. Любой школьник со знанием питона может её поднять у себя в браузере в течение вечера.

Как впрочем и многие другие модели, выложенные в опенсорс. Мы вообще пока не осознаём, что будущее наступило и как-то слишком дежурно рассуждаем про новые технологии вроде DALLE и ChatGPT. Артур Кларк говорил, что


Любая достаточно развитая технология неотличима от магии.

Хочется поправить великого и воткнуть в середину цитаты лишнее слово:


Любая достаточно развитая технология поначалу неотличима от магии.

Технологические чудеса быстро превращаются в обыденность. В школе у меня был кнопочный телефон. Я любил фантастические фильмы. Когда я видел там сенсорные панели на дверях и компьютерах, мне хотелось, чтобы в реальной жизни было также. Проходит несколько лет, появляются планшеты и смартфоны. Поначалу это кажется чудом. Проходит ещё несколько лет, чудо превращается в повседневность.

И такая фигня происходит абсолютно со всеми сферами нашей жизни. Папа записывал мне фильмы на VHS-касcеты. В старшей школе я покупал кино на дисках, в вузе качал с торентов и перекидывал на флешку. Сегодня у ноутбуков нет разъема для дисков. Уже и флэшка - древность. Повсюду облака. За 30 лет несколько технологий для передачи информации сменили друг-друга.

Скорость превращения чудес в обыденность увеличивается. Буквально вчера все удивлялись системам распознавания лиц в крупных городах, дипфейкам и моделям, генерирующим связные тексты. Сегодня этим вообще никого не удивишь.

Моменты такого прорезния, как моё вчерашние офигивание от транскрибации, из-за этого становятся особенно ценными.

🔥1

99 viewsAnatoly Alekseev, 09:15

Aspiring Data Science

#politics #versions

В двойника пуйла я не очень верил, уж слишком большим талантом он должен быть, но разница в поведении действительно была слишком сильной (то 15 метровые столы, карантин перед встречами для всех, то странные "выходы в народ"; часы не на той руке; странные профессии из прошлого, которых вроде не т в официальной биографиии). У меня 3 версии, объясняющие такую разницу, в порядке убывания вероятности: 1) умственные отклонения индивида (типа раздвоения личности) 2) намеренная провокация/троллинг 3) ну и остаётся невероятно талантливый двойник. Профессор часто давал политические прогнозы и часто ошибался, но в то же время он и связанный с ним источник не раз давали и уникальную информацию, которая впоследствии подтверждалась. Из крупных: атака на Украину в 2023-м (за 3 месяца), военная мобилизация сентября 2023-го, (за полгода), отдача Карабаха Турции и Азербайджану (за неделю до события, после визита Эрдогана). Так что к его прогнозам я отношусь скептически, но с уважением. Если мы в течение месяца увидим плавное назначение нового премьер-министра (предположительно героя сельского хозяйства), это будет ещё одно свидетельство в пользу версии Соловья. В любом случае, мы скоро узнаем правду. Ведь действительно, смерть Жирика скрывали, помните, как ЛДПР отпёрдывались, мол, рукопожатие крепкое, работает с документами, немного просто приболел? А потом раз, и оказалось, что всё-таки умер.

https://www.youtube.com/watch?v=eW_KlByc5Yc

YouTube

Путин мертв. Что дальше? Что происходит. Вып.93-й, экстренный. 18+

НАСТОЯЩИЙ МАТЕРИАЛ (ИНФОРМАЦИЯ) ПРОИЗВЕДЕН, РАСПРОСТРАНЕН И (ИЛИ) НАПРАВЛЕН ИНОСТРАННЫМ АГЕНТОМ СОЛОВЬЕМ ВАЛЕРИЕМ ДМИТРИЕВИЧЕМ ЛИБО КАСАЕТСЯ ДЕЯТЕЛЬНОСТИ ИНОСТРАННОГО АГЕНТА СОЛОВЬЯ ВАЛЕРИЯ ДМИТРИЕВИЧА. 18+

Благотворительная помощь:
Карта Сбербанка: 5469…

🤡3🤮1🤣1

144 viewsAnatoly Alekseev, 10:33

About

Blog

Apps

Platform