#politics #war
А вот другой приспособленец, а скорее даже, мурло пропагандонское, т.н. гоблач. Единственная критика современной исполнительной власти, что он себе позволял, это стеб над Медведевым, когда тот грел кресло. А так оправдает любое преступление, ложь, некомпетентность руководства страны. Язык подвешен отлично, врёт складно. Плюс много читает, много знает. Как он классифицирует резню евреев, устроенную недавно террористами Хамаз? "Порезвились, за каким-то бесом". Редкостный ублюдок, однако.
https://vk.com/video-3156562_456246881
А вот другой приспособленец, а скорее даже, мурло пропагандонское, т.н. гоблач. Единственная критика современной исполнительной власти, что он себе позволял, это стеб над Медведевым, когда тот грел кресло. А так оправдает любое преступление, ложь, некомпетентность руководства страны. Язык подвешен отлично, врёт складно. Плюс много читает, много знает. Как он классифицирует резню евреев, устроенную недавно террористами Хамаз? "Порезвились, за каким-то бесом". Редкостный ублюдок, однако.
https://vk.com/video-3156562_456246881
Vk
О большой войне на Ближнем Востоке, главных плодах отношений России и Китая и запрете УПЦ
Sputnik на русском: https://rutube.ru/channel/23466577/ SputnikLive в Телеграме: https://news.1rj.ru/str/sputniklive Аудиоверсия: https://oper.ru/video/getaudio/kategoricheski65.mp3
👍1👀1
#ml
Чёт задумался: что, если в большинстве примеров датасета точность прогноза примерно на одном уровне, но в некоторые нечастые моменты (например, при стечении некоторых обстоятельств) она резко повышается или резко падает? Как это увидеть при моделировании?
Чёт задумался: что, если в большинстве примеров датасета точность прогноза примерно на одном уровне, но в некоторые нечастые моменты (например, при стечении некоторых обстоятельств) она резко повышается или резко падает? Как это увидеть при моделировании?
Forwarded from V-Stock Школа трейдинга Вадима Федосенко
Написал небольшую статейку про динамический хедж - рекомендую!
https://smart-lab.ru/company/alorbroker/blog/951811.php
https://smart-lab.ru/company/alorbroker/blog/951811.php
smart-lab.ru
Как купить акции Сбера и захеджировать их бесплатно
По акциям Сбера выплачивают неплохие дивиденды. В 2023г было выплачено 25р на акцию – 565млрд. По РСБУ Сбер уже
#huang #nvidia
Удивительно, насколько Дженсен в теме про ИИ, графику и железо. Также интересен его подход к управлению компанией.
А ещё он считает, что развитие ИИ вовсе не приведёт к безработице - напротив, с увеличением производительности компании станут больше нанимать для более глубоких исследований.
"Дженсен Хуанг родился на Тайване 60 лет назад; когда он был ребёнком, его семья перебралась сначала в Таиланд, а затем в США. Решение о создании NVIDIA было принято в 1993 году на встрече с двумя другими учредителями в ресторане Denny’s в калифорнийском Сан-Хосе. До этого Хуанг успел поработать в AMD и LSI Logic; сейчас же он уверяет, что не стал бы создавать собственную компанию, будь ему снова 30 лет.
В недавнем интервью подкасту Acquired лидер NVIDIA заявил, что главная «сверхспособность» предпринимателя — способность обмануть самого себя и заставить себя поверить, что «не так уж это и сложно». А самый большой его страх — неспособность поддержать сотрудников на пути к успеху, и этот вопрос терзает его с самого основания компании: приходящие в компанию новые сотрудники в итоге начинают верить в её видение и принимают устремления NVIDIA как свои собственные. Налаженная в компании «сеть поддержки» помогла подчиненным ни разу не разочароваться в нём за все 30 лет, говорит Хуанг, и это позволило NVIDIA стать такой, какой она является сегодня."
https://youtu.be/y6NfxiemvHg
Удивительно, насколько Дженсен в теме про ИИ, графику и железо. Также интересен его подход к управлению компанией.
А ещё он считает, что развитие ИИ вовсе не приведёт к безработице - напротив, с увеличением производительности компании станут больше нанимать для более глубоких исследований.
"Дженсен Хуанг родился на Тайване 60 лет назад; когда он был ребёнком, его семья перебралась сначала в Таиланд, а затем в США. Решение о создании NVIDIA было принято в 1993 году на встрече с двумя другими учредителями в ресторане Denny’s в калифорнийском Сан-Хосе. До этого Хуанг успел поработать в AMD и LSI Logic; сейчас же он уверяет, что не стал бы создавать собственную компанию, будь ему снова 30 лет.
В недавнем интервью подкасту Acquired лидер NVIDIA заявил, что главная «сверхспособность» предпринимателя — способность обмануть самого себя и заставить себя поверить, что «не так уж это и сложно». А самый большой его страх — неспособность поддержать сотрудников на пути к успеху, и этот вопрос терзает его с самого основания компании: приходящие в компанию новые сотрудники в итоге начинают верить в её видение и принимают устремления NVIDIA как свои собственные. Налаженная в компании «сеть поддержки» помогла подчиненным ни разу не разочароваться в нём за все 30 лет, говорит Хуанг, и это позволило NVIDIA стать такой, какой она является сегодня."
https://youtu.be/y6NfxiemvHg
YouTube
NVIDIA CEO Jensen Huang
We finally sit down with the man himself: Nvidia Cofounder & CEO Jensen Huang. After three parts and seven+ hours of covering the company, we thought we knew everything but — unsurprisingly — Jensen knows more. A couple teasers: we learned that the company’s…
#supercomputers #hardware
"Ливерморская национальная лаборатория им. Э. Лоуренса (LLNL) Министерства энергетики США опубликовала видео (см. ниже), демонстрирующее процесс сборки вычислительного комплекса El Capitan, которому предстоит стать самым мощным суперкомпьютером мира. В текущем рейтинге TOP500 лидирует система Frontier, установленная в Национальной лаборатории Окриджа (ORNL), также принадлежащей Министерству энергетики США. Быстродействие Frontier достигает 1,194 Эфлопс.
Суперкомпьютер El Capitan сможет демонстрировать производительность более 2 Эфлопс (FP64). Сборка комплекса началась в июле нынешнего года, а ввод в эксплуатацию запланирован на середину 2024-го. Стоимость проекта оценивается приблизительно в $600 млн. В основе El Capitan — платформа HPE Cray Shasta.
В проекте El Capitan задействованы сотни сотрудников LLNL и отраслевых партнёров. Суперкомпьютер состоит из тысяч вычислительных узлов и требует столько же энергии, сколько город среднего размера. В течение нескольких лет специалисты готовили инфраструктуру для El Capitan, создавая подсистемы электропитания и охлаждения, устанавливая компоненты и монтируя сетевые соединения. После запуска суперкомпьютер будет использоваться для решения задач в сферах ядерной энергетики, национальной безопасности, здравоохранения, изменений климата и пр."
https://youtu.be/MPRjIlgVwlg
"Ливерморская национальная лаборатория им. Э. Лоуренса (LLNL) Министерства энергетики США опубликовала видео (см. ниже), демонстрирующее процесс сборки вычислительного комплекса El Capitan, которому предстоит стать самым мощным суперкомпьютером мира. В текущем рейтинге TOP500 лидирует система Frontier, установленная в Национальной лаборатории Окриджа (ORNL), также принадлежащей Министерству энергетики США. Быстродействие Frontier достигает 1,194 Эфлопс.
Суперкомпьютер El Capitan сможет демонстрировать производительность более 2 Эфлопс (FP64). Сборка комплекса началась в июле нынешнего года, а ввод в эксплуатацию запланирован на середину 2024-го. Стоимость проекта оценивается приблизительно в $600 млн. В основе El Capitan — платформа HPE Cray Shasta.
В проекте El Capitan задействованы сотни сотрудников LLNL и отраслевых партнёров. Суперкомпьютер состоит из тысяч вычислительных узлов и требует столько же энергии, сколько город среднего размера. В течение нескольких лет специалисты готовили инфраструктуру для El Capitan, создавая подсистемы электропитания и охлаждения, устанавливая компоненты и монтируя сетевые соединения. После запуска суперкомпьютер будет использоваться для решения задач в сферах ядерной энергетики, национальной безопасности, здравоохранения, изменений климата и пр."
https://youtu.be/MPRjIlgVwlg
YouTube
Building El Capitan: How LLNL’s Exascale Supercomputer Came to Be
When Lawrence Livermore National Laboratory’s next-generation supercomputer El Capitan is deployed in 2024, it will likely be the most powerful computing machine in the world, delivering more than two quintillion floating-point operations per second (2 exaFLOPs)…
#physics
Удивительно, оказывается, концепция супердетерминизма всё ещё оставляет лазейку идеям Эйнштейна! Как тут не задуматься о предопределённости бытия и не стать фаталистом... Хотя, кажется, супердетерминизм сродни идеям, что в центре каждой ЧД есть новая вселенная (да ещё со своими физическими законами), или что частица не просто выбирает одну из случайных траекторий, а нас самом деле проходит их все, но только в параллельно ветвящихся вселенных.
https://youtu.be/gKWN5y5O-6s
Удивительно, оказывается, концепция супердетерминизма всё ещё оставляет лазейку идеям Эйнштейна! Как тут не задуматься о предопределённости бытия и не стать фаталистом... Хотя, кажется, супердетерминизм сродни идеям, что в центре каждой ЧД есть новая вселенная (да ещё со своими физическими законами), или что частица не просто выбирает одну из случайных траекторий, а нас самом деле проходит их все, но только в параллельно ветвящихся вселенных.
https://youtu.be/gKWN5y5O-6s
YouTube
Нобелевская премия-2022: запутанные частицы, неравенство Белла и структура реальности
Официально открываем нашу новую рубрику, посвящённую разбору содержания открытий, удостоенных Нобелевской премии по физике в различные годы, и сегодня поговорим о премии 2022 года, присуждённой за весьма любопытные эксперименты, призванные установить, насколько…
#probabilities #outcomes #synthetic #calibration #decisionmaking #python
Зная вероятности событий, сгенерировать по ним возможные бинарные исходы тривиально. Проще всего сравнить вероятность со случайным числом из интервала [0;1], если число оказалось меньше исходной вероятности, записываем в исход 1, иначе 0.
Внезапно возникла обратная задача: мы знаем исходы (они взяты из реального процесса), но интересно, какие ground truth вероятности могли бы привести к таким исходам? Для чего это может понадобиться: я тестирую систему принятия решений по ML модели, и хочется понять границы возможностей такой связки для конкретной задачи. Допустим, нам удалось построить "идеальную" в вероятностном плане модель, т.е. прекрасно откалиброванную (раз она сказала в какие-то моменты, что вероятность положительного исхода 60%, то примерно в 60% случаев такой исход и случился) - чего тогда можно ожидать от неё в плане онлайн метрик? Понятно, что получить такую модель сложно, часто и невозможно, но нам же хочется знать, каких результатов вообще возможно достичь?
И вот тут оказалось сложнее, чем кажется. Попробуйте поставит текст на паузу и предложить решение )
На удивление, ИИ в лице Чат ГПТ оказался совершенно бессилен, и пришлось думать. (Если сможете получить от него ответ, напишите.)
@njit ()
def generate_probs_from_outcomes(
outcomes: np.ndarray, chunk_size: int = 20, scale: float = 0.1, nbins: int = 10, bins_std: float = 0.1, flip_percent: float = 0.6
) -> np.ndarray:
"""Can we generate hypothetical ground truth probs knowing the outcomes in advance?
Our model probs will (hopefully) be calibrated. So, we need synthetic probs to be calibrated, too. With some degree of fitness.
We also need to cover broad range of probs.
So, how to achieve this?
0) if flip_percent is specified, for a random portion of data zeroes and ones are flipped. this will lower ROC AUC.
1) we can work with small random chunks/subsets of data
2) for every chunk, its real freq is computed.
3) for every observation, 'exact' prob is drawn from some distribution (uniform or, say, gaussian) with center in real freq.
then, if bins_std is specified, constant bin noise is applied to all observations of the chunk.
final result is clipped to [0,1]
"""
n = len(outcomes)
indices = np.arange(n)
np.random.shuffle(indices)
probs = np.empty(n, dtype=np.float32)
bin_offsets = (np.random.random(size=nbins) - 0.5) * bins_std
if flip_percent:
# flip some bits to worsen our so far perfect predictive power
flip_size = int(n * flip_percent)
if flip_size:
outcomes = outcomes.copy()
flip_indices = np.random.choice(indices, size=flip_size)
outcomes[flip_indices] = 1 - outcomes[flip_indices]
l = 0 # left border
for idx in range(n // chunk_size): # traverse randomly selected chunks/subsets of original data
r = (idx + 1) * chunk_size # right border
freq = outcomes[l:r].mean() # find real event occuring frequency in current chunk of observation
# add pregenerated offset for particular bin
bin_idx = int(freq * nbins)
freq = freq + bin_offsets[bin_idx]
# add small symmetric random noise. it must be higher when freq approaches [0;1] borders.
probs[l:r] = freq + (np.random.random(size=chunk_size) - 0.5) * scale * np.abs(freq - 0.5)
l = r
return np.clip(probs, 0.0, 1.0)
Зная вероятности событий, сгенерировать по ним возможные бинарные исходы тривиально. Проще всего сравнить вероятность со случайным числом из интервала [0;1], если число оказалось меньше исходной вероятности, записываем в исход 1, иначе 0.
Внезапно возникла обратная задача: мы знаем исходы (они взяты из реального процесса), но интересно, какие ground truth вероятности могли бы привести к таким исходам? Для чего это может понадобиться: я тестирую систему принятия решений по ML модели, и хочется понять границы возможностей такой связки для конкретной задачи. Допустим, нам удалось построить "идеальную" в вероятностном плане модель, т.е. прекрасно откалиброванную (раз она сказала в какие-то моменты, что вероятность положительного исхода 60%, то примерно в 60% случаев такой исход и случился) - чего тогда можно ожидать от неё в плане онлайн метрик? Понятно, что получить такую модель сложно, часто и невозможно, но нам же хочется знать, каких результатов вообще возможно достичь?
И вот тут оказалось сложнее, чем кажется. Попробуйте поставит текст на паузу и предложить решение )
def generate_probs_from_outcomes(
outcomes: np.ndarray, chunk_size: int = 20, scale: float = 0.1, nbins: int = 10, bins_std: float = 0.1, flip_percent: float = 0.6
) -> np.ndarray:
"""Can we generate hypothetical ground truth probs knowing the outcomes in advance?
Our model probs will (hopefully) be calibrated. So, we need synthetic probs to be calibrated, too. With some degree of fitness.
We also need to cover broad range of probs.
So, how to achieve this?
0) if flip_percent is specified, for a random portion of data zeroes and ones are flipped. this will lower ROC AUC.
1) we can work with small random chunks/subsets of data
2) for every chunk, its real freq is computed.
3) for every observation, 'exact' prob is drawn from some distribution (uniform or, say, gaussian) with center in real freq.
then, if bins_std is specified, constant bin noise is applied to all observations of the chunk.
final result is clipped to [0,1]
"""
n = len(outcomes)
indices = np.arange(n)
np.random.shuffle(indices)
probs = np.empty(n, dtype=np.float32)
bin_offsets = (np.random.random(size=nbins) - 0.5) * bins_std
if flip_percent:
# flip some bits to worsen our so far perfect predictive power
flip_size = int(n * flip_percent)
if flip_size:
outcomes = outcomes.copy()
flip_indices = np.random.choice(indices, size=flip_size)
outcomes[flip_indices] = 1 - outcomes[flip_indices]
l = 0 # left border
for idx in range(n // chunk_size): # traverse randomly selected chunks/subsets of original data
r = (idx + 1) * chunk_size # right border
freq = outcomes[l:r].mean() # find real event occuring frequency in current chunk of observation
# add pregenerated offset for particular bin
bin_idx = int(freq * nbins)
freq = freq + bin_offsets[bin_idx]
# add small symmetric random noise. it must be higher when freq approaches [0;1] borders.
probs[l:r] = freq + (np.random.random(size=chunk_size) - 0.5) * scale * np.abs(freq - 0.5)
l = r
return np.clip(probs, 0.0, 1.0)
#trading #books
Со многими рекомендациями согласен, кроме Карвера/Винса/Кауфман (хотя The Leverage Space Trading Model не читал, кажется любопытной). Элерса надо бы прочесть.
И надо будет найти Permutation and Randomization Tests for Trading System Development, Statistically Sound Indicators For Financial Market Prediction, The Universal Tactics of Successful Trend Trading, Cybernetic Trading Strategies.
"I love money and I have no shame" понравилось ))
https://www.youtube.com/watch?v=ftFptCxm5ZU
Со многими рекомендациями согласен, кроме Карвера/Винса/Кауфман (хотя The Leverage Space Trading Model не читал, кажется любопытной). Элерса надо бы прочесть.
И надо будет найти Permutation and Randomization Tests for Trading System Development, Statistically Sound Indicators For Financial Market Prediction, The Universal Tactics of Successful Trend Trading, Cybernetic Trading Strategies.
"I love money and I have no shame" понравилось ))
https://www.youtube.com/watch?v=ftFptCxm5ZU
YouTube
Books for Algorithmic Trading I Wish I Had Read Sooner
In this video I show my favorite books for algorithmic trading. These are not the only books I've read but they are the ones I've found most useful.
Amazon Links (Affiliate links)
Systematic Trading: https://amzn.to/3ClXosm
Trading Systems and Methods: …
Amazon Links (Affiliate links)
Systematic Trading: https://amzn.to/3ClXosm
Trading Systems and Methods: …
Forwarded from Записки Ппилифа (Ppilif)
https://habr.com/ru/companies/X5Tech/articles/768008/
Вот есть в ВУЗах курс по эконометрике. Чаще всего его читают плохо, либо в контексте каких-нибудь очень специфичных экономических данных. У студентов в итоге остаётся осадочек, что это бесполезная фигня.
А на самом деле нет. Вся эконометрика — это про АБ-тестирование. Все “современные” методы вроде DnD и CUPED это ребрендинг линейной регрессии. Я довольно давно топлю за то, что про линейную регрессию надо рассказывать именно с точки зрения АБ-тестов, а не каких-нибудь экономических моделей. В прошлом семестре даже лекцию про это собрал.
Ребята из X5 тоже понимают, что линейная регрессия это про АБ и раскатили у себя целый пайплайн для тестов. В статейке подробное описание, а бонусом в комментах срач с Валерой Бабушкиным (я не участвовал).
Статья очень хороша.
Вот есть в ВУЗах курс по эконометрике. Чаще всего его читают плохо, либо в контексте каких-нибудь очень специфичных экономических данных. У студентов в итоге остаётся осадочек, что это бесполезная фигня.
А на самом деле нет. Вся эконометрика — это про АБ-тестирование. Все “современные” методы вроде DnD и CUPED это ребрендинг линейной регрессии. Я довольно давно топлю за то, что про линейную регрессию надо рассказывать именно с точки зрения АБ-тестов, а не каких-нибудь экономических моделей. В прошлом семестре даже лекцию про это собрал.
Ребята из X5 тоже понимают, что линейная регрессия это про АБ и раскатили у себя целый пайплайн для тестов. В статейке подробное описание, а бонусом в комментах срач с Валерой Бабушкиным (я не участвовал).
Статья очень хороша.
Хабр
От A/B-тестирования к Causal Inference в офлайн ритейле
Приветствуем всех читателей! Сегодня команда Ad-Hoc аналитики X5 Tech приоткроет дверь в увлекательный мир A/B-тестирования Causal Inference. С момента написания предыдущей статьи...
🔥1
#abtesting #x5
А ещё у поста выше есть приквел )
https://habr.com/ru/companies/X5Tech/articles/466349/
А ещё у поста выше есть приквел )
https://habr.com/ru/companies/X5Tech/articles/466349/
Хабр
Как проводить A/B-тестирование на 15 000 офлайн-магазинах
Привет! На связи команда Ad-hoc аналитики Big Data из X5 Retail Group. В этой статье мы расскажем о нашей методологии A/B-тестирования и сложностях, с которыми мы ежедневно сталкиваемся. В Big Data Х5...
#db #duckdb #columnar #featurestore
Что интересно, запросы слать в duckdb можно через psycopg, и используется PostgreSQL диалект. Ингест из файлов, судя по презенташке, очень быстрый. Поддерживает сжатие. Колоночная СУБД. Может читать в сессии питона напрямую из фреймов пандас и массивов нампай. Кандидат на featurestore?
https://www.youtube.com/watch?v=q_SKaOeRiOI
Что интересно, запросы слать в duckdb можно через psycopg, и используется PostgreSQL диалект. Ингест из файлов, судя по презенташке, очень быстрый. Поддерживает сжатие. Колоночная СУБД. Может читать в сессии питона напрямую из фреймов пандас и массивов нампай. Кандидат на featurestore?
https://www.youtube.com/watch?v=q_SKaOeRiOI
YouTube
Gábor Szárnyas - DuckDB: The Power of a Data Warehouse in your Python Process
Gábor Szárnyas, a Developer Relations Advocate and Technical Writer at DuckDB Labs, provides a talk on “DuckDB: The Power of a Data Warehouse in your Python Process.”
DuckDB is an in-process analytical database management system, a powerful data warehouse…
DuckDB is an in-process analytical database management system, a powerful data warehouse…
#trading
Очень рассудительно и понятно. 2 hrs weather forecast понравилось. Ведущий по-своему уникален абсолютно неразборчивой речью )
https://www.youtube.com/watch?v=Jjv7DC4-Bf4
Очень рассудительно и понятно. 2 hrs weather forecast понравилось. Ведущий по-своему уникален абсолютно неразборчивой речью )
https://www.youtube.com/watch?v=Jjv7DC4-Bf4
YouTube
Secrets To Scalping For A Living - Jean-Francois Boucher | Trader Interview
In this Forex trading video, Etienne sits down with Jean-Francois Boucher, and they discuss secrets to scalping for a living. Learn how to measure volatility and get an exclusive glimpse of his day's live trade.
Chapters:
00:00 Secrets To Scalping For A…
Chapters:
00:00 Secrets To Scalping For A…
Forwarded from Small Data Science for Russian Adventurers
#визуализация
Странно, что я ещё не упоминал здесь такой интересный ресурс. Можно использовать для освежения в памяти тем по ML. Полно интересных рисунков по каждой теме. Есть три блока: ML, ML-Engineering, проективная геометрия, по DL совсем чуть-чуть и ресурс не обновляется с начала года.
https://illustrated-machine-learning.github.io/
Странно, что я ещё не упоминал здесь такой интересный ресурс. Можно использовать для освежения в памяти тем по ML. Полно интересных рисунков по каждой теме. Есть три блока: ML, ML-Engineering, проективная геометрия, по DL совсем чуть-чуть и ресурс не обновляется с начала года.
https://illustrated-machine-learning.github.io/
👍1
#games #returntomoria #fantasy #tolkien
Не удержался, купил игрушку ) Надо же поддержать разработчиков. Теперь буду днём трейдить, а ночью отстраивать Морию!
https://www.youtube.com/watch?v=75nbOL7GOPE
Не удержался, купил игрушку ) Надо же поддержать разработчиков. Теперь буду днём трейдить, а ночью отстраивать Морию!
https://www.youtube.com/watch?v=75nbOL7GOPE
YouTube
The Lord of the Rings™: Return to Moria™ - Official Announcement Trailer 4K
The only survival crafting game set in the Fourth Age of Middle-earth™, the iconic fantasy world created by J.R.R. Tolkien
Find out more at www.ReturnToMoria.com
Find out more at www.ReturnToMoria.com
❤🔥3
Forwarded from Записки Ппилифа (Ppilif)
Про speech2text и скорость смены чудес
Никогда раньше особо не работал со звуком. Максимум — дёргал ручку яндексового speech2text, чтобы вытащить из видосов текст и прогнать его через свои языковые модели.
Появилась задачка — прогнать много гигов записей сапорта через speech2text. Стал искать какую-нибудь SOTA в опенсорсе и узнал про whisper от OpenAI.
Запустил на тестовой пачке аудио мелкую модель, она выдала какой-то странный текст о том, кто первый пойдёт в ванную. Прослушал аудиозапись, там недозвон и нет ничего кроме гудков. Я не понял прикола и стал искать баг в коде, мб что-то закешировалось при загрузке. А потом кааааак понял.
Прослушал запись ещё раз и услышал еле заметные голоса на заднем фоне, которые поймал микрофон сапорта. Люди о чём-то разговаривали. Моё ухо не поймало, зато DL-модель прекрасно поймала этот разговор и транскрибировала его. Ещё и в качестве бонуса на лету перевела его с локального языка на английский.
Когда модель выкладывают в паблик, часто сравнивают её качество с человеком. Впервые почувствовал на своей шкуре, как я проиграл модели. Всратые картинки с ImageNet, на которых фиг поймёшь чё нарисовано, меня не впечатляли, а транскрибация впечатлила довольно сильно.
Более того, в интернете валяется ещё и квантизованная, более быстрая и лёгкая версия faster-whisper. Любой школьник со знанием питона может её поднять у себя в браузере в течение вечера.
Как впрочем и многие другие модели, выложенные в опенсорс. Мы вообще пока не осознаём, что будущее наступило и как-то слишком дежурно рассуждаем про новые технологии вроде DALLE и ChatGPT. Артур Кларк говорил, что
Хочется поправить великого и воткнуть в середину цитаты лишнее слово:
Технологические чудеса быстро превращаются в обыденность. В школе у меня был кнопочный телефон. Я любил фантастические фильмы. Когда я видел там сенсорные панели на дверях и компьютерах, мне хотелось, чтобы в реальной жизни было также. Проходит несколько лет, появляются планшеты и смартфоны. Поначалу это кажется чудом. Проходит ещё несколько лет, чудо превращается в повседневность.
И такая фигня происходит абсолютно со всеми сферами нашей жизни. Папа записывал мне фильмы на VHS-касcеты. В старшей школе я покупал кино на дисках, в вузе качал с торентов и перекидывал на флешку. Сегодня у ноутбуков нет разъема для дисков. Уже и флэшка - древность. Повсюду облака. За 30 лет несколько технологий для передачи информации сменили друг-друга.
Скорость превращения чудес в обыденность увеличивается. Буквально вчера все удивлялись системам распознавания лиц в крупных городах, дипфейкам и моделям, генерирующим связные тексты. Сегодня этим вообще никого не удивишь.
Моменты такого прорезния, как моё вчерашние офигивание от транскрибации, из-за этого становятся особенно ценными.
Никогда раньше особо не работал со звуком. Максимум — дёргал ручку яндексового speech2text, чтобы вытащить из видосов текст и прогнать его через свои языковые модели.
Появилась задачка — прогнать много гигов записей сапорта через speech2text. Стал искать какую-нибудь SOTA в опенсорсе и узнал про whisper от OpenAI.
Запустил на тестовой пачке аудио мелкую модель, она выдала какой-то странный текст о том, кто первый пойдёт в ванную. Прослушал аудиозапись, там недозвон и нет ничего кроме гудков. Я не понял прикола и стал искать баг в коде, мб что-то закешировалось при загрузке. А потом кааааак понял.
Прослушал запись ещё раз и услышал еле заметные голоса на заднем фоне, которые поймал микрофон сапорта. Люди о чём-то разговаривали. Моё ухо не поймало, зато DL-модель прекрасно поймала этот разговор и транскрибировала его. Ещё и в качестве бонуса на лету перевела его с локального языка на английский.
Когда модель выкладывают в паблик, часто сравнивают её качество с человеком. Впервые почувствовал на своей шкуре, как я проиграл модели. Всратые картинки с ImageNet, на которых фиг поймёшь чё нарисовано, меня не впечатляли, а транскрибация впечатлила довольно сильно.
Более того, в интернете валяется ещё и квантизованная, более быстрая и лёгкая версия faster-whisper. Любой школьник со знанием питона может её поднять у себя в браузере в течение вечера.
Как впрочем и многие другие модели, выложенные в опенсорс. Мы вообще пока не осознаём, что будущее наступило и как-то слишком дежурно рассуждаем про новые технологии вроде DALLE и ChatGPT. Артур Кларк говорил, что
Любая достаточно развитая технология неотличима от магии.
Хочется поправить великого и воткнуть в середину цитаты лишнее слово:
Любая достаточно развитая технология поначалу неотличима от магии.
Технологические чудеса быстро превращаются в обыденность. В школе у меня был кнопочный телефон. Я любил фантастические фильмы. Когда я видел там сенсорные панели на дверях и компьютерах, мне хотелось, чтобы в реальной жизни было также. Проходит несколько лет, появляются планшеты и смартфоны. Поначалу это кажется чудом. Проходит ещё несколько лет, чудо превращается в повседневность.
И такая фигня происходит абсолютно со всеми сферами нашей жизни. Папа записывал мне фильмы на VHS-касcеты. В старшей школе я покупал кино на дисках, в вузе качал с торентов и перекидывал на флешку. Сегодня у ноутбуков нет разъема для дисков. Уже и флэшка - древность. Повсюду облака. За 30 лет несколько технологий для передачи информации сменили друг-друга.
Скорость превращения чудес в обыденность увеличивается. Буквально вчера все удивлялись системам распознавания лиц в крупных городах, дипфейкам и моделям, генерирующим связные тексты. Сегодня этим вообще никого не удивишь.
Моменты такого прорезния, как моё вчерашние офигивание от транскрибации, из-за этого становятся особенно ценными.
🔥1