#emh #finance #physics #nflt #ccc
Ну ладно, раз уж практически всё отгадали, публикую ответ. Конечно же, это ML-теорема об отсутствии бесплатных завтраков (No Free Lunch theorem) и Принцип космической цензуры (Cosmic Censorship Conjecture) Пенроуза.
Вы только подумайте, просматривается связь физики, машинного обучения и поведенческих финансов. Возможно, физику я несколько притягиваю за уши, судите сами. Я попросил сами знаете кого обозначить параллели.
"The Cosmic Censorship Conjecture (CCC) in physics, which suggests that singularities (places where gravity becomes infinite) are hidden behind event horizons, has intriguing parallels with the Efficient Market Hypothesis (EMH) and the No Free Lunch Theorem (NFLT) in machine learning. All three concepts imply that exploitable extremes or shortcuts are fundamentally "censored" by the natural order of the system, and they share some core ideas:
1. Hidden Extremes and Limited Access
Cosmic Censorship Conjecture: Singularities (places with potentially infinite gravitational forces) are hidden behind an event horizon, so they can’t affect or be exploited by an external observer. This keeps the universe predictable and prevents runaway effects from unbounded gravitational fields.
Efficient Market Hypothesis: Similarly, in EMH, any “infinite gain” opportunity is concealed by the rapid incorporation of information into asset prices. Just as a singularity is hidden from view, a perfect arbitrage opportunity (extreme profit) is obscured by market efficiency, making it virtually unreachable.
No Free Lunch Theorem: In machine learning, NFLT states that no model is universally better across all datasets, implying that there are no "shortcuts" that work everywhere. Every dataset poses new challenges, and there’s no access to a "singularity" of knowledge or performance that guarantees success universally.
2. Equilibrium and Stability
Cosmic Censorship Conjecture: By hiding singularities, CCC maintains stability in spacetime and keeps the equations of general relativity well-behaved, creating a predictable universe.
Efficient Market Hypothesis: EMH maintains market stability by ensuring that all known information is reflected in prices, which keeps the market in a kind of equilibrium. When information is immediately priced in, it prevents drastic, destabilizing price swings due to secret information exploitation.
No Free Lunch Theorem: NFLT implies an equilibrium of algorithmic performance: without tailoring models to specific problems, performance can’t exceed random guessing across all tasks. This prevents the dominance of any one algorithm and promotes stability in ML development.
3. Limits on Observability and Exploitability
Cosmic Censorship Conjecture: In CCC, the "naked" singularities (unshielded by an event horizon) are prohibited, meaning that singularities can't be directly observed or interacted with. This places fundamental limits on what can be known about the interior of black holes and ensures that any infinite values are hidden from observers.
Efficient Market Hypothesis: In EMH, since all information is reflected in prices, potential inefficiencies that traders might exploit are hidden or fleeting. This places a limit on how much information a trader can “observe” to gain a consistent edge.
No Free Lunch Theorem: NFLT in ML implies that there's no one-size-fits-all model, so knowledge about one dataset does not translate to others. The unpredictability of the optimal approach for new data is a kind of “observability limit,” preventing universal exploitability of one algorithm.
Ну ладно, раз уж практически всё отгадали, публикую ответ. Конечно же, это ML-теорема об отсутствии бесплатных завтраков (No Free Lunch theorem) и Принцип космической цензуры (Cosmic Censorship Conjecture) Пенроуза.
Вы только подумайте, просматривается связь физики, машинного обучения и поведенческих финансов. Возможно, физику я несколько притягиваю за уши, судите сами. Я попросил сами знаете кого обозначить параллели.
"The Cosmic Censorship Conjecture (CCC) in physics, which suggests that singularities (places where gravity becomes infinite) are hidden behind event horizons, has intriguing parallels with the Efficient Market Hypothesis (EMH) and the No Free Lunch Theorem (NFLT) in machine learning. All three concepts imply that exploitable extremes or shortcuts are fundamentally "censored" by the natural order of the system, and they share some core ideas:
1. Hidden Extremes and Limited Access
Cosmic Censorship Conjecture: Singularities (places with potentially infinite gravitational forces) are hidden behind an event horizon, so they can’t affect or be exploited by an external observer. This keeps the universe predictable and prevents runaway effects from unbounded gravitational fields.
Efficient Market Hypothesis: Similarly, in EMH, any “infinite gain” opportunity is concealed by the rapid incorporation of information into asset prices. Just as a singularity is hidden from view, a perfect arbitrage opportunity (extreme profit) is obscured by market efficiency, making it virtually unreachable.
No Free Lunch Theorem: In machine learning, NFLT states that no model is universally better across all datasets, implying that there are no "shortcuts" that work everywhere. Every dataset poses new challenges, and there’s no access to a "singularity" of knowledge or performance that guarantees success universally.
2. Equilibrium and Stability
Cosmic Censorship Conjecture: By hiding singularities, CCC maintains stability in spacetime and keeps the equations of general relativity well-behaved, creating a predictable universe.
Efficient Market Hypothesis: EMH maintains market stability by ensuring that all known information is reflected in prices, which keeps the market in a kind of equilibrium. When information is immediately priced in, it prevents drastic, destabilizing price swings due to secret information exploitation.
No Free Lunch Theorem: NFLT implies an equilibrium of algorithmic performance: without tailoring models to specific problems, performance can’t exceed random guessing across all tasks. This prevents the dominance of any one algorithm and promotes stability in ML development.
3. Limits on Observability and Exploitability
Cosmic Censorship Conjecture: In CCC, the "naked" singularities (unshielded by an event horizon) are prohibited, meaning that singularities can't be directly observed or interacted with. This places fundamental limits on what can be known about the interior of black holes and ensures that any infinite values are hidden from observers.
Efficient Market Hypothesis: In EMH, since all information is reflected in prices, potential inefficiencies that traders might exploit are hidden or fleeting. This places a limit on how much information a trader can “observe” to gain a consistent edge.
No Free Lunch Theorem: NFLT in ML implies that there's no one-size-fits-all model, so knowledge about one dataset does not translate to others. The unpredictability of the optimal approach for new data is a kind of “observability limit,” preventing universal exploitability of one algorithm.
#emh #finance #physics #nflt #ccc
4. Self-Correcting Systems
Cosmic Censorship Conjecture: If any unshielded singularity exists, it would theoretically destabilize the fabric of spacetime, causing unpredictable consequences. By “shielding” them, CCC ensures that the universe operates as a self-correcting system.
Efficient Market Hypothesis: EMH similarly implies that markets are self-correcting. If someone finds a profit opportunity, the market rapidly adjusts as participants act on it, neutralizing the opportunity—effectively “censoring” it through price adjustments.
No Free Lunch Theorem: NFLT also implies a self-correcting mechanism: the variability of datasets corrects for any over-reliance on a single model. In essence, no shortcut applies universally, so the diversity of data prevents overfitting to any one approach.
5. Conservation of Predictability
Cosmic Censorship Conjecture: By hiding singularities, CCC ensures that the universe remains predictable on a macroscopic level, with singularities hidden in a way that preserves the general structure of spacetime.
Efficient Market Hypothesis: EMH enforces predictability in financial markets by ensuring that prices reflect all known information, preventing “wild” deviations or exploitable patterns that would otherwise exist in an inefficient market.
No Free Lunch Theorem: NFLT reinforces the conservation of predictability by implying that machine learning performance is fundamentally limited by the variability of data. This lack of universal shortcuts keeps machine learning practice tethered to specific, data-driven methods without general predictability.
In essence, Cosmic Censorship Conjecture, Efficient Market Hypothesis, and No Free Lunch Theorem all maintain system stability, equilibrium, and self-correction by “shielding” the unbounded extremes that would otherwise lead to unpredictability and exploitation. They serve as guardrails in complex systems, placing inherent limits on predictability, observability, and exploitability."
4. Self-Correcting Systems
Cosmic Censorship Conjecture: If any unshielded singularity exists, it would theoretically destabilize the fabric of spacetime, causing unpredictable consequences. By “shielding” them, CCC ensures that the universe operates as a self-correcting system.
Efficient Market Hypothesis: EMH similarly implies that markets are self-correcting. If someone finds a profit opportunity, the market rapidly adjusts as participants act on it, neutralizing the opportunity—effectively “censoring” it through price adjustments.
No Free Lunch Theorem: NFLT also implies a self-correcting mechanism: the variability of datasets corrects for any over-reliance on a single model. In essence, no shortcut applies universally, so the diversity of data prevents overfitting to any one approach.
5. Conservation of Predictability
Cosmic Censorship Conjecture: By hiding singularities, CCC ensures that the universe remains predictable on a macroscopic level, with singularities hidden in a way that preserves the general structure of spacetime.
Efficient Market Hypothesis: EMH enforces predictability in financial markets by ensuring that prices reflect all known information, preventing “wild” deviations or exploitable patterns that would otherwise exist in an inefficient market.
No Free Lunch Theorem: NFLT reinforces the conservation of predictability by implying that machine learning performance is fundamentally limited by the variability of data. This lack of universal shortcuts keeps machine learning practice tethered to specific, data-driven methods without general predictability.
In essence, Cosmic Censorship Conjecture, Efficient Market Hypothesis, and No Free Lunch Theorem all maintain system stability, equilibrium, and self-correction by “shielding” the unbounded extremes that would otherwise lead to unpredictability and exploitation. They serve as guardrails in complex systems, placing inherent limits on predictability, observability, and exploitability."
Вот все говорят, мол, чёрные дыры имеют конечную массу, закрыты горизонтом событий, а внутри сингулярности с бесконечной плотностью. Как думаете, какова на самом деле структура ЧД?
Anonymous Poll
27%
Верю уравнениям ОТО. Вся масса ЧД сосредоточена в сингулярности в её центре (точка или диск)
13%
Работают квантово-гравитационные эффекты, сингулярности нет, структура ЧД ~ как у нейтронной звезды
13%
внутри ЧД какая-то совершенно иная оригинальная структура вещества
47%
внутри ЧД вообще нет вещества в нашем понимании
#gpt #whisper #llms #asr
"Склонность генеративных нейросетей к выдумыванию фактов при ответах на вопросы пользователей обсуждается давно. Однако странно видеть эту особенность у алгоритма Whisper, который предназначен для распознавания речи. Исследователи установили, что алгоритм при распознавании речи может включать в генерируемый текст что угодно, начиная от расистских комментариев и заканчивая выдуманными медицинскими процедурами. Это может нанести реальный вред, поскольку Whisper начали использовать в больницах и других медицинских учреждениях.
Исследователь из Университета Мичигана, изучавший расшифровку публичных собраний, сгенерированных Wisper, обнаружил неточности при транскрибировании 8 из 10 аудиозаписей. Другой исследователь изучил более 100 часов, расшифрованных Whisper аудио, и выявил неточности более чем в половине из них. Ещё один инженер заявил, что выявил недостоверности почти во всех 26 тыс. расшифровок, которые он создал с помощью Wisper.
Представитель OpenAI сообщил, что компания постоянно работает над повышением качества работы своих нейросетей, в том числе над уменьшением количества галлюцинаций. Он также добавил, что политика компании запрещает использовать Whisper «в определённых контекстах принятия решений высокой важности». "
https://3dnews.ru/1113092/algoritm-raspoznavaniya-rechi-openai-whisper-ne-lishyon-gallyutsinatsiy-on-moget-vidumivat-fakti
"Склонность генеративных нейросетей к выдумыванию фактов при ответах на вопросы пользователей обсуждается давно. Однако странно видеть эту особенность у алгоритма Whisper, который предназначен для распознавания речи. Исследователи установили, что алгоритм при распознавании речи может включать в генерируемый текст что угодно, начиная от расистских комментариев и заканчивая выдуманными медицинскими процедурами. Это может нанести реальный вред, поскольку Whisper начали использовать в больницах и других медицинских учреждениях.
Исследователь из Университета Мичигана, изучавший расшифровку публичных собраний, сгенерированных Wisper, обнаружил неточности при транскрибировании 8 из 10 аудиозаписей. Другой исследователь изучил более 100 часов, расшифрованных Whisper аудио, и выявил неточности более чем в половине из них. Ещё один инженер заявил, что выявил недостоверности почти во всех 26 тыс. расшифровок, которые он создал с помощью Wisper.
Представитель OpenAI сообщил, что компания постоянно работает над повышением качества работы своих нейросетей, в том числе над уменьшением количества галлюцинаций. Он также добавил, что политика компании запрещает использовать Whisper «в определённых контекстах принятия решений высокой важности». "
https://3dnews.ru/1113092/algoritm-raspoznavaniya-rechi-openai-whisper-ne-lishyon-gallyutsinatsiy-on-moget-vidumivat-fakti
3DNews - Daily Digital Digest
Алгоритм распознавания речи OpenAI Whisper страдает от галлюцинаций
По данным исследователей, система распознавания речи Whisper от компании OpenAI иногда страдает галлюцинациями, т.
#musk #cloud #xai
"Серверы с графическими процессорами построены на платформе Nvidia HGX H100. Каждый из них включает восемь ускорителей Nvidia H100 и универсальную систему жидкостного охлаждения Supermicro 4U с поддержкой горячей замены компонентов для каждого графического процессора в отдельности. Серверы установлены в стойках по восемь штук — получаются 64 ускорителя на стойку. В нижней части каждой стойки находится ещё один блок Supermicro 4U с резервной насосной системой и системой мониторинга стойки.
Стойки сгруппированы по восемь штук, что даёт 512 графических процессоров на массив. Каждый сервер имеет четыре дублирующих блока питания; в задней части стоек можно разглядеть трёхфазные блоки питания, коммутаторы Ethernet; есть также коллекторы размером со стойки, которые обеспечивают работу жидкостного охлаждения. Кластер Colossus содержит более 1500 стоек или около 200 массивов.
Из-за высоких требований к пропускной способности суперкластера ИИ, который непрерывно производит обучение моделей, инженерам xAI пришлось приложить усилия в плане сетевого взаимодействия. Каждая графическая карта оборудована выделенным сетевым контроллером на 400 GbE с дополнительным 400-Гбит сетевым адаптером на сервер. То есть у каждого сервера Nvidia HGX H100 есть Ethernet со скоростью 3,6 Тбит/с — да, весь кластер работает на Ethernet, а не на InfiniBand или других экзотических интерфейсах, стандартных для суперкомпьютеров.
Суперкомпьютеру для обучения моделей ИИ, включая Grok 3, требуются не только графические процессоры, но и накопители, а также центральные процессоры, однако информацию о них компания xAI разглашает лишь частично. На видео, подвергнутых цензуре, видно, что за это отвечают серверы на чипах x86 в корпусах Supermicro — они также оборудованы жидкостным охлаждением и предназначены либо для работы в качестве хранилищ данных, либо для рабочих нагрузок, ориентированных на центральные процессоры.
На объекте установлены также аккумуляторы Tesla Megapack. При работе кластера возможны резкие перепады в потребляемой энергии, поэтому эти батареи ёмкостью до 3,9 МВт·ч каждая пришлось установить между электросетью и суперкомпьютером в качестве энергетического буфера."
https://youtu.be/Jf8EPSBZU7Y
"Серверы с графическими процессорами построены на платформе Nvidia HGX H100. Каждый из них включает восемь ускорителей Nvidia H100 и универсальную систему жидкостного охлаждения Supermicro 4U с поддержкой горячей замены компонентов для каждого графического процессора в отдельности. Серверы установлены в стойках по восемь штук — получаются 64 ускорителя на стойку. В нижней части каждой стойки находится ещё один блок Supermicro 4U с резервной насосной системой и системой мониторинга стойки.
Стойки сгруппированы по восемь штук, что даёт 512 графических процессоров на массив. Каждый сервер имеет четыре дублирующих блока питания; в задней части стоек можно разглядеть трёхфазные блоки питания, коммутаторы Ethernet; есть также коллекторы размером со стойки, которые обеспечивают работу жидкостного охлаждения. Кластер Colossus содержит более 1500 стоек или около 200 массивов.
Из-за высоких требований к пропускной способности суперкластера ИИ, который непрерывно производит обучение моделей, инженерам xAI пришлось приложить усилия в плане сетевого взаимодействия. Каждая графическая карта оборудована выделенным сетевым контроллером на 400 GbE с дополнительным 400-Гбит сетевым адаптером на сервер. То есть у каждого сервера Nvidia HGX H100 есть Ethernet со скоростью 3,6 Тбит/с — да, весь кластер работает на Ethernet, а не на InfiniBand или других экзотических интерфейсах, стандартных для суперкомпьютеров.
Суперкомпьютеру для обучения моделей ИИ, включая Grok 3, требуются не только графические процессоры, но и накопители, а также центральные процессоры, однако информацию о них компания xAI разглашает лишь частично. На видео, подвергнутых цензуре, видно, что за это отвечают серверы на чипах x86 в корпусах Supermicro — они также оборудованы жидкостным охлаждением и предназначены либо для работы в качестве хранилищ данных, либо для рабочих нагрузок, ориентированных на центральные процессоры.
На объекте установлены также аккумуляторы Tesla Megapack. При работе кластера возможны резкие перепады в потребляемой энергии, поэтому эти батареи ёмкостью до 3,9 МВт·ч каждая пришлось установить между электросетью и суперкомпьютером в качестве энергетического буфера."
https://youtu.be/Jf8EPSBZU7Y
YouTube
Inside the World's Largest AI Supercluster xAI Colossus
We FINALLY get to show the largest AI supercomputer in the world, xAI Colossus. This is the 100,000 (at the time we filmed this) GPU cluster in Memphis Tennessee that has been on the news a lot. This video has been five months in the making, and finally Elon…
Forwarded from Artem Ryblov’s Data Science Weekly
How to Win a Kaggle Competition by Darek Kłeczek
Darek Kłeczek:
In this essay, author starts by providing a quick overview of the process he uses to collect data. He then presents several insights from analyzing datasets. The focus is to understand what the community has learned over the past 2 years of working and experimenting with Kaggle competitions. Finally, he mentions some ideas for future research.
Link: Kaggle
Navigational hashtags: #armknowledgesharing #armtutorials
General hashtags: #kaggle #competitions
Darek Kłeczek:
When I join a competition, I research winning solutions from past similar competitions. It takes a lot of time to read and digest them, but it's an incredible source of ideas and knowledge. But what if we could learn from all the competitions? We've been given a list of Kaggle writeups in this competition, but there are so many of them! If only we could find a way to extract some structured data and analyze it... Well, it turns out that large language models (LLMs) [1] can help us extract structured data from unstructured writeups.
In this essay, author starts by providing a quick overview of the process he uses to collect data. He then presents several insights from analyzing datasets. The focus is to understand what the community has learned over the past 2 years of working and experimenting with Kaggle competitions. Finally, he mentions some ideas for future research.
Link: Kaggle
Navigational hashtags: #armknowledgesharing #armtutorials
General hashtags: #kaggle #competitions
Forwarded from уровни абстракции
потрясающий текст про закат компании ABBYY как наименьшее из последствий краха всей компьютерной лингвистики под натиском статистических моделей языка. Пластмассовый мир chatGPT победил все попытки построить детерминированные онтологии, а способ решения любой проблемы "завалить вычислительными мощностями", оказался более надежным и масштабируемым, чем любая попытка разобраться что же происходит внутри системы (и язык здесь только один из примеров)
по ссылке обзор развития компьютерной лингвистики от ранних моделей до трансформеров, которые появились как способ улучшить качество гугл-переводчика, расцвет ABBYY как одной из самых успешных российских ИТ-компаний, почти академическая культура физтехов внутри, «горький урок» больших данных и сгоревшие сотни миллионов долларов на амбициозную попытку построить дерево онтологий всех языков сразу (ABBYY compreno).
про мегапроект ABBYY compreno я когда-то очень давно случайно увидел статью и будучи студентом физиком, конечно, был очарован масштабом. это же такая мечта технаря в вакууме: давайте мы все тексты сведем к логическим инвариантам, соединим их стрелочками и построим граф всего языка. то есть к сущностям типа собака / стол / книга, которые не теряют своей сути при переезде между странами. тогда для перевода между языками можно будет делать преобразование в этот мета-язык и из него в еще один шаг переводить тексты в любой другой. впечатлился, посмотрел на страшные диаграммы простых предложений (скину их в комменты, зацените) и забыл об этом на долгие годы. но конечно и представить не мог, сколько копий было поломано и сколько ресурсов потрачено (получается, что впустую).
а самое забавное, что современные большие языковые модели примерно так и работают — все тексты переводят в свой мета-язык и обратно, только этот язык
1) математический (операции над текстом превращаются в операции над векторами в многомерных пространствах, писал об этом)
2) не интерпретируемый, то есть не сводимый к человеческим интуициями
рекомендую вспоминать об этом каждый раз, когда вы слышите тезис "оно не мыслит как человек, следовательно оно глупое". про подсчет букв в предложениях, математические навыки ЛЛМ или заковыристые логические задачки. самолеты тоже не летают как птицы, и ничего.
очень рекомендую прочитать целиком: https://sysblok.ru/blog/gorkij-urok-abbyy-kak-lingvisty-proigrali-poslednjuju-bitvu-za-nlp/
по ссылке обзор развития компьютерной лингвистики от ранних моделей до трансформеров, которые появились как способ улучшить качество гугл-переводчика, расцвет ABBYY как одной из самых успешных российских ИТ-компаний, почти академическая культура физтехов внутри, «горький урок» больших данных и сгоревшие сотни миллионов долларов на амбициозную попытку построить дерево онтологий всех языков сразу (ABBYY compreno).
про мегапроект ABBYY compreno я когда-то очень давно случайно увидел статью и будучи студентом физиком, конечно, был очарован масштабом. это же такая мечта технаря в вакууме: давайте мы все тексты сведем к логическим инвариантам, соединим их стрелочками и построим граф всего языка. то есть к сущностям типа собака / стол / книга, которые не теряют своей сути при переезде между странами. тогда для перевода между языками можно будет делать преобразование в этот мета-язык и из него в еще один шаг переводить тексты в любой другой. впечатлился, посмотрел на страшные диаграммы простых предложений (скину их в комменты, зацените) и забыл об этом на долгие годы. но конечно и представить не мог, сколько копий было поломано и сколько ресурсов потрачено (получается, что впустую).
а самое забавное, что современные большие языковые модели примерно так и работают — все тексты переводят в свой мета-язык и обратно, только этот язык
1) математический (операции над текстом превращаются в операции над векторами в многомерных пространствах, писал об этом)
2) не интерпретируемый, то есть не сводимый к человеческим интуициями
рекомендую вспоминать об этом каждый раз, когда вы слышите тезис "оно не мыслит как человек, следовательно оно глупое". про подсчет букв в предложениях, математические навыки ЛЛМ или заковыристые логические задачки. самолеты тоже не летают как птицы, и ничего.
очень рекомендую прочитать целиком: https://sysblok.ru/blog/gorkij-urok-abbyy-kak-lingvisty-proigrali-poslednjuju-bitvu-za-nlp/
Системный Блокъ
Горький урок ABBYY: как лингвисты проиграли последнюю битву за NLP - Системный Блокъ
Недавно СМИ облетела новость об увольнении всех российских программистов из компании ABBYY (тоже в прошлом российской, а теперь уже совсем нет). Теперь, когда страсти вокруг обсуждения дискриминации сотрудников по паспорту улеглись, хочется поговорить о более…
#chess
Любопытно, что многие думают, когда гроссмейстер играет против любителя, у первого всегда высокая точность.
И даже Крамник бубнил что-то типа "Даня, тебе не нужен движок, чтобы разбирать игру против рейтинга ~1500.
Ну вот, пожалуйста - нужен )
https://www.youtube.com/watch?v=Wwp9E6P-AHo
Любопытно, что многие думают, когда гроссмейстер играет против любителя, у первого всегда высокая точность.
И даже Крамник бубнил что-то типа "Даня, тебе не нужен движок, чтобы разбирать игру против рейтинга ~1500.
Ну вот, пожалуйста - нужен )
https://www.youtube.com/watch?v=Wwp9E6P-AHo
YouTube
Smith-Morra Gambit Accepted | The Sensei Speedrun | GM Naroditsky
00:00 Intro
13:10 Analysis
Daniel now has a Patreon! Check it out at www.patreon.com/danielnaroditsky.
- Follow Daniel on Twitter at https://twitter.com/GMNaroditsky
- Daniel streams regularly on Twitch at https://twitch.tv/GMNaroditsky
- Daniels Discord…
13:10 Analysis
Daniel now has a Patreon! Check it out at www.patreon.com/danielnaroditsky.
- Follow Daniel on Twitter at https://twitter.com/GMNaroditsky
- Daniel streams regularly on Twitch at https://twitch.tv/GMNaroditsky
- Daniels Discord…
👍1
#regularization #smoothing
Как-то незаметно оказалось, что я пропустил интересную технику регуляризации - сглаживание таргета (label smoothing).
https://medium.com/@nainaakash012/when-does-label-smoothing-help-89654ec75326
Как-то незаметно оказалось, что я пропустил интересную технику регуляризации - сглаживание таргета (label smoothing).
https://medium.com/@nainaakash012/when-does-label-smoothing-help-89654ec75326
Medium
When Does Label Smoothing Help?
In late 2015, a team at Google came up with a paper “Rethinking the Inception Architecture for Computer Vision” where they introduced a…
#google #tpu #hardware
"Компания Google сообщила о том, что её новейшие ИИ-ускорители TPU v6 с кодовым именем Trillium доступны клиентам для ознакомления в составе облачной платформы GCP. Утверждается, что на сегодняшний день новинка является самым эффективным решением Google по соотношению цена/производительность.
Официальная презентация Trillium состоялась в мае нынешнего года. Изделие оснащено 32 Гбайт памяти HBM с пропускной способностью 1,6 Тбайт/с, а межчиповый интерконнект ICI обеспечивает возможность передачи данных со скоростью до 3,58 Тбит/с (по четыре порта на чип). Задействованы блоки SparseCore третьего поколения.
Один узел включает восемь ускорителей TPU v6e (в двух NUMA-доменах), два неназванных процессора (суммарно 180 vCPU), 1,44 Тбайт RAM и четыре 200G-адаптера (по два на CPU) для связи с внешним миром. Отмечается, что посредством ICI напрямую могут быть объединены до 256 изделий Trillium, а агрегированная скорость сетевого подключение такого кластера (Pod) составляет 25,6 Тбит/с. Десятки тысяч ускорителей могут быть связаны в масштабный ИИ-кластер благодаря платформе Google Jupiter с оптической коммутацией, совокупная пропускная способность которой достигает 13 Пбит/с.
Заявляется, что благодаря ПО Multislice Trillium обеспечивается практически линейное масштабирование производительности для рабочих нагрузок, связанных с обучением ИИ. Производительность кластеров на базе Trillium может достигать 91 Эфлопс на ИИ-операциях: это в четыре раза больше по сравнению с самыми крупными развёртываниями систем на основе TPU v5p. BF16-производительность одного чипа TPU v6e составляет 918 Тфлопс, а INT8 — 1836 Топс.
В бенчмарках Trillium по сравнению с TPU v5e показал более чем четырёхкратное увеличение производительности при обучении моделей Gemma 2-27b, MaxText Default-32b и Llama2-70B, а также более чем трёхкратный прирост для LLama2-7b и Gemma2-9b. Кроме того, Trillium обеспечивает трёхкратное увеличение производительности инференса для Stable Diffusion XL (по отношению к TPU v5e). По соотношению цена/производительность TPU v6e демонстрирует 1,8-кратный рост по сравнению с TPU v5e и примерно двукратный рост по сравнению с TPU v5p."
https://servernews.ru/1113447
"Компания Google сообщила о том, что её новейшие ИИ-ускорители TPU v6 с кодовым именем Trillium доступны клиентам для ознакомления в составе облачной платформы GCP. Утверждается, что на сегодняшний день новинка является самым эффективным решением Google по соотношению цена/производительность.
Официальная презентация Trillium состоялась в мае нынешнего года. Изделие оснащено 32 Гбайт памяти HBM с пропускной способностью 1,6 Тбайт/с, а межчиповый интерконнект ICI обеспечивает возможность передачи данных со скоростью до 3,58 Тбит/с (по четыре порта на чип). Задействованы блоки SparseCore третьего поколения.
Один узел включает восемь ускорителей TPU v6e (в двух NUMA-доменах), два неназванных процессора (суммарно 180 vCPU), 1,44 Тбайт RAM и четыре 200G-адаптера (по два на CPU) для связи с внешним миром. Отмечается, что посредством ICI напрямую могут быть объединены до 256 изделий Trillium, а агрегированная скорость сетевого подключение такого кластера (Pod) составляет 25,6 Тбит/с. Десятки тысяч ускорителей могут быть связаны в масштабный ИИ-кластер благодаря платформе Google Jupiter с оптической коммутацией, совокупная пропускная способность которой достигает 13 Пбит/с.
Заявляется, что благодаря ПО Multislice Trillium обеспечивается практически линейное масштабирование производительности для рабочих нагрузок, связанных с обучением ИИ. Производительность кластеров на базе Trillium может достигать 91 Эфлопс на ИИ-операциях: это в четыре раза больше по сравнению с самыми крупными развёртываниями систем на основе TPU v5p. BF16-производительность одного чипа TPU v6e составляет 918 Тфлопс, а INT8 — 1836 Топс.
В бенчмарках Trillium по сравнению с TPU v5e показал более чем четырёхкратное увеличение производительности при обучении моделей Gemma 2-27b, MaxText Default-32b и Llama2-70B, а также более чем трёхкратный прирост для LLama2-7b и Gemma2-9b. Кроме того, Trillium обеспечивает трёхкратное увеличение производительности инференса для Stable Diffusion XL (по отношению к TPU v5e). По соотношению цена/производительность TPU v6e демонстрирует 1,8-кратный рост по сравнению с TPU v5e и примерно двукратный рост по сравнению с TPU v5p."
https://servernews.ru/1113447
ServerNews - все из мира больших мощностей
Google объявила о доступности ИИ-ускорителей TPU v6 Trillium
Компания Google сообщила о том, что её новейшие ИИ-ускорители TPU v6 с кодовым именем Trillium доступны клиентам для ознакомления в составе облачной платформы GCP. Утверждается, что на сегодняшний день новинка является самым эффективным решением Google по…
Forwarded from Data Science Private Sharing
#contest
Дайджест ближайших соревнований (отсортированы по дате проведения, но обратите на дату окончания регистрации - она может быть сильно раньше):
[СОР] AvitoTech ML cup 2024
⏰ Даты: 5.11 - 5.12
🔜 [CLF] Задача: предсказать вероятность, что пользователь кликнет рекламу
💰 Приз: 600 т.р. (+10 мерч)
🏀 Участие: соло или команда до 4 человек
🌐 Формат: онлайн
[ХАК] Tender Hack
⏰ Даты: 8.11 - 10.11 (рег. до 8.11)
🔜 Задача: разработать сервис, осуществляющий мониторинг котировочных сессий на предмет корректности публикации
💰 Приз: 500 т.р.
🏀 Участие: команда 3-5 человек
🌐 Формат: офлайн в СПБ
[ХАК] ЦП. Международный хакатон
⏰ Даты: 08.11 - 10.11 (рег. до 04.11)
🔜 [NLP] Кейс 1: выделение именованных сущностей из электропочты и классификация сообщений
🔜 [CV, REC] Кейс 2: поиск смысловых копий изображений
🔜 [CV, NLP] Кейс 3: матчинг видеовизитки и описания вакансии
🔜 [CV, CLF] Кейс 4: поиск животных на фото и их классификация
🔜 [CV] Кейс 5: детекция и распознавание маркировки на изображении
🔜 [NLP] Кейс 6: качественный анализ документации на соответствие требованиям
🔜 [CLF] Кейс 7: детекция аномалий при строительстве жилых комплексов в части транспортной доступности
🔜 [CV] Кейс 8: поиск нарушений автотранспортом на видеозаписи
🔜 [CLF] Кейс 9: распознавания фазы глубокого сна и промежуточной фазы сна
🔜 [NLP, RAG] Кейс 10: чат-бот для поиска информации в агентской библиотеке материалов
💰 Приз: 10 млн. рублей
🏀 Участие: команда 3-5 человек
🌐 Формат: гибрид
[ХАК] BIV Hack
⏰ Даты: 15.11 - 17.11 (рег. до 12.11)
🔜 [CLF, NLP] Задача 1: Автоматизация разбора платежей
🔜 [NLP] Задача 2: Алгоритм выявления связей между контрагентами
💰 Приз: 300 т.р.
🏀 Участие: команда 3-5 человек
🌐 Формат: онлайн
[ХАК] AgroCode Hack Genetics
⏰ Даты: 22.11 - 24.11 (рег. до 14.11)
🔜 [CLF] Задача 1: Система оценки племенной ценности радужной форели
🔜 [NLP] Задача 2: «Тиндер» для коров
🔜 [REG] Задача 3: Прогнозирование урожайности
🔜 [CLT] Задача 4: Историческая агроголоволомка
💰 Приз: 200 т.р. на задачу
🏀 Участие: команда 3-5 человек
🌐 Формат: онлайн
[ХАК] T1 | Импульс | Хакатон | Москва
⏰ Даты: 26.11 - 29.11 (рег. до 25.11)
🔜 [NLP] Трек 1: объединение данных пользователя в золотую запись
🔜 [NLP, RAG] Трек 2: цифровой ассистент базы знаний
💰 Приз: 600 т.р. на каждый трек
🏀 Участие: команда 3-5 человек
🌐 Формат: гибрид (Москва, минимум 2 участника на площадке)
[ХАК] ХАКАТОН ЕВРАЗА 3.0
⏰ Даты: 29.11 - 01.12 (рег. до 25.11)
🔜 [NLP] Задача: автоматический Code Review с помощью ИИ
💰 Приз: 500 т.р.
🏀 Участие: команда 2-5 человек
🌐 Формат: онлайн
З.Ы. Здесь приведены только ML-задачи. Сами задачи могут включать и расширенные требования. Например, Frontend.
Дайджест ближайших соревнований (отсортированы по дате проведения, но обратите на дату окончания регистрации - она может быть сильно раньше):
[СОР] AvitoTech ML cup 2024
⏰ Даты: 5.11 - 5.12
🏀 Участие: соло или команда до 4 человек
🌐 Формат: онлайн
[ХАК] Tender Hack
⏰ Даты: 8.11 - 10.11 (рег. до 8.11)
🏀 Участие: команда 3-5 человек
🌐 Формат: офлайн в СПБ
[ХАК] ЦП. Международный хакатон
⏰ Даты: 08.11 - 10.11 (рег. до 04.11)
🏀 Участие: команда 3-5 человек
🌐 Формат: гибрид
[ХАК] BIV Hack
⏰ Даты: 15.11 - 17.11 (рег. до 12.11)
🏀 Участие: команда 3-5 человек
🌐 Формат: онлайн
[ХАК] AgroCode Hack Genetics
⏰ Даты: 22.11 - 24.11 (рег. до 14.11)
🏀 Участие: команда 3-5 человек
🌐 Формат: онлайн
[ХАК] T1 | Импульс | Хакатон | Москва
⏰ Даты: 26.11 - 29.11 (рег. до 25.11)
🏀 Участие: команда 3-5 человек
🌐 Формат: гибрид (Москва, минимум 2 участника на площадке)
[ХАК] ХАКАТОН ЕВРАЗА 3.0
⏰ Даты: 29.11 - 01.12 (рег. до 25.11)
🏀 Участие: команда 2-5 человек
🌐 Формат: онлайн
З.Ы. Здесь приведены только ML-задачи. Сами задачи могут включать и расширенные требования. Например, Frontend.
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Data Science Private Sharing
Написал на хабре статью, как с помощью Оптуны оптимизировать гиперпараметры RAG-системы (это такой карманный поисковик):
https://habr.com/ru/articles/811239/
https://habr.com/ru/articles/811239/
#regularization #smoothing
Потестировал label smoothing, у меня заработало только в нейронках и только в keras/tf.
Объясните мне, почему это не работает в Торче.
Вообще эффект слабый. Но можете попробовать на своих задачах:
Ещё можно просто использовать спецлосс, не меняя таргет:
Потестировал label smoothing, у меня заработало только в нейронках и только в keras/tf.
Объясните мне, почему это не работает в Торче.
Вообще эффект слабый. Но можете попробовать на своих задачах:
# 1. Generate a binary classification dataset
X, y = make_classification(n_samples=10000, n_features=10,flip_y=0.1, random_state=42)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
# 2. Set the smoothing factor
for alpha in np.linspace(0,0.1,20):
y_train_smoothed = np.where(y_train == 1, 1 - alpha / 2, alpha / 2)
model = Sequential([
Dense(64, activation='relu', input_shape=(X.shape[1],)),
Dense(1, activation='sigmoid') # Sigmoid output for binary classification
])
# 3. Compile the model
model.compile(optimizer='adam', loss='binary_crossentropy', metrics=['accuracy'])
# 4. Train the model with smoothed labels
model.fit(
X_train, y_train_smoothed,
epochs=10,
batch_size=32,
validation_split=0.1,
verbose=0 # Set verbose to 0 if you want silent training
)
# 5. Evaluate the model
preds = model.predict(X_test,verbose=0).flatten()
metric=brier_score_loss(y_true=y_test,y_proba=preds)
print(f"alpha={alpha:.4f}, brier_score={metric:.4f}")
alpha=0.0000, brier_score=0.0990
alpha=0.0053, brier_score=0.0989
alpha=0.0105, brier_score=0.0984
alpha=0.0158, brier_score=0.0984
alpha=0.0211, brier_score=0.0999
alpha=0.0263, brier_score=0.0999
alpha=0.0316, brier_score=0.0995
alpha=0.0368, brier_score=0.0998
alpha=0.0421, brier_score=0.1006
alpha=0.0474, brier_score=0.1021
alpha=0.0526, brier_score=0.1018
alpha=0.0579, brier_score=0.1017
alpha=0.0632, brier_score=0.1014
alpha=0.0684, brier_score=0.1021
alpha=0.0737, brier_score=0.1021
alpha=0.0789, brier_score=0.1011
alpha=0.0842, brier_score=0.1045
alpha=0.0895, brier_score=0.1017
alpha=0.0947, brier_score=0.1027
alpha=0.1000, brier_score=0.1034
Ещё можно просто использовать спецлосс, не меняя таргет:
model.compile(optimizer='adam', loss=partial(tf.keras.losses.binary_crossentropy,
from_logits=False,
label_smoothing=alpha), metrics=['accuracy'])
#astronomy #biology #lifeorigin
Не знал, что в Солнечной системе так много спутников с океанами!
https://youtu.be/wf7ZifJ0p1c?si=d1_ohWMge2xR6s3k
Не знал, что в Солнечной системе так много спутников с океанами!
https://youtu.be/wf7ZifJ0p1c?si=d1_ohWMge2xR6s3k
YouTube
Жизнь на спутнике Юпитера. Миссия Europa Clipper
Научные сенсации. Космос. Вода. Жизнь
14 октября 2024 года сверхтяжелая ракета Falcon Heavy вывела в космос 6-тонный автоматический аппарат Europa Clipper. Межпланетная станция отправится к спутнику Юпитера - Европе. Под её ледяной корой есть жидкий океан…
14 октября 2024 года сверхтяжелая ракета Falcon Heavy вывела в космос 6-тонный автоматический аппарат Europa Clipper. Межпланетная станция отправится к спутнику Юпитера - Европе. Под её ледяной корой есть жидкий океан…
#apple #hardware #cpu
Ноутбучный процессор быстрее лучших настольных. Эппл показала Интел и АМД, кто тут батя )
"В свою очередь, процессор Intel Core i9-14900K набрал 3144 балла в одноядерном тесте и 23 044 балла в многоядерном. Это ставит новый чип Apple M4 Max на 15 % выше по производительности по сравнению с самым мощным настольным чипом Intel, что лишний раз подчёркивает значительные достижения Apple в области разработки собственных высокопроизводительных процессоров.
Кроме того, Apple ещё не представила чип M4 Ultra, который, предположительно, будет обладать примерно удвоенной производительностью по сравнению с Apple M4 Max благодаря технологии UltraFusion, позволяющей объединить два кристалла Max с минимальными потерями. Ожидается, что M4 Ultra станет доступен в Apple Mac Studio и Mac Pro примерно в середине 2025 года, что, вероятно, поднимет планку производительности «яблочных» устройств на новый уровень."
https://3dnews.ru/1113451/noviy-protsessor-apple-m4-max-okazalsya-samim-bistrim-na-rinke
Ноутбучный процессор быстрее лучших настольных. Эппл показала Интел и АМД, кто тут батя )
"В свою очередь, процессор Intel Core i9-14900K набрал 3144 балла в одноядерном тесте и 23 044 балла в многоядерном. Это ставит новый чип Apple M4 Max на 15 % выше по производительности по сравнению с самым мощным настольным чипом Intel, что лишний раз подчёркивает значительные достижения Apple в области разработки собственных высокопроизводительных процессоров.
Кроме того, Apple ещё не представила чип M4 Ultra, который, предположительно, будет обладать примерно удвоенной производительностью по сравнению с Apple M4 Max благодаря технологии UltraFusion, позволяющей объединить два кристалла Max с минимальными потерями. Ожидается, что M4 Ultra станет доступен в Apple Mac Studio и Mac Pro примерно в середине 2025 года, что, вероятно, поднимет планку производительности «яблочных» устройств на новый уровень."
https://3dnews.ru/1113451/noviy-protsessor-apple-m4-max-okazalsya-samim-bistrim-na-rinke
3DNews - Daily Digital Digest
Apple M4 Max оказался быстрее Core i9-14900K и Ryzen 9 9950X в тестах Geekbench
Apple на этой неделе представила новые MacBook Pro с процессорами M4, M4 Pro и M4 Max. Наибольший интерес привлёк M4 Max, который, по первым тестам, оказался самым быстрым среди всех ноутбучных чипов и обогнал по производительности многие мощные настольные…