Опять применив формулу Стирлинга и посмотрев на экспоненциальную часть, мы получим произведение (n/m_i)^(m_i), и его логарифм будет равен
n * (-\sum p_i log p_i).
n * (-\sum p_i log p_i).
Вот мы и получили знаменитую формулу для энтропии — число бит для передачи результата в расчёте на один эксперимент (или, по-другому, какая пропускная способность канала нам нужна):
H = - \sum_i p_i \log p_i.
H = - \sum_i p_i \log p_i.
Для аккуратности — если говорить о битах, то логарифм нужно брать двоичным, а в динамических системах и в физике его обычно берут натуральным.
Математические байки
Вот мы и получили знаменитую формулу для энтропии — число бит для передачи результата в расчёте на один эксперимент (или, по-другому, какая пропускная способность канала нам нужна): H = - \sum_i p_i \log p_i.
Ещё на эту формулу можно посмотреть так: это математическое ожидание ( = результат усреднения) логарифма вероятности того исхода, которое у нас в результате одного эксперимента получается.
Так что можно сказать, что логарифм вероятности пронаблюдённого (случившегося) исхода — это та информация, которую мы в результате эксперимента получаем.
В какой-то из популярных книжек (ещё времён, когда телефоны были проводными) мне попадалось сравнение
"Если Вы снимете трубку звонящего телефона и услышите "Алло!", Вы не удивитесь. Гораздо больше Вы удивитесь, если Вас вместо этого ударит током."
"Если Вы снимете трубку звонящего телефона и услышите "Алло!", Вы не удивитесь. Гораздо больше Вы удивитесь, если Вас вместо этого ударит током."
Математические байки
Вопрос тут был вполне естественный — но я расскажу сначала его упрощённую версию. Можно спрашивать, как себя ведут типичные точки отрезка. Но тут ответ простой — если считать 0 и 1 в двоичной записи случайной точки отрезка, то для типичной точки их будет…
==
Ну и возвращаясь к докладу Марка Полликотта (а то я про Безиковича и долю единиц рассказал, а про центральный сюжет ещё нет).
Ну и возвращаясь к докладу Марка Полликотта (а то я про Безиковича и долю единиц рассказал, а про центральный сюжет ещё нет).
Там тоже обсуждалась хаусдорфова размерность, но не точек с данной долей 0 и 1, а точек с данной скоростью растяжения для того отображения T, которое канторово множество порождает.
По-хорошему, про скорость растяжения произносятся слова "показатель Ляпунова" (которые для современной теории динамических систем одни из основных).
Чуть более подробно — вот пусть у нас есть динамическая система, то есть отображение T, которое мы итерируем (можно сказать, что оно сопоставляет текущему состоянию системы её состояние через одну секунду).
И пусть задана начальное состояние системы — некоторая точка x.
Тогда можно посмотреть, с какой скоростью итерации "соседних" с ней точек с её итерациями сближаются/разбегаются.
В размерности один — а мы будем считать, что мы работаем на отрезке, — это просто значит, что мы берём производную n-й итерации T^n в точке x:
Теперь, чтобы сказать, "какое изменение приходится [в среднем] на одну итерацию", можно было бы извлечь корень n-й степени.
Но с корнями и произведениями очень неудобно работать. Поэтому от такого "среднего геометрического производных по орбите" берут логарифм — рассматривают
(1/n) log (T^n)'(x) = (1/n) \sum_{j=0}^{n-1} (log T')(T^j(x)).
(1/n) log (T^n)'(x) = (1/n) \sum_{j=0}^{n-1} (log T')(T^j(x)).
(Да, "орбита" — это как раз последовательность итераций начальной точки: x, T(x), T^2(x), ...)
Математические байки
Photo
И переходят к пределу при n, стремящемся к бесконечности. Вот этот предел (который появляется на слайде выше) и называется показателем Ляпунова (отображения T в точке x).
В том случае, когда отображение T — кусочно-аффинное, порождающее канторово множество, производная у него на каждом отрезке области определения постоянна. Так что получается действительно почти "доля единиц" в кодировании точки, только чуть-чуть подкрученная.