Так вот — при большом числе наблюдений нам понадобится примерно (-p log p - (1-p) log (1-p)) бит в расчёте на одно измерение, чтобы (честно) передать результаты.
Проще всего это сделать так — если мы провели n измерений, то сначала передаём m — число единиц. На это нам нужно log_2(n) бит, что по сравнению с n — копейки.
Теперь, когда мы знаем число единиц — у нас есть C_n^m разных вариантов, и на самом деле, они все равновероятны. Поэтому понятно, что меньше, чем log_2 (C_n^m) битами, мы не обойдёмся. А чтобы передать за это число бит — например, можно (мысленно) лексикографически упорядочить все C_n^m последовательностей из m единиц и (n-m) нулей, и заметить, что соответствие между номером последовательности и самой последовательностью несложно вычисляется в обе стороны.
Чтобы закончить позавчерашнюю байку — если у нас в эксперименте будут не 0 и 1, а несколько разных исходов 1,...,k — все со своими вероятностями p_1,...,p_k, — то вместо биномиального коэффициента будет мультиномиальный, из n по набору (m_1,...,m_k) того, сколько раз какой исход выпал.
Опять применив формулу Стирлинга и посмотрев на экспоненциальную часть, мы получим произведение (n/m_i)^(m_i), и его логарифм будет равен
n * (-\sum p_i log p_i).
n * (-\sum p_i log p_i).
Вот мы и получили знаменитую формулу для энтропии — число бит для передачи результата в расчёте на один эксперимент (или, по-другому, какая пропускная способность канала нам нужна):
H = - \sum_i p_i \log p_i.
H = - \sum_i p_i \log p_i.
Для аккуратности — если говорить о битах, то логарифм нужно брать двоичным, а в динамических системах и в физике его обычно берут натуральным.
Математические байки
Вот мы и получили знаменитую формулу для энтропии — число бит для передачи результата в расчёте на один эксперимент (или, по-другому, какая пропускная способность канала нам нужна): H = - \sum_i p_i \log p_i.
Ещё на эту формулу можно посмотреть так: это математическое ожидание ( = результат усреднения) логарифма вероятности того исхода, которое у нас в результате одного эксперимента получается.
Так что можно сказать, что логарифм вероятности пронаблюдённого (случившегося) исхода — это та информация, которую мы в результате эксперимента получаем.
В какой-то из популярных книжек (ещё времён, когда телефоны были проводными) мне попадалось сравнение
"Если Вы снимете трубку звонящего телефона и услышите "Алло!", Вы не удивитесь. Гораздо больше Вы удивитесь, если Вас вместо этого ударит током."
"Если Вы снимете трубку звонящего телефона и услышите "Алло!", Вы не удивитесь. Гораздо больше Вы удивитесь, если Вас вместо этого ударит током."
Математические байки
Вопрос тут был вполне естественный — но я расскажу сначала его упрощённую версию. Можно спрашивать, как себя ведут типичные точки отрезка. Но тут ответ простой — если считать 0 и 1 в двоичной записи случайной точки отрезка, то для типичной точки их будет…
==
Ну и возвращаясь к докладу Марка Полликотта (а то я про Безиковича и долю единиц рассказал, а про центральный сюжет ещё нет).
Ну и возвращаясь к докладу Марка Полликотта (а то я про Безиковича и долю единиц рассказал, а про центральный сюжет ещё нет).
Там тоже обсуждалась хаусдорфова размерность, но не точек с данной долей 0 и 1, а точек с данной скоростью растяжения для того отображения T, которое канторово множество порождает.
По-хорошему, про скорость растяжения произносятся слова "показатель Ляпунова" (которые для современной теории динамических систем одни из основных).
Чуть более подробно — вот пусть у нас есть динамическая система, то есть отображение T, которое мы итерируем (можно сказать, что оно сопоставляет текущему состоянию системы её состояние через одну секунду).
И пусть задана начальное состояние системы — некоторая точка x.
Тогда можно посмотреть, с какой скоростью итерации "соседних" с ней точек с её итерациями сближаются/разбегаются.
В размерности один — а мы будем считать, что мы работаем на отрезке, — это просто значит, что мы берём производную n-й итерации T^n в точке x: