Data is data – Telegram
Data is data
3.13K subscribers
2.94K photos
49 videos
36 files
799 links
Канал о данных, фактах, визуализации. Немного математики, историй с лёгкими оттенками machine и deep learning. Для связи пишите https://news.1rj.ru/str/blackskif
Download Telegram
Пришли психологи и всё стало сложным. 83% рентгенологов не заметили гориллу на снимках лёгких, хотя смотрели прямо на неё. Это показал детектор направления взгляда (синим). Источник - пабмед. https://clc.to/radiogor
Media is too big
VIEW IN TELEGRAM
Как возникает хаос ? Может ли он возникнуть из упорядоченной системы ? ответ в этом коротком видео. Предсказывать на какой-то короткий педиод времени можно. На долгий, почти невозможно. С каждым новым моментом времени вперёд нам нужно всё больше и больше информации для предсказания. А малейшие ошибки в изначальной конфигурации могут давать драматически другие прогнозы. Тот самый эффект бабочки.
Есть ещё вот какой предсказательный парадокс. Допустим я верно предсказываю изобретение колеса через год. Для качественного прогноза мне нужно описать это колесо. Если я это делаю, то я изобретаю колесо не через год, а прямо сейчас. И мой прогноз коллапсирует в ложный. Если я не предсказываю колесо, то прогноз автоматически ложный. Варианта составить верный прогноз получается нет совсем. Я эту логику пока не преодолел внутри.
Очевидное-невероятное распределение Бенфорда. Если взять любой набор показателей, из чисел взять только первую слева цифру, то она будет распределена вот так. 30% единичек, 18% двоечек и т.д. закон немного нарушается там, где выборка ограничена. Как пример население городов России от 100К человек (данные из вики). Там есть перекос из-за отсечки. Если взять данные госкомстата по всем муниципальным образованиям, то попадание очень близкое. Магия. В жизни это используется банками для выявления подозрительных транзакций. Первая цифра сумм как правило тоже следует закону Бенфорда для естественных платежей. Можете сами попробовать в Excel на каких-нибудь продажах. Вероятность Бенфорда для к считается =log(k+1;10)-log(k;10). На вики ещё лежит картинка по распределению первых букв слов в русском языке против распределения Бенфорда, но источник неизвестен. Важно: закон не выполняется для чисел из нормального распределения, если взять медиану 6, и сигму в 0.1, то 99,999% чисел из него будут начинаться на 6.
Топовый адрес по оригинальности: г Москва, поселение Московский, г Московский, ул Московская, д 3

и это к сожалению не шутка. Там живые люди живут.

ФИАС
36663e7e-25a0-465a-a082-100a5f441d94

КЛАДР
7701100200000150123
по просьбам читателей запустил чатик для канала
ВШЭ в новом учебном году сфокусировалась на долгих курсах до лета. Посмотрите на них, если вы хотите копать данные, но не знаете как начать. Стоит это умеренных денег, дешевле чем психотерапевт, например. Хотя родным психотерапевта, наверное, проще объяснить. https://clc.to/hseedu2019
Почему простое скользящее среднее - плохой выбор KPI. Посмотрите на пример. MAT6 = среднее за 6 периодов. Первая проблема - выброс резко меняет показатель в моменте. Это половинка беды. Вторая проблема случается, когда выброс уходит из окна среднего. Показатель обрушивается вниз, хотя в реальности ничего такого не случилось. Это называется "качели" среднего. Толстяк садится на качели, противоположный конец с малышом взлетает, толстяк уходит, малыш падает.

Чинить такое просто - вводится экспоненциальное скользящее среднее. AEXP(N) = 0.1 * VALUE(N) + (1 - 0.1) * AEXP(N-1). AEXP(0) = VALUE(0). Оно не даёт выбросам резко менять показатель, потому что обладает некоторой "памятью". 0.1 приведён, для примера, можно выбрать другое число от 0 до 1. Чем оно ближе к единичке, тем больше показатель будет реагировать на текущие сдвиги, чем ближе к нулю, тем больше он будет сглаживать временной ряд.
Как работает ансамбль экспертов ? Пусть у нас есть три независимых эксперта, каждый из которых может дать правильный ответ с вероятностью 60%. Если мы объединим ответы простым голосованием, то вероятность получить правильный ответ возрастёт до 64,8%. Потому что ошибиться должны минимум два эксперта. Условные вероятности выписывать не буду тут, но можете за мной проверить. Таким образом наш прогноз "бесплатно" улучшается. Этим нехитрым трюком пользуются все дата саентисты, а некоторые им откровенно злобоупотребляют. На соревнованиях бывают ансамбли и из 20К моделей.

Русский народ же в древности оформил это как "одна голова хорошо, а две - лучше" безо всякого тервера-штервера.

Остался один вопрос: что будет если эксперты похожи друг на друга и склонны давать почти одинаковые ответы ? Тогда вероятность останется прежней: 60%. Набирайте в команды разных людей. Дивёрсити рулит.
Выборы президента Польши в 2015 году и граница Российской империи до 1917
Задача. Имеется единичный куб и муха на одной из вершин. найти кратчайший путь на противоположную вершину (муха перемещается только по поверхности). ответы можно в чатик кидать.
Японские свечи - один из самый ёмких способов представления сложной информаци. Придуманы в (сюрприза не будет) в Японии в 1750+ году для отображения цен на рис. Свеча отражает движение цен за период. Если она чёрная(красная), то рынок идёт вниз, если она белая(зелёная), то вверх. При движении вверх, низ тела это начало торгов, верх - конец торгов, при движении вниз наоборот. "Усы", ещё их называют тенью - это максимумы и минимумы за период. Как можно легко себе представить, свечи легко масштабируются от минуты к годам, сохраняя структуру информации. Это база для анализа рынков. Нельзя путать с анализом квартилей. Об этом позже.
2018_god_vich-infekciya.pdf
4.7 MB
Большой доклад минздрава как в реальности обстоят дела с ВИЧ. Говорят в открытом доступе уже не найти.
Счётная палата отчиталась за исполнение бюджета. Самый богатый регион у нас Москва, +282 млрд. Самый бедный Якутия -13. Общий профицит гигантский - 1565 млрд. рублей. Это примерный объём сигаретного рынка целиком. Зачем на этом фоне продлевать заморозку накопительной части пенсий мало понятно. Нацпроекты плохо, дорог у нас в этом году не будет, образования и культуры тоже. Про экологию помолчим. По госпрограммам Кавказ с Крымом гребут в одной лодке и больше на месте. Нет идей ? . Радует, что доклад красивый технически и достаточно консистентный по цифрам. https://clc.to/budru29s1