Судя по странице https://cvk.gov.ua/pls/vp2019/wp335pt001f01=719.html, осталось ввести меньше сотни протоколов (к чести ЦВК, данные страницы сходятся с количеством протоколов в выкачке). Так что еще полсотни обновлений, потерпим...
Один упорный участок из города Обухів Киевской области все никак не сдается. Между тем в таблицу, похоже, вносятся какие-то изменения (потом посмотрим, какие)
Оказывается, еще вчера был подписан протокол с итогами. Все, выгрузок больше не будет. Эти однажды приведу к более компактному виду и уберу из канала. Если кому надо 4 гигабайта сырых выгрузок — сообщите.
Убрал отдельные сообщения с выгрузками. Вот все данные канала по этим выборам одним архивом в формате TSV (UTF-8, CRLF):
В этом архиве исключены пять первых выгрузок (до 20:35) с ошибочными данными для кандидатов-однофамильцев, убран мусор в номерах участков и унифицированы заголовки столбцов в соответствии с последней выгрузкой.
collect.log
59.3 KB
Лог сборки (UTF-8, CRLF) со всеми изменениями (кроме исключения ошибочных данных).
История изменений каждого участка на основе этих данных, в формате JSON text sequence (UTF-8, CRLF):
То же самое в формате TSV (UTF-8, CRLF) — все данные, относящиеся к заданному участку (одной и той же паре «ТВО №», «№ ВД»), идут подряд:
aggregate.log
27.7 KB
Лог агрегации (UTF-8, CRLF) с отметками о странностях в выгрузках (судя по всему, некоторые выгрузки заставали сайт в процессе обновления).
Скрипты сборки и агрегации (простые), включая конвертацию в форматы CSV и JSON lines, которые я для простоты выкладывать не стал: https://gist.github.com/388d74776714f7b9e590a8b39094bf93
Gist
Aggregate multiple CVK scrapes into precinct histories
Aggregate multiple CVK scrapes into precinct histories - aggregate.py
Наконец, последняя сырая выгрузка из канала (соответствующая файлу
20190406T1151Z.tsv в архиве) на случай, если кому-то нужно сверить обработку со старым форматом: