Кирилл В (vakhnenko) wrote,
Кирилл В
vakhnenko

Фальсификация выборов и теорвер/статистика

Ну что же, выборы в Думу на носу. В честь этого знаменательного события я решил написать небольшой пост о паре статистических методов, с помощью которых можно выявить являющиеся признаком фальсификации результатов голосования статистические аномалии.



Метод первый. Распределение голосов на избирательных участках.

Взгляните на график внизу, это результаты выборов в Думу в 2011 году. По оси абсцисс отложен результат партии на УИКе. По оси ординат -- кол-во голосов (в миллионах, размер бина 0.5%), от общего числа зарегистрированных избирателей на избирательных участках с такой явкой. Малый график слева-сверху это спектр Фурье.



Во-первых сразу же бросаются в глаза пики на значениях явки 65, 70, 75, 80, 85, 90, 95, 100%. Вероятность случайного возникновения таких регулярных пиков астрономически мала, и при том появление их очень просто объяснить человеческой психологией и стремлением показать "красивые" цифры в отчете. В 2011 под этими пиками находилось около миллиона дополнительных голосов за ЕР, что их итоговый результат меняет не очень сильно (примерно на 1 %). Но зато никаких сомнений в рукотворном происхождении пиков быть не может.

Во-вторых, налицо крайне необычная форма распределения. Помимо основного максимума в районе 55%, распределение имеет «плечо» со стороны больших явок и резкий пик вблизи 100%, причем при высоких явках доли голосов за все кандидатуры, кроме кандидатуры власти, начинают падать, а все потерянные ими голоса вкупе с дополнительными голосами от роста явки отходят к кандидатуре власти. Распределение голосов на честных выборах необязательно должно быть нормальным (например в Англии или Германии на выборах видна четкая корреляция между явкой и результатами разных партий) -- но подобной кластеризации вы там не найдете.

Такой же график для президентских выборов в 2012 году, имеются те же статистические аномалии что и в 2011, пусть и чуть менее ярко выраженные:



Вот более наглядная иллюстрация. По оси абсцисс отложена явка в процентах, а по оси ординат процентная доля избирателей, проголосовавших за выигравшую выборы партию/кандидатуру. Кроме российских выборов в 2011 и 2012 году также приведены результаты выборов в иных странах, в т.ч. и выборы в Уганде на которых партия власти обвинялась в масштабных фальсификациях результатов голосований. Обратите внимание на кластеры участков с высоким процентов явки и высоким же процентом голосов за партию власти (обведены красным):



Причем в самой России в недавнем прошлом гистограмма явки не имела этого ярко выраженного кластера на высоких значениях явки. На графике ниже (источник) показано распределение явки на общероссийских выборах в период с 1995 по 2003 год (не включены национальные республики, с ними уже и тогда были проблемы):



Ну и еще одна визуализация. Совокупное количество голосов за партию власти как процент от явки. Обычно эта кривая выглядит как сигмоида, но в случае с российскими выборами в 2011/2012 и с выборами в Уганде вместо плато на правой части кривой мы имеем весьма высокий прирост.



Больше информации, с конкретными мат. методами которые помогут дать вероятность того или иного распределения голосов:
P. Klimek, Y. Yegorov, R. Hanel, and S. Thurner. Statistical detection of systematic election irregularities (2012).
Kobak D, Shpilkin S, Pshenichnikov MS Statistical anomalies in 2011–2012 Russian elections revealed by 2D correlation analysis (2012)

Метод второй. Анализ последней и первой цифры.

Начнем с анализа последней цифры. Для этого надо взять абсолютную явку и абсолютное количество голосов на всех участках, и записать последную цифру (или последние две цифры, при должном размере участков). Т.е., к примеру, если явка на участке X была 1034 человек -- мы записываем в табличку цифру 4, или цифру 34. Последние цифры явки со всех участков компилируются в один набор данных, и затем мы анализируем их распределение.

В честных выборах распределение этих цифр должно быть более-менее равномерным, ибо последняя цифра абсолютной явки является по сути случайной. Но если результаты "рисуются", то снова проявляется человеческая психология: когда людям надо выдумать некую случайную цифру, они тяготеют к определенным числам (например "красивый" ноль в качестве последней цифры); также не любят повторяющиеся цифры (напр. 22), но в то же время часто выдают последовательные цифры (напр. 12).

В качестве примера, вот анализ выборов в Нигерии по последней цифре явки. Налицо статистическая аномалия, которая может быть объяснена фальсификацией результатов на избирательных участках:



Более подробно тут: Bernd Beber and Alexandra Scacco. What the Numbers Say: A Digit-Based Test for Election Fraud (2012).

Теперь о первой цифре (или первых двух цифрах) абсолютной явки на избирательных участках. Сам метод в принципе очень похож на метод "последней цифры", вот только ожидаемое распределение берется не равномерное, а соответствующее т.н. закону Бедфорда, который описывает вероятность появления определённой первой значащей цифры в распределениях величин, взятых из реальной жизни:



Подробнее тут: Walter R. Mebane. Election Forensics: Vote Counts and Benford’s Law (2006)

Заключение

Оба вышеуказанных метода требуют доступа к данным индивидуальных избирательных участков, так что надеюсь, что в этом году все результаты по УИКам будут также выложены Центризбиркомом РФ в интернет. Скажем, в случае с крымским референдумом в 2014 году в открытый доступ эти данные так и не попали (впрочем там все равно были крайне странные цифры общей явки в Севастополе).

График распределения голосов на этих думских выборах и без меня найдется кому сделать (вангую посты о "пиле Чурова" в топе ЖЖ). А вот анализа первых/последних цифр я в 2011/2012 году не помню, так что буду не прочь буду его в это раз сделать самому и глянуть что там и как. Если результаты будут интересными -- выложу тут.

Ну и необходимый дисклеймер, ибо некоторые, возможно, захотят прикопаться к технической стороне вопроса. Статистические методы никогда не смогут доказать наличие фальсификаций. Они лишь могут отвергнуть нулевую гипотезу (которой в данном случае является тезис "выборы были честными") с некоторым уровнем статистической значимости, и с учетом неких вводных предположений (например центральной предельной теоремы).
Tags: выборы, политика
Subscribe
  • Post a new comment

    Error

    default userpic

    Your IP address will be recorded 

    When you submit the form an invisible reCAPTCHA check will be performed.
    You must follow the Privacy Policy and Google Terms of use.
  • 21 comments