November 3rd, 2009

Московские выборы - 2

В сети имеется некоторое количество работ, в которых авторы пытаются аналитически оценить масштаб нарушений на недавних выборах в московскую думу. Особой популярностью пользуется статья Сергея Шпилькина (ЖЖ-пользователь podmoskovnik, если я ничего не путаю). Есть еще пост ЖЖ-пользователя filin, которую он довольно активно продвигал в популярных журналах. Их оценки на порядок отличаются от моей - они оценивают размер фальсификаций в 30% от числа голосовавших, что составляет приблизительно 1 млн. голосов, вброшенных за ЕР.

Также есть посты uborshizzza (uborshizzza.livejournal.com/674242.html) и kireev (kireev.livejournal.com/481926.html), которые одни из первых подняли тему фальсификаций на этих выборах. Они исходят из тех же предположений и дают оценки, сходные с предыдущими авторами, но никаких расчетов нет, это скорее качественный анализ.

Давайте попробуем разобраться в представленных аргументах.

1. [info]filin использует график, на котором для каждого участка отложена пара (x = доля голосов за ЕР, y = явка).

Итак, пусть при Amax избирателях реально пришло голосовать A0, а за ЕР проголосовало A. От этого на графике появилась бы точка с координатами x0 = A/A0 (процент за ЕР) и y0 = A0/Amax (явка).

Теперь пусть в пользу ЕР вбросили долю d от общего числа избирателей, то есть d*Amax штук бюллетеней. Теперь якобы пришло голосовать ( A0 + d*Amax ) человек, из них за ЕР якобы ( A + d*Amax ). Поэтому у точки будут координаты x = ( A + d*Amax ) / ( A0 + d*Amax ) и y = ( A0 + d*Amax ) / Amax

Поделив на Amax и немного пригладив, получаем y = y0 + d (что очевидно) и x = ( x0*y0 + d )/( y0 + d ). При нулевом вбросе d=0 получаем честную точку x0, y0, как и должно быть.

Теперь исключим d и получим простенькую формулу для кривой: y = y0 * ( 1 - x0 ) / ( 1 - x ). У кривой два параметра: y0 - фактическая явка и x0 - фактический процент голосов за ЕР.

И наконец, подгоним эту кривую к графику обычным методом наименьших квадратов (участки со стопроцентным голосованием не считаем).


Вот что получается в результате (фактическая явка - 20%, фактический процент голосов за ЕР - 42%):

Рис.1

Есть ли здесь ошибки? Да, есть. Начало рассуждения безусловно правильно - при условии, что речь идет о выборах в целом. А затем формула, правильная для выборов в целом, начинает применяться к отдельным участками. В этом-то и кроется ошибка - ведь значения, принятые в формуле за константы, на самом деле для отдельных участков константами не являются.

2. podmoskovnik в своих рассуждениях пользуется достаточно общепринятым методом оценки нарушений. На графике для всех участков откладываем пары (x = явка, y = доля партии относительно количества избирателей на участке). Как нетрудно видеть, отношение y к x равно явке. Отсюда делается вывод, что все точки на графике должны группироваться вокруг прямой y=k*x, где k равно явке.

Попробуем нарисовать вышеописанный график для выборов в московскую думу (черная линия соответствует официальной явке):

Рис.2

Легко видеть, что облако точек и прямая y=0,66x явно не очень хорошо соотносятся друг с другом.

Дальше автор делает следующее предположение: "Кроме того, очевидно, что простое вбрасывание/приписывание голосов за кандидатуру власти (самый простой вид манипуляции) на конкретном избирательном участке приводит к смещению этого избирательного участка вместе со всеми его данными (и реальными, и фальсифицированными) в сторону более высоких явок. В результате на низких явках должны оставаться участки с нефальсифицированными данными." Т.е. получается, что "правильную" прямую нужно провести через левую нижнюю оконечность облака. Автор приходит к этому очевидному решению после длинных и запутанных рассуждений, которые мы здесь приводить не будем.

В итоге получается вот что (фактическая явка - 22%, фактический процент голосов за ЕР - 43%):

Рис.3

Есть ли и в этих рассуждениях ошибки? Ответ, опять-таки - да, есть. Причем, ошибка та же самая, что и у filin. Да, действительно, если долю партии от всех избирателей поделить на явку на выборах, получится доля партии от числа голосовавших. Однако переход от выборов в целом к отдельным участкам не совсем корректен, ведь доля партии от числа голосовавших не является константой, она отличается от участка к участку. Как видно, например, здесь, доля партии от числа голосовавших колеблется от участка к участку по нормальному закону. Исходя из правила 3-х сигм, можно заключить, что облако должно быть распределено не вдоль прямой y=kx, а внутри прямых y=(k+3s)*x и y=(k-3s)*x, где s - параметр сигма функции распределения голосов за партию.

Т.е. данный график в отсутствие нарушений на выборах должен выглядеть приблизительно вот так вот:

Рис.4

3. А теперь попробуем применить полученный вывод для оценки фальсификаций на выборах в московскую думу. Вот что у нас получается:

Рис.5

Здесь верхняя прямая проходит вдоль плотных областей "облака", а нижняя проведена таким образом, чтобы почти все участки с явкой, близкой к 100%, попали в промежуток между верхней и нижней прямыми. Биссектриса дает нам искомую оценку явки - 60%.

Итак, данный метод дает оценку фальсификаций с голосами ЕР - 6%. Эта цифра отличается от оценки, полученной в моем предыдущем посте. Однако, как я уже говорил, это все достаточно грубые оценки. В любом случае, это оценки одного порядка.

ВЫВОДЫ

Оценки результатов выборов, сделанные ЖЖ-пользователями filin и podmoskovnik, содержат явные ошибки, которые не позволяют считать эти оценки достоверными.

UPDATE

Дальнейшие исследования показали, что указанные ошибки (если это действительно ошибки) приводят скорее к занижению, а не завышению размеров фальсификаций.