Железный аргумент для ЦИКа: статистика не докажет фальсификации

В последнее время растущий интерес к диагностике электоральных фальсификаций в России подкрепляется большим количеством расчетов и графиков, с помощью которых делается попытка не только научно обосновать наличие электоральных фальсификаций в России, но и измерить их масштабы. Задача, стоящая перед большинством подобного рода исследований, прямо скажем, непростая, и с научной точки зрения весьма трудоемкая и, возможно, даже неподъемная. Увы, на сегодняшний день наукой пока не придумано сколько-нибудь идеальной методики, которая могла бы гарантированно вскрыть факты фальсификации, а тем более определить их масштабы. Подавляющие число распространенных в сети методов опирается на серьезные теоретические допущения и ограничения, без которых выстраивать какие-либо графики и модели, демонстрирующие фальсификации, вообще не имеет никакого смысла. К сожалению, зачастую самими авторами по целому ряду соображений эти допущения и ограничения либо упоминаются вскользь, либо совсем игнорируются. Так что рядовой читатель, как правило, находится в сложном для себя положении: вроде как все графики убедительно научно выстроены, и линии с кривыми красиво проведены, но непонятно, верить всему этому или нет (как правило, все же, очень хочется верить, убедившись, в том, что выборы были украдены). Итак, насколько попытки доказать факт наличия фальсификаций соответствуют современному научному знанию в данной области? Ответ на этот вопрос очень непростой. Я постараюсь на него ответить, изложив вкратце логику научного метода, а также отдельно затронув три любопытных наблюдения, всколыхнувших российское интернет-сообщество: 1) отсутствие на российских выборах «нормального» гауссовского распределения явки и голосования; 2) визуальное наличие пиков-спайков-зубцов в распределениях явки и голосования; и 3) существование положительной взаимосвязи между явкой и голосованием за «Единую Россию». Все эти три наблюдения, три своеобразных кита, на которых строится отечественный фальсификационный анализ, по-своему интересны и по-своему спорны. Использование этих трех методов отечественными «сталкерами», исследующими фальсификации, во многом уникальны и в будущем, как мне кажется, способны привнести серьезный вклад в данную исследовательскую сферу. Однако на сегодняшний день с сожалением приходится констатировать, что данные поиски не отвечают требованиям современного научного метода: а значит, к ним стоит относиться с высокой степенью осторожности, как говорится, без излишнего фанатизма. Из трех аргументов, которыми пользуются исследователи, чтобы доказать фальсифицированность выборов, в реальности рабочим оказывается только один:

Аргумент: отсутствие «нормального» гауссовского распределения явки и голосования за конкретные партии.

Почему не работает: даже в демократических странах на честных выборах распределение голосов, отданных за партии, не всегда гауссовское.
Многие исследователи-блогеры оценивают наличие и масштабы электоральных фальсификаций, выстраивая графики одномерных распределений для явки и голосования (так называемые графики плотности, обычно понимаемые как гистограммы). При этом они исходят из того, что эмпирические данные обязательно должны описываться с помощью «нормального» гауссовского распределения, которое, действительно, в данном измерении считается эталонным, хотя и не единственным в своем роде. Так, обнаружение любых расхождений между гауссовским «нормальным» распределением и наблюдаемым распределением, с их точки зрения, свидетельствует о явном присутствии электоральных фальсификаций. Для явки это допущение мне кажется весьма правдоподобным: в демократических странах (например, Канаде, Германии или Мексике), действительно наблюдается распределение явки, хорошо описываемое «Гауссом». Однако, если мы начнем выстраивать подобные графики для партийного голосования в различных странах, нормальное распределение в некоторых из них, считающихся вполне себе демократическими, как рукой снимет. Допустим, в Канаде на последних парламентских выборах 2008 г., распределения партийного голосования за различные политические партии имеют разнообразные причудливые очертания, которые можно было бы запросто списать на фальсификации. Однако о канадских фальсификациях, во всяком случае, пока нам ничего неизвестно.Отсюда следует один важный вывод: гауссовское распределение может служить скорее ориентиром при анализе фальсификаций с явкой, но вряд ли работает для выявления фальсификаций и приписок для конкретных партий.
Затронув канадские выборы, я тут же открыл ящичек Пандоры, знакомый большинству исследователей, занимающихся статистикой: проблема неоднородности данных вообще подрывает абсолютную веру в одномерные, либо двумерные графики. Для читателей, не знакомых со статистикой, поясню: на явку либо голосование избирателей в каждом отдельном УИКе может влиять большое число факторов с различной степенью выраженности (нормальное распределение предполагает, что большое число факторов приблизительно оказывает равное по силе воздействие на голосование на всех участках). В качестве подобных факторов могут выступать принадлежность УИКов к областям или республикам, городам или селам и т.д. Как раз построение одномерных графиков игнорирует этот очевидный факт, до известной степени упрощая и огрубляя анализ многомерных данных, вписывая их только в одно измерение. Иными словами, наличие аномалий в распределениях может свидетельствовать не столько о фальсификациях как таковых, сколько о сложной структуре электоральных данных, их многомерной природе. Использование правильного научного метода позволяет приблизиться к решению этой проблемы вплотную, посредством исключения альтернативных объяснений наблюдаемых числовых аномалий, связанных с явкой или голосованием. Допустим, существование участков с почти стопроцентной явкой может объясняться особенностями электорального поведения жителей малых поселений и военных гарнизонов, пациентов медицинских учреждений и прочее. К сожалению, данные об особенностях этих УИКов практически недоступны, поэтому научно доказать фальсификационную природу данных участков – сложная задача. При этом тут же отмечу, что в демократических странах УИКи со столь высокой явкой и еще к тому же голосованием преимущественно за «партию власти», нам неизвестны. Если подобное возможно в России и связано с неоднородностью российских данных, а не фальсификациями, то, пожалуй, ЦИК РФ должен быть первой организацией, заинтересованной в предоставлении этих данных команде западных и отечественных специалистов, и настаивании на проведении независимой статистической экспертизы, результаты которой стали бы доступны широкой общественности. По-моему, это замечательный способ сохранить всем лицо и восстановить доверие к институту российских выборов многих наших сограждан. К сожалению, пока такого рода политики не наблюдается…
Еще один важный момент, который следует отметить отдельно: не стоит исключать из внимания и того факта, что выявленные статистические аномалии на графиках могут не соотноситься с реальными наблюдениями, зафиксированными очевидцами фальсификаций. Пожалуй, лучшим доказательством того, что статистические аномалии все-таки связаны с фальсификациями, является соотнесение результатов статистического анализа с данными, полученными в ходе полевых экспериментов. Наиболее полезен в данном случае недавний проект «Гражданин-Избиратель», которому удалось с помощью полевого эксперимента оценить масштабы электоральных фальсификаций в Москве. Так как технические детали организации эксперимента пока не публиковались, сложно судить о научной валидности опубликованных результатов. Однако, если все основные требования к проведению подобного рода полевого эксперимента были соблюдены, целесообразно использовать эти данные не только при оценке объема электоральных фальсификаций, но при объяснении наблюдаемых аномалий голосования в Москве, увязав данные полевого эксперимента с выстроенными графиками. Отмечу, что только при сведении воедино данных о зафиксированных наблюдателями нарушениях на избирательных участках или ТИКах с имеющимся массивом электоральных данных по всей стране, можно судить не просто о зонах аномалий на выстроенных графиках, а вполне конкретных электоральных фальсификациях.
Аргумент: пики, спайки и зубцы на одномерных графиках

Почему работает: единственный факт, который нельзя объяснить ничем, кроме фальсификации. Пики не могут возникать случайным образом.

Наличие пиков, спайков или зубцов на круглых значениях явки и голосованиях за партию власти служит, на мой взгляд, более основательным аргументом в доказательстве о наличии или отсутствии фальсификаций. Согласно нашему анализу, как правило, эти зубцы для явки являются статистически значимыми, то есть возможность их случайного возникновения исключается. Более того, эти аномальные области, к примеру, характеризуются статистически значимым ростом поддержки партии власти. Любопытно, что с середины 90-х и на протяжении 2000-х в России отмечается довольно устойчивый рост пиков и спайков именно на «круглых» значениях явки. Наше исследование совместно c Волтером Мебейном последних значащих цифр в числах проголосовавших избирателей дополнительно подталкивает к выводу о фальсифицированном характере явки. Если бы числа проголосовавших избирателей отражали совокупность естественных процессов, побуждающих людей к голосованию или отказу от голосования, то последние значащие цифры в числах должны характеризоваться равномерным распределением (то есть появление любой цифры от 0 до 9 равновероятно), однако в России этого не наблюдается. Присутствие подобных цифровых аномалий нуждается в политологическом объяснении и соответствующей эмпирической проверке. Теоретическое обоснование этому феномену было разработано нами в Мичигане, используя математический аппарат теории игр. Теоретические выводы были подтверждены результатами анализа эмпирических данных президентских выборов 1996, 2000, 2004 и 2008 гг. Согласно сигнальной теории фальсификаций, рост политической централизации власти в России закономерным образом способствовал изменению рациональных стратегий губернаторов: если в середине 1990-х Кремль и политически автономные губернаторы выстраивали свои отношения в виде торга, при котором благоприятные электоральные результаты обменивались на политические/экономические ресурсы; то последующая политическая рецентрализация 2000-х побудила губернаторов к смене стратегий на сигнальные. В данном случае сигнал под собой подразумевает демонстрацию лояльности губернатора Кремлю с помощью «круглых» значений явки, которая вознаграждалась межбюджетными трансфертами, а также гарантиями политического выживания, то есть сохранением губернаторами своих постов.
Аргумент: Положительная взаимосвязь между явкой и голосованием за «Единую Россию», и отрицательная за остальные партии.

Почему не работает: если явка фальсифицирована и голосование фальсифицировано, то невозможно ни диагностировать фальсификации, ни оценить их масштаб.

Помимо графиков одномерных распределений, (см. выше), отечественные исследователи предлагают графики двумерных распределений, которые должны иллюстрировать наличие взаимосвязи (корреляции) между явкой и голосованием за различные партии. При этом теоретическое обоснование подобного рода графиков простое: в случае фальсификаций будет наблюдаться (и наблюдается) положительная взаимосвязь между явкой и голосованием за «Единую Россию», и отрицательная – за остальные партии. Интерпретация подобной взаимосвязи, как правило, увязывается со вбросами и перебросами бюллетеней от одной партии к другой. При отсутствии подобного рода фальсификаций взаимосвязь между явкой и голосованием наблюдаться не должна.
Несмотря на, казалось бы, безупречный регрессионный анализ, с базовыми двумерными регрессиями и корреляциями существует ряд проблем, о которых стоит говорить отдельно. Вкратце отмечу несколько важных пунктов. Во-первых, вполне возможно, что наблюдаемая взаимосвязь между явкой и голосованием связана с упомянутой мной неоднородностью данных и исключением важных объяснительных факторов из моделей: административных, политико-поведенческих, социально-демографических и т.д. Если взять данные стран западных демократий, и выстроить подобного рода регрессии, то для большинства стран можно получить свой изящный набор положительных и отрицательных бета-коэффициентов для многих партий. Во-вторых, данный подход чувствителен только к определенным видам фальсификаций: вбросам и перебросам, и не способен учесть иные виды фальсификаций, в частности, рандомизацию явки и голосования, то есть способа, при котором обе величины берутся с потолка, скажем, потолка того же ТИКа. В-третьих, при использовании регрессионных моделей существование тесной взаимозависимости между явкой и голосованием (а именно, неясность в вопросе того, что на что, собственно, влияет: явка на голосование или голосование на явку), порождает ошибку спецификации модели и недостоверности получаемых результатов. При решении подобного рода проблем, как правило, используются более сложные статистические модели. Наконец, так как показатели явки и голосования, как правило, оба «заражены» фальсификациями, то диагностика и измерение масштабов фальсификаций является не просто сложной, а скорее всего, просто невыполнимой задачей. Согласитесь, если явка фальсифицирована и голосование фальсифицировано, то невозможно ни диагностировать фальсификации, ни оценить их масштаб. Выложенные в сеть графики, оценивающие масштабы фальсификаций, как правило, строятся на идее несфальсифицированной истиной явки, что является слишком сильным допущением. Очевидно, что для диагностики электоральных фальсификаций нужны дополнительные объяснительные переменные и инструменты, которые могли бы быть сравнительно чистыми, то есть лишенными фальсификационной примеси. Только в этом случае, как мне кажется, мы можем отделить зерна от плевел, фальсификации от нормального голосования.
Таким образом, диагностика электоральных фальсификаций сама по себе весьма сложная и трудоемкая процедура, подразумевающая разработку методов анализа данных и построение объяснительных теорий фальсификаций. Ее успешная научная реализация невозможна без последовательного исключения альтернативных объяснений всем наблюдающимся статистическим аномалиям, т.к. любым отклонениям, которым мы склонны приписывать ярлык фальсификаций. Только исключив большинство альтернативных объяснений, можно будет говорить о наблюдаемых статистических аномалиях как о научно доказанных электоральных фальсификациях. На мой взгляд, из множества приведенных статистических свидетельств электоральных фальсификаций, именно растущее присутствие пиков, спайков и зубцов на круглых значениях, как правило, явки, а в последнее время и партийного голосования, является наиболее «странным», неподдающимся альтернативному объяснению наблюдением. Это наблюдение, скорее всего, говорит о существовании электоральных фальсификаций и может объясняться наличием сигнальных стратегий губернаторов в отношении Кремля.
Вот список просмотренных мною блогов:
http://podmoskovnik.livejournal.com/
http://oude-rus.livejournal.com/
http://kobak.livejournal.com/
http://esquire.ru/elections