Nothing personal, just mathematics!

Помните горячий декабрь 2011 года, когда после выборов в нашу особо славную, «при жизни легендарную» Госдуму пятого созыва оппозиционно настроенные граждане вышли на улицы, протестуя против фальсификаций и вбросов в процессе плебисцита? Словом-символом тех дней стала надпись на одном из плакатов: «Не верим Чурову, верим Гауссу» [для справки: Карл Фридрих Гаусс (30.04.1777 - 23.02.1855) - великий немецкий математик, физик и астроном, теоретик в области теории вероятности, чьё знаменитое теперь Гауссово распределение позволяет описывать процессы, подверженные влиянию значительного числа случайных помех]. Дело было в том, что старик Гаусс ещё тогда, когда ни о каких «каруселях на выборах» и не помышляли, разработал математические законы, которые «при прочих равных» чётко позволяют чётко «прижучить» любые попытки «накруток»: и не надо даже хватать «накрутчиков» за руку на месте преступления.

Это я всё к чему? У нас на сайте, как вы, дорогие читатели, смею думать, слышали, подходит к финалу первый тур голосования за номинантов «Народного признания». При чём здесь Гаусс и теория вероятности, я расскажу позже, а пока замечу, что, конечно, мы не в первый раз сталкиваемся с попытками «особенно» помочь себе, любимому, либо номинанту, которому симпатизирует этот Некто, «подкидывающий» голоса с нарушением правил игры. Конечно же, ничто не ново под луной. (Хотя тут есть повод задуматься: если люди, возмущающиеся «вбросами» на федеральных выборах, в локальных конкурсах, скажем, не гнушаются «чуток» обойти правила, налицо моральная дисфункция – «или крест снимите, или трусы наденьте, Рабинович!»).

В общем, мы и раньше пытались выявлять и дисквалифицировать нечестное голосование, с каждым разом закрывая очередные лазейки. Я сейчас немножко «поругаюсь» техническими терминами: было у нас когда-то ограничение голосовать «раз в сутки», и работало оно через кэш на компьютерах самих пользователей – так люди быстро наловчились этот кэш очищать одним нажатием приложения для браузера Google Chrome и голосовать по сто раз на дню. В итоге в этом году мы поставили ограничение на голосование раз в сутки с одного ip-адреса. Но и тут нашлись свои «мудрецы»…

Конечно, интернет на то и интернет, «альтернативная реальность» - непростая штука, в которой множество ходов и возможностей. Если бы всё было просто, и существовал универсальный способ проверки подлинности каждого «интернет-юзера», то у Роскомнадзора и всяких «Управлений К» давно не было бы проблем со всевозможными «запрещёнными» сайтами, а слово хакер давно бы забылось. Даже в фантастически развитой в плане it-технологий соседней с нами Эстонии, хотя и можно голосовать на выборах по интернету с помощью специальной идентификационной карты, авторитетные эксперты уже не раз выступали с критикой «слабо защищённой» от подтасовок системы, а один студент - так вообще написал специальную программу, показав, как можно фальсифицировать результаты. Короче, нет в мире совершенства, как говорил герой Экзюпери. На всякое оружие защиты кто-то уже придумывает новое оружие нападения - мир богат и разнообразен.

Есть, конечно, варианты с голосованием через подтверждение по sms. Но тут либо за это платит пользователь – и тогда побеждает тот, кто готов активнее тратиться (а значит, могут возникнуть ситуации как с резонансным конкурсом «Символ России», где чуть было со скандалом не победила грозненская мечеть), либо банкет заказывает организатор (но расходы тут немаленькие, а премия у нас, в отличие от других региональных «конкурсов достижений» - по-настоящему некоммерческая). Есть варианты с голосованием только через соцсети, но и тут есть диспропорция: преимущество будет у тех, кто «аккаунтов» имеет больше (а некоторым читателям, по длительным наблюдениям, пока лишь бы «Вконтакте» или «Одноклассники» освоить (причём – что-то одно!) – и то пища!). Кроме того, в случае с соцсетями мы уже точно не сможем проследить, где кто-то просто «купил» пачку голосов вполне реальных пользователей – а подобных предложений «продажи» в том же «Вконтакте» имеется «вагон и маленькая тележка».

Одним словом, жизнь несправедлива, всегда будут недовольные. Впрочем, это не отменяет попытки диалога, или хотя бы монолога-объяснения для ответа на те упрёки, которые мы получили после обнуления голосов с признаками фальсификации.

Попытаюсь объяснять максимально доходчиво, однако при таком разговоре очень сложно будет избежать моментов, когда необходимо вчитываться внимательно. Итак, первое, что надо сказать – мы не обнуляли голоса у каких-то конкретных номинантов в выборочном порядке, мы просто дисквалифицировал все результаты голосований с целых групп ip-адресов, в которых прослеживались однообразные неестественные закономерности распределения результатов.

Интернет устроен так, что у каждого подключения к сети [тут есть разница: не у конкретного компьютера, подключённого к интернету, а именно у соединения] есть свой уникальный ip-адрес, который состоит из 4-х групп цифр от 0 до 255, разделённых точкой (например, 180.72.112.10 – цифры подобрал случайным образом). Это, для понимания, что-то вроде почтового индекса и адреса конкретного дома.  Если бы этот адрес был уникальным во всех смыслах, то проблемы бы не было. Однако здесь начинается самое интересное. Есть весьма значительный объём вариантов, когда под одним ip-адресом могут скрываться сразу несколько компьютеров, или когда один и тот же адрес может присваиваться сразу нескольким компьютерам разных людей. Поэтому пойти простым путём, обнулив все результаты с одних и тех же адресов, которые бы превышали количество дней, сколько длилось голосование, мы не могли.

И вот тут-то нам пригодился давно почивший немецкий математик, а точнее то направление в науке, которое он так сильно «продвинул»… Мы завели все результаты голосования в специальную программу для анализа больших групп данных, которая является профессиональным инструментом в прикладной социологии и статистике - SPSS . И обработка результатов в этой программе позволила нам выявить подозрительные «очаги». То есть на бытовом уровне мы, конечно, могли заметить неестественный прирост голосов у отдельных номинантов в разы больше, чем у остальных, однако подозрение – это не доказательство. Нам же нужны были доказательства. И различные методы исследования процессов с помощью применений законов распределения вероятностей «ссылки» на такие доказательства нам предоставили, как в 2011 помогли «доказать» (юридически, увы, это так и не было закреплено) «вбросы» на выборах в парламент.

Вариантов накруток было несколько, но самым распространённым оказался один, когда люди каким-то образом смогли обойти ограничение «1 сутки = 1 голос» через последовательное изменение ip-адреса по математически чёткой формуле «+1».

Конкретный пример. В голосовании было подано много голосов от группы ip-адресов с цифрами 93.191.78.xxx. За короткий промежуток времени от этой группы адресов поступило ровно (!) по 200 голосов за 5 конкретных номинантов, имеющих между собой определённую, очевидную и конкретную связь (я не буду их здесь называть, так как мы никого не обвиняем, и понимаем, что даже один инициативный или сочувствующий дурак может здорово подгадить репутацию благопристойных участников). Ничем иным, кроме как вбросом, это не может являться a priori, потому что в природе не бывает таких случайностей. А ровная цифра 200 вдобавок говорит лишь только о том, что именно этот вброс был заказан на стороне – на аутсорсе – и оплачен по прайсу.

Или вот ещё случай: мы выявили несколько десятков (!) чётких групп пресловутых ip-адресов, с которых поступили от нескольких сотен до нескольких тысяч голосов за узкий круг номинантов, опять же имеющих между собой очевидную связь.

В криминалистической психологии есть такое понятие – «паттерн поведения». Выявив этот паттерн [от англ. - образец, шаблон, система], можно условно понять, связаны ли между собой те или иные преступления, серийный ли маньяк работал, конкретная банда, или всё это совпадения.

Так вот тут «паттерн» был очевиден – с нескольких тысяч последовательных адресов были поданы голоса  за одну и ту же группу претендентов в одних и тех же пропорциях, с небольшим разбросом голосов в других номинациях (в пределах статистической погрешности). То есть – словно все абоненты, каждый следующий, выйдя в сеть, заходили на сайт ПАИ и голосовали «в едином порыве». Как хотите, а этого не может быть, потому что не может быть никогда.

Конечно, периодически люди, воспользовавшиеся уязвимостью архитектуры интернета, подкидывали голоса и другим номинантам – то ли чтобы попытаться замаскировать однотипность голосования (это было, кстати, отчасти успешно, потому что автоматизировать выявление таких накруток практически невозможно), то ли из чисто человеческого любопытства, то ли ещё по каким-то причинам (например, ложно понятого чувства местного патриотизма).

В любом случае, нужно понимать, что, безусловно, далеко не все снятые голоса были «накручены» самими номинантами – они могли быть лишь «довеском» к основному вбросу. Однако мы дисквалифицировали именно все результаты с дискредитированных адресов, потому что это – единственно объективный вариант.

Кстати, об объективности… Это очень непростая категория, о которой в абсолютном большинстве случаев можно рассуждать лишь как о беллетристике. Тем не менее, важно не забывать, что автоматическое снижение числа поданных голосов после дисквалификации ip-адресов произошло не только у основных бенефициаров накруток, но и практически у всех остальных.

За исключением вопиющих случаев это практически не изменило статус-кво в номинациях. В тех же случаях, где диспозиция изменилась, это означало лишь то, что за потерявшего место в лидерах кто-то всё же «подкидывал дровишек» - пусть и не таких объёмах, как некоторые. А в первом туре конкурса, напомню, нам важно определить именно тройки тех, кто продолжит состязание за победу - конкретное число голосов имеет здесь второстепенное значение, необходимо выявить тенденцию широкой общественной поддержки.

Объективно подойти к решению данного вопроса нам помогла, как видите, пусть непростая, но математика.

И да, мы проверили, перепроверили - и теперь Гауссу тоже верим!

Сергей Васильев
Версия для печати













Рейтинг@Mail.ru
Идет загрузка...