Во время сдачи единого государственного экзамена по математике. Фото: ИТАР-ТАСС / Владимир Смирнов

20 мая на сайте Slon.ru вышла заметка «Десятки тысяч выпускников просто выигрывали свой результат в "лотерею"». Оказывается – и это новость, – в стране уже целых 5 лет действует рабочая группа, которая по заказу Рособрнадзора исследует статистическими методами фальсификации при проведении процедуры ЕГЭ. Руководители этой группы (директор МЦНМО Иван Ященко и завкафедрой высшей математики ВШЭ Алексей Макаров) ответили на широкий спектр вопросов, касающихся не только собственно ЕГЭ, но и общих проблем образования. В принципе со многими их суждениями я готов согласиться (где-то полностью, где-то частично), но есть несколько утверждений, которые либо вызывают искреннее недоумение, либо допускают иную интерпретацию, отличную от декларируемой в статье.

Я провел собственные расчеты на основе открытых данных о ЕГЭ по математике и пришел к выводу, что уровень фальсификаций 2013 года намного выше.

Оценка уровня фальсификаций ЕГЭ по математике 2013 года


Можно ли посчитать уровень фальсификации результатов ЕГЭ для страны в целом – то есть процент баллов, полученных при помощи различного рода нарушений? Министерство образования РФ в соответствии с министерской же политикой полной информационной прозрачности не считает возможным открыть публичный доступ к первичным данным по ЕГЭ. Но при физической невозможности посчитать что-то «в лоб» практически всегда можно сделать вполне разумную численную оценку.

На пресс-конференции 28 июня 2013 года представитель Рособрнадзора предъявил собравшимся слайд с распределениями баллов ЕГЭ по математике в 2011–2013 годах. Мне удалось его скопировать. Вот он.

Результаты ЕГЭ по математике в 2011–2013 годах, тысяч человек

Результаты ЕГЭ по математике в 2011–2012 годах образуют распределение в форме колокола. Форма кривой результатов 2013 года тоже напоминает колокол, но с наличием явно видимых дефектов в виде горбов, провалов, сдвигов и прочих статистических извращений (вообще, создается впечатление, что в 2013 году кривая набранных баллов перенесла очень серьезную болезнь). 

Следует заметить, что колоколообразное распределение для набранных баллов ЕГЭ получилось не случайно – в природе такие кривые появляются с завидной регулярностью. Их называют нормальным распределением, или распределением Гаусса. (Если сильно упростить, то распределение оценок должно иметь форму колокола без лишних пиков и провалов в том случае, если не было внешнего влияния, искусственно отсекающего одни баллы и добавляющего другие. В распределении Гаусса пик кривой – это и есть арифметическое среднее для всего распределения. – Slon.) 

Для корректного описания идеального нормального распределения достаточно знать всего лишь два параметра. Первый – это средняя величина распределения (на рисунке ниже это параметр μ). Второй параметр – это так называемое среднеквадратичное отклонение (на рисунке это параметр σ, сигма), которое характеризует ширину нормального распределения.

Пример нормального распределения


Кривая плотности распределения набранных тестовых баллов ЕГЭ с 2011 по 2013 год с каждым годом неуклонно сдвигается вправо, что естественно означает рост среднего балла ЕГЭ по математике. Распределение за 2010 год также доступно в открытых источниках и полностью укладывается в эту закономерность. 

Я взял официальные картинки распределения набранных баллов ЕГЭ за 2010–2013 годы, восстановил по ним численные значения плотностей распределения, далее по плотностям посчитал средние баллы и среднеквадратичные отклонения. Для сравнения привожу и официальные значения средних баллов – их отличие от расчетных средних я могу объяснить лишь недоработками Министерства образования.

Переменная 2010 2011 2012 2013
Официальный средний балл (Минобр) 43,4 47,5 44,6 48,7
Средний балл по распределению (µ) 43,7 43,1 44,2 48,2
Среднеквадратичное отклонение (σ) 14,8 16,5 16,2 18,2

Из таблицы видно, что с кривой ЕГЭ происходят интересные трансформации: помимо дрейфа вправо (то есть фактически роста среднего балла), есть и еще один эффект – расползание кривой ЕГЭ (то есть увеличение ширины распределения – среднеквадратичного отклонения). Оно объясняется совокупным действием следующих причин:

рост уровня фальсификаций – основная причина. Выпускники, получившие «помощь» в любом виде, получают большее количество баллов, чем положено им по нормальному распределению, следовательно, распределение растягивается по горизонтали; рост распространенности института репетиторства – вспомогательная причина. Услугами репетиторов пользуются большей частью мотивированные и толковые выпускники. Они и без репетиторов в любом случае были бы правее среднего балла по стране, но в результате дополнительных занятий их отрыв еще увеличивается.

Исходя из всей информации, которая есть в открытом доступе, и базового понимания ситуации в целом, разумно предположить, что качество подготовки детей к экзамену год от года росло плавно и равномерно – аномального сдвига в 2013-м оно вызвать не могло. Сложность КИМов [контрольно-измерительных материалов, то есть заданий ЕГЭ] с 2011 по 2013 год оставалась примерно одинаковой.

Это означает, что в 2013 году в сравнении с 2012 годом произошел рост (возможно, в разы) уровня фальсификаций, что видно как по увеличению среднего балла на 4 единицы (с 44 в 2012 году до 48 в 2013-м), так и по росту среднеквадратичного отклонения на 2 единицы (с 16 до 18 – на уровне страны это очень большое изменение).Также не забываем про наличие видимых деформаций графика кривой ЕГЭ-2013.
С учетом всего сказанного сдвиг кривой ЕГЭ-2013 относительно кривой ЕГЭ-2012 должен отличаться от сдвига предыдущего года лишь повышенным уровнем фальсификаций. Я попытался его оценить, измерив площади непересекающихся частей кривых за эти три года. (Подробнее о методике расчета читайте в примечании*. – Slon.)
По моим расчетам, в 2013 году как минимум 27,3% баллов были получены с фальсификациями разного рода. Для получения абсолютного значения фальсификаций в 2013 году необходимо добавить к ним ненулевой уровень фальсификаций в 2012 году. 

Для утверждения, что нулевым он не был, достаточно открытых данных Рособрнадзора. Один лишь эффект натягивания баллов двоечникам для прохождения минимального порога ЕГЭ (24 балла из 100) во время пересдач в масштабах страны я оценил в 1,7% баллов. Эта оценка сделана на примере Республики Башкортостан в 2012 году, где с разницей в пару дней двоечники смогли улучшить свой средний балл на 20,7 балла. (Алексей Макаров в интервью Slon оценил базовый уровень фальсификаций 2012 и 2013 года без учета списывания из интернета в 6–8% от всех участников ЕГЭ. – Slon.)

Суммируя 27,3% и 1,7%, мы получим оценку 29% баллов. Таким образом, примерно на каждые 7 честных баллов ЕГЭ-2013 по математике приходилось не менее 3 баллов, набранных при помощи разного рода фальсификаций.

«Утечки 2013 года не повлияли на высокобалльников»


Вот что говорит Алексей Макаров: «И когда утечка произошла, руководство нам сразу поставило задачу оценить, не будет ли сорван прием в вузы, не придут ли в ведущие вузы страны слабые дети из-за этой утечки. Мы убедительно показали, что в сильной части спектра – выше 70 баллов – никакого заметного влияния нет». 

К счастью, Рособрнадзор выдал в публичной доступ достаточно информации, чтобы мы могли самостоятельно составить свое мнение по этому вопросу, основываясь исключительно на официальных данных. Так, на графике ниже представлены статистические данные Рособрнадзора по математике за 2012 и 2013 годы, сгруппированные по диапазонам в 10 тестовых баллов ЕГЭ. Я убрал столбцы от 0 по 60 баллов, поскольку они не относятся к высокобалльным результатам.

Распределение выпускников по баллам ЕГЭ по математике в 2012–2013 годах

Источник: Официальный информационный портал ЕГЭ

Отсюда путем нехитрых арифметических вычислений легко получить рост числа высокобалльников 2013 года по сравнению с 2012-м. Для числа выпускников, набравших 71+ баллов, имеется как минимум двукратный рост. Если Алексей Макаров считает, что наблюдаемый двукратный рост не является результатом утечек, то тогда очень бы хотелось услышать из его уст объяснение этого феномена. Было бы неплохо услышать также и объяснение феномена структуры роста – чем правее мы берем хвост нормального распределения, тем больший рост мы наблюдаем. Для диапазона 91+ баллов рост составляет 5,2 раза, а для диапазона 81+ баллов – почти трехкратный рост.

Наверное, кто-то может сказать, что в 2013 году на страну вдруг обрушилась эпидемия улучшения качества школьного образования по математике или подготовки к сдаче ЕГЭ. Хорошо, пусть это так, тогда возникает следующий вопрос: а какие школы обеспечили наблюдаемое улучшение? 

Логично думать, что в первую очередь этот прорыв должен быть заметен на лучших школах страны, ведь именно там сосредоточены наиболее толковые и мотивированные ученики. Для семи российских школ, входящих в перечень 500 лучших школ страны, мне удалось найти первичные данные по результатам ЕГЭ по математике.

Школа Рост числа выпускников с 70–100 баллами в 2013 году, %
Лицей № 2 (Ангарск) 30
Лицей ИГУ (Иркутск) 70
Лицей № 1502 (Москва) 50
Лицей № 1533 (Москва) -10
Лицей № 1535 (Москва) 30
ФМЛ № 30 (СПб) 20
ФМЛ № 239 (СПб) 10

Средний балл ЕГЭ по математике в этих школах значительно выше среднего по России – в 2013 году он варьируется от 65,7 до 83,7 при среднероссийском 47,8 (просто для понимания высокого уровня этих школ).

Суммарный рост по всем семи школам дает значение в 1,2 раза, т.е. лишь 20% из 100% роста числа выпускников, набравших 70+ баллов, обеспечивается лучшими школами страны. Конечно, данная таблица не является доказательством, поскольку данную выборку нельзя признать статистически значимой. Однако это аргумент в пользу того, что если эпидемия улучшения качества образования имела место, то проявилась она почему-то не в лучших школах, а во множестве средних по качеству школ (не входящих в число ведущих как в своем регионе, так и в масштабе страны). Так произошло ли массовое улучшение работы средних школ? Вряд ли. Тогда хотелось бы понять, за счет каких факторов произошел в 2013 году данный рост. 

Иван Ященко приводит также такой аргумент: «По вариантам, попавшим и не попавшим в интернет, очень хорошо видно, на кого эта утечка повлияла. Она почти не повлияла на тех, кто в итоге набрал высокие баллы». Однако распределение, которое он демонстрирует в доказательство, допускает и другие объяснения. 

Во-первых, не факт, что рабочей группой были замечены все утекшие варианты. Думаю, что действительно почти все продавцы ЕГЭ использовали социальные сети для поиска клиентов, но продавцы поумнее наверняка распространяли реальные варианты КИМов не через социальные сети, а через электронную почту.

Теоретически рабочая группа имела возможность отследить такие утечки посредством включения в американскую программу «Эшелон», но на практике в это абсолютно не верится. Не надо думать, что эта проблема уникальна для Рособрнадзора, именно ту же проблему имеет, например, Министерство внутренних дел, когда задает себе следующий вопрос: насколько статистика раскрытых преступлений по стране адекватно представляет общую структуру преступлений? Это вопрос, ответ на который совсем не очевиден и требует отдельного дорогостоящего изучения. 

Во-вторых, в комментариях к статье было здравое рассуждение Арсения Иванова: «Про варианты, которых не было в интернете, автор насмешил. Достаточно было прорешать один вариант, остальные отличались лишь цифрами». Поскольку варианты КИМов появились заранее, то их действительно прорешивали как сами ученики, так и на официальных консультациях в школах, и с репетиторами, и с родителями, и т.д. и т.п. А поскольку число выпускников, набравших 70 и больше баллов, было в 2013 году порядка 91 тысячи – и это, видимо, большей частью из больших и средних городов, – то гипотеза о том, что практически все эти выпускники заранее прорешали реальные задания, не выглядит фантастической.

Заключение


Есть известное изречение: «Статистика не врет, врут статистики». Почему это так? Потому что статистика дает нам только факты, а статистики, интерпретируя факты, превращают их в мнения. Интерпретация не всегда проходит гладко – именно в этом месте действительно легко ошибиться в силу сложности проблемы или по желанию начальства.
Сдвиг кривой ЕГЭ года 201i относительно кривой ЕГЭ года 201jимеет простой и наглядный геометрический смысл — это сумма площадей непересекающихся частей кривых ЕГЭ года 201i и 201j. Сдвиг не должен зависеть от абсолютного количества выпускников — иначе будет невозможно адекватное сравнение результатов разных лет. Поэтому необходимо переходить к нормированным величинам — нормированным набранным баллам, то есть произведению тестовых баллов на их же плотности распределения. Таким образом, сдвиг кривой ЕГЭ логично считать как модуль разности плотности распределения тестовых баллов двух кривых, умноженный на соответствующий набранный тестовый балл. Естественно, что нужно просуммировать по всем возможным значениям тестовых баллов (от 0 по 100). Таким образом, для сдвига 2011-2012 годов мы получаем следующую формулу:

Здесь i — это индекс суммирования по набору значений тестовых баллов ЕГЭ (от 0 до 100); ρ(i) — плотность распределения тестовых баллов ЕГЭ за соответствующий год; под суммой в числителе стоит модуль разности плотностей вероятностей. Сдвиг 2012-2013 годов считается аналогично.
Переменная Значение
Общие проценто-баллы, набранные в 2012 году 4 460
Общие проценто-баллы, набранные в 2013 году 4 887
Сдвиг с 2011 по 2012 в баллах и % 387 или 8,7%
Сдвиг с 2012 по 2013 в баллах и % 1 761 или 36%
Таким образом, если мы обозначим уровень фальсификаций результатов ЕГЭ в 2012 (тот же в 2011) году за x%, тогда уровень фальсификаций в 2013 году достигает значения (x+36 – 8,7)% = (x+27,3)%.