Bobby Yip / REUTERS
Краткий пересказ книги Чарльза Уилана «Голая статистика. Самая интересная книга о самой скучной науке» (М.: Манн, Иванов и Фербер, 2016).
Зачем читать книгу?
Автор, преподаватель экономики и политики в Чикагском университете, сам приводит небольшой перечень полезных навыков, которым обещает научить читателей:
- Разоблачать мошенников (в частности, политиков и ведущих информационно-аналитических передач), манипулирующих данными. Или самим стать такими мошенниками, манипулирующими данными.
- Правильно читать результаты своих медицинских анализов, чтобы раньше времени не сказать всем окружающим, что вы действительно о них думаете, в надежде на скорую смерть.
- Повысить шансы выигрыша в телевизионной игре.
- Отдать ребенка в хорошую и недорогую школу.
- Не тратить время на азартные игры с государством и казино.
- Выбрать правильную страховку (если вообще ее брать).
- Лучше понимать результаты опросов общественного мнения.
Зачем вам статистика
Статистика в отличие от философии, психологии и экономики не часто становится предметом светских разговоров. О ней трудно рассуждать, опираясь только на здравый смысл и жизненный опыт, а выводы часто носят контринтуитивный характер.
Тем не менее статистика настолько пронизывает повседневную жизнь, что игнорировать ее просто опасно. Но все же менее опасно, чем игнорировать ограничения ее использования. Статистика морально нейтральна (примерно так же, как крупнокалиберный пистолет): ее можно использовать для выявления закономерностей и манипулирования с целью получения благоприятных выводов.
Самый простой способ неправильного, но часто встречающегося использования статистики – это манипуляции с метрикой, то есть выбранным параметром, по которому мы можем судить о всей совокупности данных. Например, представим себе такой диалог:
Депутат от оппозиции: «Наша система школьного образования деградирует! Шестьдесят процентов наших школ продемонстрировали в этом году более низкие результаты экзаменов, чем в прошлом».
Депутат от правящей партии: «Наша система образования успешно развивается! Восемьдесят процентов наших учащихся продемонстрировали во время экзаменов в этом году более высокие результаты, чем в прошлом».
Как ни удивительно на первый взгляд, эти утверждения не противоречат друг другу просто потому, что оперируют разными метриками для измерения качества образования: школами в первом случае и учениками – во втором. Если предположить, что успеваемость улучшали ученики больших школ, все становится понятно. Какая метрика правильная? Статистика на этот вопрос ответа не дает. Это дело ваших убеждений, вкуса и партийной принадлежности.
Почему «средняя зарплата по стране» может отличаться в разы
Другой популярный пример манипуляции связан с понятием среднего. В этом качестве обычно используют среднее и медианное значение. Среднее значение – это просто арифметическое среднее: сумма наблюдений, поделенная на их количество (например, среднее значение совокупности 1, 2, 3, 4 и 5 равняется трем: 15:5). Медиана представляет собой среднюю точку распределения: половина наблюдений расположена над ней, другая половина – под ней. Медиана для примера выше тоже равна трем. Но если заменить 5 на 100, ситуация поменяется: медиана для 1, 2, 3, 4, 100 будет по-прежнему равна 3, а вот среднее увеличится аж до 22. Медиана, как говорят статистики, менее чувствительна к «выбросам», то есть наблюдениям, которые резко выбиваются из совокупности (в данном случае – 100). Теперь предположим, что это не абстрактные числа, а доходы посетителей бара в прошлом и в этом году. В зависимости от поставленных целей я могу сделать два на первый взгляд противоречивых вывода, которые тем не менее будут правильными:
За прошедший год доходы посетителей бара в среднем не изменились.
За прошедший год доходы посетителей бара в среднем выросли более чем в 7 раз.
Дьявол кроется в метрике среднего, которая используется в первом и во втором случаях. Теперь, если кто-то при вас произнесет известную шутку «Когда Билл Гейтс заходит в бар, все его посетители становятся в среднем миллиардерами», вы можете перетянуть внимание публики на себя, сказав: «Это зависит от используемой метрики». Вспомним, как часто политики, журналисты, политологи и телеведущие апеллируют к среднему значению чего-нибудь (доходов, налоговых выплат, производительности труда и так далее), даже не уточняя, что имеется в виду.