Результаты немалого числа современных научных исследований при повторных попытках получить схожий эффект оказываются неточными, спорными, а то и вовсе ошибочными. Частные методологические недостатки перерастают в системную проблему, известную как кризис воспроизводимости, или репликации (replication crisis).
Возможно, кризис – чересчур сильное слово. Но в данном случае оно не вводит в заблуждение. Ведь при развитии тревожной тенденции под сомнение неизбежно ставятся уже не фрагменты, а вся мозаика научных изысканий. «Реальная опасность заключается в том, что когда каждое исследование представляет собой лишь очень слабый отголосок научной истины, наука становится все менее и менее продуктивной, – справедливо отмечал колумнист Bloomberg Ноа Смит. – Для подтверждения каждого результата требуется все больше исследователей и все больше исследований. Этот процесс может быть одной из причин того, что новые идеи становятся все более дорогостоящими».
Почему же достоверность научных выводов часто оказывается уязвимой? В своей книге «Искусство статистики. Как находить ответы в данных» (вышла в издательстве «Манн, Иванов и Фербер») Дэвид Шпигельхалтер, один из самых авторитетных британских статистиков, объясняет, что именно питает кризис воспроизводимости. По мнению автора, частью проблемы является недобросовестность либо ненадлежащая строгость в работе с данными, а иногда просто недостаточно высокие этические барьеры, ограждающие исследователей от соблазнов получения искомых результатов. Впрочем, не только это.
«Умышленная фабрикация данных – еще не главная проблема статистики»
Настоящий материал (информация) произведен и (или) распространен иностранным агентом Проект «Republic» либо касается деятельности иностранного агента Проект «Republic»
Дэвид Шпигельхалтер – о причинах кризиса воспроизводимости в науке
К названным проблемам можно добавить намеренное искажение статистики еще на стадии подготовки первичной информации. Это касается всех сфер, где чиновники требуют от подведомственных учреждений нужной цифры. Самая печальная история произошла в СССР со статистиками, делавшими перепись населения СССР в 1937 году.
Это называется фиатная наука. Фиат - деньги, которые государство печатает, ими же платит например исследователям в государственных и не только учреждениях. Вопрос - на сколько объективными будут такие исследования? Это касается многих областей, например вся макроэкономика или медицина. Это же касается всех областей жизни - производства, образования, личных взаимоотношений. Фиат - это глобальный рак человечества.
эх, отсутствие культуры работы с данными - одна из бОльших проблем чем кажется. расскажу пример из собственной практики.
передо мной было большое (200+ тысяч) маркетинговое исследование, сделанное уважаемой британской маркетинговой конторой, на которое (ни много ни мало британские учёные-статистики!) накатили кластеризующие алгоритмы. ответы на вопросы, по которым проводилась кластеризация, давались по шкале Ликерта, то есть "насколько вы согласны с этим утверждением от 0 до 10". уже к такой формулировке есть свои претензии, но я сейчас о другом. эти добрые люди взяли весь массив данных, прогнали через алгоритм, получили на выходе что-то странное, и начали интерпретировать результаты в классическом стиле "увидь паттерны в белом шуме". я спросил их про макро-параметр "насколько качественно данный кластеринг описывает датасет", а они просто не поняли зачем мне это! через несколько раундов вопросов, впрочем, выяснилось, что "данный метод не очень подходит к этому датасету, и вообще он шумный". ну ладно, я решил посмотреть что за шум, и для начала построил по всему датасету число упоминаний от 0 до 10, и увидел на "обычном" графике с подъёмом от 0 до 6, плато в 7-8, и спуск в 9-10, как большинство людей и отвечает, три спайка - 0, 5 и 10. предсказуемо? тут же выяснилось что весь датасет делился 60%-15%-15%-10%: 60% отвечающих отвечали "нормально"; 15% почти на всё отвечали 0, а на некоторые пункты 10; ещё 15% делали то же самое наоборот; и 10% почти на всё отвечали 5, а на некоторые пункты что-то другое. очевидно, используемый алгоритм не смог распознать этот паттерн, к тому же кластеризация проводилась по небольшому подмножеству вопросов из общего набора, а анализ кластеров делался по всем вопросам - в результате классическое правило статистики garbage in garbage out дало закономерный результат. и это только одна из претензий к этому исследованию.
и что меня больше всего пугает, это даже не то, насколько в отдельных случаях даются настолько вопиющие результаты, а то, что подобные исследования "отравляют колодец" науки - сколько работ используют дальше выводы, сделанных на основании неверно проведённых исследований, которым доверяют просто потому что они были опубликованы, и/или у тех кто делали выводы не было доступа к деталям проведения этого исследования?
неужели написать слово "датасет" настолько короче чем "набор данных"...
Накидываем фичи на куку, аугментируем датасет, треним форестом, иксжебустом или бекпропагейшином (но тогда подбираем дропаут), сабмитим, смотрим скор на лидерборде...
Готов читать платные лекции по машинлёнингу и дейтамайнингу.
эксессивная обфускация - рут-коз фрустрации, ятакщитаю
Как в статье справедливо указано, исследователи часто не до конца правильно используют статистические методы для анализа результатов экспериментов, даже при благих целях и без P-хакинга.
Существует значительное движение, продвигающее байесовские методы в дизайн и обработку результатов экспериментов. Однако их внедрение сопряжено со значительными трудностями, одна из которых -- необходимость разрабатывать параметрические модели для описываемых явлений, что не всегда возможно в силу квалификации авторов или проработанности математического аппарата применительно к конкретной области знаний.