Статистический стандарт, с помощью которого исследователи уже без малого сто лет отделяют закономерность от случая, вызывает все больше вопросов.
Бизнес, маркетинг, реклама, образование, медицина, фундаментальная наука – к какой бы области ни относилось научное исследование, его результаты интерпретируют одними и теми же статистическими методами. Эксперимент может оказаться удачным или неудачным, гипотеза может оказаться верной или неверной, но вот в обсчете данных обычно никто не сомневается. Возможно, зря.
Недавно в Nature Human Behaviour вышла необычная статья, авторы которой – целых 72 научных авторитета со всего мира и из самых разных научных сфер, от нейробиологии до экономики – предлагают пересмотреть статистический стандарт, вот уже около века господствующий в экспериментальной науке. Речь идёт о так называемом P-значении.
Пытаясь обнаружить какую-то ранее неизвестную закономерность, мы ставим эксперимент. Представим, что эксперимент дал положительный ответ – то есть он говорит нам, что закономерность действительно есть. Это может означать две вещи: первое – закономерность действительно есть, второе – закономерности на самом деле нет, то, что мы видим, лишь случайность, а с результатами нам просто повезло.
Р-значение было создано как раз для того, чтобы случайность не могла сыграть с нами злую шутку. P-значение представляет собой вероятность ошибки – вероятность того, что мы увидели в наших результатах подтверждение закономерности, хотя на деле они получились случайным образом. Стандарт P-значения был принят еще в 1920-х, когда Рональд Фишер, выдающийся биолог и математик, которого иногда называют отцом биологической статистики, предложил считать положительные результаты эксперимента достоверными, если значение P < 0,05.
Что это значит? Например, у нас есть какие-то результаты, которые могут происходить из закономерных причин или из случайных. Вероятность того, что они получились благодаря закономерности, составляет 95%, а на случайность тогда остается 5%. Критерий P<0,05 как раз означает, что если на случайность осталось 5%, то мы на нее можем не обращать внимания – перед нами подтверждение закономерности.
По мнению одного из соавторов статьи, Джона Листа, экономиста из Чикагского университета, если бы Рональд Фишер знал, что 100 лет спустя мы будем считать результаты с P < 0,05 за истину в последней инстанции, он бы ещё десять раз подумал, прежде чем предлагать такой критерий. Проблема в том, что исследования, использующие P < 0,05, часто оказываются невоспроизводимыми.
Мы знаем, что воспроизводимость – это когда результаты, полученные в одной лаборатории, удается повторить другим исследовательским группам. Хорошая воспроизводимость гарантирует, что выводы исследователей действительно были верны и случайности здесь ни при чем. Но, к примеру, в области психологических наук лишь 24% результатов исследований с P < 0,05 удается воспроизвести – иными словами, доверять можно лишь трем исследованиям из четырех.
Для исследований в области экономики воспроизводимость чуть лучше – 44%, но от идеала, мягко говоря, далеко. (Тут стоит заметить, что, говоря о воспроизведении психологических и экономических исследований, необходимо учитывать, что воспроизводить их приходится уже в другом историческом времени. Спору нет, некоторые психологические и экономические закономерности меняются со временем очень слабо, но некоторые, напротив, сильнейшим образом зависят от злобы дня, поэтому, как говорят многие психологи, невоспроизводимость каких-то прошлых работ может иметь место по вполне объективным причинам.)
В последнее время стали говорить о том, что и среди биомедицинских исследований есть целый ряд невоспроизводимых, причем среди подобных работ есть такие, которые описывают новые препараты для лечения онкологических заболеваний.
Авторы статьи полагают, что кардинально улучшить качество исследований, уменьшив число ложноположительных результатов, можно очень просто – нужно всего лишь понизить P-значение до 0,005. Как ожидают авторы, это улучшит воспроизводимость психологических и экономических исследований вдвое; соответственно, некоторое «оздоровление» произойдет и в других областях.
Правда, есть опасность, что с повышением порога P-значения не только уменьшится количество ложноположительных результатов, но и увеличиться количество ложноотрицательных – то есть вполне реальную закономерность станет очень трудно увидеть, и придется тратить много ресурсов, чтобы ее все-таки доказать. С другой стороны, сейчас те же самые ресурсы идут на продолжения исследований, которые вышли из ложноположительных результатов и ведут в тупик. С повышением P-порога (с понижением P-значения) ложные направления исследований будут отсекаться, и сэкономленные ресурсы смогут окупить более строгие проверки гипотез.
Пересмотр P-значения действительно может иметь смысл. Но, как признают сами авторы работы, в науке у ложноположительных результатов научных исследований есть и много других причин: это и плохое планирование экспериментов, это и ошибки измерений, и невольная необъективность экспериментаторов (а иногда и «вольная» – вплоть до откровенной подтасовки данных); да и в самих статистических методах есть и другие проблемы, не связанные с P-значением. В конце концов, есть даже такая откровенно «ненаучная» причина, как предвзятая политика публикаций, когда журналы не печатают статьи с отрицательными результатами, статьи, в которых говорится, что некая гипотеза НЕ подтвердилась – поскольку такие статьи считаются неинтересными.
Разумеется, исследователи, которым для денег нужны публикации, будут стараться публиковать «интересные» результаты, даже если они вызывают вопросы с точки зрения истинности.
Ложные результаты – не сугубо внутринаучная проблема. Такие вещи дискредитируют науку в глазах общества, у государства появляются резонные вопросы насчет финансирования научных учреждений, наконец, ложные результаты могут стоить кому-то здоровья – если речь идет о чем-то медицинском. Поэтому хорошо, что проблема в последнее время получает все больше внимания.
Однако стоит подчеркнуть, что, несмотря на все вышесказанное, достоверность результатов, полученных в ходе научных исследований, неизмеримо выше, чем достоверность любых сведений, авторы которых пренебрегали научным методом. В конце концов, чтобы оценить силу научного метода, достаточно просто посмотреть по сторонам. В конце концов для доклинических исследований лекарственных средств применяются всё те же статистические методы, но результат признаётся только тогда, когда он либо имеет дозозависимый эффект, либо воспроизводим то есть в двух проворностях получен одинаковый результат.
Источник: НАУКА И ЖИЗНЬ