Что такое парадокс Симпсона в статистике?

парадокс это утверждение или явление, которое на первый взгляд кажется противоречивым. Парадоксы помогают раскрыть скрытую истину под поверхностью того, что кажется абсурдным. В области статистики парадокс Симпсона показывает, какие проблемы возникают в результате объединения данных из нескольких групп.

Со всеми данными нам нужно проявлять осторожность. Откуда это? Как это было получено? И что это на самом деле говорит? Это все хорошие вопросы, которые мы должны задать, когда представляем данные. Очень удивительный случай парадокса Симпсона показывает нам, что иногда то, о чем говорят данные, на самом деле не соответствует действительности.

Обзор Парадокса

Предположим, что мы наблюдаем несколько групп и устанавливаем отношения или корреляция для каждой из этих групп. Парадокс Симпсона говорит, что когда мы объединяем все группы вместе и смотрим на данные в обобщенном виде, корреляция, которую мы заметили ранее, может измениться. Это чаще всего связано с скрытыми переменными, которые не были рассмотрены, но иногда это связано с числовыми значениями данных.

instagram viewer

пример

Чтобы немного больше понять парадокс Симпсона, давайте рассмотрим следующий пример. В определенной больнице есть два хирурга. Хирург А оперирует 100 пациентов, а 95 выживают. Хирург B оперирует 80 пациентов и 72 выживают. Мы думаем о том, чтобы сделать операцию в этой больнице, и пережить операцию - это то, что важно. Мы хотим выбрать лучшего из двух хирургов.

Мы смотрим на данные и используем их для расчета того, какой процент пациентов хирурга А пережил свои операции, и сравниваем их с коэффициентом выживаемости пациентов хирурга Б.

  • 95 пациентов из 100 выжили с хирургом А, поэтому 95/100 = 95% из них выжили.
  • 72 пациента из 80 выжили с хирургом B, поэтому 72/80 = 90% из них выжили.

Из этого анализа, какой хирург мы должны выбрать, чтобы лечить нас? Казалось бы, хирург А - более безопасная ставка. Но так ли это на самом деле?

Что если мы проведем дальнейшее исследование данных и обнаружим, что первоначально больница два разных типа операций, но затем объединили все данные вместе, чтобы сообщить о каждом из его хирурги. Не все операции одинаковы, некоторые считались неотложными операциями высокого риска, в то время как другие носили более рутинный характер, который был запланирован заранее.

Из 100 пациентов, которых лечил хирург А, 50 имели высокий риск, три из которых умерли. Остальные 50 считались рутиной, и 2 из них умерли. Это означает, что для обычной операции у пациента, которого лечат хирург А, выживаемость составляет 48/50 = 96%.

Теперь мы более внимательно посмотрим на данные для хирурга B и находим, что из 80 пациентов, 40 были высокого риска, из которых семь умерли. Остальные 40 были рутиной, и только один умер. Это означает, что у пациента есть выживаемость 39/40 = 97,5% для обычной операции с хирургом B.

Теперь какой хирург кажется лучше? Если ваша операция должна быть рутинной, то хирург Б на самом деле лучший хирург. Если мы посмотрим на все операции, выполняемые хирургами, A лучше. Это довольно нелогично. В этом случае скрытая переменная типа операции влияет на объединенные данные хирургов.

История парадокса Симпсона

Парадокс Симпсона назван в честь Эдварда Симпсона, который впервые описал этот парадокс в статье 1951 года «Интерпретация взаимодействия в таблицах непредвиденных обстоятельств» из Журнал Королевского статистического общества. Каждый из Пирсона и Юла наблюдал подобный парадокс на полвека раньше Симпсона, поэтому парадокс Симпсона иногда также называют эффектом Симпсона-Юла.

Существует множество различных применений парадокса в таких разных областях, как спортивная статистика и данные по безработице. Каждый раз, когда эти данные собираются, следите за появлением этого парадокса.

instagram story viewer