Различия между корреляцией и причинностью

Однажды за ланчем молодая женщина ела большую миску мороженого, и один из сотрудников факультета подошел к ней и сказал: «Тебе лучше быть осторожным, есть высокий статистическийкорреляция между мороженым и тонущим. Должно быть, она смущенно посмотрела на него, когда он уточнил еще немного. «Дни с большим количеством продаж мороженого также видят, что большинство людей тонет».

Когда она закончила мое мороженое, два коллеги обсудили тот факт, что только потому, что одна переменная статистически связана с другой, это не означает, что одна является причиной другой. Иногда на заднем плане скрывается переменная. В этом случае день года скрывается в данных. В жаркие летние дни продается больше мороженого, чем снежных. Летом больше людей плавает, а летом больше тонет, чем зимой.

Остерегайтесь скрывающихся переменных

Приведенный выше анекдот является ярким примером того, что известно как скрытая переменная. Как следует из названия, скрывающаяся переменная может быть неуловимой и ее трудно обнаружить. Когда мы обнаруживаем, что два набора числовых данных сильно коррелируют, мы всегда должны спрашивать: «Может ли быть что-то еще, что вызывает эти отношения?»

instagram viewer

Ниже приведены примеры сильной корреляции, вызванной скрытой переменной:

  • Среднее количество компьютеров на человека в стране и средняя продолжительность жизни в этой стране.
  • Количество пожарных при пожаре и ущерб от пожара.
  • Рост ученика начальной школы и уровень его или ее чтения.

Во всех этих случаях связь между переменными очень сильная. Это обычно обозначается коэффициент корреляции который имеет значение, близкое к 1 или -1. Неважно, насколько близок этот коэффициент корреляции к 1 или -1, эта статистика не может показать, что одна переменная является причиной другой переменной.

Обнаружение скрывающихся переменных

По своей природе скрывающиеся переменные трудно обнаружить. Одна стратегия, если таковая имеется, заключается в изучении того, что происходит с данными с течением времени. Это может выявить сезонные тренды, такие как пример мороженого, которые затемняются при объединении данных. Другой метод заключается в том, чтобы посмотреть на останцы и попытайтесь определить, что отличает их от других данных. Иногда это дает намек на то, что происходит за кулисами. Лучший курс действий должен быть активным; Предположения вопроса и дизайн экспериментов тщательно.

Почему это имеет значение?

В первом сценарии предположим, что благонамеренный, но статистически неосведомленный конгрессмен предложил запретить все мороженое, чтобы предотвратить утопление. Такой законопроект может причинить неудобства крупным слоям населения, обанкротить несколько компаний и ликвидировать тысячи рабочих мест, поскольку индустрия мороженого в стране закрылась. Несмотря на благие намерения, этот законопроект не уменьшит количество погибших.

Если этот пример кажется слишком надуманным, рассмотрите следующее, что на самом деле произошло. В начале 1900-х врачи заметили, что некоторые младенцы таинственно умирают во сне от проблем с дыханием. Это называлось смертью в кроватке и теперь известно как СВДС. Одна вещь, которая выделялась из вскрытий тех, кто умер от СВДС, была увеличенная вилочковая железа, железа, расположенная в груди. Исходя из корреляции увеличенных тимусных желез у детей СВДС, врачи предположили, что аномально большой тимус вызвал неправильное дыхание и смерть.

Предложенное решение состояло в том, чтобы уменьшить тимус с высокой дозой радиации или полностью удалить железу. Эти процедуры имели высокий уровень смертности и привели к еще большему числу смертей. Печально то, что эти операции не должны были быть выполнены. Последующее исследование показало, что эти врачи ошиблись в своих предположениях и что тимус не отвечает за СВДС.

Корреляция не подразумевает причинно-следственную связь

Вышесказанное должно заставить нас задуматься, когда мы думаем, что статистические данные используются для оправдания таких вещей, как медицинские схемы, законодательство и предложения в области образования. Важно, чтобы была проделана хорошая работа по интерпретации данных, особенно если результаты, связанные с корреляцией, повлияют на жизнь других людей.

Когда кто-то заявляет: «Исследования показывают, что A является причиной B, а некоторые статистические данные подтверждают это», будьте готовы ответ: «корреляция не подразумевает причинно-следственную связь». Всегда быть в поисках того, что скрывается под данные.

instagram story viewer