Как найти внутренние и внешние заборы

Одна особенность набора данных, который важно определить, - содержит ли он какие-либо выбросы. Выбросы в нашем наборе данных интуитивно рассматриваются как значения, которые значительно отличаются от большинства остальных данных. Конечно, это понимание выбросов неоднозначно. Чтобы считаться выбросом, насколько значение должно отличаться от остальных данных? То, что один исследователь называет выбросом, совпадает с другим? Чтобы обеспечить некоторую последовательность и количественную меру для определения выбросов, мы используем внутренние и внешние заборы.

Чтобы найти внутренние и внешние границы набора данных, нам сначала понадобится несколько других описательная статистика. Начнем с расчета квартилей. Это приведет к межквартильному размаху. Наконец, с этими вычислениями позади мы сможем определить внутренние и внешние заборы.

Квартили

первый и третий квартили являются частью пятизначное резюме любого набора количественных данных. Мы начинаем с нахождения медианы или средней точки данных после того, как все значения перечислены в порядке возрастания. Значения, меньшие медианы, соответствуют примерно половине данных. Мы находим медиану этой половины набора данных, и это первый квартиль.

instagram viewer

Аналогичным образом, теперь мы рассмотрим верхнюю половину набора данных. Если мы найдем медиану для этой половины данных, то у нас будет третий квартиль. Эти квартили получили свое название из-за того, что они разбили набор данных на четыре равные части или кварталы. Другими словами, примерно 25% всех значений данных меньше, чем первый квартиль. Аналогичным образом, примерно 75% значений данных меньше, чем третий квартиль.

Межквартирный диапазон

Далее нам нужно найти межквартильный размах (МКР). Это легче вычислить, чем первый квартиль Q1 и третий квартиль Q3. Все, что нам нужно сделать, это принять разницу этих двух квартилей. Это дает нам формулу:

IQR = Q3 - Q1

IQR говорит нам, насколько разбросана средняя половина нашего набора данных.

Найти внутренние заборы

Теперь мы можем найти внутренние заборы. Мы начнем с IQR и умножим это число на 1,5. Затем мы вычитаем это число из первого квартиля. Мы также добавляем это число в третий квартиль. Эти два числа образуют наш внутренний забор.

Найти внешние заборы

Для внешних заборов мы начинаем с IQR и умножаем это число на 3. Затем мы вычитаем это число из первого квартиля и добавляем его в третий квартиль. Эти два числа - наши внешние заборы.

Обнаружение выбросов

Обнаружение останцы теперь становится так же просто, как определить, где находятся значения данных относительно наших внутренних и внешних заборов. Если одно значение данных является более экстремальным, чем любой из наших внешних заборов, то это выброс, и его иногда называют сильным выбросом. Если наше значение данных находится между соответствующим внутренним и внешним ограничением, то это значение является предполагаемым или умеренным выбросом. Посмотрим, как это работает, на примере ниже.

пример

Предположим, что мы вычислили первый и третий квартиль наших данных и нашли эти значения для 50 и 60 соответственно. Межквартильный диапазон IQR = 60 - 50 = 10. Далее мы видим, что 1,5 х IQR = 15. Это означает, что внутренние ограждения находятся на 50 - 15 = 35 и 60 + 15 = 75. Это в 1,5 раза меньше IQR, чем в первом квартиле, и больше, чем в третьем квартиле.

Теперь мы рассчитаем 3 x IQR и видим, что это 3 x 10 = 30. Внешние заборы в 3 раза больше IQR, чем первый и третий квартили. Это означает, что внешние заборы составляют 50 - 30 = 20 и 60 + 30 = 90.

Любые значения данных, которые меньше 20 или больше 90, считаются выбросами. Любые значения данных, которые находятся между 29 и 35 или между 75 и 90, являются предполагаемыми выбросами.

instagram story viewer