Правило межквартильного диапазона полезно для обнаружения присутствия выбросов. Выпадающие это отдельные значения, которые выходят за пределы общей структуры набора данных. Это определение несколько расплывчато и субъективно, поэтому полезно иметь правило, которое следует применять, когда определение того, является ли точка данных действительно выбросом - это то, где правило межквартильного диапазона приходит в.
Любой набор данных может быть описан его пятизначное резюме. Эти пять чисел, которые дают вам информацию, необходимую для поиска шаблонов и выбросов, состоят из (в порядке возрастания):
Эти пять цифр говорят человеку больше о его данных, чем одновременный взгляд на цифры или, по крайней мере, делает это намного проще. Например, ассортимент, который является минимумом, вычитаемым из максимума, является одним из показателей того, насколько разбросаны данные в наборе (примечание: диапазон сильно чувствительны к выбросам - если выброс также является минимальным или максимальным, диапазон не будет точным представлением широты данных устанавливать).
В противном случае диапазон будет трудно экстраполировать. Аналогично диапазону, но менее чувствителен к выбросам межквартильный диапазон. межквартильный размах рассчитывается во многом так же, как диапазон. Все, что вы делаете, чтобы найти это, вычитаете первый квартиль из третьего квартиля:
Межквартильный диапазон показывает, как данные распространяются по медиане. Он менее восприимчив, чем диапазон к выбросам, и поэтому может быть более полезным.
Хотя они не часто сильно влияют на них, межквартильный диапазон может использоваться для обнаружения выбросов. Это делается с помощью этих шагов:
Помните, что межквартильное правило - это только практическое правило, которое, как правило, имеет место, но не применяется к каждому случаю В общем, вы всегда должны следить за своим анализом выбросов, изучая полученные выбросы, чтобы увидеть, имеют ли они смысл. Любой потенциальный выброс, полученный межквартильным методом, должен быть рассмотрен в контексте всего набора данных.
Смотрите правило межквартильного диапазона при работе с примером. Предположим, у вас есть следующий набор данных: 1, 3, 4, 6, 7, 7, 8, 8, 10, 12, 17. Сводка из пяти чисел для этого набора данных минимальная = 1, первый квартиль = 4, медиана = 7, третий квартиль = 10 и максимум = 17. Вы можете посмотреть на данные и автоматически сказать, что 17 является выбросом, но что говорит правило межквартильного диапазона?
Теперь умножьте ваш ответ на 1,5, чтобы получить 1,5 х 6 = 9. Девять меньше, чем первый квартиль 4 - 9 = -5. Нет данных меньше, чем это. Девять больше, чем третий квартиль составляет 10 + 9 = 19. Нет данных больше, чем это. Несмотря на то, что максимальное значение на пять больше ближайшей точки данных, правило межквартильного диапазона показывает, что его, вероятно, не следует считать выбросом для этого набора данных.