Есть множество описательной статистики. Числа, такие как среднее, медиана, Режим, перекос, куртоз, среднеквадратичное отклонение, первый квартиль и третий квартиль, чтобы назвать несколько, каждый говорит нам что-то о наших данных. Вместо того, чтобы смотреть на эти описательная статистика индивидуально, иногда объединяя их, помогает получить полную картину. С этой целью пятизначная сводка является удобным способом объединения пяти описательных статистических данных.
Какие пять чисел?
Понятно, что в нашем резюме должно быть пять чисел, но какие пять? Выбранные цифры должны помочь нам узнать центр наших данных, а также то, как распределены точки данных. Имея это в виду, пятизначное резюме состоит из следующего:
- Минимум - это наименьшее значение в нашем наборе данных.
- Первый квартиль - это число обозначается Q1 и 25% наших данных опускаются ниже первого квартиля.
- Медиана - это промежуточная точка данных. 50% всех данных падает ниже медианы.
- Третий квартиль - это число обозначается Q3 и 75% наших данных опускаются ниже третьего квартиля.
- Максимум - это самое большое значение в нашем наборе данных.
Среднее и стандартное отклонение также могут использоваться вместе, чтобы передать центр и распространение набора данных. Тем не менее, обе эти статистические данные подвержены выбросам. Медиана, первый квартиль и третий квартиль не так сильно подвержены влиянию выбросов.
Пример
Учитывая следующий набор данных, мы сообщим пятизначную сводку:
1, 2, 2, 3, 4, 6, 6, 7, 7, 7, 8, 11, 12, 15, 15, 15, 17, 17, 18, 20
Всего в наборе данных двадцать точек. Таким образом, медиана является средним из десятого и одиннадцатого значений данных или:
(7 + 8)/2 = 7.5.
Медиана нижней половины данных - первый квартиль. Нижняя половина:
1, 2, 2, 3, 4, 6, 6, 7, 7, 7
Таким образом, мы рассчитываемQ1= (4 + 6)/2 = 5.
Медиана верхней половины исходного набора данных - третий квартиль. Нам нужно найти медиану:
8, 11, 12, 15, 15, 15, 17, 17, 18, 20
Таким образом, мы рассчитываемQ3= (15 + 15)/2 = 15.
Мы собираем все вышеперечисленные результаты вместе и сообщаем, что сводка из пяти чисел для вышеуказанного набора данных составляет 1, 5, 7.5, 12, 20.
Графическое представление
Пять числовых сводок можно сравнить друг с другом. Мы обнаружим, что два набора с одинаковыми средними и стандартными отклонениями могут иметь очень разные пятизначные сводки. Чтобы легко сравнить две пятизначные сводки, мы можем использовать boxplotили окно и граф усов.