Сводная статистика, такая как медиана, первый квартиль и третий квартиль измерения положения. Это связано с тем, что эти цифры показывают, где находится указанная пропорция распределения данных. Например, медиана - это среднее положение исследуемых данных. Половина данных имеет значения меньше медианы. Аналогично, 25% данных имеют значения, меньшие, чем первый квартиль, и 75% данных имеют значения, меньшие, чем третий квартиль.
Эта концепция может быть обобщена. Один из способов сделать это - рассмотреть процентили. 90-й процентиль указывает точку, в которой 90% процентов данных имеют значения меньше этого числа. В целом, ппроцентиль это число N для которого п% данных меньше чем N.
Непрерывные случайные величины
Хотя порядковая статистика медианы, первого квартиля и третьего квартиля обычно вводится в установив с дискретным набором данных, эти статистические данные также могут быть определены для непрерывного случайного переменная. Поскольку мы работаем с непрерывным распределением, мы используем интеграл. ппроцентиль это число N такой что:
∫-₶Nе ( Икс ) дх = п/100.
Вот е ( Икс ) является функцией плотности вероятности. Таким образом, мы можем получить любой процентиль, который мы хотим за непрерывный распределение.
Квантили
Еще одно обобщение заключается в том, что наша статистика заказов разбивает распределение, с которым мы работаем. Медиана делит набор данных пополам, а медиана или 50-й процентиль непрерывного распределения делит распределение пополам по площади. Первый квартиль, медиана и третий квартиль делит наши данные на четыре части с одинаковым количеством в каждом. Мы можем использовать приведенный выше интеграл для получения 25-го, 50-го и 75-го процентилей и разбить непрерывное распределение на четыре части равной площади.
Мы можем обобщить эту процедуру. Вопрос, с которого мы можем начать, задается натуральным числом NКак мы можем разделить распределение переменной на N куски одинакового размера? Это прямо говорит о идее квантилей.
N квантили для набора данных находят приблизительно путем ранжирования данных по порядку, а затем разбивают это ранжирование по N - 1 равноотстоящие точки на интервале.
Если у нас есть функция плотности вероятности для непрерывной случайной величины, мы используем приведенный выше интеграл, чтобы найти квантили. За N квантили мы хотим:
- Первый, чтобы иметь 1 /N области распределения слева от него.
- Второй иметь 2 /N области распределения слева от него.
- риметь р/N области распределения слева от него.
- Последнее иметь (N - 1)/N области распределения слева от него.
Мы видим, что для любого натурального числа N, N квантили соответствуют 100р/Nпроцентили, где р может быть любым натуральным числом от 1 до N - 1.
Общие квантили
Определенные типы квантилей используются достаточно часто, чтобы иметь конкретные имена. Ниже приведен список из них:
- Квантиль 2 называется медианой
- 3 квантиля называются терцилями
- 4 квантиля называются квартилями
- 5 квантилей называются квинтилями
- 6 квантилей называются секстилями
- 7 квантилей называются септилами
- 8 квантилей называются осциллами
- 10 квантилей называются децилями
- 12 квантилей называются duodeciles
- 20 квантилей называются бодрствующими
- 100 квантилей называются процентилями
- 1000 квантилей называют пермильями
Конечно, другие квантили существуют помимо тех, что указаны в списке выше. Много раз конкретный используемый квантиль соответствует размеру выборки из непрерывного распределение.
Использование квантилей
Помимо указания позиции набора данных, квантили полезны и другими способами. Предположим, у нас есть простая случайная выборка из популяции, а распределение популяции неизвестно. Чтобы определить, подходит ли модель, такая как нормальное распределение или распределение Вейбулла, для популяции, из которой мы провели выборку, мы можем взглянуть на квантили наших данных и модель.
Сопоставляя квантили из наших выборочных данных с квантилями из определенного распределение вероятностейРезультатом является сбор парных данных. Мы наносим эти данные на диаграмму рассеяния, известную как квантильно-квантильный график или q-q график. Если полученная диаграмма рассеяния является приблизительно линейной, то модель хорошо подходит для наших данных.