Понимание квантилей: определения и использование

Сводная статистика, такая как медиана, первый квартиль и третий квартиль измерения положения. Это связано с тем, что эти цифры показывают, где находится указанная пропорция распределения данных. Например, медиана - это среднее положение исследуемых данных. Половина данных имеет значения меньше медианы. Аналогично, 25% данных имеют значения, меньшие, чем первый квартиль, и 75% данных имеют значения, меньшие, чем третий квартиль.

Эта концепция может быть обобщена. Один из способов сделать это - рассмотреть процентили. 90-й процентиль указывает точку, в которой 90% процентов данных имеют значения меньше этого числа. В целом, ппроцентиль это число N для которого п% данных меньше чем N.

Непрерывные случайные величины

Хотя порядковая статистика медианы, первого квартиля и третьего квартиля обычно вводится в установив с дискретным набором данных, эти статистические данные также могут быть определены для непрерывного случайного переменная. Поскольку мы работаем с непрерывным распределением, мы используем интеграл. ппроцентиль это число N такой что:

instagram viewer

∫_-₶^Nе ( Икс ) дх = п/100.

Вот е ( Икс ) является функцией плотности вероятности. Таким образом, мы можем получить любой процентиль, который мы хотим за непрерывный распределение.

Квантили

Еще одно обобщение заключается в том, что наша статистика заказов разбивает распределение, с которым мы работаем. Медиана делит набор данных пополам, а медиана или 50-й процентиль непрерывного распределения делит распределение пополам по площади. Первый квартиль, медиана и третий квартиль делит наши данные на четыре части с одинаковым количеством в каждом. Мы можем использовать приведенный выше интеграл для получения 25-го, 50-го и 75-го процентилей и разбить непрерывное распределение на четыре части равной площади.

Мы можем обобщить эту процедуру. Вопрос, с которого мы можем начать, задается натуральным числом NКак мы можем разделить распределение переменной на N куски одинакового размера? Это прямо говорит о идее квантилей.

N квантили для набора данных находят приблизительно путем ранжирования данных по порядку, а затем разбивают это ранжирование по N - 1 равноотстоящие точки на интервале.

Если у нас есть функция плотности вероятности для непрерывной случайной величины, мы используем приведенный выше интеграл, чтобы найти квантили. За N квантили мы хотим:

Первый, чтобы иметь 1 /N области распределения слева от него.
Второй иметь 2 /N области распределения слева от него.
риметь р/N области распределения слева от него.
Последнее иметь (N - 1)/N области распределения слева от него.

Мы видим, что для любого натурального числа N, N квантили соответствуют 100р/Nпроцентили, где р может быть любым натуральным числом от 1 до N - 1.

Общие квантили

Определенные типы квантилей используются достаточно часто, чтобы иметь конкретные имена. Ниже приведен список из них:

Квантиль 2 называется медианой
3 квантиля называются терцилями
4 квантиля называются квартилями
5 квантилей называются квинтилями
6 квантилей называются секстилями
7 квантилей называются септилами
8 квантилей называются осциллами
10 квантилей называются децилями
12 квантилей называются duodeciles
20 квантилей называются бодрствующими
100 квантилей называются процентилями
1000 квантилей называют пермильями

Конечно, другие квантили существуют помимо тех, что указаны в списке выше. Много раз конкретный используемый квантиль соответствует размеру выборки из непрерывного распределение.

Использование квантилей

Помимо указания позиции набора данных, квантили полезны и другими способами. Предположим, у нас есть простая случайная выборка из популяции, а распределение популяции неизвестно. Чтобы определить, подходит ли модель, такая как нормальное распределение или распределение Вейбулла, для популяции, из которой мы провели выборку, мы можем взглянуть на квантили наших данных и модель.

Сопоставляя квантили из наших выборочных данных с квантилями из определенного распределение вероятностейРезультатом является сбор парных данных. Мы наносим эти данные на диаграмму рассеяния, известную как квантильно-квантильный график или q-q график. Если полученная диаграмма рассеяния является приблизительно линейной, то модель хорошо подходит для наших данных.