Понимание квантилей: определения и использование

Сводная статистика, такая как медиана, первый квартиль и третий квартиль измерения положения. Это связано с тем, что эти цифры показывают, где находится указанная пропорция распределения данных. Например, медиана - это среднее положение исследуемых данных. Половина данных имеет значения меньше медианы. Аналогично, 25% данных имеют значения, меньшие, чем первый квартиль, и 75% данных имеют значения, меньшие, чем третий квартиль.

Эта концепция может быть обобщена. Один из способов сделать это - рассмотреть процентили. 90-й процентиль указывает точку, в которой 90% процентов данных имеют значения меньше этого числа. В целом, ппроцентиль это число N для которого п% данных меньше чем N.

Непрерывные случайные величины

Хотя порядковая статистика медианы, первого квартиля и третьего квартиля обычно вводится в установив с дискретным набором данных, эти статистические данные также могут быть определены для непрерывного случайного переменная. Поскольку мы работаем с непрерывным распределением, мы используем интеграл. ппроцентиль это число N такой что:

instagram viewer

-₶Nе ( Икс ) дх = п/100.

Вот е ( Икс ) является функцией плотности вероятности. Таким образом, мы можем получить любой процентиль, который мы хотим за непрерывный распределение.

Квантили

Еще одно обобщение заключается в том, что наша статистика заказов разбивает распределение, с которым мы работаем. Медиана делит набор данных пополам, а медиана или 50-й процентиль непрерывного распределения делит распределение пополам по площади. Первый квартиль, медиана и третий квартиль делит наши данные на четыре части с одинаковым количеством в каждом. Мы можем использовать приведенный выше интеграл для получения 25-го, 50-го и 75-го процентилей и разбить непрерывное распределение на четыре части равной площади.

Мы можем обобщить эту процедуру. Вопрос, с которого мы можем начать, задается натуральным числом NКак мы можем разделить распределение переменной на N куски одинакового размера? Это прямо говорит о идее квантилей.

N квантили для набора данных находят приблизительно путем ранжирования данных по порядку, а затем разбивают это ранжирование по N - 1 равноотстоящие точки на интервале.

Если у нас есть функция плотности вероятности для непрерывной случайной величины, мы используем приведенный выше интеграл, чтобы найти квантили. За N квантили мы хотим:

  • Первый, чтобы иметь 1 /N области распределения слева от него.
  • Второй иметь 2 /N области распределения слева от него.
  • риметь р/N области распределения слева от него.
  • Последнее иметь (N - 1)/N области распределения слева от него.

Мы видим, что для любого натурального числа N, N квантили соответствуют 100р/Nпроцентили, где р может быть любым натуральным числом от 1 до N - 1.

Общие квантили

Определенные типы квантилей используются достаточно часто, чтобы иметь конкретные имена. Ниже приведен список из них:

  • Квантиль 2 называется медианой
  • 3 квантиля называются терцилями
  • 4 квантиля называются квартилями
  • 5 квантилей называются квинтилями
  • 6 квантилей называются секстилями
  • 7 квантилей называются септилами
  • 8 квантилей называются осциллами
  • 10 квантилей называются децилями
  • 12 квантилей называются duodeciles
  • 20 квантилей называются бодрствующими
  • 100 квантилей называются процентилями
  • 1000 квантилей называют пермильями

Конечно, другие квантили существуют помимо тех, что указаны в списке выше. Много раз конкретный используемый квантиль соответствует размеру выборки из непрерывного распределение.

Использование квантилей

Помимо указания позиции набора данных, квантили полезны и другими способами. Предположим, у нас есть простая случайная выборка из популяции, а распределение популяции неизвестно. Чтобы определить, подходит ли модель, такая как нормальное распределение или распределение Вейбулла, для популяции, из которой мы провели выборку, мы можем взглянуть на квантили наших данных и модель.

Сопоставляя квантили из наших выборочных данных с квантилями из определенного распределение вероятностейРезультатом является сбор парных данных. Мы наносим эти данные на диаграмму рассеяния, известную как квантильно-квантильный график или q-q график. Если полученная диаграмма рассеяния является приблизительно линейной, то модель хорошо подходит для наших данных.

instagram story viewer