Доверительный интервал для разницы двух популяционных пропорций

Доверительные интервалы являются частью выведенный статистика. Основная идея этой темы - оценить ценность неизвестного населения. параметр с помощью статистической выборки. Мы можем не только оценить значение параметра, но мы также можем адаптировать наши методы для оценки разницы между двумя связанными параметрами. Например, мы можем захотеть найти разницу в процентном соотношении мужчин, голосующих в США, которые поддерживают определенный законодательный акт, по сравнению с женщинами, голосующими.

Мы увидим, как сделать этот тип расчета, построив доверительный интервал для разности двух пропорций населения. В процессе мы рассмотрим некоторые теории, лежащие в основе этого расчета. Мы увидим некоторые сходства в том, как мы строим доверительный интервал для одной доли населения также как и доверительный интервал для разницы двух популяционных средств.

Общие положения

Прежде чем смотреть на конкретную формулу, которую мы будем использовать, давайте рассмотрим общую структуру, в которую вписывается этот тип доверительного интервала. Форма типа доверительного интервала, который мы рассмотрим, определяется по следующей формуле:

instagram viewer

Оценить +/- предел ошибки

Многие доверительные интервалы относятся к этому типу. Есть два числа, которые нам нужно рассчитать. Первое из этих значений является оценкой для параметра. Второе значение - предел погрешности. Эта погрешность объясняет тот факт, что у нас есть оценка. Доверительный интервал предоставляет нам диапазон возможных значений для нашего неизвестного параметра.

условия

Мы должны убедиться, что все условия выполнены, прежде чем делать какие-либо расчеты. Чтобы найти доверительный интервал для разности двух пропорций популяции, мы должны убедиться в соблюдении следующих условий:

  • У нас есть два простые случайные выборки от больших групп населения. Здесь «большой» означает, что популяция как минимум в 20 раз больше, чем размер выборки. Размеры выборки будут обозначены N1 и N2.
  • Наши люди были выбраны независимо друг от друга.
  • В каждом из наших образцов есть как минимум десять успехов и десять неудач.

Если последний пункт в списке не удовлетворен, то может быть способ обойти это. Мы можем изменить плюс-четыре доверительный интервал строительство и получение надежные результаты. По мере продвижения вперед мы предполагаем, что все вышеперечисленные условия были выполнены.

Образцы и пропорции населения

Теперь мы готовы построить наш доверительный интервал. Мы начнем с оценки разницы между нашими пропорциями населения. Обе эти пропорции населения оцениваются по выборочной пропорции. Эти пропорции выборки являются статистикой, которая определяется путем деления количества успехов в каждой выборке, а затем деления на соответствующий размер выборки.

Первая пропорция населения обозначается п1. Если число успехов в нашей выборке из этой популяции К1тогда у нас есть примерная пропорция К1 / н1.

Обозначим эту статистику через p̂1. Мы читаем этот символ как «р1-это ", потому что это выглядит как символ р1 в шляпе сверху.

Аналогичным образом мы можем рассчитать долю выборки из нашей второй популяции. Параметр из этой популяции п2. Если число успехов в нашей выборке из этой популяции К2и наша пропорция выборки p̂2 = к2 / н2.

Эти две статистики становятся первой частью нашего доверительного интервала. Оценка п1 это p̂1. Оценка п2 это p̂2. Таким образом, оценка для разницы п1 - п2 это p̂1 - п2.

Распределение выборки разности пропорций выборки

Далее нам нужно получить формулу для погрешности. Для этого мы сначала рассмотрим выборочное распределение из p̂1 . Это биномиальное распределение с вероятностью успеха п1 и N1 испытания. Среднее значение этого распределения является пропорцией п1. Стандартное отклонение этого типа случайной величины имеет дисперсию п1 (1 - п1 )/N1.

Распределение выборки p̂2 похоже на то из р̂1 . Просто измените все индексы с 1 на 2, и мы получим биномиальное распределение со средним значением p2 и дисперсия п2 (1 - п2 )/N2.

Теперь нам нужно несколько результатов из математической статистики, чтобы определить распределение выборки p̂1 - п2. Среднее значение этого распределения п1 - п2. Из-за того, что дисперсии складываются вместе, мы видим, что дисперсия распределения выборки п1 (1 - п1 )/N1 + п2 (1 - п2 )/N2. Стандартное отклонение распределения является квадратным корнем этой формулы.

Есть несколько настроек, которые нам нужно сделать. Во-первых, формула для стандартного отклонения p̂1 - п2 использует неизвестные параметры п1 и п2. Конечно, если бы мы действительно знали эти значения, то это не было бы интересной статистической проблемой вообще. Нам не нужно оценивать разницу между п1 и п2.. Вместо этого мы могли бы просто вычислить точную разницу.

Эта проблема может быть исправлена ​​путем вычисления стандартной ошибки, а не стандартного отклонения. Все, что нам нужно сделать, это заменить пропорции популяции на пропорции выборки. Стандартные ошибки рассчитываются по статистике, а не по параметрам. Стандартная ошибка полезна, потому что она эффективно оценивает стандартное отклонение. Для нас это означает, что нам больше не нужно знать значение параметров. п1 и п2. .Поскольку эти пропорции выборки известны, стандартная ошибка задается квадратным корнем следующего выражения:

п1 (1 - стр.1 )/N1 + р̂2 (1 - стр.2 )/N2.

Второй пункт, который нам нужно рассмотреть, - это особая форма распределения выборки. Оказывается, что мы можем использовать нормальное распределение, чтобы приблизить выборочное распределение p̂1 - п2. Причина этого несколько техническая, но обрисована в общих чертах в следующем параграфе.

Оба р̂1 и р̂2 иметь выборочное распределение, которое является биномиальным. Каждое из этих биномиальных распределений может быть достаточно хорошо аппроксимировано нормальным распределением. Таким образом, p̂1 - п2 это случайная величина Он формируется в виде линейной комбинации двух случайных величин. Каждый из них аппроксимируется нормальным распределением. Поэтому выборочное распределение p̂1 - п2 также нормально распространяется.

Формула доверительного интервала

Теперь у нас есть все, что нам нужно, чтобы установить доверительный интервал. Оценка (р̂1 - п2) и погрешность г * [п1 (1 - стр.1 )/N1 + р̂2 (1 - стр.2 )/N2.]0.5. Значение, которое мы вводим для г * продиктовано уровнем доверия C. Обычно используемые значения для г * 1,645 для 90% достоверности и 1,96 для 95% достоверности. Эти значения для г * обозначить часть стандартного нормального распределения, где именно С процент распределения между -z * и г *.

Следующая формула дает нам доверительный интервал для разности двух пропорций населения:

(п1 - п2) +/- г * [п1 (1 - стр.1 )/N1 + р̂2 (1 - стр.2 )/N2.]0.5

instagram story viewer