Пример проверки пригодности

критерий пригодности хи-квадрат полезно сравнить теоретическая модель к наблюдаемым данным. Этот тест является типом более общего теста хи-квадрат. Как и в любой теме по математике или статистике, может быть полезно проработать пример, чтобы понять, что происходит, на примере критерия пригодности хи-квадрат.

Рассмотрим стандартную упаковку молочного шоколада M & Ms. Существует шесть разных цветов: красный, оранжевый, желтый, зеленый, синий и коричневый. Предположим, что нам интересно узнать о распределении этих цветов и спросить, все ли шесть цветов встречаются в равной пропорции? Это тип вопроса, на который можно ответить с помощью теста на пригодность.

настройка

Мы начнем с того, что отметим настройки и то, почему тест на пригодность подходит. Наша переменная цвета является категориальной. Существует шесть уровней этой переменной, соответствующих шести возможным цветам. Предположим, что подсчеты M & Ms будут простой случайной выборкой из совокупности всех M & M.

Нулевые и альтернативные гипотезы

instagram viewer

нулевые и альтернативные гипотезы для нашего теста пригодности отражают предположение, которое мы делаем о населении. Поскольку мы проверяем, встречаются ли цвета в одинаковых пропорциях, наша нулевая гипотеза будет состоять в том, что все цвета встречаются в одинаковых пропорциях. Более формально, если п1 доля населения красных конфет, п2 доля населения оранжевых конфет и т. д., то нулевая гипотеза состоит в том, что п1 = п2 =... = п6 = 1/6.

Альтернативная гипотеза состоит в том, что, по крайней мере, одна из пропорций населения не равна 1/6.

Фактическое и ожидаемое количество

Фактическое количество - это количество конфет для каждого из шести цветов. Ожидаемое количество относится к тому, что мы ожидаем, если нулевая гипотеза была верна. Мы позволим N быть размером нашего образца. Ожидаемое количество красных конфет п1 N или N/6. На самом деле, для этого примера ожидаемое количество конфет для каждого из шести цветов просто N раз пя, или N/6.

Статистика хи-квадрат для хорошего самочувствия

Теперь мы вычислим статистику хи-квадрат для конкретного примера. Предположим, что у нас есть простая случайная выборка из 600 конфет M & M со следующим распределением:

  • 212 конфет голубого цвета.
  • 147 конфет оранжевого цвета.
  • 103 конфеты зеленые.
  • 50 конфет красного цвета.
  • 46 конфет желтого цвета.
  • 42 из конфет коричневые.

Если бы нулевая гипотеза была верна, то ожидаемые значения для каждого из этих цветов были бы (1/6) x 600 = 100. Теперь мы используем это в нашем расчете статистики хи-квадрат.

Мы рассчитываем вклад в нашу статистику по каждому из цветов. Каждый имеет форму (фактическая - ожидаемая)2/Expected.:

  • Для синего мы имеем (212 - 100)2/100 = 125.44
  • Для апельсина имеем (147 - 100)2/100 = 22.09
  • Для зеленого у нас есть (103 - 100)2/100 = 0.09
  • Для красного у нас есть (50 - 100)2/100 = 25
  • Для желтого мы имеем (46 - 100)2/100 = 29.16
  • Для коричневого цвета мы имеем (42 - 100)2/100 = 33.64

Затем мы суммируем все эти вклады и определяем, что наша статистика хи-квадрат равна 125,44 + 22,09 + 0,09 + 25 +29,16 + 33,64 = 235,42.

Степени свободы

Номер степени свободы для проверки на пригодность просто на единицу меньше количества уровней нашей переменной. Поскольку было шесть цветов, мы имеем 6 - 1 = 5 степеней свободы.

Таблица хи-квадрат и P-значение

Рассчитанная нами статистика хи-квадрат 235,42 соответствует определенному местоположению в распределении хи-квадрат с пятью степенями свободы. Теперь нам нужен р-значение, чтобы определить вероятность получения тестовой статистики, по крайней мере, столь же экстремальной, как 235,42, предполагая, что нулевая гипотеза верна.

Microsoft Excel может быть использован для этого расчета. Мы находим, что наша тестовая статистика с пятью степенями свободы имеет p-значение 7,29 x 10-49. Это чрезвычайно малое значение р.

Правило принятия решения

Мы принимаем решение о том, следует ли отклонять нулевую гипотезу, основываясь на размере p-значения. Поскольку у нас очень маленькое p-значение, мы отвергаем нулевую гипотезу. Мы пришли к выводу, что M & M не равномерно распределены по шести различным цветам. Последующий анализ может быть использован для определения доверительного интервала для доли населения одного конкретного цвета.

instagram story viewer