Степени свободы за независимость в двусторонней таблице

Номер степени свободы Для независимости двух категориальных переменных дается простая формула: (р - 1)(с - 1). Вот р это количество строк и с количество столбцов в двухсторонний стол значений категориальной переменной. Читайте дальше, чтобы узнать больше об этой теме и понять, почему эта формула дает правильное число.

Фон

Один шаг в процессе многих проверка гипотез это определение количества степеней свободы. Это число важно, потому что для распределение вероятностей которые включают семейство распределений, таких как распределение хи-квадрат, количество степеней свобода определяет точное распределение из семейства, которое мы должны использовать в нашей гипотезе тестовое задание.

Степени свободы представляют собой количество свободных выборов, которые мы можем сделать в данной ситуации. Одним из тестов гипотезы, который требует от нас определения степеней свободы, является хи-квадрат тест на независимость для двух категориальных переменных.

Тесты на независимость и двусторонние таблицы

instagram viewer

Критерий хи-квадрат для независимости требует от нас построения двусторонней таблицы, также известной как таблица непредвиденных обстоятельств. Этот тип стола имеет р строки и с столбцы, представляющие р уровни одной категориальной переменной и с уровни другой категориальной переменной. Таким образом, если мы не посчитаем строку и столбец, в которые мы записываем итоги, то гс ячейки в двусторонней таблице.

Критерий хи-квадрат для независимости позволяет нам проверить гипотезу о том, что категорический переменные не зависят друг от друга. Как мы уже упоминали выше, р строки и с столбцы в таблице дают нам (р - 1)(с - 1) степени свободы. Но может быть не сразу понятно, почему это правильное количество степеней свободы.

Количество степеней свободы

Чтобы понять почему (р - 1)(с - 1) правильное число, рассмотрим эту ситуацию более подробно. Предположим, что мы знаем предельные итоги для каждого из уровней наших категориальных переменных. Другими словами, мы знаем сумму для каждой строки и сумму для каждого столбца. Для первого ряда есть с столбцы в нашей таблице, так что есть с клетки. Как только мы узнаем значения всех этих ячеек, кроме одной, то, поскольку мы знаем сумму всех ячеек, это простая задача алгебры для определения значения оставшейся ячейки. Если бы мы заполняли эти ячейки нашей таблицы, мы могли бы ввести с - 1 из них свободно, но тогда оставшаяся ячейка определяется по сумме строк. Таким образом, есть с - 1 степень свободы для первого ряда.

Мы продолжаем таким образом для следующего ряда, и снова есть с - 1 степень свободы. Этот процесс продолжается, пока мы не доберемся до предпоследнего ряда. Каждый из рядов, кроме последнего, вносит свой вклад с - 1 степень свободы к общему. К тому времени, когда у нас есть все, кроме последней строки, тогда, поскольку мы знаем сумму столбца, мы можем определить все записи последней строки. Это дает нам р - 1 ряд с с - 1 степень свободы в каждой из них, всегор - 1)(с - 1) степени свободы.

пример

Мы видим это на следующем примере. Предположим, что у нас есть двусторонняя таблица с двумя категориальными переменными. Одна переменная имеет три уровня, а другая - два. Кроме того, предположим, что мы знаем итоги строк и столбцов для этой таблицы:

Уровень А Уровень Б Общее количество
1-й уровень 100
Уровень 2 200
Уровень 3 300
Общее количество 200 400 600

Формула предсказывает, что есть (3-1) (2-1) = 2 степени свободы. Мы видим это следующим образом. Предположим, что мы заполняем верхнюю левую ячейку числом 80. Это автоматически определит весь первый ряд записей:

Уровень А Уровень Б Общее количество
1-й уровень 80 20 100
Уровень 2 200
Уровень 3 300
Общее количество 200 400 600

Теперь, если мы знаем, что первая запись во второй строке равна 50, то остальная часть таблицы заполняется, потому что мы знаем сумму каждой строки и столбца:

Уровень А Уровень Б Общее количество
1-й уровень 80 20 100
Уровень 2 50 150 200
Уровень 3 70 230 300
Общее количество 200 400 600

Таблица полностью заполнена, но у нас было только два свободных варианта. Как только эти значения были известны, остальная часть таблицы была полностью определена.

Хотя нам обычно не нужно знать, почему существует так много степеней свободы, хорошо знать, что мы на самом деле просто применяем концепцию степеней свободы в новой ситуации.