Учитывая последовательность данныхЕдинственный вопрос, который может нас заинтересовать, заключается в том, произошла ли последовательность случайных явлений или данные не случайны. Случайность трудно определить, так как очень трудно просто посмотреть на данные и определить, были ли они получены случайно. Один метод, который можно использовать для определения того, действительно ли последовательность произошла случайно, называется тестом прогонов.
Тест пробежек - это тест значимости или проверка гипотезы. Процедура этого теста основана на прогоне или последовательности данных, которые имеют определенную черту. Чтобы понять, как работает тесты прогонов, мы должны сначала изучить концепцию прогонов.
Последовательности данных
Мы начнем с рассмотрения примера трасс. Рассмотрим следующую последовательность случайных цифр:
6 2 7 0 0 1 7 3 0 5 0 8 4 6 8 7 0 6 5 5
Один из способов классифицировать эти цифры - разделить их на две категории: четные (включая цифры 0, 2, 4, 6 и 8) или нечетные (включая цифры 1, 3, 5, 7 и 9). Мы рассмотрим последовательность случайных цифр и обозначим четные числа как E, а нечетные числа как O:
E E O E E O O E E E E E E O E E O O
Прогоны легче увидеть, если мы переписываем это так, чтобы все Os были вместе, а все Es были вместе:
EE O EE OO E O EEEEE O EE OO
Мы подсчитываем количество блоков четных или нечетных чисел и видим, что всего существует десять прогонов для данных. Четыре трассы имеют длину один, пять имеют длину два, а один имеет длину пять
условия
С любым проверка значимостиВажно знать, какие условия необходимы для проведения теста. Для теста прогонов мы сможем классифицировать каждое значение данных из образца в одну из двух категорий. Мы посчитаем общее количество прогонов относительно количества значений данных, попадающих в каждую категорию.
Тест будет двусторонний тест. Причина этого заключается в том, что слишком малое количество прогонов означает, что, вероятно, недостаточно вариаций и количество прогонов, которые могут возникнуть в результате случайного процесса. Слишком много запусков будет происходить, когда процесс чередуется между категориями слишком часто, чтобы быть описанным случайно
Гипотезы и P-значения
Каждый критерий значимости имеет нулевая и альтернативная гипотеза. Для теста прогонов нулевая гипотеза состоит в том, что последовательность является случайной последовательностью. Альтернативная гипотеза состоит в том, что последовательность выборочных данных не случайна.
Статистическое программное обеспечение может рассчитать р-значение это соответствует определенной статистике теста. Есть также таблицы, которые дают критические числа в определенном уровень значимости на общее количество прогонов.
Запускает тестовый пример
Мы рассмотрим следующий пример, чтобы увидеть, как работает тестовый прогон. Предположим, что для задания ученика просят подбросить монету 16 раз и отметить порядок появления голов и хвостов. Если мы в конечном итоге с этим набором данных:
H T H H H T T H T T H T H T H T H H
Мы можем спросить, действительно ли ученик сделал домашнее задание, или он обманул и записал серию букв H и T, которые выглядят случайными? Тест пробежек может помочь нам. Предположения выполняются для теста на прогоны, так как данные могут быть классифицированы на две группы, как голова или хвост. Мы продолжаем, считая количество прогонов. Перегруппировавшись, мы видим следующее:
H T HHH TT H TT H T H T HH
Для наших данных существует десять трасс с семью хвостами и девятью головами.
Нулевая гипотеза состоит в том, что данные случайны. Альтернатива в том, что это не случайно. Для уровня значимости альфа, равного 0,05, мы видим из соответствующей таблицы, что мы отвергаем нулевую гипотезу, когда число прогонов меньше 4 или больше 16. Поскольку в наших данных десять прогонов, мы не отклонить нулевая гипотеза Н0.
Нормальное приближение
Тесты прогонов являются полезным инструментом для определения вероятности того, что последовательность является случайной или нет. Для большого набора данных иногда можно использовать нормальное приближение. Это нормальное приближение требует, чтобы мы использовали количество элементов в каждой категории, а затем вычислили среднее значение и стандартное отклонение соответствующей нормальное распределение.