Самозагрузка - это статистический метод, который относится к более широкому разделу повторной выборки. Этот метод включает относительно простую процедуру, но повторяется так много раз, что он сильно зависит от компьютерных расчетов. Начальная загрузка предоставляет метод, отличный от доверительных интервалов, для оценки параметра совокупности. Бутстрэппинг очень похоже на магию. Продолжайте читать, чтобы видеть, как это получает свое интересное имя.
Объяснение начальной загрузки
Одна цель выведенный статистика это определить значение параметра популяции. Обычно это слишком дорого или даже невозможно измерить это напрямую. Итак, мы используем статистическая выборка. Мы выбираем популяцию, измеряем статистику этой выборки, а затем используем эту статистику, чтобы что-то сказать о соответствующий параметр населения.
Например, на шоколадной фабрике мы можем захотеть гарантировать, что конфеты имеют жадный вес. Невозможно взвесить каждый произведенный моноблок, поэтому мы используем методы отбора проб, чтобы случайным образом выбрать 100 батончиков. Мы рассчитываем среднее значение этих 100 конфет и говорим, что среднее значение популяции находится в пределах погрешности по сравнению со средним значением нашей выборки.
Предположим, что через несколько месяцев мы хотим знать с большей точностью - или меньше предел погрешности - какой средний вес моноблока был в день, когда мы пробовали производственную линию. Мы не можем использовать современные конфеты, так как много переменных вписались в картину (разные партии молока, сахара и какао-бобов, разные атмосферные условия, разные работники на линии и т. д.). Все, что у нас есть со дня, когда нас интересует, это 100 весов. Без машины времени в то время казалось бы, что первоначальный предел погрешности - это лучшее, на что мы можем надеяться.
К счастью, мы можем использовать техника начальной загрузки. В этой ситуации мы случайно образец с заменой из 100 известных весов. Затем мы называем это примером начальной загрузки. Поскольку мы допускаем замену, этот образец начальной загрузки, скорее всего, не идентичен нашему первоначальному примеру. Некоторые точки данных могут дублироваться, а другие точки данных из начальных 100 могут быть опущены в образце начальной загрузки. С помощью компьютера тысячи образцов начальной загрузки могут быть созданы за относительно короткое время.
Пример
Как уже упоминалось, чтобы по-настоящему использовать методы начальной загрузки, нам нужно использовать компьютер. Следующий числовой пример поможет продемонстрировать, как работает процесс. Если мы начнем с выборки 2, 4, 5, 6, 6, то все следующие возможные варианты начальной загрузки:
- 2 ,5, 5, 6, 6
- 4, 5, 6, 6, 6
- 2, 2, 4, 5, 5
- 2, 2, 2, 4, 6
- 2, 2, 2, 2, 2
- 4,6, 6, 6, 6
История техники
Методы начальной загрузки являются относительно новыми в области статистики. Первое использование было опубликовано в 1979 году в статье Брэдли Эфрона. Поскольку вычислительная мощность возросла и стала менее дорогой, методы начальной загрузки стали более распространенными.
Почему название Bootstrapping?
Само название «самозагрузка» происходит от фразы «подняться на сапогах». Это относится к чему-то нелепому и невозможному. Старайтесь изо всех сил, вы не можете подняться в воздух, дергая куски кожи на ботинках.
Существует некоторая математическая теория, которая оправдывает методы начальной загрузки. Тем не менее, использование начальной загрузки чувствует, что вы делаете невозможное. Хотя кажется, что вы не сможете улучшить оценку статистики населения, многократно используя одну и ту же выборку, самозагрузка может, на самом деле, сделать это.