Это полуночный показ новейшего популярного фильма. Люди стоят возле театра в ожидании входа. Предположим, вас попросили найти центр линии. Как бы вы это сделали?
Есть несколько разных способов решение этой проблемы. В конце вы должны выяснить, сколько человек было в очереди, а затем взять половину этого числа. Если общее число четное, то центр линии будет между двумя людьми. Если общее число нечетное, тогда центром будет один человек.
Вы можете спросить: «Как найти центр линии? статистика«Эта идея поиска центра - это именно то, что используется при расчете медианы набора данных.
Что такое медиана?
Медиана является одним из трех основных способов найти среднее значение статистические данные. Это сложнее рассчитать, чем режим, но не так трудоемко, как вычисление среднего. Это центр во многом так же, как и центр людей. После перечисления значений данных в порядке возрастания медиана представляет собой значение данных с тем же числом значений данных над ним и под ним.
Случай первый: нечетное число значений
Одиннадцать батарей проверены, чтобы увидеть, как долго они работают. Время их жизни в часах определяется как 10, 99, 100, 103, 103, 105, 110, 111, 115, 130, 131. Какова средняя продолжительность жизни? Поскольку существует нечетное количество значений данных, это соответствует строке с нечетным количеством людей. Центр будет средним значением.
Есть одиннадцать значений данных, поэтому шестое находится в центре. Поэтому среднее время автономной работы является шестым значением в этом списке, или 105 часов. Обратите внимание, что медиана является одним из значений данных.
Случай второй: четное число значений
Двадцать кошек взвешены. Их вес в фунтах определяется как 4, 5, 5, 5, 6, 6, 6, 7, 7, 7, 8, 8, 9, 10, 10, 10, 11, 12, 12, 13. Какой средний вес кошки? Поскольку существует четное количество значений данных, это соответствует строке с четным числом людей. Центр находится между двумя средними значениями.
В этом случае центр находится между десятым и одиннадцатым значениями данных. Чтобы найти медиану, мы вычисляем среднее значение этих двух значений и получаем (7 + 8) / 2 = 7,5. Здесь медиана не является одним из значений данных.
Есть ли другие случаи?
Единственные две возможности - иметь четное или нечетное количество значений данных. Таким образом, приведенные выше два примера являются единственно возможными способами вычисления медианы. Либо медиана будет средним значением, либо медиана будет среднее из двух средние значения. Обычно наборы данных намного больше, чем те, на которые мы смотрели выше, но процесс поиска медианы такой же, как в этих двух примерах.
Влияние выбросов
Среднее значение и режим очень чувствительны к выбросам. Это означает, что присутствие выброса будет сильно влиять на обе эти меры центра. Одно из преимуществ медианы состоит в том, что на нее не оказывает сильного влияния выброс.
Чтобы увидеть это, рассмотрим набор данных 3, 4, 5, 5, 6. Среднее значение составляет (3 + 4 + 5 + 5 + 6) / 5 = 4,6, а медиана равна 5. Теперь сохраните тот же набор данных, но добавьте значение 100: 3, 4, 5, 5, 6, 100. Ясно, что 100 - это выброс, поскольку он намного больше, чем все другие значения. Среднее значение нового набора теперь (3 + 4 + 5 + 5 + 6 + 100) / 6 = 20,5. Однако медиана нового набора это 5. Хотя
Применение Медиана
Из-за того, что мы видели выше, медиана является предпочтительной мерой среднего, когда данные содержат выбросы. Когда сообщается о доходах, типичным подходом является отчет о среднем доходе. Это сделано потому, что средний доход искажается небольшим количеством людей с очень высокими доходами (думаю, Билл Гейтс и Опра).