медиана набора данных - это промежуточная точка, в которой ровно половина значений данных меньше или равна медиане. Аналогичным образом, мы можем думать о медиане непрерывныйраспределение вероятностей, но вместо того, чтобы находить среднее значение в наборе данных, мы находим середину распределения другим способом.
Общая площадь под функцией плотности вероятности равна 1, что составляет 100%, и в результате половина этого может быть представлена половиной или 50 процентами. Одна из главных идей математической статистики состоит в том, что вероятность представлена областью под кривой Функция плотности, которая рассчитывается по интегралу, и, таким образом, медиана непрерывного распределения является точкой на настоящий номер линия, где ровно половина области лежит слева.
Это может быть более кратко сформулировано следующим неправильным интегралом. Медиана непрерывной случайной величины Икс с функцией плотности е( Икс) значение М такое, что:
0.5=∫м−∞е(Икс)dИкс
Медиана для экспоненциального распределения
Теперь вычислим медиану для экспоненциального распределения Exp (A). Случайная переменная с таким распределением имеет функцию плотности е(Икс) = е-Икс/ A/ А для Икс любое неотрицательное действительное число. Функция также содержит математическая константа е, примерно равный 2.71828.
Поскольку функция плотности вероятности равна нулю для любого отрицательного значения Иксвсе, что мы должны сделать, это интегрировать следующее и решить для M:
0,5 = M0M f (x) dx
Поскольку интеграл ∫ е-Икс/ A/ А дИкс = -е-Икс/ A, результат в том, что
0,5 = -е-М / А + 1
Это означает, что 0,5 = е-М / А и после принятия натурального логарифма обеих сторон уравнения, мы имеем:
ln (1/2) = -M / A
С 1/2 = 2-1, по свойствам логарифмов пишем:
- ln2 = -M / A
Умножение обеих сторон на A дает нам результат, что медиана M = A ln2.
Средне-среднее неравенство в статистике
Следует упомянуть одно следствие этого результата: среднее экспоненциального распределения Exp (A) равно A, и, поскольку ln2 меньше 1, отсюда следует, что произведение Aln2 меньше A. Это означает, что медиана экспоненциального распределения меньше среднего.
Это имеет смысл, если мы подумаем о графике функции плотности вероятности. Из-за длинного хвоста это распределение перекошено вправо. Много раз, когда распределение искажено вправо, среднее значение находится справа от медианы.
С точки зрения статистического анализа это означает, что мы часто можем предсказать, что среднее значение и медиана не коррелируйте с учетом вероятности того, что данные смещены вправо, что может быть выражено как среднее неравенство известный как Неравенство Чебышева.
В качестве примера рассмотрим набор данных, который утверждает, что человек получает в общей сложности 30 посетителей за 10 часов, где среднее время ожидания посетителя составляет 20 минут, в то время как набор данных может представлять, что среднее время ожидания будет где-то между 20 и 30 минутами, если более половины этих посетителей пришли в первые пять ч.