Что такое асимметрия в статистике?

Некоторые распределения данных, такие как кривая колокола или нормальное распределениесимметричны. Это означает, что справа и слева от распределения являются идеальными зеркальными отображениями друг друга. Не каждое распределение данных симметрично. Наборы данных, которые не являются симметричными, называются асимметричными. Мера того, насколько асимметричным может быть распределение, называется асимметричностью.

Среднее значение, медиана и мода все меры центра набора данных. Асимметрия данных может быть определена тем, как эти величины связаны друг с другом.

Перекошено вправо

Данные, которые перекошены вправо, имеют длинный хвост, который простирается вправо. Альтернативный способ говорить о перекосе вправо набора данных состоит в том, чтобы сказать, что он искажен положительно. В этой ситуации среднее и медиана оба больше, чем режим. Как правило, в большинстве случаев для данных, отклоненных вправо, среднее значение будет больше, чем медиана. Таким образом, для набора данных смещены вправо:

instagram viewer
  • Всегда: значит больше, чем мода
  • Всегда: медиана больше, чем мода
  • Большую часть времени: значит больше, чем медиана

Перекошено влево

Ситуация меняется, когда мы имеем дело с данными, смещенными влево. Данные, которые перекошены влево, имеют длинный хвост, который простирается влево. Альтернативный способ говорить о перекосе набора данных влево - сказать, что он перекошен негативно. В этой ситуации среднее значение и медиана меньше, чем мода. Как правило, в большинстве случаев для данных, перекошенных влево, среднее значение будет меньше медианы. Таким образом, для набора данных, перекошенного влево:

  • Всегда: значит меньше, чем мода
  • Всегда: медиана меньше, чем мода
  • Большую часть времени: значит меньше, чем медиана

Меры асимметрии

Одно дело - взглянуть на два набора данных и определить, что один симметричный, а другой асимметричный. Другой способ - взглянуть на два набора асимметричных данных и сказать, что один из них более искажен, чем другой. Это может быть очень субъективно, чтобы определить, что является более искаженным, просто посмотрев на график распределения. Вот почему существуют способы численного расчета меры асимметрии.

Одним из показателей асимметрии, называемым первым коэффициентом асимметрии Пирсона, является вычитание среднего значения из моды, а затем деление этой разности на среднеквадратичное отклонение данных. Причина деления разницы в том, что у нас есть безразмерная величина. Это объясняет, почему перекос данных вправо имеет положительную асимметрию. Если набор данных смещен вправо, среднее значение больше, чем мода, и, таким образом, вычитание режима из среднего дает положительное число. Аналогичный аргумент объясняет, почему уклон данных влево имеет отрицательную асимметрию.

Второй коэффициент асимметрии Пирсона также используется для измерения асимметрии набора данных. Для этой величины мы вычитаем моду из медианы, умножаем это число на три и затем делим на стандартное отклонение.

Применение искаженных данных

Перекошенные данные возникают вполне естественно в различных ситуациях. Доходы искажены вправо, потому что даже несколько человек, которые зарабатывают миллионы долларов, могут сильно повлиять на среднее значение, и нет отрицательных доходов. Аналогичным образом, данные, касающиеся срока службы продукта, например, марки лампочки, искажены вправо. Здесь наименьшее возможное время жизни равно нулю, а длительные лампочки придадут позитивный перекос данным.

instagram story viewer