Есть много вопросов, чтобы задать, глядя на диаграмму рассеяния. Одним из наиболее распространенных является вопрос, насколько прямая линия приближает данные. Чтобы помочь ответить на этот вопрос, существует описательная статистика, называемая коэффициентом корреляции. Посмотрим, как рассчитать эту статистику.
Коэффициент корреляции
коэффициент корреляции, обозначается р, говорит нам, насколько близко данные в рассеивания падать по прямой линии. Чем ближе то абсолютное значение из р к одному, тем лучше, что данные описываются линейным уравнением. Если р = 1 или г = -1 тогда набор данных идеально выровнен. Наборы данных со значениями р близкое к нулю прямолинейное отношение мало или вообще не
Из-за длительных расчетов лучше всего рассчитать р с использованием калькулятора или статистического программного обеспечения. Тем не менее, всегда полезно знать, что делает ваш калькулятор, когда он рассчитывает. Далее следует процесс вычисления коэффициента корреляции, главным образом, вручную, с калькулятором, используемым для рутинных арифметических шагов.
Шаги для расчета р
Мы начнем с перечисления шагов для расчета коэффициента корреляции. Данные, с которыми мы работаем парные данныекаждая пара из которых будет обозначаться как (Икся, уя).
- Начнем с нескольких предварительных расчетов. Величины из этих расчетов будут использованы на последующих этапах нашего расчета р:
- Рассчитать х̄ жадный всех первых координат данных Икся.
- Вычислить ȳ, среднее значение всех вторых координат данных
- Yя.
- Рассчитать s Икс образец среднеквадратичное отклонение всех первых координат данных Икся.
- Рассчитать s Y выборочное стандартное отклонение всех вторых координат данных Yя.
- Используйте формулу (гИкс)я = (Икся - Икс) / s Икс и рассчитать стандартизированное значение для каждого Икся.
- Используйте формулу (гY)я = (Yя – ȳ) / s Y и рассчитать стандартизированное значение для каждого Yя.
- Умножьте соответствующие стандартизированные значения: (гИкс)я(гY)я
- Добавьте продукты с последнего шага вместе.
- Разделите сумму от предыдущего шага на N - 1, где N общее количество точек в нашем наборе парных данных. Результатом всего этого является коэффициент корреляции р.
Этот процесс не сложный, и каждый шаг довольно обычный, но сбор всех этих шагов довольно сложен. Расчет стандартного отклонения достаточно утомителен сам по себе. Но вычисление коэффициента корреляции включает в себя не только два стандартных отклонения, но и множество других операций.
Пример
Чтобы увидеть, как именно значение р получается посмотрим на пример. Опять же, важно отметить, что для практического применения мы хотели бы использовать наш калькулятор или статистическое программное обеспечение для расчета р для нас.
Начнем с перечисления парных данных: (1, 1), (2, 3), (4, 5), (5,7). Среднее из Икс значения, среднее значение 1, 2, 4 и 5 составляет х̄ = 3. У нас также есть, что ȳ = 4. Стандартное отклонение
Икс значения sИкс = 1,83 и sY = 2.58. В таблице ниже приведены другие расчеты, необходимые для р. Сумма продуктов в крайнем правом столбце составляет 2,969848. Поскольку всего четыре очка и 4 - 1 = 3, мы делим сумму произведений на 3. Это дает нам коэффициент корреляции р = 2.969848/3 = 0.989949.
Таблица для примера расчета коэффициента корреляции
Икс | Y | ZИкс | ZY | ZИксZY |
---|---|---|---|---|
1 | 1 | -1.09544503 | -1.161894958 | 1.272792057 |
2 | 3 | -0.547722515 | -0.387298319 | 0.212132009 |
4 | 5 | 0.547722515 | 0.387298319 | 0.212132009 |
5 | 7 | 1.09544503 | 1.161894958 | 1.272792057 |