Статистика и анализ линейной регрессии

Линейная регрессия - это статистический метод, который используется, чтобы узнать больше о взаимосвязи между независимой (предикторной) переменной и зависимой (критериальной) переменной. Если в вашем анализе более одной независимой переменной, это называется множественной линейной регрессией. В целом, регрессия позволяет исследователю задать общий вопрос «Каков лучший предсказатель…?»

Например, скажем, мы изучали причины ожирениеизмеряется индексом массы тела (ИМТ). В частности, мы хотели посмотреть, являются ли следующие переменные значимыми предикторами ИМТ человека: количество фаст-фуда количество приемов пищи в неделю, количество часов просмотра телевидения в неделю, количество минут, потраченных на занятия спортом в неделю, и родительские ИМТ. Линейная регрессия была бы хорошей методологией для этого анализа.

Уравнение регрессии

Когда вы проводите регрессионный анализ с одной независимой переменной, уравнение регрессии имеет вид Y = a + b * X, где Y - зависимая переменная, X - независимая переменная, a - постоянная (или точка пересечения), а b -

instagram viewer

наклон линии регрессии. Например, допустим, что средний балл лучше всего прогнозируется уравнением регрессии 1 + 0,02 * IQ. Если у студента IQ составляет 130, его или ее средний балл будет 3,6 (1 + 0,02 * 130 = 3,6).

Когда вы проводите регрессионный анализ, в котором у вас есть более одной независимой переменной, уравнение регрессии имеет вид Y = a + b1 * X1 + b2 * X2 +… + П.о. * Хр. Например, если мы хотим включить в анализ GPA больше переменных, таких как показатели мотивации и самодисциплины, мы бы использовали это уравнение.

R-квадрат

R-квадрат, также известный как коэффициент детерминацииявляется широко используемой статистикой для оценки соответствия модели уравнения регрессии. То есть насколько хороши все ваши независимые переменные в прогнозировании зависимой переменной? Значение R-квадрата колеблется от 0,0 до 1,0 и может быть умножено на 100, чтобы получить процент дисперсия объяснил. Например, возвращаясь к нашему уравнению регрессии GPA только с одной независимой переменной (IQ)... Допустим, что наш R-квадрат для уравнения был 0,4. Мы можем интерпретировать это как означающее, что 40% дисперсии в GPA объясняется IQ. Если затем мы добавим две другие наши переменные (мотивация и самодисциплина) и R-квадрат увеличится до 0.6, это означает, что IQ, мотивация и самодисциплина вместе объясняют 60% различий в GPA баллы.

Регрессионный анализ обычно выполняется с использованием статистического программного обеспечения, такого как SPSS или SAS, поэтому R-квадрат рассчитывается для вас.

Интерпретация коэффициентов регрессии (б)

Коэффициенты b из приведенных выше уравнений представляют силу и направление взаимосвязи между независимой и зависимой переменными. Если мы посмотрим на уравнения GPA и IQ, 1 + 0,02 * 130 = 3,6, 0,02 - коэффициент регрессии для переменной IQ. Это говорит нам о том, что направление отношений является положительным, так что с увеличением IQ, GPA также увеличивается. Если бы уравнение было 1 - 0,02 * 130 = Y, то это означало бы, что соотношение между IQ и GPA было отрицательным.

Предположения

Существует несколько предположений о данных, которые должны быть выполнены для проведения линейного регрессионного анализа:

Линейность: Предполагается, что связь между независимой и зависимой переменными является линейной. Хотя это предположение никогда не может быть полностью подтверждено, глядя на рассеивания из ваших переменных может помочь сделать это определение. Если в связи присутствует кривизна, вы можете рассмотреть возможность преобразования переменных или явного учета нелинейных компонентов.
Нормальность: Предполагается, что невязки из ваших переменных нормально распределены. То есть ошибки в прогнозировании значения Y (зависимой переменной) распределяются так, чтобы приближаться к нормальной кривой. Вы можете посмотреть на гистограмм или нормальные графики вероятности, чтобы проверить распределение ваших переменных и их остаточных значений.
Независимость: Предполагается, что ошибки в прогнозировании значения Y не зависят друг от друга (не коррелированы).
гомоскедастичность: Предполагается, что дисперсия вокруг линии регрессии одинакова для всех значений независимых переменных.

Источник

_{StatSoft: Учебник по электронной статистике. (2011). http://www.statsoft.com/textbook/basic-statistics/#Crosstabulationb.}