Что такое Линия регрессии наименьших квадратов?

Диаграмма рассеяния - это тип графика, который используется для представления парные данные. Пояснительная переменная построена вдоль горизонтальной оси, а переменная отклика - по вертикальной оси. Одной из причин использования этого типа графиков является поиск взаимосвязей между переменными.

Наиболее простой шаблон для поиска в парных данных - это прямая линия. Через любые две точки мы можем нарисовать прямую линию. Если на нашей диаграмме рассеяния больше двух точек, большую часть времени мы больше не сможем нарисовать линию, проходящую через каждую точку. Вместо этого мы нарисуем линию, которая проходит через середину точек и отображает общий линейный тренд данных.

Когда мы смотрим на точки на нашем графике и хотим провести линию через эти точки, возникает вопрос. Какую линию мы должны провести? Существует бесконечное количество линий, которые можно нарисовать. Используя только наши глаза, становится ясно, что каждый человек, смотрящий на график рассеяния, может создать несколько другую линию. Эта двусмысленность является проблемой. Мы хотим, чтобы у каждого был один и тот же путь. Цель состоит в том, чтобы получить математически точное описание того, какая линия должна быть проведена. Наименьшие квадраты

instagram viewer
линия регрессии одна такая линия через наши точки данных.

Наименьших квадратов

Название линии наименьших квадратов объясняет, что она делает. Начнем с набора точек с координатами (Икся, Yя). Любая прямая линия пройдет между этими точками и будет проходить выше или ниже каждой из них. Мы можем рассчитать расстояния от этих точек до линии, выбрав значение Икс а затем вычитая наблюдаемое Y координата, которая соответствует этому Икс от Y координата нашей линии.

Различные линии, проходящие через один и тот же набор точек, дают различный набор расстояний. Мы хотим, чтобы эти расстояния были как можно меньше. Но существует проблема. Поскольку наши расстояния могут быть как положительными, так и отрицательными, общая сумма всех этих расстояний взаимно компенсирует друг друга. Сумма расстояний всегда будет равна нулю.

Решением этой проблемы является устранение всех отрицательных чисел путем возведения в квадрат расстояний между точками и линией. Это дает коллекцию неотрицательных чисел. Наша цель - найти линию наилучшего соответствия - сделать так, чтобы сумма этих квадратов расстояний была как можно меньше. Исчисление приходит на помощь здесь. Процесс дифференцирования в исчислении позволяет минимизировать сумму квадратов расстояний от данной линии. Это объясняет фразу «наименьших квадратов» в нашем названии для этой строки.

Линия наилучшего соответствия

Поскольку линия наименьших квадратов минимизирует квадратные расстояния между линией и нашими точками, мы можем думать об этой линии как о той, которая лучше всего соответствует нашим данным. Вот почему линия наименьших квадратов также называется линией наилучшего соответствия. Из всех возможных линий, которые можно нарисовать, линия наименьших квадратов наиболее близка к набору данных в целом. Это может означать, что нашей линии будет не хватать ни одной из точек в нашем наборе данных.

Особенности линии наименьших квадратов

Есть несколько особенностей, которыми обладает каждая линия наименьших квадратов. Первый интересующий нас предмет касается склона нашей линии. Склон имеет связь с коэффициент корреляции наших данных. На самом деле наклон линии равен r (s)Y/ sИкс). Вот s Икс обозначает стандартное отклонение Икс координаты и s Y стандартное отклонение Y координаты наших данных. Знак коэффициента корреляции напрямую связан со знаком наклона линии наименьших квадратов.

Другая особенность линии наименьших квадратов касается точки, через которую она проходит. В то время как Y пересечение линии наименьших квадратов может быть неинтересным со статистической точки зрения, есть одна точка, которая есть. Каждая линия наименьших квадратов проходит через среднюю точку данных. Эта средняя точка имеет Икс координата это жадный из Икс ценности и Y координата, которая является средним из Y ценности.

instagram story viewer