Как найти коэффициенты множественной линейной регрессии

Все курсы > Оптимизация > Занятие 4 (часть 1)

Прежде чем обратиться к теме множественной линейной регрессии, давайте вспомним, что было сделано до сих пор. Возможно, будет полезно посмотреть эти уроки, чтобы освежить знания.

  • В рамках вводного курса мы узнали про моделирование взаимосвязи переменных и минимизацию ошибки при обучении алгоритма, а также научились строить несложные модели линейной регрессии с помощью библиотеки sklearn.
  • При изучении объектно-ориентированного программирования мы создали класс простой линейной регрессии. Сегодня эти знания пригодятся при создании классов более сложных моделей.
  • Также рекомендую вспомнить умножение векторов и матриц.
  • Кроме того, в рамках текущего курса по оптимизации мы познакомились с понятием производной и методом градиентного спуска, а также построили модель простой линейной регрессии (использовав метод наименьших квадратов и градиент).
  • Наконец, на прошлом занятии мы вновь поговорили про взаимосвязь переменных.

В рамках сегодняшнего занятия мы с нуля построим несколько алгоритмов множественной линейной регрессии.

Регрессионный анализ

Прежде чем обратиться к практике, обсудим некоторые теоретические вопросы регрессионного анализа.

Генеральная совокупность и выборка

Как мы уже знаем, множество всех имеющихся наблюдений принято считать генеральной совокупностью (population). И эти наблюдения, если в них есть взаимосвязи, можно теоретически аппроксимировать, например, линией регрессии. При этом важно понимать, что это некоторая идеальная модель, которую мы никогда не сможем построить.

Единственное, что мы можем сделать, взять выборку (sample) и на ней построить нашу модель, предполагая, что если выборка достаточно велика, она сможет достоверно описать генсовокупность.

генеральная совокупность и выборка в модели линейной регрессии

Отклонение прогнозного значения от фактического для «идеальной» линии принято называть ошибкой (error или true error).

$$ varepsilon = y-hat{y} $$

Отклонение прогноза от факта для выборочной модели (которую мы и строим) называют остатками (residuals или residual error).

$$ varepsilon = y-f(x) $$

В этом смысле среднеквадратическую ошибку (mean squared error, MSE) корректнее называть средними квадратичными остатками (mean squared residuals).

На практике ошибку и остатки нередко используют как взаимозаменяемые термины.

Уравнение множественной линейной регрессии

Посмотрим на уравнение множественной линейной регрессии.

$$ y = theta_0 + theta_1x_1 + theta_2x_2 + … + theta_jx_j + varepsilon $$

В отличие от простой линейной регрессии в данном случае у нас несколько признаков x (независимых переменных) и несколько коэффициентов $ theta $ («тета»).

Интерпретация результатов модели

Коэффициент $ theta_0 $ задает некоторый базовый уровень (baseline) при условии, что остальные коэффициенты равны нулю и зачастую не имеет смысла с точки зрения интерпретации модели (нужен лишь для того, что поднять линию на нужный уровень).

Параметры $ theta_1, theta_2, …, theta_n $ показывают изменение зависимой переменной при условии «неподвижности» остальных коэффициентов. Например, каждая дополнительная комната может увеличивать цену дома в 1.3 раза.

Переменная $ varepsilon $ (ошибка) представляет собой отклонение фактических данных от прогнозных. В этой переменной могут быть заложены две составляющие. Во-первых, она может включать вариативность целевой переменной, описанную другими (не включенными в нашу модель) признаками. Во-вторых, «улавливать» случайный шум, случайные колебания.

Категориальные признаки

Модель линейной регрессии может включать категориальные признаки. Продолжая пример с квартирой, предположим, что мы строим модель, в которой цена зависит от того, находится ли квартира в центре города или в спальном районе.

Перед этим переменную необходимо закодировать, создав, например, через Label Encoder признак «центр», который примет значение 1, если квартира в центре, и 0, если она находится в спальном районе.

категориальная переменная с двумя классами

В модели, представленной выше, если квартира находится в центре (переменная «центр» равна единице), ее стоимость составит 10,1 миллиона рублей, если на окраине (переменная «центр» равна нулю) — лишь восемь.

Для категориального признака с множеством классов можно использовать one-hot encoding, если между классами признака отсутствует иерархия,

категориальная переменная с несколькими классами (one-hot encoding)

или, например, ordinal encoding в случае наличия иерархии классов в признаке

категориальная переменная с несколькими классами (ordinal encoding)

Выбросы в линейной регрессии

Как и коэффициент корреляции Пирсона, модель линейной регрессии чувствительна к выбросам (outliers), то есть наблюдениям, серьезно выпадающим из общей совокупности. Сравните рисунки ниже.

выбросы и модель линейной регрессии

При наличии выброса (слева), линия регрессии имеет наклон и может использоваться для построения прогноза. Удалив это наблюдение (справа), линия регрессии становится горизонтальной и построение прогноза теряет смысл.

При этом различают два типа выбросов:

  • горизонтальные выбросы или влиятельные точки (leverage points) — они сильно отклоняются от среднего по оси x; и
  • вертикальные выбросы или просто выбросы (influential points) — отклоняются от среднего по оси y

Ключевое отличие заключается в том, что вертикальные выбросы влияют на наклон модели (изменяют ее коэффициенты), а горизонтальные — нет.

Сравним два графика.

leverage point vs. influential point

На левом графике черная точка (leverage point) сильно отличается от остальных наблюдений, но наклон прямой линии регрессии с ее появлением не изменился. На правом графике, напротив, появление выброса (influential point) существенно изменяет наклон прямой.

На практике нас конечно больше интересуют influential points, потому что именно они существенно влияют на качество модели.

Если в простой линейной регрессии мы можем оценить leverage и influence наблюдения графически⧉, в многомерной модели это сделать сложнее. Можно использовать график остатков (об этом ниже) или применить один из уже известных нам методов выявления выбросов.

Про выявление leverage и infuential points можно почитать здесь⧉.

Допущения модели регрессии

Применение алгоритма линейной регрессии предполагает несколько допущений (assumptions) или условий, при выполнении которых мы можем говорить о качественно построенной модели.

1. Правильный выбор модели

Вначале важно убедиться, что данные можно аппроксимировать с помощью линейной модели (correct model specification).

Оценить распределение данных можно через график остатков (residuals plot), где по оси x отложен прогноз модели, а на оси y — сами остатки.

график остатков для проверки возможности аппроксимировать данные с помощью линейной модели

В отличие от простой линейной регрессии мы не используем точечную диаграмму X vs. y, потому что хотим оценить зависимость целевой переменной от всех признаков сразу.

Остатки модели относительно ее прогнозных значений должны быть распределены случайным образом без систематической составляющей (residuals do not follow a pattern).

  • Если вы попробовали применить линейную модель с коэффициентами первой степени ($x_n^1$) и выявили некоторый паттерн в данных, можно попробовать полиномиальную или какую-либо еще функцию (об этом ниже).
  • Кроме того, количественные признаки можно попробовать преобразовать таким образом, чтобы их можно было аппроксимировать прямой линией.
  • Если ни то, ни другое не помогло, вероятно данные не стоит моделировать линейной регрессией.

Также замечу, что график остатков показывает выбросы в данных.

выброс на графике остатков

2. Нормальность распределения остатков

Среднее значение остатков должно быть равно нулю. Если это не так, и среднее значение меньше нуля (скажем –5), то это значит, что модель регулярно недооценивает (underestimates) фактические значения. В противном случае, если среднее больше нуля, переоценивает (overestimated).

нормальность распределения остатков

Кроме того, предполагается, что остатки следуют нормальному распределению.

$$ varepsilon sim N(0, sigma) $$

Проверить нормальность остатков можно визуально с помощью гистограммы или рассмотренных ранее критериев нормальности распределения.

Если остатки не распределены нормально, мы не сможем провести статистические тесты на значимость коэффициентов или построить доверительные интервалы. Иначе говоря, мы не сможем сделать статистически значимый вывод о надежности нашей модели.

Причинами могут быть (1) выбросы в данных или (2) неверный выбор модели. Решением может быть, соответственно, исследование выбросов, выбор новой модели и преобразование как признаков, так и целевой переменной.

3. Гомоскедастичность остатков

Гомоскедастичность (homoscedasticity) или одинаковая изменчивость остатков предполагают, что дисперсия остатков не изменяется для различных наблюдений. Противоположное и нежелательное явление называется гетероскедастичностью (heteroscedasticity) или разной изменчивостью.

гомоскедастичность остатков

Гетероскедастичность остатков показывает, что модель ошибается сильнее при более высоких или более низких значениях признаков. Как следствие, если для разных прогнозов у нас разная погрешность, модель нельзя назвать надежной (robust).

Как правило, гетероскедастичность бывает изначально заложена в данные. Ее можно попробовать исправить через преобразование целевой переменной (например, логарифмирование)

4. Отсутствие мультиколлинеарности

Еще одним важным допущением является отсутствие мультиколлинеарности. Мультиколлинеарность (multicollinearity) — это корреляция между зависимыми переменными. Например, если мы предсказываем стоимость жилья по квадратным метрам и количеству комнат, то метры и комнаты логичным образом также будут коррелировать между собой.

Почему плохо, если такая корреляция существует? Базовое предположение линейной регрессии — каждый коэффициент $theta$ оказывает влияние на конечный результат при условии, что остальные коэффициенты постоянны. При мультиколлинеарности на целевую переменную оказывают эффект сразу несколько признаков, и мы не можем с точностью интерпретировать каждый из них.

Также говорят о том, что нужно стремиться к экономной (parsimonious) модели то есть такой модели, которая при наименьшем количестве признаков в наибольшей степени объясняет поведение целевой переменной.

Variance inflation factor

Расчет коэффициента

Variance inflation factor (VIF) или коэффициент увеличения дисперсии позволяет выявить корреляцию между признаками модели.

Принцип расчета VIF заключается в том, чтобы поочередно делать каждый из признаков целевой переменной и строить модель линейной регрессии на основе оставшихся независимых переменных. Например, если у нас есть три признака $x_1, x_2, x_3$, мы поочередно построим три модели линейной регрессии: $x_1 sim x_2 + x_3, x_2 sim x_1 + x_3$ и $x_3 sim x_1 + x_3$.

Обратите внимание на новый для нас формат записи целевой и зависимых переменных модели через символ $sim$.

Затем для каждой модели (то есть для каждого признака $x_1, x_2, x_3$) мы рассчитаем коэффициент детерминации $R^2$. Если он велик, значит данный признак можно объяснить с помощью других независимых переменных и имеется мультиколлинеарность. Если $R^2$ мал, то нельзя и мультиколлинеарность отсутствует.

Теперь рассчитаем VIF на основе $R^2$:

$$ VIF = frac{1}{1-R^2} $$

При таком способе расчета большой (близкий к единице) $R^2$ уменьшит знаменатель и существенно увеличит VIF, при небольшом коэффициенте детерминации коэффициент увеличения дисперсии наоборот уменьшится.

Замечу, что $1-R^2$ принято называть tolerance.

Другие способы выявления мультиколлинеарности

Для выявления корреляции между независимыми переменными можно использовать точечные диаграммы или корреляционные матрицы. При этом важно понимать, что в данном случае мы выявляем зависимость лишь между двумя признаками. Корреляцию множества признаков выявляет только коэффициент увеличения дисперсии.

Интерпретация VIF

VIF находится в диапазон от единицы до плюс бесконечности. Как правило, при интерпретации показателей variance inflation factor придерживаются следующих принципов:

  • VIF = 1, между признаками отсутствует корреляция
  • 1 < VIF $leq$ 5 — умеренная корреляция
  • 5 < VIF $leq$ 10 — высокая корреляция
  • Более 10 — очень высокая

После расчета VIF можно по одному удалять признаки с наибольшей корреляцией и смотреть как изменится этот показатель для оставшихся независимых переменных.

5. Отсутствие автокорреляции остатков

На занятии по временным рядам (time series), мы сказали, что автокорреляция (autocorrelation) — это корреляция между значениями одной и той же переменной в разные моменты времени.

Применительно к модели линейной регрессии автокорреляция целевой переменной (для простой линейной регрессии) и автокорреляция остатков, residuals autocorrelation (для модели множественной регрессии) означает, что результат или прогноз зависят не от признаков, а от самой этой целевой переменной. В такой ситуации признаки теряют свою значимость и применение модели регрессии становится нецелесообразным.

Причины автокорреляции остатков

Существует несколько возможных причин:

  • Прогнозирование целевой переменной с высокой автокорреляцией (например, если мы моделируем цену акций с помощью других переменных, то можем ожидать высокую автокорреляцию остатков, поскольку цена акций как правило сильно зависит от времени)
  • Удаление значимых признаков
  • Другие причины

Автокорреляция первого порядка

Дадим формальное определение автокорреляции первого порядка (first order correlation), то есть автокорреляции с лагом 1.

$$ varepsilon_t = pvarepsilon_{t-1} + u_t $$

где $u_t$ — некоррелированная при различных t одинаково распределенная случайная величина (independent and identically distributed (i.i.d.) random variable), а $p$ — коэффициент автокорреляции, который находится в диапазоне $-1 < p < 1$. Чем он ближе к нулю, тем меньше зависимость остатка $varepsilon_t$ от остатка предыдущего периода $varepsilon_{t-1}$.

Такое уравнение также называется схемой Маркова первого порядка (Markov first-order scheme).

Обратите внимание, что для модели автокорреляции первого порядка коэффициент автокорреляции $p$ совпадает с коэффициентом авторегрессии AR(1) $varphi$.

$$ y_t = c + varphi cdot y_{t-1} $$

Разумеется, мы можем построить модель автокорреляции, например, третьего порядка.

$$ varepsilon_t = p_1varepsilon_{t-1} + p_2varepsilon_{t-2} + p_3varepsilon_{t-3} + u_t $$

Выявление автокорреляции остатков

Для выявления автокорреляции остатков можно использовать график последовательности и график остатков с лагом 1, график автокорреляционной функции или критерий Дарбина-Уотсона.

График последовательности и график остатков с лагом 1

На графике последовательности (sequence plot) по оси x откладывается время (или порядковый номер наблюдения), а по оси y — остатки модели. Кроме того, на графике остатков с лагом 1 (lag-1 plot) остатки (ось y) можно сравнить с этими же значениями, взятыми с лагом 1 (ось x).

Рассмотрим вариант положительной автокорреляции (positive autocorrelation) на графиках остатков типа (а) и (б).

положительная автокорреляция

Как вы видите, при положительной автокорреляции в большинстве случаев, если одно наблюдение демонстрирует рост по отношению к предыдущему значению, то и последующее будет демонстрировать рост, и наоборот.

Теперь обратимся к отрицательной автокорреляции (negative autocorrelation).

отрицательная автокорреляция

Здесь наоборот, если одно наблюдение демонстрирует рост показателя по отношению к предыдущему значению, то последующее наблюдение будет наоборот снижением. Опять же справедливо и обратное утверждение.

В случае отсутствия автокорреляции мы не должны увидеть на графиках какого-либо паттерна.

отсутствие автокорреляции

График автокорреляционной функции

Еще один способ выявить автокорреляцию — построить график автокорреляционной функции (autocorrelation function, ACF).

график автокорреляционной функции

Занятие по временным рядам (данные о рождаемости)

Напомню, такой график показывает автокорреляцию данных с этими же данными, взятыми с первым, вторым и последующими лагами.

Критерий Дарбина-Уотсона

Количественным выражением автокорреляции является критерий Дарбина-Уотсона (Durbin-Watson test). Этот критерий выявляет только автокорреляцию первого порядка.

  • Нулевая гипотеза утверждает, что такая автокорреляция отсутствует ($p=0$),
  • Альтернативная гипотеза соответственно утверждает, что присутствует
    • Положительная ($p approx -1$) или
    • Отрицательная ($p approx 1$) автокорреляция

Значение теста находится в диапазоне от 0 до 4.

  • При показателе близком к двум можно говорить об отсутствии автокорреляции
  • Приближение к четырем говорит о положительной автокорреляции
  • К нулю, об отрицательной

Как избавиться от автокорреляции

Автокорреляцию можно преодолеть, добавив значимый признак в модель, выбрав иной тип модели (например, полиномиальную регрессию) или в целом перейдя к моделированию и прогнозированию временного ряда.

Рассмотрение этих методов находится за рамками сегодняшнего занятия. Перейдем к практике.

Цель: научиться определению параметров уравнения множественной линейной регрессии методом наименьших квадратов и проведению анализа построенного уравнения.

Методические указания

В этой главе важно абсолютно все. Перед изучением необходимо повторить следующий материал из матричного анализа: умножение матриц, обратная матрица, решение системы линейных уравнений методом обратной матрицы. В этой главе все, что относится к парной линейной регрессии, обобщается на множественную линейную модель. В первой главе приведены функции программы Microsoft Office Excel, позволяющие проводить операции с матрицами. Обратите внимание, что по сравнению с предыдущей главой для определения социально-экономического смысла коэффициентов при объясняющих переменных важно отсутствие мультиколлинеарности (сильной линейной взаимосвязи) этих переменных. Запомните, что формула для расчета коэффициентов уравнения также следует из применения метода наименьших квадратов. Следует изучить рассмотренный ниже пример. Обратите внимание на взаимосвязь модели в исходных и в стандартизованных переменных.

§ 1. Определение параметров уравнения регрессии

На любой экономический показатель чаще всего оказывают влияние не один, а несколько факторов. В этом случае вместо парной рег-

рессии M (Y x)= f (x) рассматриваетсямножественнаярегрессия:

M (Y

x1,x2,…,xm)= f (x1,x2,…,xm).

(3.1)

Задача оценки статистической взаимосвязи

переменных

Y и X =(X1 , X2 , …, Xm ) формулируется аналогично

случаю пар-

ной регрессии. Уравнение множественной регрессии может быть представлено в виде:

65

где Y и X =(X1 , X2 , …, Xm ) — вектор независимых (объясняющих) переменных; β=(β0, β1, β2,…, βm) — вектор параметров

(подлежащих определению); ε — случайная ошибка (отклонение); Y — зависимая (объясняемая) переменная. Предполагается, что для данной генеральной совокупности именно функция f связывает исследуемую переменную Y с вектором независимых переменных

Y и X =(X1 , X2 , …, Xm ).

Рассмотрим самую употребляемую и наиболее простую из моделей множественной регрессии — модель множественной линейной регрессии.

Теоретическое линейное уравнение регрессии имеет вид:

Y = β0 1 X 12 X 2+m X m

(3.3)

или для индивидуальных наблюдений i (i=1, 2, …, n)

yi = β0 1xi12 xi2+m xim i .

(3.4)

Здесь β=(β0, β1, β2,…, βm) — вектор размерности (т+1) неизвестных параметров. βj , j =(1, 2, …, m) называется j-м теоретиче-

ским коэффициентом регрессии (частным коэффициентом регрессии). Он характеризует чувствительность величины Y к изменению Xj. Другими словами, он отражает влияние на условное математи-

ческое ожидание M (Y x1,x2,…,xm) зависимой переменной Y объяс-

няющей переменной Xj при условии, что все другие объясняющие переменные модели остаются постоянными, β0 свободный член,

определяющий значение Y в случае, когда все объясняющие переменные Xj равны нулю.

После выбора линейной функции в качестве модели зависимости необходимо оценить параметры регрессии.

Пусть имеется n наблюдений вектора объясняющих переменных X =(X 1, X 2, …,X m) и зависимой переменной Y:

{xi1, xi 2 , …, xim , y i}, i =1, 2, …, n.

66

Для того чтобы однозначно можно было решить задачу отыскания параметров β0, β1, β2,…, βm , должно выполняться неравенство

n m+1 . Если n =m+1, то оценки коэффициентов вектора β

рассчитываются единственным образом.

Если число наблюдений больше минимально необходимого: n >m+1 , то возникает необходимость оптимизации, оценивания

параметров β0, β1, β2,…, βm , при которых формула дает наилучшее

приближение для имеющихся наблюдений.

Обычно рекомендуют, чтобы количество наблюдений (объем выборки) в 5-6 раз превышало число оцениваемых параметров уравнения.

В данном случае число ν=nm1 называется числом степеней свободы. Самым распространенным методом оценки параметров уравнения множественной линейной регрессии является метод наименьших квадратов (МНК). Напомним, что его суть состоит в минимизации суммы квадратов отклонений наблюдаемых значений

ˆ

зависимой переменной Y от ее значений Y , получаемых по уравнению регрессии.

Отметим, что изложенные ранее предпосылки МНК, позволяют проводить анализ в рамках классической линейной регрессионной модели.

Как и в случае парной регрессии, истинные значения параметров βj по выборке получить невозможно. В этом случае вместо

теоретического уравнения регрессии (3.3) оценивается так назы-

ваемое эмпирическое уравнение регрессии:

Y =b0 +b1 X 1+b2 X 2++bm X m +e.

(3.5)

Здесь

b0, b1, …, bm оценки теоретических

значений

β0, β1, …, βm

коэффициентов регрессии (эмпирические коэффици-

енты регрессии, e — оценка случайного отклонения ε). Для индивидуальных наблюдений имеем:

yi =b0 +b1xi1+b2 xi2++bm xim +ei , (i =1, 2, …, n) (3.6)

67

Оцененное уравнение в первую очередь должно описывать общий тренд (направление) изменения зависимой переменной Y. При этом необходимо иметь возможность рассчитать отклонения от указанного тренда.

По данным выборки объема n : (xi1, xi 2, …, xim, yi), i =1, 2, …, n

требуется оценить значения параметров βj вектора β , т. е. провести параметризацию выбранной модели (здесь xij , j =1, 2, …, m

значение переменной Xj в i-м наблюдении).

При выполнении предпосылок МНК относительно случайных отклонений εi, оценки b0, b1, …, bm параметров β0, β1, …, βm множе-

ственной линейной регрессии по МНК являются несмещенными, эффективными и состоятельными.

На основании (3.6) отклонение ei значения yi зависимой переменной от модельного значения ˆyi , соответствующего уравнению рег- рессиивi-мнаблюдении i =1, 2, …, n , рассчитываетсяпоформуле:

ei=yi ˆyi = yib0 b1xi1b2 xi2bm xim . (3.7)

§ 2. Расчет коэффициентов множественной линейной регрессии

Представим данные наблюдений и соответствующие коэффициенты в матричной форме.

y1

1

x11

1

x21

y2

Y =

,

X =

… …

1

xn1

yn

… x1m

… x2m

… …

… xnm

b0

e1

b1

e2

,

B =

,

e=

bm

en

Здесь Y n-мерный вектор-столбец наблюдений зависимой переменной Y; X — матрица размерности n×(m+1), в которой i-я строка i =1, 2, …, n представляет i-е наблюдение вектора значений независимых переменных X 1,X 2, …,X m , единица соответствует переменной при свободном члене b0; B — вектор-столбец размер-

68

ности (m+1) параметров уравнения регрессии (3.5); e — векторстолбец размерности n отклонений выборочных (реальных) значений yi зависимой переменной от значений ˆyi , получаемых по

уравнению регрессии:

ˆyi =b0 +b1xi1+b2 xi2++bm xim .

(3.8)

В матричном виде соотношение (20) примет вид:

e=Y XB .

(3.9)

Согласно методу наименьших квадратов:

n

ei2 =eTe=(YXB)T (YXB)min ,

(3.10)

i=1

где eT =( e1, e2, …, en ) , т. е. надстрочный значок T означает транс-

понированную матрицу.

Можно показать, что условие (3.10) выполняется, если векторстолбец коэффициентов B найти по формуле:

B =(X T X )1 X TY .

(3.11)

Здесь X T — матрица, транспонированная к матрице X,

(X T X )1 — матрица, обратная к (X T X ). Соотношение (3.11)

справедливо для уравнений регрессии с произвольным количеством m объясняющих переменных.

Пример 3.1. Пусть объем предложения некоторого блага Y фирмы линейно зависит от цены X1 и заработной X2 сотрудников, производящих данное благо (табл. 3.1). Определим коэффициенты уравнения линейной регрессии. (Здесь предполагается знание матричной алгебры).

Таблица 3.1

Данные для множественной линейной регрессии

Y

20

35

30

45

60

69

75

90

105

110

X1

10

15

20

25

40

37

43

35

38

55

X2

12

10

9

9

8

8

6

4

4

5

69

Матрицы имеют вид:

10

20

10

318

75

11862

2116

1

12

X T X = 318

,

15

35

1

10

75

2116

627

20

9

30

1

25

9

45

1

7,310816

0,10049

0,53537

1 40 8

60

1

0,001593

X =

, Y =

, (X T X )

= −0,10049

0,006644 ,

1

37

8

69

0,53537

0,006644

0,043213

43

6

75

1

1

35

4

90

639

38

4

1

105

55

5

X TY = 23818 ,

1

110

4077

1

1

1

1

1

1

1

1

1

1

X T = 10

15

20

25

40

37

43

35 38

55 ,

10

9

9

8

8

6

4

4

5

12

b0

95,5

1

B = b1

=(X T X )

X TY =

0,818 .

b2

7,680

Таким образом, уравнение регрессии имеет вид:

ˆ

Y =95,5+0,818X 17,680X 2 .

Отметим, что в случае двух объясняющих переменных:

n

X T X = ∑n xi1

i=n1

i=1 xi2

n

xi1

i=1

n

xi21 i=1

n

xi1xi2

i=1

n

n

xi2

yi

i=1

i=1

n

T

n

xi1xi2

;

X Y =

xi1 yi

.

i=1

i=1

n

n

2

xi2

xi2 yi

i=1

i=1

70

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]

  • #
  • #
  • #
  • #
  • #
  • #
  • #
  • #
  • #
  • #
  • #

Когда мы хотим понять взаимосвязь между одной переменной-предиктором и переменной-ответом, мы часто используем простую линейную регрессию .

Однако, если мы хотим понять взаимосвязь между несколькими переменными-предикторами и переменной ответа, мы можем вместо этого использовать множественную линейную регрессию .

Если у нас есть p переменных-предикторов, то модель множественной линейной регрессии принимает форму:

Y = β 0 + β 1 X 1 + β 2 X 2 + … + β p X p + ε

куда:

  • Y : переменная ответа
  • X j : j -я предикторная переменная
  • β j : среднее влияние на Y увеличения X j на одну единицу при неизменности всех остальных предикторов.
  • ε : Член ошибки

Значения β 0 , β 1 , B 2 , … , β p выбираются методом наименьших квадратов , который минимизирует сумму квадратов невязок (RSS):

RSS = Σ(y i – ŷ i ) 2

куда:

  • Σ : греческий символ, означающий сумму
  • y i : Фактическое значение отклика для i -го наблюдения
  • ŷ i : прогнозируемое значение отклика на основе модели множественной линейной регрессии.

Метод, используемый для нахождения этих оценок коэффициентов, основан на матричной алгебре, и мы не будем здесь подробно останавливаться на нем. К счастью, любой статистический софт может рассчитать эти коэффициенты за вас.

Как интерпретировать вывод множественной линейной регрессии

Предположим, мы подогнали модель множественной линейной регрессии, используя предикторные переменные: количество часов обучения и количество сданных подготовительных экзаменов, а также переменную ответа на экзамене .

На следующем снимке экрана показано, как могут выглядеть выходные данные множественной линейной регрессии для этой модели:

Примечание. На приведенном ниже снимке экрана показаны выходные данные множественной линейной регрессии для Excel , но числа, показанные в выходных данных, являются типичными для выходных данных регрессии, которые вы увидите с помощью любого статистического программного обеспечения.

Интерпретация выходных данных множественной линейной регрессии

Из выходных данных модели коэффициенты позволяют нам сформировать предполагаемую модель множественной линейной регрессии:

Экзаменационный балл = 67,67 + 5,56*(часы) – 0,60*(подготовительные экзамены)

Способ интерпретации коэффициентов следующий:

  • Каждое дополнительное увеличение количества часов обучения на одну единицу связано со средним увеличением экзаменационного балла на 5,56 балла, при условии, что подготовительные экзамены остаются постоянными.
  • Каждое дополнительное увеличение количества сданных подготовительных экзаменов на одну единицу связано со средним снижением экзаменационного балла на 0,60 балла при условии, что количество учебных часов остается постоянным.

Мы также можем использовать эту модель, чтобы найти ожидаемый результат экзамена, который студент получит на основе общего количества часов обучения и сданных подготовительных экзаменов. Например, студент, который занимается 4 часа и сдает 1 подготовительный экзамен, должен получить на экзамене 89,31 балла:

Экзаменационный балл = 67,67 + 5,56*(4) -0,60*(1) = 89,31

Вот как интерпретировать остальную часть вывода модели:

  • R-квадрат: известен как коэффициент детерминации. Это доля дисперсии переменной отклика, которая может быть объяснена объясняющими переменными. В этом примере 73,4% вариаций в экзаменационных баллах можно объяснить количеством часов обучения и количеством сданных подготовительных экзаменов.
  • Стандартная ошибка: это среднее расстояние, на которое наблюдаемые значения отклоняются от линии регрессии. В этом примере наблюдаемые значения отклоняются от линии регрессии в среднем на 5,366 единицы.
  • F: это общая статистика F для регрессионной модели, рассчитанная как MS регрессии / остаточная MS.
  • Значимость F: это значение p, связанное с общей статистикой F. Он говорит нам, является ли регрессионная модель в целом статистически значимой. Другими словами, он говорит нам, имеют ли объединенные две объясняющие переменные статистически значимую связь с переменной отклика. В этом случае p-значение меньше 0,05, что указывает на то, что объясняющие переменные количество часов обучения и количество сданных подготовительных экзаменов в совокупности имеют статистически значимую связь с экзаменационным баллом.
  • Коэффициент P-значения. Отдельные p-значения говорят нам, является ли каждая независимая переменная статистически значимой. Мы можем видеть, что изученные часы статистически значимы (p = 0,00), в то время как пройденные подготовительные экзамены (p = 0,52) не являются статистически значимыми при α = 0,05. Поскольку сданные подготовительные экзамены не являются статистически значимыми, мы можем принять решение удалить их из модели.

Как оценить соответствие модели множественной линейной регрессии

Есть два числа, которые обычно используются для оценки того, насколько хорошо модель множественной линейной регрессии «соответствует» набору данных:

1. R-квадрат: это доля дисперсии переменной отклика , которая может быть объяснена переменными-предикторами.

Значение для R-квадрата может варьироваться от 0 до 1. Значение 0 указывает, что переменная отклика вообще не может быть объяснена предикторной переменной. Значение 1 указывает, что переменная отклика может быть полностью объяснена без ошибок с помощью переменной-предиктора.

Чем выше R-квадрат модели, тем лучше модель может соответствовать данным.

2. Стандартная ошибка: это среднее расстояние, на которое наблюдаемые значения отклоняются от линии регрессии. Чем меньше стандартная ошибка, тем лучше модель соответствует данным.

Если мы заинтересованы в прогнозировании с использованием модели регрессии, стандартная ошибка регрессии может быть более полезной метрикой, чем R-квадрат, потому что она дает нам представление о том, насколько точными будут наши прогнозы в единицах измерения.

Для полного объяснения плюсов и минусов использования R-квадрата и стандартной ошибки для оценки соответствия модели ознакомьтесь со следующими статьями:

  • Что такое хорошее значение R-квадрата?
  • Понимание стандартной ошибки регрессионной модели

Предположения множественной линейной регрессии

Существует четыре ключевых предположения, которые множественная линейная регрессия делает в отношении данных:

1. Линейная зависимость. Существует линейная зависимость между независимой переменной x и зависимой переменной y.

2. Независимость: Остатки независимы. В частности, нет корреляции между последовательными остатками в данных временных рядов.

3. Гомоскедастичность: остатки имеют постоянную дисперсию на каждом уровне x.

4. Нормальность: остатки модели нормально распределены.

Для полного объяснения того, как проверить эти предположения, ознакомьтесь с этой статьей .

Множественная линейная регрессия с использованием программного обеспечения

В следующих руководствах представлены пошаговые примеры выполнения множественной линейной регрессии с использованием различных статистических программ:

Как выполнить множественную линейную регрессию в R
Как выполнить множественную линейную регрессию в Python
Как выполнить множественную линейную регрессию в Excel
Как выполнить множественную линейную регрессию в SPSS
Как выполнить множественную линейную регрессию в Stata
Как выполнить линейную регрессию в Google Sheets

Определение множественной линейной регрессии

Модели множественной линейной регрессии — это тип модели регрессии, который имеет дело с одной зависимой переменной и несколькими независимыми переменными. Регрессионный анализ — это статистический метод или техника, используемая для определения взаимосвязей между переменными, имеющими причинно-следственную связь. Регрессии также могут показать, насколько близко и точно можно определить взаимосвязь.

Регрессии полезны для количественной оценки связи или взаимосвязи между одной переменной и другими переменными, ответственными за нее. Результаты позже используются для прогнозирования вовлеченных компонентов. Большинство эмпирических экономических исследований включают регрессию. Они также широко используются в социологии, статистике и психологии.

Оглавление

  • Определение множественной линейной регрессии
    • Объяснение множественной линейной регрессии
    • Формула
    • Пример
    • Предположения
      • Линейность:
      • Постоянная дисперсия:
      • Особые случаи:
      • Нормальность:
      • Мультиколинеарность:
    • Часто задаваемые вопросы (FAQ)
    • Рекомендуемые статьи
  • Множественный линейный регрессионный анализ — это статистический метод или инструмент для обнаружения причинно-следственных корреляций между переменными. Регрессии отражают, насколько сильны и стабильны отношения.
  • Модель множественной линейной регрессии — это простая модель линейной регрессии, но с расширениями. В линейной регрессии есть только одна объясняющая переменная. Здесь имеются различные объясняющие переменные.
  • Это помогает делать прогнозы для необходимой информации от задействованных компонентов.
  • Его применение включает определение процентного содержания жира в организме у взрослых. Выявление факторов, которые могут повлиять на образование, чтобы помочь правительству разработать политику и т. д.

Объяснение множественной линейной регрессии

Множественная линейная регрессия

Множественные модели линейной регрессии помогают установить взаимосвязь между двумя или более независимыми переменными. Независимые переменные. Независимая переменная — это объект, период времени или входное значение, изменения которого используются для оценки влияния на измеряемое выходное значение (т. е. конечную цель). в математическом, статистическом или финансовом моделировании. Подробнее и одной зависимой переменной. Эта модель является расширением простой модели линейной регрессии. В базовой линейной регрессии есть только одна объясняющая переменная. Однако в множественных линейных регрессиях есть несколько объясняющих переменных. Поэтому, когда в соединении есть две или более контролируемых переменных, применяется Множественная линейная регрессия. Особенно это актуально в следующих случаях:

  • Чтобы найти степень или степень, в которой две или более независимых переменных и одна зависимая переменная связаны (например, как осадки, температура, рН почвы и количество добавленных удобрений влияют на рост плодов).
  • Значение зависимой переменной при заданном значении независимых переменных (например, ожидаемая урожайность фруктов при определенных уровнях осадков, температуре, рН почвы и добавлении удобрений)

Интерпретация множественной линейной регрессии помогает делать прогнозы и служит руководством для принятия ключевых решений. Например, правительства могут использовать эти исходные данные для разработки политики социального обеспечения. Кроме того, различные веб-сайты предоставляют свои калькуляторы для проверки значений. Кроме того, для этого можно использовать программные инструменты, такие как SPSS.

Формула

Множественные модели линейной регрессии часто используются в качестве эмпирических моделей или для аппроксимационных функций. Например, хотя точная функциональная взаимосвязь между значениями Y и X (X1 X2…… Xn) неизвестна, модель линейной регрессии обеспечивает адекватное приближение к истинной неизвестной функции для определенных диапазонов переменных регрессора. Хотя пользоваться онлайн-калькуляторами и программным обеспечением SPSS несложно, очень важно знать, как рассчитываются значения.

Можно использовать следующую формулу для расчета множественной линейной регрессии:

YI= β0+β1X1 β2X2 +…..+…+βkXk+ e.

Приведенное выше уравнение является просто расширением простой линейной регрессии. Здесь выходная переменная — Y, а связанные входные переменные — в терминах X, причем каждый предиктор имеет свой коэффициент наклона или регрессии (β). Кроме того, первый член (β0) является константой пересечения, которая является значением Y. В этом случае любое значение всех предикторов отсутствует (т. е. когда все члены X равны 0). Оба их значения одинаковы. K — регрессор или переменная-предиктор. ε должен дать место для стандартных ошибок. Другими словами, это мера дисперсии среднего значения выборки, связанная со средним значением генеральной совокупности, а не стандартное отклонение. Подробнее.

Пример

Рассмотрим пример, чтобы лучше понять множественную линейную регрессию.

Возьмем значения X1 как 0, 11, 11, значения X2 как 1, 5, 4 и значения Y как 11, 15 и 13.

Здесь,

  • Сумма X1 = 22
  • Сумма Х2 = 10
  • Сумма Y = 39
  • Х1 = 7,3333
  • Х2 = 3,3333
  • Среднее Y = 13

Сумма квадратов:

  • (SSX1) = 80,6667
  • И, (SSX2) = 8,6667

Сумма продуктов:

  • (SPX1Y) = 22
  • (SPX2Y) = 8
  • И, (SPX1X2) = 25,6667

Уравнение регрессии = ŷ = b1X1 + b2X2 + a

β 1 = ((SPX1Y)*(SSX2)-(SPX1X2)*(SPX2Y)) / ((SSX1)*(SSX2)-(SPX1X2)*(SPX1X2)) = -14,67/40,33 = -0,36364

β 2 = ((SPX2Y)*(SSX1)-(SPX1X2)*(SPX1Y)) / ((SSX1)*(SSX2)-(SPX1X2)*(SPX1X2)) = 80,67/40,33 = 2

a = MY – β 1MX1 – β 2MX2 = 13 – (-0,36*7,33) – (2*3,33) = 9

Следовательно, ŷ = -0,36364X1 + 2X2 + 9

Предположения

Расчет множественной линейной регрессии требует нескольких допущений, и некоторые из них заключаются в следующем:

Линейность

Можно смоделировать линейную (прямолинейную) связь между Y и X, используя множественную регрессию. Любые криволинейные отношения не учитываются. Это можно проанализировать с помощью точечных диаграмм на первичных стадиях. В то же время на остаточных графиках можно обнаружить нелинейные закономерности.

Постоянная дисперсия

Для всех значений X дисперсия ε постоянна. Чтобы обнаружить это, можно использовать остаточные графики X. Также легко принять постоянную дисперсию, если остаточные графики имеют прямоугольную форму. Кроме того, существует непостоянная дисперсия, и ее необходимо учитывать, если на остаточном графике обнаруживается изменяющаяся форма клина.

Особые случаи

Предполагается, что данные исключаются из всех специальных пунктов, возникающих в результате разовых событий. Соответственно, регрессионная модель может иметь непостоянную дисперсию, ненормальность или другие проблемы, если они этого не делают.

Нормальность

Когда кто-то использует проверки гипотез и доверительные интервалы, предполагается, что существует нормальное распределение ε.

Мульти коллинеарность

Наличие почти линейных связей среди множества независимых переменных называется колинеарностью или мультиколинеарностью. Здесь, поскольку мультиколинеарность вызывает множество трудностей при регрессионном анализе, предполагается, что данные не являются мультиколинеарными.

Часто задаваемые вопросы (FAQ)

Что такое множественная линейная регрессия?

Множественная линейная регрессия рассматривается как расширение простой линейной регрессии, в котором участвуют одна или несколько независимых переменных, кроме одной зависимой переменной.

В чем разница между линейной и множественной регрессией?

Множественная линейная регрессия имеет одну или несколько переменных x и y, одну зависимую переменную и более одной независимой переменной. В линейной регрессии есть только одна переменная x и y.

Каковы преимущества множественной регрессии?

Аналитики имеют в виду теоретическую взаимосвязь, и регрессионный анализ подтверждает их. Он направлен на поиск уравнения, которое обобщает взаимосвязь между набором данных. Анализ также помогает делать меньше предположений о наборе значений.

Почему важна множественная линейная регрессия?

Основная цель интерпретации множественной линейной регрессии состоит в том, чтобы предвидеть переменную отклика. Например, это могут быть продажи, время доставки, эффективность, анализ вождения автомобиля, заполняемость больниц, процент массы тела одного пола и т. д. Эти прогнозы могут быть чрезвычайно полезны для планирования, мониторинга или анализа процесса или системы.

Рекомендуемые статьи

Это было Руководство по множественной линейной регрессии и ее определению. Здесь мы объясним формулу, предположение и их объяснения вместе с примерами. Вы можете узнать больше из следующих статей –

  • Нелинейная регрессияНелинейная регрессияНелинейная регрессия относится к регрессионному анализу, в котором модель регрессии отображает нелинейную связь между зависимой переменной и независимыми переменными.Подробнее
  • НелинейностьНелинейностьНелинейность — это косвенная корреляция между независимыми и зависимыми переменными, которая не может инкапсулировать прямые линии. Поскольку независимая переменная изменяется в нелинейной зависимости, зависимая переменная не изменяется с той же величиной.Подробнее
  • Линейная регрессия в ExcelЛинейная регрессия В ExcelЛинейная регрессия — это статистический инструмент Excel, который используется в качестве модели прогнозного анализа для изучения взаимосвязи между двумя наборами данных. Используя этот анализ, мы можем оценить взаимосвязь между зависимыми и независимыми переменными.Подробнее

Понравилась статья? Поделить с друзьями:
  • Как найти к какому пфр относится организация
  • Как найти гороскоп глобы
  • Как найти человека по нику вот
  • 100 способов как найти девушку
  • Как можно найти рабочих для