Как найти парный линейный коэффициент корреляции

Коэффициент корреляции отражает степень взаимосвязи между двумя показателями. Всегда принимает значение от -1 до 1. Если коэффициент расположился около 0, то говорят об отсутствии связи между переменными.

Если значение близко к единице (от 0,9, например), то между наблюдаемыми объектами существует сильная прямая взаимосвязь. Если коэффициент близок к другой крайней точке диапазона (-1), то между переменными имеется сильная обратная взаимосвязь. Когда значение находится где-то посередине от 0 до 1 или от 0 до -1, то речь идет о слабой связи (прямой или обратной). Такую взаимосвязь обычно не учитывают: считается, что ее нет.

Расчет коэффициента корреляции в Excel

Рассмотрим на примере способы расчета коэффициента корреляции, особенности прямой и обратной взаимосвязи между переменными.

Значения показателей x и y:

Показатели x и y.

Y – независимая переменная, x – зависимая. Необходимо найти силу (сильная / слабая) и направление (прямая / обратная) связи между ними. Формула коэффициента корреляции выглядит так:

Формула коэффициента корреляции.

Чтобы упростить ее понимание, разобьем на несколько несложных элементов.

  1. Найдем средние значения переменных, используя функцию СРЗНАЧ:
  2. СРЗНАЧ.

  3. Посчитаем разницу каждого y и yсредн., каждого х и хсредн. Используем математический оператор «-».
  4. Разница.

  5. Теперь перемножим найденные разности:
  6. Умножение разниц.

  7. Найдем сумму значений в данной колонке. Это и будет числитель.
  8. Сумма значений.

  9. Для расчета знаменателя разницы y и y-средн., х и х-средн. Нужно возвести в квадрат.
  10. Квадрат.

  11. Находим суммы значений в полученных колонках (с помощью функции АВТОСУММА). Перемножаем их. Результат возводим в квадрат (функция КОРЕНЬ).
  12. АВТОСУММА.

  13. Осталось посчитать частное (числитель и знаменатель уже известны).

Частное.

Между переменными определяется сильная прямая связь.

Встроенная функция КОРРЕЛ позволяет избежать сложных расчетов. Рассчитаем коэффициент парной корреляции в Excel с ее помощью. Вызываем мастер функций. Находим нужную. Аргументы функции – массив значений y и массив значений х:

КОРРЕЛ.

Покажем значения переменных на графике:

График.

Видна сильная связь между y и х, т.к. линии идут практически параллельно друг другу. Взаимосвязь прямая: растет y – растет х, уменьшается y – уменьшается х.



Матрица парных коэффициентов корреляции в Excel

Корреляционная матрица представляет собой таблицу, на пересечении строк и столбцов которой находятся коэффициенты корреляции между соответствующими значениями. Имеет смысл ее строить для нескольких переменных.

Переменные.

Матрица коэффициентов корреляции в Excel строится с помощью инструмента «Корреляция» из пакета «Анализ данных».

  1. На вкладке «Данные» в группе «Анализ» открываем пакет «Анализ данных» (для версии 2007). Если кнопка недоступна, нужно ее добавить («Параметры Excel» — «Надстройки»). В списке инструментов анализа выбираем «Корреляция».
  2. Анализ данных.

  3. Нажимаем ОК. Задаем параметры для анализа данных. Входной интервал – диапазон ячеек со значениями. Группирование – по столбцам (анализируемые данные сгруппированы в столбцы). Выходной интервал – ссылка на ячейку, с которой начнется построение матрицы. Размер диапазона определится автоматически.
  4. Корреляция.

  5. После нажатия ОК в выходном диапазоне появляется корреляционная матрица. На пересечении строк и столбцов – коэффициенты корреляции. Если координаты совпадают, то выводится значение 1.

Пример.

Между значениями y и х1 обнаружена сильная прямая взаимосвязь. Между х1 и х2 имеется сильная обратная связь. Связь со значениями в столбце х3 практически отсутствует.

Изобразим наглядно корреляционные отношения с помощью графиков.

  1. Сильная прямая связь между y и х1.
  2. Сильная прямая связь.

  3. Сильная обратная связь между y и х2. Изменения значений происходят параллельно друг другу. Но если y растет, х падает. Значения y увеличиваются – значения х уменьшаются.
  4. Сильная обратная связь.

  5. Отсутствие взаимосвязи между значениями y и х3. Изменения х3 происходят хаотично и никак не соотносятся с изменениями y.

Отсутствие взаимосвязи.

Скачать вычисление коэффициента парной корреляции в Excel

Для чего нужен такой коэффициент? Для определения взаимосвязи между наблюдаемыми явлениями и составления прогнозов.

Парная
корреляция
–это
связь между 2 признаками (результативным
y
и факторным x
или 2 факторными).

Соотношение
yi01xii
наз. теоретическим уравнением регрессии.
xi
значения независимой переменной в i-ом
наблюдении. Yi
значения зависимой переменной в i-ом
наблюдении,I=
1,n.
β0,
β1
теоретические параметры регрессии.
εi-случайное
отклонение.

Эмпирическое
уравнение линейной регрессии по выборке
ограниченного объема может построить
эмпирическое уравнение регрессии:
^yi=b0+b1xi+ei.
xi
значения независимой переменной в i-ом
наблюдении. ^yi
оценка условного мат. ожидания. b0,
b1
оценки неизвестных параметров, сл-ноβ0,
β1эмпирические
коэфф-ты отклонения регрессии. εi
оценка теоретического случайного
отклонения

Коэффициент
парной корреляции исп-ся в кач-вемеры,
характ-щей степень линейной связи 2
переменных. Он предст. собой ковариацию
2 наборов данных, деленную на произведение
их стандартных отклонений. Значения
от -1 до +1. Если r>
0, то корр. связь явл. прямой, если r>
0, то обратной. Если r
= ±1 корр. Связь предст. линейной функц.
зависимостью. При r
= 0 корр. связь отсутствует.

Вычисляется
по формуле: rxiy
= bi∙σxiy,
где σxi=корень
(∑(xi
— x̅)2/n),
σy=
корень (∑(yi
— y̅)2/n).

Коэффициент
детерминации – характеризует долю
дисперсии, объясняемую регрессию в
общей дисперсии результ. признака.D
= r2.

5 Парная линейная регрессия. Оценка коэффициентов корреляции.Коэффициент эластичности.

Оценка
коэффициентов корреляции проводиться
с помощью МНК, Фишера (вопросы 8, 9),
Стьюдента. Критерий Стьюдента: для
проверки о ст. значимости коэффициента
регрессии, т.е. гипотезы Н0:b1=0,Н1:b1≠0
используется t-статистика:
t=
b1/Sb1.
Sb1станд.
ошибка коэфф-та регрессии, кот. При
выполнении исходных предпосылок модели
имеет распределение Стьюдента с числом
степеней свободы ν=n-2.
Гипотеза Н0
отклоняется, если |tрасч|>=
tтабл=
tα;т-1.
α
– требуемый уровень значимости. При
отклонении H0
коэффициент
эластичности является статистически
значимым.

Выборочный
коэффициент регрессии y
по x
— показывает, на сколько единиц в среднем
изменяется переменная y
при увеличенииx
на 1 единицу. Коэффициент эластичности
– показывает, на сколько % в среднем
изменяется переменная y
при увеличенииx
на 1 %. Эyx=b1∙x̅/y̅.

6. Предпосылки мнк ( условия Гаусса-Маркова).

Самый
распространенный и теоретически
обоснованный является МНК нахождения
коэффициентов b0и
b1уравнения
линейной регрессии. Требуется
минимизировать функцию:

S
(b0,b1)
= ∑e2=∑(yi-^yi)2=∑(yi-b0-b1xi)2.

Функция
S
явл. квадратной функцией 2 параметров
b0и
b1.
(S>0)

Система
нормальных уравнений для определения
параметров линейной регрессии:

nb0+b1∑xi=∑yi

b0∑xi+
b1∑xi^2=∑xiyi

Предпосылки
МНК:

  1. Зависимая
    переменная yi
    есть величина случайная, а объясняющая
    переменная xiвеличина
    неслучайная

  2. Матем.
    ожидание εi=0:
    M(ε̅i)=0.

  3. Дисперсия
    εiпостоянна
    для любого i:
    D
    i)=σ2

  4. Отклонение
    εiи
    εj
    не связаны: М(εi)=0
    при i≠jМ(εi)
    ≠М(εj)

  5. Отклонение
    εiэто
    нормально распределенная СВ.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]

  • #
  • #
  • #
  • #
  • #
  • #
  • #
  • #
  • #
  • #
  • #


Загрузить PDF


Загрузить PDF

Коэффициент корреляции (или линейный коэффициент корреляции) обозначается как «r» (в редких случаях как «ρ») и характеризует линейную корреляцию (то есть взаимосвязь, которая задается некоторым значением и направлением) двух или более переменных. Значение коэффициента лежит между -1 и +1, то есть корреляция бывает как положительной, так и отрицательной. Если коэффициент корреляции равен -1, имеет место идеальная отрицательная корреляция; если коэффициент корреляции равен +1, имеет место идеальная положительная корреляция. В остальных случаях между двумя переменными наблюдается положительная корреляция, отрицательная корреляция или отсутствие корреляции. Коэффициент корреляции можно вычислить вручную, с помощью бесплатных онлайн-калькуляторов или с помощью хорошего графического калькулятора.

  1. Изображение с названием Find the Correlation Coefficient Step 1

    1

    Соберите данные. Перед тем как приступить к вычислению коэффициента корреляции, изучите данные пары чисел. Лучше записать их в таблицу, которую можно расположить вертикально или горизонтально. Каждую строку или столбец обозначьте как «х» и «у».[1]

    • Например, даны четыре пары значений (чисел) переменных «х» и «у». Можно создать следующую таблицу:
      • x || y
      • 1 || 1
      • 2 || 3
      • 4 || 5
      • 5 || 7
  2. Изображение с названием Find the Correlation Coefficient Step 2

    2

    Вычислите среднее арифметическое «х». Для этого сложите все значения «х», а затем полученный результат разделите на количество значений.[2]

  3. Изображение с названием Find the Correlation Coefficient Step 3

    3

    Найдите среднее арифметическое «у». Для этого выполните аналогичные действия, то есть сложите все значения «у», а затем сумму разделите на количество значений.[3]

  4. Изображение с названием Find the Correlation Coefficient Step 4

    4

    Вычислите стандартное отклонение «х». Вычислив средние значения «х» и «у», найдите стандартные отклонения этих переменных. Стандартное отклонение вычисляется по следующей формуле:[4]

  5. Изображение с названием Find the Correlation Coefficient Step 5

    5

    Вычислите стандартное отклонение «у». Выполните действия, которые описаны в предыдущем шаге. Воспользуйтесь той же формулой, но подставьте в нее значения «у».[5]

  6. Изображение с названием Find the Correlation Coefficient Step 6

    6

    Запишите основную формулу для вычисления коэффициента корреляции. В эту формулу входят средние значения, стандартные отклонения и количество (n) пар чисел обеих переменных. Коэффициент корреляции обозначается как «r» (в редких случаях как «ρ»). В этой статье используется формула для вычисления коэффициента корреляции Пирсона.[6]

    • rho =left({frac  {1}{n-1}}right)Sigma left({frac  {x-mu _{x}}{sigma _{x}}}right)*left({frac  {y-mu _{y}}{sigma _{y}}}right)
    • Здесь и в других источниках величины могут обозначаться по-разному. Например, в некоторых формулах присутствуют «ρ» и «σ», а в других «r» и «s». В некоторых учебниках приводятся другие формулы, но они являются математическими аналогами приведенной выше формулы.
  7. Изображение с названием Find the Correlation Coefficient Step 7

    7

    Вычислите коэффициент корреляции. Вы вычислили средние значения и стандартные отклонения обеих переменных, поэтому можно воспользоваться формулой для вычисления коэффициента корреляции. Напомним, что «n» – это количество пар значений обеих переменных. Значение других величин были вычислены ранее.[7]

  8. Изображение с названием Find the Correlation Coefficient Step 8

    8

    Проанализируйте полученный результат. В нашем примере коэффициент корреляции равен 0,988. Это значение некоторым образом характеризует данный набор пар чисел. Обратите внимание на знак и величину значения.[8]

    • Так как значение коэффициента корреляции положительно, между переменными «х» и «у» имеет место положительная корреляция. То есть при увеличении значения «х», значение «у» тоже увеличивается.
    • Так как значение коэффициента корреляции очень близко к +1, значения переменных «х» и «у» сильно взаимосвязаны. Если нанести точки на координатную плоскость, они расположатся близко к некоторой прямой.

    Реклама

  1. Изображение с названием Find the Correlation Coefficient Step 9

    1

    В интернете найдите калькулятор для вычисления коэффициента корреляции. Этот коэффициент довольно часто вычисляется в статистике. Если пар чисел много, вычислить коэффициент корреляции вручную практически невозможно. Поэтому существуют онлайн-калькуляторы для вычисления коэффициента корреляции. В поисковике введите «коэффициент корреляции калькулятор» (без кавычек).

  2. Изображение с названием Find the Correlation Coefficient Step 10

    2

    Введите данные. Ознакомьтесь с инструкциями на сайте, чтобы правильно ввести данные (пары чисел). Крайне важно вводить соответствующие пары чисел; в противном случае вы получите неверный результат. Помните, что на разных веб-сайтах различные форматы ввода данных.

    • Например, на сайте http://ncalculators.com/statistics/correlation-coefficient-calculator.htm значения переменных «х» и «у» вводятся в двух горизонтальных строках. Значения разделяются запятыми. То есть в нашем примере значения «х» вводятся так: 1,2,4,5, а значения «у» так: 1,3,5,7.
    • На другом сайте, http://www.alcula.com/calculators/statistics/correlation-coefficient/, данные вводятся по вертикали; в этом случае не перепутайте соответствующие пары чисел.
  3. Изображение с названием Find the Correlation Coefficient Step 11

    3

    Вычислите коэффициент корреляции. Введя данные, просто нажмите на кнопку «Calculate», «Вычислить» или аналогичную, чтобы получить результат.

    Реклама

  1. Изображение с названием Find the Correlation Coefficient Step 12

    1

    Введите данные. Возьмите графический калькулятор, перейдите в режим статистических вычислений и выберите команду «Edit» (Редактировать).[9]

    • На разных калькуляторах нужно нажимать различные клавиши. В этой статье рассматривается калькулятор Texas Instruments TI-86.
    • Чтобы перейти в режим статистических вычислений, нажмите [2nd] – Stat (над клавишей «+»). Затем нажмите F2 – Edit (Редактировать).
  2. Изображение с названием Find the Correlation Coefficient Step 13

    2

    Удалите предыдущие сохраненные данные. В большинстве калькуляторов введенные статистические данные хранятся до тех пор, пока вы не сотрете их. Чтобы не спутать старые данные с новыми, сначала удалите любую сохраненную информацию.[10]

    • С помощью клавиш со стрелками переместите курсор и выделите заголовок «xStat». Затем нажмите Clear (Очистить) и Enter (Ввести), чтобы удалить все значения, введенные в столбец xStat.
    • С помощью клавиш со стрелками выделите заголовок «yStat». Затем нажмите Clear (Очистить) и Enter (Ввести), чтобы удалить все значения, введенные в столбец уStat.
  3. Изображение с названием Find the Correlation Coefficient Step 14

    3

    Введите исходные данные. С помощью клавиш со стрелками переместите курсор в первую ячейку под заголовком «xStat». Введите первое значение и нажмите Enter. В нижней части экрана отобразится «xStat (1) = __», где вместо пробела будет стоять введенное значение. После того как вы нажмете Enter, введенное значение появится в таблице, а курсор переместится на следующую строку; при этом в нижней части экрана отобразится «xStat (2) = __».[11]

    • Введите все значения переменной «х».
    • Введя все значения переменной «х», с помощью клавиш со стрелками перейдите в столбец yStat и введите значения переменной «у».
    • После ввода всех пар чисел нажмите Exit (Выйти), чтобы очистить экран и выйти из режима статистических вычислений.
  4. Изображение с названием Find the Correlation Coefficient Step 15

    4

    Вычислите коэффициент корреляции. Он характеризует, насколько близко данные расположены к некоторой прямой. Графический калькулятор может быстро определить подходящую прямую и вычислить коэффициент корреляции.[12]

    • Нажмите Stat (Статистика) – Calc (Вычисления). На TI-86 нужно нажать [2nd] – [Stat] – [F1].
    • Выберите функцию «Linear Regression» (Линейная регрессия). На TI-86 нажмите [F3], которая обозначена как «LinR». На экране отобразится строка «LinR _» с мигающим курсором.
    • Теперь введите имена двух переменных: xStat и yStat.
      • На TI-86 откройте список имен; для этого нажмите [2nd] – [List] – [F3].
      • В нижней строке экрана отобразятся доступные переменные. Выберите [xStat] (для этого, скорее всего, нужно нажать F1 или F2), введите запятую, а затем выберите [yStat].
      • Нажмите Enter, чтобы обработать введенные данные.
  5. Изображение с названием Find the Correlation Coefficient Step 16

    5

    Проанализируйте полученные результаты. Нажав Enter, на экране отобразится следующая информация:[13]

    Реклама

  1. Изображение с названием Find the Correlation Coefficient Step 17

    1

    Разберитесь с понятием корреляции. Корреляция – это статистическая взаимосвязь двух величин. Коэффициент корреляции – это числовое значение, которое можно вычислить для любых двух наборов данных. Значение коэффициента корреляции всегда лежит в диапазоне от -1 до +1 и характеризует степень взаимосвязи двух переменных.[14]

    • Например, даны рост и возраст детей (около 12 лет). Скорее всего, здесь будет наблюдаться сильная положительная корреляция, потому что с возрастом дети становятся выше.
    • Пример отрицательной корреляции: штрафные секунды и время, проведенное на тренировках по биатлону, то есть чем больше спортсмен тренируется, тем меньше штрафных секунд будет начислено.
    • Наконец, иногда имеет место очень слабая корреляция (положительная или отрицательная), например, между размером обуви и оценками по математике.
  2. Изображение с названием Find the Correlation Coefficient Step 18

    2

    Запомните, как вычислить среднее арифметическое. Чтобы вычислить среднее арифметическое (или среднее значение), нужно найти сумму всех данных значений, а затем разделить ее на количество значений. Помните, что среднее арифметическое необходимо для вычисления коэффициента корреляции.[15]

    • Среднее значение переменной обозначается буквой с горизонтальной чертой над ней. Например, в случае переменных «х» и «у» их средние значения обозначаются так: x̅ и y̅. Иногда среднее значение обозначается греческой буквой «μ» (мю). Чтобы записать арифметическое среднее значений переменной «х», используйте обозначение μx или μ(x).
    • Например, даны следующие значения переменной «х»: 1,2,5,6,9,10. Среднее арифметическое этих значений вычисляется так:
  3. Изображение с названием Find the Correlation Coefficient Step 19

    3

    Обратите внимание на важность стандартного отклонения. В статистике стандартное отклонение характеризует степень разброса чисел по отношению к их среднему значению. Если стандартное отклонение мало, числа расположены близко к среднему значению; если стандартное отклонение велико, числа расположены далеко от среднего значения.[16]

    • Стандартное отклонение обозначается буквой «s» или греческой буквой «σ» (сигма). Таким образом, стандартное отклонение значений переменной «х» обозначается так: sx или σx.
  4. Изображение с названием Find the Correlation Coefficient Step 20

    4

    Запомните символ, обозначающий операцию суммирования. Символ суммирования является одним из наиболее распространенных символов в математике и указывает на сумму значений. Этот символ представляет собой греческую букву «Σ» (прописная сигма).[17]

    • Например, если даны следующие значения переменной «х»: 1,2,5,6,9,10, то Σx означает:
      • 1 + 2 + 5 + 6 + 9 + 10 = 33.

    Реклама

Советы

  • Коэффициент корреляции иногда называют «коэффициентом корреляции Пирсона» в честь его разработчика Карла Пирсона.
  • В большинстве случаев, когда коэффициент корреляции больше 0,8 (положительный или отрицательный), имеет место сильная корреляция; если же коэффициент корреляции меньше 0,5 (положительный или отрицательный), наблюдается слабая корреляция.

Реклама

Предупреждения

  • Корреляция характеризует взаимосвязь значений двух переменных. Но помните, что корреляция не имеет ничего общего с причинно-следственной связью. Например, если сравнить рост и размер обуви людей, вы, вероятно, обнаружите сильную положительную корреляцию. Как правило, чем выше человек, тем больше размер обуви. Но это не означает, что увеличение роста приводит к автоматическому увеличению размера обуви, или что большие ноги приведут к ускоренному росту. Эти величины просто взаимосвязаны.

Реклама

Об этой статье

Эту страницу просматривали 79 077 раз.

Была ли эта статья полезной?

Понравилась статья? Поделить с друзьями:
  • Как найти свой номер диплома онлайн
  • Закон стефана больцмана как найти температуру
  • Как найти развертку окружности
  • Как составить имидж организации пример
  • Как найти площадь параллелограмма заданного векторами