Коэффициент корреляции отражает степень взаимосвязи между двумя показателями. Всегда принимает значение от -1 до 1. Если коэффициент расположился около 0, то говорят об отсутствии связи между переменными.
Если значение близко к единице (от 0,9, например), то между наблюдаемыми объектами существует сильная прямая взаимосвязь. Если коэффициент близок к другой крайней точке диапазона (-1), то между переменными имеется сильная обратная взаимосвязь. Когда значение находится где-то посередине от 0 до 1 или от 0 до -1, то речь идет о слабой связи (прямой или обратной). Такую взаимосвязь обычно не учитывают: считается, что ее нет.
Расчет коэффициента корреляции в Excel
Рассмотрим на примере способы расчета коэффициента корреляции, особенности прямой и обратной взаимосвязи между переменными.
Значения показателей x и y:
Y – независимая переменная, x – зависимая. Необходимо найти силу (сильная / слабая) и направление (прямая / обратная) связи между ними. Формула коэффициента корреляции выглядит так:
Чтобы упростить ее понимание, разобьем на несколько несложных элементов.
- Найдем средние значения переменных, используя функцию СРЗНАЧ:
- Посчитаем разницу каждого y и yсредн., каждого х и хсредн. Используем математический оператор «-».
- Теперь перемножим найденные разности:
- Найдем сумму значений в данной колонке. Это и будет числитель.
- Для расчета знаменателя разницы y и y-средн., х и х-средн. Нужно возвести в квадрат.
- Находим суммы значений в полученных колонках (с помощью функции АВТОСУММА). Перемножаем их. Результат возводим в квадрат (функция КОРЕНЬ).
- Осталось посчитать частное (числитель и знаменатель уже известны).
Между переменными определяется сильная прямая связь.
Встроенная функция КОРРЕЛ позволяет избежать сложных расчетов. Рассчитаем коэффициент парной корреляции в Excel с ее помощью. Вызываем мастер функций. Находим нужную. Аргументы функции – массив значений y и массив значений х:
Покажем значения переменных на графике:
Видна сильная связь между y и х, т.к. линии идут практически параллельно друг другу. Взаимосвязь прямая: растет y – растет х, уменьшается y – уменьшается х.
Матрица парных коэффициентов корреляции в Excel
Корреляционная матрица представляет собой таблицу, на пересечении строк и столбцов которой находятся коэффициенты корреляции между соответствующими значениями. Имеет смысл ее строить для нескольких переменных.
Матрица коэффициентов корреляции в Excel строится с помощью инструмента «Корреляция» из пакета «Анализ данных».
- На вкладке «Данные» в группе «Анализ» открываем пакет «Анализ данных» (для версии 2007). Если кнопка недоступна, нужно ее добавить («Параметры Excel» — «Надстройки»). В списке инструментов анализа выбираем «Корреляция».
- Нажимаем ОК. Задаем параметры для анализа данных. Входной интервал – диапазон ячеек со значениями. Группирование – по столбцам (анализируемые данные сгруппированы в столбцы). Выходной интервал – ссылка на ячейку, с которой начнется построение матрицы. Размер диапазона определится автоматически.
- После нажатия ОК в выходном диапазоне появляется корреляционная матрица. На пересечении строк и столбцов – коэффициенты корреляции. Если координаты совпадают, то выводится значение 1.
Между значениями y и х1 обнаружена сильная прямая взаимосвязь. Между х1 и х2 имеется сильная обратная связь. Связь со значениями в столбце х3 практически отсутствует.
Изобразим наглядно корреляционные отношения с помощью графиков.
- Сильная прямая связь между y и х1.
- Сильная обратная связь между y и х2. Изменения значений происходят параллельно друг другу. Но если y растет, х падает. Значения y увеличиваются – значения х уменьшаются.
- Отсутствие взаимосвязи между значениями y и х3. Изменения х3 происходят хаотично и никак не соотносятся с изменениями y.
Скачать вычисление коэффициента парной корреляции в Excel
Для чего нужен такой коэффициент? Для определения взаимосвязи между наблюдаемыми явлениями и составления прогнозов.
Парная
корреляция –это
связь между 2 признаками (результативным
y
и факторным x
или 2 факторными).
Соотношение
yi=β0+β1xi+εi
наз. теоретическим уравнением регрессии.
xi
значения независимой переменной в i-ом
наблюдении. Yi
значения зависимой переменной в i-ом
наблюдении,I=
1,n.
β0,
β1
теоретические параметры регрессии.
εi-случайное
отклонение.
Эмпирическое
уравнение линейной регрессии по выборке
ограниченного объема может построить
эмпирическое уравнение регрессии:
^yi=b0+b1xi+ei.
xi
значения независимой переменной в i-ом
наблюдении. ^yi
оценка условного мат. ожидания. b0,
b1
оценки неизвестных параметров, сл-ноβ0,
β1эмпирические
коэфф-ты отклонения регрессии. εi—
оценка теоретического случайного
отклонения
Коэффициент
парной корреляции исп-ся в кач-вемеры,
характ-щей степень линейной связи 2
переменных. Он предст. собой ковариацию
2 наборов данных, деленную на произведение
их стандартных отклонений. Значения
от -1 до +1. Если r>
0, то корр. связь явл. прямой, если r>
0, то обратной. Если r
= ±1 корр. Связь предст. линейной функц.
зависимостью. При r
= 0 корр. связь отсутствует.
Вычисляется
по формуле: rxiy
= bi∙σxi/σy,
где σxi=корень
(∑(xi
— x̅)2/n),
σy=
корень (∑(yi
— y̅)2/n).
Коэффициент
детерминации – характеризует долю
дисперсии, объясняемую регрессию в
общей дисперсии результ. признака.D
= r2.
5 Парная линейная регрессия. Оценка коэффициентов корреляции.Коэффициент эластичности.
Оценка
коэффициентов корреляции проводиться
с помощью МНК, Фишера (вопросы 8, 9),
Стьюдента. Критерий Стьюдента: для
проверки о ст. значимости коэффициента
регрессии, т.е. гипотезы Н0:b1=0,Н1:b1≠0
используется t-статистика:
t=
b1/Sb1.
Sb1станд.
ошибка коэфф-та регрессии, кот. При
выполнении исходных предпосылок модели
имеет распределение Стьюдента с числом
степеней свободы ν=n-2.
Гипотеза Н0
отклоняется, если |tрасч|>=
tтабл=
tα;т-1.
α
– требуемый уровень значимости. При
отклонении H0
коэффициент
эластичности является статистически
значимым.
Выборочный
коэффициент регрессии y
по x
— показывает, на сколько единиц в среднем
изменяется переменная y
при увеличенииx
на 1 единицу. Коэффициент эластичности
– показывает, на сколько % в среднем
изменяется переменная y
при увеличенииx
на 1 %. Эyx=b1∙x̅/y̅.
6. Предпосылки мнк ( условия Гаусса-Маркова).
Самый
распространенный и теоретически
обоснованный является МНК нахождения
коэффициентов b0и
b1уравнения
линейной регрессии. Требуется
минимизировать функцию:
S
(b0,b1)
= ∑e2=∑(yi-^yi)2=∑(yi-b0-b1xi)2.
Функция
S
явл. квадратной функцией 2 параметров
b0и
b1.
(S>0)
Система
нормальных уравнений для определения
параметров линейной регрессии:
nb0+b1∑xi=∑yi
b0∑xi+
b1∑xi^2=∑xiyi
Предпосылки
МНК:
-
Зависимая
переменная yi
есть величина случайная, а объясняющая
переменная xiвеличина
неслучайная -
Матем.
ожидание εi=0:
M(ε̅i)=0. -
Дисперсия
εiпостоянна
для любого i:
D
(εi)=σ2 -
Отклонение
εiи
εj
не связаны: М(εi)=0
при i≠jМ(εi)
≠М(εj) -
Отклонение
εiэто
нормально распределенная СВ.
Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]
- #
- #
- #
- #
- #
- #
- #
- #
- #
- #
- #
Загрузить PDF
Загрузить PDF
Коэффициент корреляции (или линейный коэффициент корреляции) обозначается как «r» (в редких случаях как «ρ») и характеризует линейную корреляцию (то есть взаимосвязь, которая задается некоторым значением и направлением) двух или более переменных. Значение коэффициента лежит между -1 и +1, то есть корреляция бывает как положительной, так и отрицательной. Если коэффициент корреляции равен -1, имеет место идеальная отрицательная корреляция; если коэффициент корреляции равен +1, имеет место идеальная положительная корреляция. В остальных случаях между двумя переменными наблюдается положительная корреляция, отрицательная корреляция или отсутствие корреляции. Коэффициент корреляции можно вычислить вручную, с помощью бесплатных онлайн-калькуляторов или с помощью хорошего графического калькулятора.
-
1
Соберите данные. Перед тем как приступить к вычислению коэффициента корреляции, изучите данные пары чисел. Лучше записать их в таблицу, которую можно расположить вертикально или горизонтально. Каждую строку или столбец обозначьте как «х» и «у».[1]
- Например, даны четыре пары значений (чисел) переменных «х» и «у». Можно создать следующую таблицу:
- x || y
- 1 || 1
- 2 || 3
- 4 || 5
- 5 || 7
- Например, даны четыре пары значений (чисел) переменных «х» и «у». Можно создать следующую таблицу:
-
2
Вычислите среднее арифметическое «х». Для этого сложите все значения «х», а затем полученный результат разделите на количество значений.[2]
-
3
Найдите среднее арифметическое «у». Для этого выполните аналогичные действия, то есть сложите все значения «у», а затем сумму разделите на количество значений.[3]
-
4
Вычислите стандартное отклонение «х». Вычислив средние значения «х» и «у», найдите стандартные отклонения этих переменных. Стандартное отклонение вычисляется по следующей формуле:[4]
-
5
Вычислите стандартное отклонение «у». Выполните действия, которые описаны в предыдущем шаге. Воспользуйтесь той же формулой, но подставьте в нее значения «у».[5]
-
6
Запишите основную формулу для вычисления коэффициента корреляции. В эту формулу входят средние значения, стандартные отклонения и количество (n) пар чисел обеих переменных. Коэффициент корреляции обозначается как «r» (в редких случаях как «ρ»). В этой статье используется формула для вычисления коэффициента корреляции Пирсона.[6]
- Здесь и в других источниках величины могут обозначаться по-разному. Например, в некоторых формулах присутствуют «ρ» и «σ», а в других «r» и «s». В некоторых учебниках приводятся другие формулы, но они являются математическими аналогами приведенной выше формулы.
-
7
Вычислите коэффициент корреляции. Вы вычислили средние значения и стандартные отклонения обеих переменных, поэтому можно воспользоваться формулой для вычисления коэффициента корреляции. Напомним, что «n» – это количество пар значений обеих переменных. Значение других величин были вычислены ранее.[7]
-
8
Проанализируйте полученный результат. В нашем примере коэффициент корреляции равен 0,988. Это значение некоторым образом характеризует данный набор пар чисел. Обратите внимание на знак и величину значения.[8]
- Так как значение коэффициента корреляции положительно, между переменными «х» и «у» имеет место положительная корреляция. То есть при увеличении значения «х», значение «у» тоже увеличивается.
- Так как значение коэффициента корреляции очень близко к +1, значения переменных «х» и «у» сильно взаимосвязаны. Если нанести точки на координатную плоскость, они расположатся близко к некоторой прямой.
Реклама
-
1
В интернете найдите калькулятор для вычисления коэффициента корреляции. Этот коэффициент довольно часто вычисляется в статистике. Если пар чисел много, вычислить коэффициент корреляции вручную практически невозможно. Поэтому существуют онлайн-калькуляторы для вычисления коэффициента корреляции. В поисковике введите «коэффициент корреляции калькулятор» (без кавычек).
-
2
Введите данные. Ознакомьтесь с инструкциями на сайте, чтобы правильно ввести данные (пары чисел). Крайне важно вводить соответствующие пары чисел; в противном случае вы получите неверный результат. Помните, что на разных веб-сайтах различные форматы ввода данных.
- Например, на сайте http://ncalculators.com/statistics/correlation-coefficient-calculator.htm значения переменных «х» и «у» вводятся в двух горизонтальных строках. Значения разделяются запятыми. То есть в нашем примере значения «х» вводятся так: 1,2,4,5, а значения «у» так: 1,3,5,7.
- На другом сайте, http://www.alcula.com/calculators/statistics/correlation-coefficient/, данные вводятся по вертикали; в этом случае не перепутайте соответствующие пары чисел.
-
3
Вычислите коэффициент корреляции. Введя данные, просто нажмите на кнопку «Calculate», «Вычислить» или аналогичную, чтобы получить результат.
Реклама
-
1
Введите данные. Возьмите графический калькулятор, перейдите в режим статистических вычислений и выберите команду «Edit» (Редактировать).[9]
- На разных калькуляторах нужно нажимать различные клавиши. В этой статье рассматривается калькулятор Texas Instruments TI-86.
- Чтобы перейти в режим статистических вычислений, нажмите [2nd] – Stat (над клавишей «+»). Затем нажмите F2 – Edit (Редактировать).
-
2
Удалите предыдущие сохраненные данные. В большинстве калькуляторов введенные статистические данные хранятся до тех пор, пока вы не сотрете их. Чтобы не спутать старые данные с новыми, сначала удалите любую сохраненную информацию.[10]
- С помощью клавиш со стрелками переместите курсор и выделите заголовок «xStat». Затем нажмите Clear (Очистить) и Enter (Ввести), чтобы удалить все значения, введенные в столбец xStat.
- С помощью клавиш со стрелками выделите заголовок «yStat». Затем нажмите Clear (Очистить) и Enter (Ввести), чтобы удалить все значения, введенные в столбец уStat.
-
3
Введите исходные данные. С помощью клавиш со стрелками переместите курсор в первую ячейку под заголовком «xStat». Введите первое значение и нажмите Enter. В нижней части экрана отобразится «xStat (1) = __», где вместо пробела будет стоять введенное значение. После того как вы нажмете Enter, введенное значение появится в таблице, а курсор переместится на следующую строку; при этом в нижней части экрана отобразится «xStat (2) = __».[11]
- Введите все значения переменной «х».
- Введя все значения переменной «х», с помощью клавиш со стрелками перейдите в столбец yStat и введите значения переменной «у».
- После ввода всех пар чисел нажмите Exit (Выйти), чтобы очистить экран и выйти из режима статистических вычислений.
-
4
Вычислите коэффициент корреляции. Он характеризует, насколько близко данные расположены к некоторой прямой. Графический калькулятор может быстро определить подходящую прямую и вычислить коэффициент корреляции.[12]
- Нажмите Stat (Статистика) – Calc (Вычисления). На TI-86 нужно нажать [2nd] – [Stat] – [F1].
- Выберите функцию «Linear Regression» (Линейная регрессия). На TI-86 нажмите [F3], которая обозначена как «LinR». На экране отобразится строка «LinR _» с мигающим курсором.
- Теперь введите имена двух переменных: xStat и yStat.
- На TI-86 откройте список имен; для этого нажмите [2nd] – [List] – [F3].
- В нижней строке экрана отобразятся доступные переменные. Выберите [xStat] (для этого, скорее всего, нужно нажать F1 или F2), введите запятую, а затем выберите [yStat].
- Нажмите Enter, чтобы обработать введенные данные.
-
5
Проанализируйте полученные результаты. Нажав Enter, на экране отобразится следующая информация:[13]
Реклама
-
1
Разберитесь с понятием корреляции. Корреляция – это статистическая взаимосвязь двух величин. Коэффициент корреляции – это числовое значение, которое можно вычислить для любых двух наборов данных. Значение коэффициента корреляции всегда лежит в диапазоне от -1 до +1 и характеризует степень взаимосвязи двух переменных.[14]
- Например, даны рост и возраст детей (около 12 лет). Скорее всего, здесь будет наблюдаться сильная положительная корреляция, потому что с возрастом дети становятся выше.
- Пример отрицательной корреляции: штрафные секунды и время, проведенное на тренировках по биатлону, то есть чем больше спортсмен тренируется, тем меньше штрафных секунд будет начислено.
- Наконец, иногда имеет место очень слабая корреляция (положительная или отрицательная), например, между размером обуви и оценками по математике.
-
2
Запомните, как вычислить среднее арифметическое. Чтобы вычислить среднее арифметическое (или среднее значение), нужно найти сумму всех данных значений, а затем разделить ее на количество значений. Помните, что среднее арифметическое необходимо для вычисления коэффициента корреляции.[15]
- Среднее значение переменной обозначается буквой с горизонтальной чертой над ней. Например, в случае переменных «х» и «у» их средние значения обозначаются так: x̅ и y̅. Иногда среднее значение обозначается греческой буквой «μ» (мю). Чтобы записать арифметическое среднее значений переменной «х», используйте обозначение μx или μ(x).
- Например, даны следующие значения переменной «х»: 1,2,5,6,9,10. Среднее арифметическое этих значений вычисляется так:
-
3
Обратите внимание на важность стандартного отклонения. В статистике стандартное отклонение характеризует степень разброса чисел по отношению к их среднему значению. Если стандартное отклонение мало, числа расположены близко к среднему значению; если стандартное отклонение велико, числа расположены далеко от среднего значения.[16]
- Стандартное отклонение обозначается буквой «s» или греческой буквой «σ» (сигма). Таким образом, стандартное отклонение значений переменной «х» обозначается так: sx или σx.
-
4
Запомните символ, обозначающий операцию суммирования. Символ суммирования является одним из наиболее распространенных символов в математике и указывает на сумму значений. Этот символ представляет собой греческую букву «Σ» (прописная сигма).[17]
- Например, если даны следующие значения переменной «х»: 1,2,5,6,9,10, то Σx означает:
- 1 + 2 + 5 + 6 + 9 + 10 = 33.
Реклама
- Например, если даны следующие значения переменной «х»: 1,2,5,6,9,10, то Σx означает:
Советы
- Коэффициент корреляции иногда называют «коэффициентом корреляции Пирсона» в честь его разработчика Карла Пирсона.
- В большинстве случаев, когда коэффициент корреляции больше 0,8 (положительный или отрицательный), имеет место сильная корреляция; если же коэффициент корреляции меньше 0,5 (положительный или отрицательный), наблюдается слабая корреляция.
Реклама
Предупреждения
- Корреляция характеризует взаимосвязь значений двух переменных. Но помните, что корреляция не имеет ничего общего с причинно-следственной связью. Например, если сравнить рост и размер обуви людей, вы, вероятно, обнаружите сильную положительную корреляцию. Как правило, чем выше человек, тем больше размер обуви. Но это не означает, что увеличение роста приводит к автоматическому увеличению размера обуви, или что большие ноги приведут к ускоренному росту. Эти величины просто взаимосвязаны.
Реклама
Об этой статье
Эту страницу просматривали 79 077 раз.