Степени свободы в статистике
Уровень сложности
Простой
Время на прочтение
6 мин
Количество просмотров 1.6K
Автор статьи: Артем Михайлов
Статистический анализ играет важную роль в научных исследованиях, коммерческих деятельностях и в других областях. Однако, его результаты могут быть неточными, если не учитывать имеющиеся степени свободы. Степени свободы – это концепция, которая широко используется в статистике, и она позволяет более точно определить, насколько можно доверять полученным результатам.
В данной статье мы рассмотрим понятие степеней свободы, их роль в статистических расчетах, а также примеры их использования. Мы узнаем, как степени свободы помогают улучшить точность статистических выводов и в каких случаях их использование особенно важно.
Что такое степень свободы?
Степень свободы (Degree of Freedom, df) в статистике — это количество значений или наблюдений в выборке, которые могут быть изменены независимо друг от друга без изменения ее структуры. Можно сказать, что это количество переменных, которые оставляются свободными для варьирования после того, как структура выборки была определена.
Например, рассмотрим тест Стьюдента (t-Test), который используется для проверки гипотезы о равенстве средних значений двух выборок. В этом тесте степень свободы определяется как сумма степеней свободы двух выборок минус два (df = n1 + n2 — 2), где n1 и n2 — размеры выборок.
Чем больше степень свободы, тем меньше вероятность ложных выводов и тем более точными будут результаты теста. В случае же, если степень свободы будет низкой, то мы можем получить ложные результаты, так как мы не имеем достаточно информации для адекватной оценки статистических характеристик выборки.
Одним из важных факторов, влияющих на степень свободы, является размер выборки. Чем больше выборка, тем больше степень свободы, значит, чем больше выборка, тем менее вероятно получение ошибочных результатов в статистических тестах.
Также степень свободы важна при выборе статистической модели. К примеру, при построении линейной регрессии, степень свободы может использоваться для определения того, сколько переменных необходимо использовать в модели. Выбор модели слишком сложной или, наоборот, слишком простой (т.е. с недостаточной степенью свободы) может привести к неправильным выводам.
Таблица степеней свободы
Таблица степеней свободы – это таблица, которая заполняется в соответствии с типом и количеством переменных, которые используются в анализе статистических данных. Она используется для определения правильной формулы для расчета критических значений при проведении статистических тестов, таких как t-критерий, F-критерий и хи-квадрат тест.
В таблице степеней свободы могут быть два типа переменных: независимые (IV) и зависимые (DV). Количество степеней свободы для каждой переменной определяется путем вычитания единицы от общего количества наблюдений.
Для каждого теста, количество степеней свободы может быть разным в зависимости от характеристик выборки и типа теста. Например:
-
В t-критерии Стьюдента, количество степеней свободы зависит от размера выборки и количества групп, участвующих в сравнении. Если у нас есть две группы, количество степеней свободы будет равно n1+n2-2 (где n1 и n2 – это размер первой и второй групп соответственно).
-
В анализе дисперсии (ANOVA), количество степеней свободы будет зависеть от количества групп и количества элементов в каждой группе. Если есть количество групп (k) и общее количество элементов (N), то количество степеней свободы для межгрупповой дисперсии будет равно k-1, а для остаточной дисперсии будет равно N-k.
-
В хи-квадрат тесте, количество степеней свободы зависит от размера матрицы сопряженности. Если у нас есть матрица 2×2, то количество степеней свободы будет равно 1.
Таблица степеней свободы помогает убедиться, что мы используем правильные статистические формулы для расчетов, что позволяет получать более точные и надежные результаты при анализе статистических данных.
Примеры использования степеней свободы
Рассмотрим несколько практических примеров использования степеней свободы в статистике:
-
t-критерий Стьюдента. Это статистический тест, который используется для проверки значимости различия между средними двух независимых выборок. Для расчета t-критерия Стьюдента используется формула, которая включает в себя показатели меры центральной тенденции (среднее значение) и меры разброса (стандартное отклонение) для каждой выборки, а также степени свободы. В частности, степени свободы в расчете t-критерия Стьюдента определяются как сумма степеней свободы выборок, возведенная в степень двух, деленная на сумму квадратов степеней свободы выборок. Этот тест дает возможность оценить значимость различий между двумя выборками и узнать, велика ли вероятность случайного различия.
Предположим, что вы хотите определить, отличаются ли средние зарплаты мужчин и женщин в вашей компании. Вы можете использовать t-критерий для проверки этой гипотезы. Для этого вам нужно знать выборочные средние и стандартные отклонения для мужчин и женщин, а также общее число человек в каждой группе. После этого можно использовать формулу для расчета t-критерия, учитывая количество степеней свободы (количество людей в каждой группе минус 1).
-
Анализ дисперсии (ANOVA). Это статистический тест, который используется для сравнения средних значений нескольких групп. ANOVA расчитывается разнесением общего отклонения между группами на внутреннюю дисперсию (внутригрупповое отклонение) и межгрупповую дисперсию. Степени свободы в расчете ANOVA определяются как разность между общим числом наблюдений и числом использованных для расчета средних значений степеней свободы (то есть на 1 меньше числа групп). Внутригрупповые и межгрупповые степени свободы могут быть вычислены отдельно.
Предположим, что у вас есть несколько групп людей, проходящих тренировку для улучшения своего здоровья. Вы хотите определить, есть ли значимые различия в потере веса между этими группами. Для решения этого вопроса можно использовать ANOVA, для этого вам нужно знать выборочные средние и стандартные отклонения для каждой группы, а также общее количество участников в каждой группе. Затем используйте формулу для расчета F-критерия, учитывая количество степеней свободы, которое будет различаться в зависимости от количества групп и количества участников в каждой группе.
-
Хи-квадрат тест. Это статистический тест, в котором измеряется отклонение между фактическим и ожидаемым количеством наблюдений в наборе данных. Хи-квадрат тест может использоваться для проверки независимости двух переменных в категориальных данных, таких как таблицы сопряженности. Степени свободы в расчете Хи-квадрат теста определяются как разность между общим количеством наблюдений в таблице и количеством ограничений (то есть размерность таблицы минус 1, по каждому измерению). Если степени свободы достаточно высоки, то можно считать, что тест говорит о статистически значимых различиях между переменными.
Предположим, что у вас есть две переменных — пол (мужчина или женщина) и предпочитаемый вид спорта (баскетбол, футбол, хоккей и т.д.), и вы хотите проверить, есть ли статистически значимая связь между этими переменными. Для этого вы можете использовать хи-квадрат тест, для которого нужно разбить каждую категориальную переменную на несколько групп, затем измерить общее количество наблюдений в каждой ячейке таблицы. После того как вы подсчитаете значения статистики хи-квадрат, вы можете использовать таблицу степеней свободы, чтобы определить, является ли полученный результат значимым для определенного уровня доверия.
-
В корреляционном анализе, степени свободы используются для вычисления коэффициента корреляции между двумя переменными и определения статистической значимости этой связи. Обычно, чем больше степеней свободы, тем точнее оценки корреляции. Количество степеней свободы определяется как общее число наблюдений минус число неизвестных параметров.
Например, если мы исследуем связь между уровнем образования и доходом, то количество степеней свободы будет равно количеству наблюдений минус два, так как два параметра (уровень образования и доход) неизвестны.
Преимущества и недостатки
Преимущества использования степеней свободы в статистике включают следующее:
-
Корректность статистических тестов: использование степеней свободы позволяет правильно оценивать дисперсию и скорректировать стандартные ошибки. Это обеспечивает более точные тесты на статистическую значимость.
-
Увеличение мощности тестов: использование правильных степеней свободы может увеличить мощность статистических тестов. Это позволяет увидеть статистически значимые различия там, где их может не быть при использовании неправильных степеней свободы.
-
Более надежные выводы: правильное использование степеней свободы позволяет избежать ошибок первого и второго рода. Это позволяет давать более точные и надежные научные выводы.
Однако, использование степеней свободы также имеет некоторые ограничения:
-
Количество данных: необходимо иметь достаточно большое количество данных, чтобы определить степени свободы. В противном случае могут возникнуть ошибки в статистических тестах.
-
Некоторые статистические тесты зависят от предположений: некоторые статистические тесты, такие как t-тесты, предполагают нормальность распределения данных. Если данные не соответствуют этим предположениям, использование степеней свободы может привести к ошибкам.
-
Ошибки вязкости: иногда степени свободы могут быть неверными из-за ошибок в вычислениях. Это может привести к неправильным выводам из статистических тестов.
Заключение
Таким образом, степени свободы являются одним из ключевых параметров в статистических расчетах и оказывают большое влияние на результаты анализа данных. При этом, важно понимать, что оптимальное количество степеней свободы зависит от многих факторов, включая размер выборки и число независимых переменных. Поэтому, для правильного выбора количества степеней свободы, необходим обширный опыт в анализе данных и статистике.
Также следует отметить, что степени свободы являются только одним из аспектов статистического анализа, и их применение требует определенных знаний в области статистики.
Полезные рекомендации
Напоследок хочу порекомендовать несколько полезных бесплатных вебинаров от OTUS. Регистрация доступна по ссылкам ниже:
-
Построение архитектуры с иcпользованием облачных сервисов AWS
-
Профессия Системный Аналитик. Путь с нуля до Middle
-
Бережливое управление требованиями
Содержание:
Сущность дисперсионного анализа:
Задачей дисперсионного анализа является изучение влияния одного или нескольких факториальных признаков на результативный признак. При этом имеется в виду, что каждый признак измерен статистически и варьирует в совокупности единиц.
Степень вариации группы единиц обычно измеряется показателями вариации: средним линейным отклонением, дисперсией, средним квадратическим отклонением и коэффициентом вариации. Определенный способ измерения и анализа вариации единиц составляет специфическую особенность дисперсионного анализа как метода изучения влияния факторов.
Применение дисперсионного анализа
При применении дисперсионного анализа требуется расчленить совокупность на группы по факториальному признаку и измерить результативный признак в каждой группе единиц. Отбор единиц в каждую группу может осуществляться методом случайной выборки (или, как ее называют в дисперсионном анализе, по принципу рэндомизации). Можно также использовать материалы проведенных ранее наблюдений. Дисперсионный анализ имеет широкое распространение в экспериментальных работах по технике и биологии. Он может быть с успехом применен и в экономических расчетах.
Дисперсия как мера вариации нам уже известна. Она представляет собой среднюю величину из квадратов отклонений всех вариантов от средней арифметической. В дисперсионном анализе принято не делить сумму квадратов отклонений на число единиц, а находить лишь сумму
Случайная дисперсия находится как сумма квадратов отклонений всех вариантов от частных средних, т. е.
Она аналогична внутригрупповой дисперсии, рассмотренной в разделе I.
Факториальная дисперсия равна сумме квадратов отклонений частных средних от общей средней: и аналогична межгрупповой дисперсии.
Дисперсия, исчисляемая как сумма квадратов отклонений, зависит от числа единиц в группе. Отношение факториальной дисперсии к дисперсии комплекса показывает долю вариации за счет фактора группировки и называется корреляционным отношением.
В дисперсионном анализе применяется и дисперсия, рассчитанная на одну степень свободы варьирования. В этом случае сумма квадратов отклонений делится на число степеней свободы.
Дисперсия на одну степень свободы в однофакторном комплексе составит:
Для дисперсии комплекса число степеней свободы равно числу значений варьирующего признака без одного: для факториальной дисперсии число степеней свободы равно числу групп без одного для случайной дисперсии число степеней свободы равно числу значений результативного признака без числа групп Для определения достоверности влияния фактора группировки находят отношение дисперсий, исчисленных на одну степень свободы, — межгрупповой дисперсии к внутригрупповой дисперсии.
Однофакторный комплекс
Изучение методом дисперсионного анализа действия на результативный признак одного факториального признака требует расчета одного дисперсионного комплекса и называется однофакторным комплексом. Для однофакторных комплексов не требуется пропорциональности групп по их численности, так как они пропорциональны при любом соотношении частот по группам. В однофакторных комплексах вполне применимы свойства дисперсий, которые даны в разделе «Вариационные ряды и их характеристики».
Расчет однофакторного комплекса с малым числом групп может быть иллюстрирован следующим примером.
При изучении действия многих факторов заработной платы выделен один фактор — образование рабочих. Установлены 3 группы этого фактора: начальное образование, семилетнее и среднее образование. Для каждой группы было отобрано с сохранением принципа рандомизации по 3 рабочих. Заработная плата и порядок вычисления дисперсий приведен в следующей таблице:
Факториальная дисперсия и случайная дисперсия
Обработаем данный однофакторный комплекс по-другому и заполним таблицу 2.
Используя свойства дисперсий и имея в виду, что в дисперсионном анализе находится не средний квадрат отклонений, а сумма квадратов отклонений, вычислим:
Влияние образования на вариацию заработной платы рабочих находится из корреляционного отношения:
Влияние прочих факторов определится другим корреляционным отношением:
Сумма этих двух корреляционных отношений должна быть равна 1:
Для определения достоверности влияния данного фактора определяем величину отношения дисперсий где — факториальная дисперсия, рассчитанная на одну степень свободы; —случайная дисперсия, рассчитанная на одну степень свободы.
Число степеней свободы по комплексу равно для факториальной дисперсии для случайной дисперсии
Достоверность влияния данного фактора определяется из сравнения F с некоторой стандартной величиной, исчисляемой по особой формуле, зависящей от числа степеней свободы для факториальной и случайной дисперсий. Таблица стандартных величин дана в приложении IX и определена для вероятностей 0,95 и 0,99. Если F окажется больше стандартного отношения, то вывод о наличии зависимости, основанный на дисперсионном анализе, считается обоснованным; если же F меньше любого стандартного значения, то вывод является необоснованным.
В данном примере дисперсии на одну степень свободы составят:
Определив величину F по эмпирическим данным, найдем по таблице стандартных отношений дисперсий стандартное F, зная, что число степеней свободы по фактору а по случайным факторам (Величину стандартного F находим интерполированием, так как в приложении даны нечетные числа степеней свободы.)
Следовательно, величина F меньше любого из стандартных отношений и вывод о значительном влиянии фактора образования нельзя считать обоснованным.
Для групп, имеющих большое число единиц, расчет дисперсионного однофакторного комплекса производится по корреляционной таблице.
Корреляционная таблица составляется по правилам, применяющимся при расчетах коэффициента корреляции и корреляционного уравнения. Однако обработка корреляционной решетки проводится особым способом, специфичным для дисперсионного анализа. Для этого к корреляционной таблице приписывается четыре строки и три столбца.
В первой приписанной строке, как и в любой корреляционной таблице, записываются суммы по столбцам, во второй строке— суммы произведений частот на отклонения , в третьей — квадраты этих сумм, в четвертой — результат деления третьей строки на
В первом приписанном столбце записываются суммы частот. Во втором и третьем столбцах находятся суммы накопленных частот. Все эти расчеты приведены в следующей таблице, где рассматривается зависимость объема ампул (у) от их диаметра (k). Вместо абсолютных величин у взяты отклонения:
Рассчитываем характеристики:
По величине корреляционного отношения делаем вывод о том, что влияние фактора х оказывается сильным. Для определения достоверности вывода находим число степеней свободы для факториальной дисперсии случайной дисперсии и исчисляем дисперсии на одну степень
свободы:
Затем вычисляем отношение:
В таблице стандартных значений F при данных числах свободы и эти величины значительно меньше вычисленных на основе опытных данных. Следовательно, влияние фактора х достоверно. Вывод о существенном влиянии диаметра на объем ампул может с уверенностью считаться подтвердившимся.
Двухфакторный комплекс
При анализе влияния двух факторов на результативный признак решается двухфакторный комплекс. Решение двухфакторного комплекса отличается от решения однофакторного комплекса. При этом имеется в виду, что факторы независимы друг от друга.
Решение двухфакторного комплекса облегчается при пропорциональной численности единиц в группах.
Если изучается действие двух факторов А и В на результативный признак, то каждый фактор делится на группы по фактору А, которые в свою очередь делятся на подгруппы по фактору В.
Фактором А, например, является количество внесенных удобрений в почву, а фактором В — глубина вспашки. Оба фактора влияют на результативный признак — урожайность. Пусть даныг две группы фактора А, каждая из которых разбивается на подгруппы по фактору В. Результат группировки дан в таблице.
Каждый результативный признак имеет два значения. Следовательно, для каждой подгруппы было отобрано по 2 единицы изучаемой совокупности.
Анализ двухфакторного комплекса ответит на два вопроса:
- каково суммарное действие обоих факторов;
- как велико значение каждого фактора в отдельности и какова роль сочетания факторов.
Проще всего в этом случае предположить, что действует один фактор, распадающийся по сочетанию признаков на 4 группы (общее число подгрупп).
Тогда расчет будет вестись по схеме однофакторного комплекса. Для этого вычислим:
- общую дисперсию
- факториальную дисперсию
- случайную дисперсию
- степень влияния объединенных факторов А и В:
- определим достоверность влияния объединенных факторов, для чего вычислим:
Однако еще не выяснено действие каждого из факторов и различие их совместного действия в разных комбинациях групп и подгрупп. Для этого решается двухфакторный комплекс, где сначала находятся общая и случайная дисперсии и дисперсии суммарного действия (как и в однофакторном комплексе), а затем частные факториальные дисперсии.
Частные факториальные дисперсии находятся так. Дисперсия по фактору А измеряется вариацией частных средних по
группам фактора A В приведенном примере фактор А разделен на 2 группы. В каждой группе имеется четыре варианта. Средняя по группе Дисперсия этой средней равна сумме квадратов отклонений от общей средней.
Запишем расчет дисперсии по фактору А в табл. 5.
Аналогично вычисляются дисперсии по фактору В. Дисперсия по сочетаниям признаков находится из табл. 6, а также из формулы суммы трех частных дисперсий:
Способы определения описаны выше. Остается неизвестной величина которая и определяется. Но находить дисперсию по сочетаниям признаков можно только для пропорциональных комплексов.
Для определения дисперсии можно использовать также следующую таблицу.
Здесь D является первой степенью отклонений. — отклонения средних по подгруппам от общей средней; — отклонения средних по группам от общей средней; — отклонения средних по группам от общей средней; и есть дисперсия по сочетанию признаков.
Разберем изложенное на конкретном примере. Методом дисперсионного анализа изучается влияние внесенных удобрений (факторов А) и глубины вспашки (факторов В) на урожай (у) (см. табл. 7). По фактору А взяты 2 группы участков: хорошо удобренные и мало удобренные.
По фактору В также 2 группы: с глубокой вспашкой и с мелкой. В каждую группу отобрали методом рэндомизации (случайной выборки) по 2 участка, которые имели следующую урожайность (у): 14; 16; 12; 10; 8; 10; 4; 6.
Общая дисперсия
Факториальная дисперсия суммарного действия факторов определяется по формуле: Для вычисления необходимо прежде всего найти частные средние по подгруппам:
Случайная дисперсия выразится:
Вычислим частную факториальную дисперсию по фактору А.
Отношение говорит о том, что удельный вес влияния фактора А составляет 69% суммарного действия факторов А и В.
Отношение говорит о том, что удельный вес влияния фактора А составляет 59% действия всех факторов. Рассчитаем частную факториальную дисперсию по фактору В в табл. 9.
Влияние фактора В в суммарном влиянии факторов А и В составит или 31%. Влияние фактора В в общем влиянии всех факторов составляет или 14 %.
Вычислим дисперсию по сочетанию факторов АВ, т. е. дисперсию Для этого составим табл. 10. Влияние сочетания факторов равно нулю. Это означает, что в данном комплексе действие одного фактора не зависит от действия другого.
Находим число степеней свободы и определяем дисперсии на одну степень свободы для рассмотрения достоверности влияния факторов.
Для общей дисперсии число степеней свободы равно:
для случайной дисперсии
Проверяем, чтобы
В нашем примере:
Дисперсии на одну степень свободы составят.
Определим величину F для каждой дисперсии. Для этого делим каждую факториальную дисперсию на случайную.
Сравниваем каждое отношение дисперсий F со стандартными величинами, данными в таблице, учитывая число степеней свободы обеих взятых дисперсий.
Для фактора A превышает стандартное отношение. Следовательно, влияние фактора А можно считать достоверным. Для фактора В превышает второе стандартное отношение. Влияние фактора В достоверно. Для сочетания факторов А и В
Для суммарного действия факторов сравниваем со стандартным отношением при данных числах степеней свободы. Оно превышает любую стандартную величину. Значит, суммарное действие обоих факторов весьма достоверно.
Используя свойства дисперсии, можно составить упрощенную схему расчета двухфакторного комплекса. При этом расчет общей дисперсии случайной дисперсии и дисперсии суммарного действия обоих факторов производится так же, как и в однофакторном комплексе, т. е. путем нахождения вспомогательной величины Н, где
Тогда
где т. е. исчисляется по той же формуле, что и Н, но только берется по подгруппам.
Дисперсии по факторам А и В, а также дисперсию по сочетанию факторов АВ находим по тем же формулам. Так, дисперсия по фактору A а дисперсия по фактору В Дисперсию по сочетанию факторов найдем из дисперсии суммарного действия откуда
Вычислим дисперсии по факторам А и В для приведенного выше примера.
найдена ранее и составляла 104.
что и подтверждает ранее приведенный расчет.
Расчет двухфакторного комплекса при большом числе наблюдений ведется по корреляционной таблице по той же схеме, как и для однофакторного комплекса. Дисперсии можно находить по способу сумм по формулам:
где — вторые накопленные суммы.
Исследование продолжаем далее по общей схеме дисперсионного анализа.
Анализ дисперсий трехфакторного комплекса ведется по тому же принципу, что и двухфакторного комплекса, только в этом случае будет 3 дисперсии по факторам и 4 дисперсии по сочетанию признаков:
Непропорциональные комплексы
Непропорциональными называются дисперсионные комплексы, в которых не соблюдается пропорциональность численностей вариантов.
В непропорциональных дисперсионных комплексах дисперсия суммарного действия факторов не равна сумме дисперсий по факторам и дисперсии сочетания факторов. Между этими дисперсиями существует следующая связь:
где — величина, зависящая от степени статистических связей, возникающих в непропорциональных комплексах между отдельными факторами вследствие нарушения пропорциональности.
Для пропорциональных комплексов =0. Однако в непропорциональных комплексах не нарушается равенство: так как расчет дисперсий в этом случае происходит по принципам однофакторного комплекса, а однофакторные комплексы всегда пропорциональны.
При решении непропорциональных комплексов создаются затруднения не только при отыскании дисперсий, но также при определении степени влияния каждого фактора, так как сумма частных влияний не равна суммарному влиянию. Влияние каждого фактора определяется при помощи соответствующего корреляционного отношения.
В непропорциональных комплексах общее корреляционное отношение не состоит из суммы частных корреляционных отношений, так как имеется еще слагаемое it, которое не имеет реального смысла и носит условный характер.
Чтобы определить, как влияет каждый из факторов в непропорциональном комплексе, необходимо иметь единую структуру комплекса.
Одним из способов приведения непропорционального комплекса к единой структуре является способ его замены пропорциональным комплексом, в котором частоты осереднены по группам. Когда такая замена произведена, комплекс решается по принципам пропорциональных комплексов в отношении но расчет т. е. дисперсии сочетаний действия , факторов, идет по-другому.
определяется при помощи нахождения отклонений первой степени по схеме: Квадраты этих отклонений и дают соответствующие дисперсии
Мы не должны при этом смущаться тем обстоятельством, что сумма составляющих дисперсий не равна суммарной дисперсии найденной в общей части комплекса.
Величину дисперсии разделяют пропорционально полученным величинам дисперсий
Так получается комплекс, общая часть которого совпадает с пропорциональной частью комплекса, а отношения между частными дисперсиями пропорциональны соотношениям частных дисперсий в исходном комплексе.
Схема расчета непропорционального комплекса дана в таблице 12.
Альтернативный комплекс
Если исследование методом дисперсионного анализа ведется по альтернативному признаку, в котором из n единиц у m единиц имеется данный признак, то расчет ведется несколько по-другому, чем в варьирующих комплексах.
Дисперсия альтернативного комплекса исчисляется по формуле: где откуда
Используя свойства дисперсии приведем их к расчету по сокращенным формулам:
Расчет однофакторного альтернативного комплекса удобно вести, как показано в табл. 13, где в качестве группировочного признака выступают различные показатели одного и того же признака. Например, изучая действие режима работы (хотя бы, например, температуры) на качество продукции, мы выделяем несколько групп по этому признаку.
Определение достоверности вывода ведется исходя из соответствия эмпирического F стандартному. Число степеней свободы определяется по формулам: для общей дисперсии для факториальной дисперсии для случайной дисперсии Дисперсия на одну степень свободы определится отношением
Расчет двухфакторного альтернативного комплекса ведется в общей части по тем же правилам и схемам, что и в однофакторном альтернативном комплексе. Расчет же частных дисперсий и лучше вести в специальной таблице типа табл. 12, в которой объединены соответствующие группы и подгруппы m и n.
Используя данные табл. 14, будем иметь все необходимое для расчета дисперсий Расчет же дисперсий по сочетанию факторов производим путем вычитания из общей факториальной дисперсии частных дисперсий, т. е.
Достоверность вывода определяется методами, известными из предыдущего изложения.
При помощи дисперсионного анализа сравниваются также средние величины по группам комплекса и устанавливается достоверность разности между ними. Однако изложение этих методов не входит в нашу задачу.
- Математическая обработка динамических рядов
- Корреляция — определение и вычисление
- Элементы теории ошибок
- Методы математической статистики
- Теория статистической проверки гипотез
- Линейный регрессионный анализ
- Вариационный ряд
- Законы распределения случайных величин
Тема 10. Дисперсионный анализ
Различия между значениями отдельных
элементов совокупности складываются
под влиянием множества отдельных
факторов. Одни факторы в большей степени,
а другие в меньшей степени оказывают
влияние на вариант признака. Поэтому
различают вариации — систематическую
и случайную.
Задача дисперсионного анализа
заключается в исследовании влияния
тех или иных факторов на изменчивость
средних величин результативного
признака.
С этой целью производится разложение
дисперсии наблюдаемой совокупности на
составляющие, порождаемые независимыми
факторами.
Разложение дисперсий
Общая дисперсия разбивается на факторную
(межгрупповую) дисперсию, связанную с
группировочным признаком, и остаточную
(внутригрупповую) дисперсию, не связанную
с группировочным признаком.
Сущность дисперсионного анализа
заключается в сопоставлении
факторной (межгрупповой) и остаточной
(внутригрупповой) дисперсий и определения
на основе этого соотношения суждения
о влиянии и роли изучаемого фактора.
Факторная дисперсия объясняет
вариацию результативного признака под
влиянием изучаемого фактора
Остаточная дисперсия — вариацию
результативного признака, обусловленную
влиянием прочих факторов (за исключением
влияния изучаемого фактора).
Общая дисперсия
В дисперсионном анализе дисперсией
принято называть сумму квадратов
отклонений индивидуальных значений
признака от их средней арифметической.
Определение общей дисперсии обусловленной
влиянием вариации всех признаков,
производится по формуле:
где — |
Например,
—
высота каблука(1ой пары обуви и
каждой),
—
общая средняя высота каблука
Факторная дисперсия
Факторная дисперсия представляет собой
сумму квадратов отклонений частных
(групповых) средних
от общей средней, умноженных на число
единиц в каждой группе()
(в случае расчета по взвешенной формуле):
где |
Остаточная дисперсия
Остаточная (случайная) дисперсия есть
сумма групповых сумм квадратов отклонений
всех вариант результативного признака
в группах от их средних значений, т.е.
Далее производится оценка достоверности
влияния факторного признака на
результативный
Оценка надежности
Оценка надежности влияния факторного
признака на результативный проводится
с помощью расчета «числа степеней
свободы вариации» — V, определяемых
для:
— факторной дисперсии,
— остаточной дисперсии.
Число степеней свободы для факторной
дисперсии равно количеству групп
минус единица:
Если выборочная совокупность достаточно
велика, то разница между N и N-1 несущественна,
поэтому не оказывает влияния на результат
расчетов.
Число степеней свободы для остаточной
дисперсии равно разности между
общей численностью совокупности и
числом групп:
Затем рассчитываются
дисперсии на одну степень свободы
вариации (такая дисперсия соответствует
среднему квадратическому отклонению
признака в совокупности и может быть
обозначена как).
В этом случае дисперсии выступают как
показатели, позволяющие сравнивать
группы с разной численностью.
Проверка правильности расчетов числа
степеней свободы вариации может быть
осуществлена по равенству
Расчет дисперсии на одну степень
свободы вариации
Критерий Фишера
Отношение факторной дисперсии и
остаточной, рассчитанных на одну степень
свободы, позволяет определить F-критерий:
,
разработанный английским ученым
Р.Фишером.
Теоретическое значение F-критерия
Р.Фишером было установлено распределение
отношений дисперсий, а также разработаны
специальные таблицы теоретических
значений F-критерия при двух вероятностях:
0,05 и 0,01.
Находят по таблицам для принятого в
исследовании уровня значимости с учетом
числа степеней свободы для факторной
и остаточной дисперсий.
5%-ному уровню значимости соответствует
95%-ный уровень вероятности,
1%-ному уровню значимости — 99%-ный уровень
вероятности.
В большинстве случаев избирают 5%-ный
уровень значимости.
Теоретическое значение F-критерия при
заданном уровне значимости по таблицам
определяют на пересечении строки и
столбца, соответствующим двум степеням
свободы дисперсий: по строке -остаточной;
по столбцу — факторной.
Расчетное значение F-критерия
сравнивают с табличным
Если,
то опыт доказывает с вероятностью
большей заданной влияние фактора на
результативный признак;
Если
,
то опыт доказывает с заданной вероятностью
влияние фактора на результативный
признак;
Если
,
влияние фактора на результативный
признак не доказано, но не доказано и
отсутствие влияния фактора. Опыт
необходимо повторить, уравнивая группы
по факторам, за исключением изучаемого
фактора, или увеличить количество единиц
изучаемой совокупности.
Если
,
то рассчитывают
определяют
как отношение остаточной дисперсии на
одну степень свободы к факторной
дисперсии на одну степень свободы:
Теоретическое значение F-критерия в
данном случае определяют при заданном
уровне значимости по таблицам на
пересечении строки и столбца,
соответствующим двум степеням свободы
дисперсий: по строке -факторной; по
столбцу — остаточной.
Если
,
то опыт достоверно доказывает отсутствие
влияния фактора на результативный
признак.
Принципиальная схема дисперсионного
анализа
Критерий Фишера используют в качестве проверке равенства (однородности) дисперсий двух выборок, в том числе проверки значимости модели регрессии.
Критерий Фишера находится по формуле:
при σ1>σ2
σ1 – большая дисперсия выборки;
σ2 – меньшая дисперсия выборки.
Формула критерий Фишера для оценки значимости уравнения регрессии:
При Fнабл<Fкр нулевая гипотеза принимается.
Число степеней свободы исправленных дисперсий находятся по формулам:
для первой выборки
f1=n1−1
для второй выборки
f2=n2−1
Fкр (α, f1, f2) определяется по таблице
Пример
Дана выборка успеваемости по двум группам.
№ п/п | X | Y |
1 | 34 | 45 |
2 | 44 | 68 |
3 | 97 | 76 |
4 | 62 | 56 |
5 | 39 | 78 |
6 | 73 | 64 |
7 | 42 | 84 |
8 | 95 | 54 |
9 | 35 | 81 |
10 | 37 | 79 |
11 | 45 | 41 |
12 | 43 | 47 |
13 | 73 | 79 |
14 | 53 | 32 |
15 | 32 | 44 |
Требуется определить различия в оценках между двумя группами при α = 0.05.
Решение
Вычислим дисперсию по X и по Y
№ п/п | X | Y | D(X) | D(Y) |
1 | 34 | 45 | 42,684 | 31,609 |
2 | 44 | 68 | 10,24 | 4,1798 |
3 | 97 | 76 | 209,28 | 22,195 |
4 | 62 | 56 | 7,84 | 3,8242 |
5 | 39 | 78 | 23,684 | 28,92 |
6 | 73 | 64 | 41,818 | 0,5057 |
7 | 42 | 84 | 14,951 | 54,432 |
8 | 95 | 54 | 190,44 | 6,876 |
9 | 35 | 81 | 38,44 | 40,676 |
10 | 37 | 79 | 30,618 | 32,617 |
11 | 45 | 41 | 8,2178 | 48,38 |
12 | 43 | 47 | 12,484 | 24,558 |
13 | 73 | 79 | 41,818 | 32,617 |
14 | 53 | 32 | 0,04 | 99,113 |
15 | 32 | 44 | 51,84 | 35,469 |
Сумма | 804 | 928 | 724,4 | 465,97 |
Среднее | 53,6 | 61,867 |
По критерию Фишера находим Fэмп.
k1=15 — 1 = 14,
k2=15 — 1 = 14
По таблице критерия Фишера находим критическое значение
Fкрит=2.49, следовательно, 2.49>1.55, Fкрит>Fэмп
Отсюда, различия в оценках между двумя выборками групп присутствует, принимаем гипотезу.
21247