Как найти дисперсионный анализ

Уровень сложности
Простой

Время на прочтение
10 мин

Количество просмотров 2.4K

Автор статьи: Артем Михайлов

Дисперсионный анализ (ANOVA) — это статистический метод, который используется для сравнения средних значений двух или более выборок. Он позволяет определить, различаются ли средние значения между группами, или же различия случайны. ANOVA используется в различных областях, включая науку, инженерию, медицину, социологию и многие другие, где необходимо доказать связь между переменными.

ANOVA является мощным инструментом, который может использоваться в статистическом анализе для оценки влияния исследуемого фактора на зависимую переменную. Это помогает установить, является ли фактор значимым, и позволяет идентифицировать взаимодействие между переменными. ANOVA также позволяет определить, насколько сильно различия между группами, что может быть полезно при выборе стратегий манипулирования факторами.

Правильное применение ANOVA может доставить большую пользу и сделать исследование намного более информативным.

Теория дисперсионного анализа

ANOVA может быть использован для различных целей, например, для сравнения средних значений для разных групп или для проверки влияния факторов на исходы. Для проведения ANOVA необходимо определить несколько гипотез:

Нулевая гипотеза — это гипотеза, согласно которой никаких статистически значимых различий между группами не существует. В контексте дисперсионного анализа (ANOVA) она утверждает, что средние значения всех групп равны между собой.

Например, при проведении исследования по сравнению среднего уровня дохода людей в разных группах (например, по возрасту или образованию) нулевая гипотеза будет звучать так: «Средний уровень дохода во всех группах одинаков».

Установление нулевой гипотезы является важным шагом в проведении статистического тестирования, поскольку это позволяет определить статистическую значимость различий между группами. Если результаты тестирования указывают на то, что нулевую гипотезу можно отвергнуть, то это говорит о том, что существует статистически значимое различие между группами.

Нулевая гипотеза может быть отвергнута при помощи статистических инструментов, таких как p-значение, которое оценивает вероятность того, что различия между группами являются случайными. Чем меньше p-значение, тем больше вероятность того, что нулевая гипотеза является ложной и существуют статистически значимые различия между группами. Обычно, если p-значение меньше 0,05, то нулевая гипотеза считается отвергнутой.

Альтернативная гипотеза — это гипотеза, которая предполагает, что статистически значимые различия между группами существуют. В контексте дисперсионного анализа (ANOVA), альтернативная гипотеза утверждает, что хотя бы одно из средних значений групп отличается от среднего значения других групп. 

Важно отметить, что нулевая гипотеза всегда предполагается исходной (default hypothesis), и ее опровержение ставит вопрос об альтернативной гипотезе. Поэтому при проведении дисперсионного анализа, рассматриваемые гипотезы обычно выглядят так: «Нулевая гипотеза: средние значения всех групп равны между собой.» и «Альтернативная гипотеза: хотя бы одно из средних значений групп отличается от среднего значения других групп.»

Нулевая и альтернативная гипотезы в ANOVA используются для оценки различий между группами и определения статистической значимости этих различий. Результаты теста ANOVA могут помочь исследователям выявить факторы, влияющие на исходы исследования. Если нулевая гипотеза была отвергнута, то это означает, что между группами есть статистически значимые различия, и изучение этих различий может помочь исследователям понять, какой фактор оказывает наибольшее влияние на исходы.

ANOVA использует три типа дисперсии: межгрупповая дисперсия, внутригрупповая дисперсия и общая дисперсия. Межгрупповая дисперсия представляет различия между средними значениями групп, внутригрупповая дисперсия представляет изменчивость внутри каждой группы, а общая дисперсия — это сумма межгрупповой и внутригрупповой дисперсий.

Для проведения ANOVA существует несколько типов тестов, каждый из которых может быть использован в зависимости от типа данных и количества групп. Например, однофакторный дисперсионный анализ используется для сравнения средних значений при одном факторе, а двухфакторный дисперсионный анализ используется для сравнения средних значений при двух или более факторах.

Типы ANOVA

  1. Однофакторный ANOVA (однофакторный дисперсионный анализ) – это метод статистического анализа данных, который используется для определения наличия статистически значимых различий между двумя или более группами по одной независимой переменной. 

    Данный метод широко используется в научных исследованиях, маркетинговых исследованиях и других областях, где необходимо определить различия между двумя или более группами объектов или явлений.

    Входными данными для однофакторного ANOVA являются значения зависимой переменной и групповой фактор, на основе которых проводится анализ. Фактор может быть любой номинальной или порядковой переменной, которая разделяет выборку на группы (в простом случае, это может быть пол, возраст, уровень образования и т.д.). Зависимая переменная – это та переменная, которую мы хотим сравнить в различных группах.

    Однофакторный ANOVA проверяет нулевую гипотезу о том, что среднее значение зависимой переменной одинаково во всех группах. Если p-значение меньше заданного уровня значимости (обычно 0.05), тогда мы можем сделать вывод о том, что средние значения по группам различаются статистически значимо друг от друга. Кроме того, однофакторный ANOVA дает множество других статистических показателей, включая среднее значение, стандартное отклонение, диапазон, размах, медиану, аномальные значения и т.д. 

    В качестве дополнительного анализа для определения различий между группами могут быть использованы такие методы, как Т-тест, АНКОВА и другие. 

    Однофакторный ANOVA является базовым методом анализа для исследования факторов, которые влияют на зависимые переменные в различных группах. Использование этого метода помогает объективно оценивать результаты и достоверно определять, какие факторы играют ключевую роль в исследуемом явлении или процессе.

  2. Двухфакторный ANOVA (двухфакторный дисперсионный анализ) – это метод статистического анализа данных, который позволяет определить наличие статистически значимых различий между группами по двум независимым переменным (факторам). Такой подход позволяет оценить влияние каждой независимой переменной на зависимую переменную, а также выявить возможное взаимодействие между факторами. В случае значимых различий, производится дополнительный анализ, чтобы установить, между какими группами существуют различия.

  3. Многовариантный ANOVA (analysis of variance) — это статистический метод, который используется для анализа различий между группами (факторами) и влияния различных переменных (факторов) на исследуемую зависимую переменную. Он позволяет выявить, есть ли статистически значимое влияние одного или нескольких факторов на зависимую переменную, и определить, какие из факторов оказывают наибольшее влияние.

    Многовариантный ANOVA может использоваться для анализа различных типов данных, включая непрерывные, дискретные и категориальные переменные. Он также может рассчитываться для различных уровней взаимодействия между факторами, что позволяет учитывать сложные взаимодействия между переменными.

    Основная идея многовариантного ANOVA заключается в том, что общее количество изменений в зависимой переменной разделяется на две части: изменения, связанные с факторами, и изменения, которые не могут быть объяснены факторами (остаток). Факторы могут быть любого типа, но обычно они бывают двух типов: факторы, которые могут быть контролируемыми или экспериментальными (например, воздействие на здоровье человека разных типов диет), и факторы, которые являются неконтролируемыми или наблюдаемыми (например, пол, возраст, образование).

    Метод многовариантного ANOVA может быть выполнен в несколько шагов. Сначала нужно провести анализ на уровне каждого фактора (унимодальный анализ — one-way ANOVA). Затем производится многовариантный анализ, который позволяет оценить влияние всех факторов на зависимую переменную одновременно. Для этого используется многовариантный тестовый показатель F-статистики.

    Многовариантный ANOVA также может использоваться для оценки взаимодействия между факторами, например, могут ли переменные влиять друг на друга или быть нелинейными. Для этого используется двуфакторный или трехфакторный ANOVA, в котором изучается влияние нескольких факторов на зависимую переменную.

    Многовариантный ANOVA является полезным инструментом для исследования дисперсии и определения значимости факторов в зависимой переменной. Он также может использоваться в более сложных исследованиях, таких как оценка взаимодействия между группами и изучения различных факторов, влияющих на зависимую переменную.

Шаги проведения ANOVA

  1. Определение гипотезы — это основной шаг, который необходимо проделать перед проведением ANOVA. Гипотеза должна содержать утверждение о том, что средние значения переменной одинаковы в нескольких группах. 

    Например, предположим, что мы хотим узнать, есть ли статистически значимые различия в среднем росте людей в трех группах: мужчинах, женщинах и детях. Тогда нулевая гипотеза будет состоять в том, что средний рост одинаков во всех трех группах. Альтернативная гипотеза будет заключаться в том, что средний рост отличается в двух или более группах.

    Нулевая гипотеза всегда формулируется таким образом, что она может быть отвергнута на основе статистических данных. Например, если p-value меньше выбранного уровня значимости, то можно отбросить нулевую гипотезу и предположить, что существуют различия между группами.

    Важно, чтобы гипотеза была четкой и такой, которую можно проверить с помощью статистических данных. В противном случае, проведение ANOVA становится бессмысленным.

  2. Сбор данных — это следующий шаг после определения гипотезы, который необходимо выполнить перед проведением ANOVA. Для сбора данных нужно определить, какие переменные изучаются, какие группы данных будут сравниваться и какой размер выборки необходим.

    Выбор уровня значимости — это важный шаг ANOVA, который определяет вероятность того, что различия между группами являются случайными. Обычно уровень значимости принимается равным 0,05 (5%), что означает, что различия между группами, имеющие вероятность меньше 5%, считаются статистически значимыми. 

    Выбор правильного уровня значимости очень важен, так как неправильно выбранный уровень значимости может привести к неверным выводам. Если уровень значимости выбран слишком высоким, то могут быть найдены статистически значимые различия, которых на самом деле нет. Если уровень значимости слишком низкий, то могут быть пропущены настоящие статистически значимые различия.

    Правильный выбор уровня значимости зависит от цели исследования, характеристик групп и размеров выборки. Этот выбор должен быть продуманным и основываться на знаниях и опыте в данной области.

  3. Определение степеней свободы и критических значений: степени свободы — это количество наблюдений, которые могут быть свободно изменены в каждой группе данных. Критическое значение — это значение, при котором различия между группами становятся статистически значимыми.

  4. После сбора данных и выбора уровня значимости необходимо рассчитать статистические показатели для проведения ANOVA. Статистические показатели, которые используются в ANOVA — это F-статистика и p-value.

    F-статистика (F-значение) измеряет различия между группами, то есть отношение между средними значениями в группах и дисперсией внутри групп. Если F-значение большое, то это указывает на статистически значимые различия между группами.

    p-value (вероятность) — это вероятность того, что различия между группами были случайными и не связаны с фактором, который изучается. Если p-value меньше выбранного уровня значимости, то можно отбросить нулевую гипотезу и утверждать, что между группами есть статистически значимые различия.

    Важно знать, что F-статистика и p-value не являются самостоятельными критериями для определения статистической значимости. Они должны использоваться вместе с другими статистическими методами для получения более точных результатов.

  5. Оценка результатов и интерпретация полученных данных: после проведения ANOVA необходимо проанализировать полученные результаты. Если значение p-value меньше уровня значимости, то можно отбросить нулевую гипотезу и утверждать, что между группами есть статистически значимые различия. Интерпретируя эти различия, можно выйти на конкретный вывод, касающийся фактора, который изучается.

Пример применения ANOVA

Представим, что у нашего интернет-магазина есть три различных дизайна для главной страницы сайта, и мы хотим определить, какой из них наиболее эффективен в увеличении количества продаж. В этом случае мы можем провести эксперимент, в котором будут участвовать три группы покупателей, каждой группе будет показан только один из дизайнов главной страницы.

Для начала, мы должны определить, сколько покупателей нужно включить в каждую группу. Чтобы определить размер каждой группы, мы можем использовать статистические методы для расчета минимального размера выборки. Допустим, мы решили, что каждая группа должна состоять из 1000 покупателей.

Для этого эксперимента мы должны также определить, какие метрики будут измеряться. Для нашего примера мы будем измерять среднее количество продаж на каждого покупателя в каждой группе.

Когда эксперимент будет завершен, мы будем иметь данные о количестве продаж для каждой группы. Мы можем использовать ANOVA для анализа данных и определения, есть ли значимые различия между группами.

Перед проведением анализа необходимо проверить данные на нормальность распределения и выполнить другие необходимые условия для проведения анализа.

После проведения ANOVA мы получаем статистические показатели, такие как F-значение и p-значение. F-значение показывает различия между средними значениями групп, а p-значение показывает статистическую значимость различий между группами. Если p-значение меньше заданного уровня значимости (обычно 0,05), то мы можем сделать вывод о наличии значимых различий между группами.

Например, если мы получили F-значение 3,5 и p-значение 0,02, то мы можем сделать вывод о наличии статистически значимых различий между группами. Это означает, что один дизайн главной страницы сильнее влияет на увеличение продаж, чем другие.

Дополнительно, если у нас есть статистически значимые различия между группами, мы можем провести дополнительный анализ, например, сравнение каждой группы с другой с помощью теста Тюрки или Холма, чтобы определить, где именно находятся различия. Также мы можем рассмотреть другие важные метрики, такие как время проведения эксперимента и влияние внешних факторов на продажи. Важно понимать, что ANOVA — это только инструмент, который помогает нам делать выводы на основе данных. Поэтому проведение эксперимента должно быть тщательно спланировано и осуществлено в соответствии с научными методами для того, чтобы результаты были надежными и полезными для бизнеса.

Заключение

ANOVA очень важен для статистического анализа данных и исследований. Этот метод позволяет определить, какие факторы влияют на изменения в группах и имеет множество применений. 

Рекомендации по применению ANOVA:

  1. Необходимо тщательно выбирать данные для анализа и проверять их на соответствие критериям ANOVA.

  2. Всегда проводите тесты на нормальность, чтобы проверить, являются ли данные нормально распределенными.

  3. При использовании ANOVA следует учитывать влияние других факторов, которые не связаны с переменной, которую вы исследуете.

  4. Помните, что ANOVA рассчитывает только показатели среднего значения, поэтому может не учитывать взаимодействие между переменными.

  5. Всегда проверяйте статистическую значимость результата ANOVA и учитывайте размер выборки и разброс данных.

  6. Используйте ANOVA для сравнения трех или более групп, но не забывайте о других методах анализа, таких как t-тест, если вы хотите сравнить всего две группы.

  7. Наконец, не забывайте, что результаты ANOVA могут быть интерпретированы по-разному и, если это возможно, используйте другие методы анализа для проверки ваших выводов.

В целом, ANOVA является мощным методом статистического анализа, который можно использовать для исследования различий между группами. Он помогает находить значимые различия и определить факторы, влияющие на результаты исследования. Однако, для более точных результатов, необходимо учитывать все факторы влияния и применять другие методы анализа, если это необходимо.

В завершение хочу порекомендовать бесплатный вебинар от OTUS, где преподаватели покажут как настроить мониторинг PostgreSQL с помощью grafana и Prometheus.

  • Подробнее о вебинаре

Содержание:

Сущность дисперсионного анализа:

Задачей дисперсионного анализа является изучение влияния одного или нескольких факториальных признаков на результативный признак. При этом имеется в виду, что каждый признак измерен статистически и варьирует в совокупности единиц.

Степень вариации группы единиц обычно измеряется показателями вариации: средним линейным отклонением, дисперсией, средним квадратическим отклонением и коэффициентом вариации. Определенный способ измерения и анализа вариации единиц составляет специфическую особенность дисперсионного анализа как метода изучения влияния факторов.

Применение дисперсионного анализа

При применении дисперсионного анализа требуется расчленить совокупность на группы по факториальному признаку и измерить результативный признак в каждой группе единиц. Отбор единиц в каждую группу может осуществляться методом случайной выборки (или, как ее называют в дисперсионном анализе, по принципу рэндомизации). Можно также использовать материалы проведенных ранее наблюдений. Дисперсионный анализ имеет широкое распространение в экспериментальных работах по технике и биологии. Он может быть с успехом применен и в экономических расчетах.

Дисперсия как мера вариации нам уже известна. Она представляет собой среднюю величину из квадратов отклонений всех вариантов от средней арифметической. В дисперсионном анализе принято не делить сумму квадратов отклонений на число единиц, а находить лишь сумму Дисперсионный анализ - определение и вычисление с примерами решения

Случайная дисперсия находится как сумма квадратов отклонений всех вариантов от частных средних, т. е. Дисперсионный анализ - определение и вычисление с примерами решения

Она аналогична внутригрупповой дисперсии, рассмотренной в разделе I.

Факториальная дисперсия равна сумме квадратов отклонений частных средних от общей средней: Дисперсионный анализ - определение и вычисление с примерами решения и аналогична межгрупповой дисперсии.

Дисперсия, исчисляемая как сумма квадратов отклонений, зависит от числа единиц в группе. Отношение факториальной дисперсии к дисперсии комплекса показывает долю вариации за счет фактора группировки и называется корреляционным отношением.

В дисперсионном анализе применяется и дисперсия, рассчитанная на одну степень свободы варьирования. В этом случае сумма квадратов отклонений делится на число степеней свободы.

Дисперсия на одну степень свободы в однофакторном комплексе составит:

Для дисперсии комплекса число степеней свободы равно числу значений варьирующего признака без одного: Дисперсионный анализ - определение и вычисление с примерами решения для факториальной дисперсии число степеней свободы равно числу групп без одного Дисперсионный анализ - определение и вычисление с примерами решения для случайной дисперсии число степеней свободы равно числу значений результативного признака без числа групп Дисперсионный анализ - определение и вычисление с примерами решения Для определения достоверности влияния фактора группировки находят отношение дисперсий, исчисленных на одну степень свободы, — межгрупповой дисперсии к внутригрупповой дисперсии.

Однофакторный комплекс

Изучение методом дисперсионного анализа действия на результативный признак одного факториального признака требует расчета одного дисперсионного комплекса и называется однофакторным комплексом. Для однофакторных комплексов не требуется пропорциональности групп по их численности, так как они пропорциональны при любом соотношении частот по группам. В однофакторных комплексах вполне применимы свойства дисперсий, которые даны в разделе «Вариационные ряды и их характеристики».

Расчет однофакторного комплекса с малым числом групп может быть иллюстрирован следующим примером.

При изучении действия многих факторов заработной платы выделен один фактор — образование рабочих. Установлены 3 группы этого фактора: начальное образование, семилетнее и среднее образование. Для каждой группы было отобрано с сохранением принципа рандомизации по 3 рабочих. Заработная плата и порядок вычисления дисперсий приведен в следующей таблице:

Дисперсионный анализ - определение и вычисление с примерами решения

Факториальная дисперсия Дисперсионный анализ - определение и вычисление с примерами решения и случайная дисперсия Дисперсионный анализ - определение и вычисление с примерами решения
Обработаем данный однофакторный комплекс по-другому и заполним таблицу 2.

Дисперсионный анализ - определение и вычисление с примерами решения

Используя свойства дисперсий и имея в виду, что в дисперсионном анализе находится не средний квадрат отклонений, а сумма квадратов отклонений, вычислим:

Дисперсионный анализ - определение и вычисление с примерами решения

Дисперсионный анализ - определение и вычисление с примерами решения

Влияние образования на вариацию заработной платы рабочих находится из корреляционного отношения:

Дисперсионный анализ - определение и вычисление с примерами решения
Влияние прочих факторов определится другим корреляционным отношением:

Дисперсионный анализ - определение и вычисление с примерами решения
Сумма этих двух корреляционных отношений должна быть равна 1: Дисперсионный анализ - определение и вычисление с примерами решения

Для определения достоверности влияния данного фактора определяем величину отношения дисперсий Дисперсионный анализ - определение и вычисление с примерами решения где Дисперсионный анализ - определение и вычисление с примерами решения — факториальная дисперсия, рассчитанная на одну степень свободы; Дисперсионный анализ - определение и вычисление с примерами решения—случайная дисперсия, рассчитанная на одну степень свободы.

Число степеней свободы по комплексу равно Дисперсионный анализ - определение и вычисление с примерами решения для факториальной дисперсии Дисперсионный анализ - определение и вычисление с примерами решения для случайной дисперсии Дисперсионный анализ - определение и вычисление с примерами решения

Достоверность влияния данного фактора определяется из сравнения F с некоторой стандартной величиной, исчисляемой по особой формуле, зависящей от числа степеней свободы для факториальной и случайной дисперсий. Таблица стандартных величин дана в приложении IX и определена для вероятностей 0,95 и 0,99. Если F окажется больше стандартного отношения, то вывод о наличии зависимости, основанный на дисперсионном анализе, считается обоснованным; если же F меньше любого стандартного значения, то вывод является необоснованным.

В данном примере дисперсии на одну степень свободы составят:

Дисперсионный анализ - определение и вычисление с примерами решения

Определив величину F по эмпирическим данным, найдем по таблице стандартных отношений дисперсий стандартное F, зная, что число степеней свободы по фактору Дисперсионный анализ - определение и вычисление с примерами решения а по случайным факторам Дисперсионный анализ - определение и вычисление с примерами решения (Величину стандартного F находим интерполированием, так как в приложении даны нечетные числа степеней свободы.)Дисперсионный анализ - определение и вычисление с примерами решения

Следовательно, величина F меньше любого из стандартных отношений и вывод о значительном влиянии фактора образования нельзя считать обоснованным.

Для групп, имеющих большое число единиц, расчет дисперсионного однофакторного комплекса производится по корреляционной таблице.

Корреляционная таблица составляется по правилам, применяющимся при расчетах коэффициента корреляции и корреляционного уравнения. Однако обработка корреляционной решетки проводится особым способом, специфичным для дисперсионного анализа. Для этого к корреляционной таблице приписывается четыре строки и три столбца.

В первой приписанной строке, как и в любой корреляционной таблице, записываются суммы по столбцам, во второй строке— суммы произведений частот на отклонения Дисперсионный анализ - определение и вычисление с примерами решения, в третьей — квадраты этих сумм, в четвертой — результат деления третьей строки на Дисперсионный анализ - определение и вычисление с примерами решения

В первом приписанном столбце записываются суммы частот. Во втором и третьем столбцах находятся суммы накопленных частот. Все эти расчеты приведены в следующей таблице, где рассматривается зависимость объема ампул (у) от их диаметра (k). Вместо абсолютных величин у взяты отклонения:

Дисперсионный анализ - определение и вычисление с примерами решения
Дисперсионный анализ - определение и вычисление с примерами решения

Дисперсионный анализ - определение и вычисление с примерами решения
  Рассчитываем характеристики:
Дисперсионный анализ - определение и вычисление с примерами решения

По величине корреляционного отношения Дисперсионный анализ - определение и вычисление с примерами решения делаем вывод о том, что влияние фактора х оказывается сильным. Для определения достоверности вывода находим число степеней свободы для факториальной дисперсии Дисперсионный анализ - определение и вычисление с примерами решения случайной дисперсии Дисперсионный анализ - определение и вычисление с примерами решения и исчисляем дисперсии на одну степень

свободы: Дисперсионный анализ - определение и вычисление с примерами решения

Дисперсионный анализ - определение и вычисление с примерами решения
Затем вычисляем отношение: Дисперсионный анализ - определение и вычисление с примерами решения

Дисперсионный анализ - определение и вычисление с примерами решения
В таблице стандартных значений F при данных числах свободы Дисперсионный анализ - определение и вычисление с примерами решения и Дисперсионный анализ - определение и вычисление с примерами решения эти величины значительно меньше вычисленных на основе опытных данных. Следовательно, влияние фактора х достоверно. Вывод о существенном влиянии диаметра на объем ампул может с уверенностью считаться подтвердившимся.

Двухфакторный комплекс

При анализе влияния двух факторов на результативный признак решается двухфакторный комплекс. Решение двухфакторного комплекса отличается от решения однофакторного комплекса. При этом имеется в виду, что факторы независимы друг от друга.

Решение двухфакторного комплекса облегчается при пропорциональной численности единиц в группах.

Если изучается действие двух факторов А и В на результативный признак, то каждый фактор делится на группы по фактору А, которые в свою очередь делятся на подгруппы по фактору В.

Фактором А, например, является количество внесенных удобрений в почву, а фактором В — глубина вспашки. Оба фактора влияют на результативный признак — урожайность. Пусть даныг две группы фактора А, каждая из которых разбивается на подгруппы по фактору В. Результат группировки дан в таблице.Дисперсионный анализ - определение и вычисление с примерами решения

Каждый результативный признак имеет два значения. Следовательно, для каждой подгруппы было отобрано по 2 единицы изучаемой совокупности.

Анализ двухфакторного комплекса ответит на два вопроса:

  1. каково суммарное действие обоих факторов;
  2. как велико значение каждого фактора в отдельности и какова роль сочетания факторов.

Проще всего в этом случае предположить, что действует один фактор, распадающийся по сочетанию признаков на 4 группы (общее число подгрупп).

Тогда расчет будет вестись по схеме однофакторного комплекса. Для этого вычислим:

  1. общую дисперсию Дисперсионный анализ - определение и вычисление с примерами решения
  2. факториальную дисперсию Дисперсионный анализ - определение и вычисление с примерами решения
  3. случайную дисперсию Дисперсионный анализ - определение и вычисление с примерами решения
  4. степень влияния объединенных факторов А и В: Дисперсионный анализ - определение и вычисление с примерами решения
  5. определим достоверность влияния объединенных факторов, для чего вычислим:

Однако еще не выяснено действие каждого из факторов и различие их совместного действия в разных комбинациях групп и подгрупп. Для этого решается двухфакторный комплекс, где сначала находятся общая и случайная дисперсии и дисперсии суммарного действия (как и в однофакторном комплексе), а затем частные факториальные дисперсии.

Частные факториальные дисперсии находятся так. Дисперсия по фактору А измеряется вариацией частных средних по
группам фактора A Дисперсионный анализ - определение и вычисление с примерами решения В приведенном примере фактор А разделен на 2 группы. В каждой группе имеется четыре варианта. Средняя по группе Дисперсионный анализ - определение и вычисление с примерами решения Дисперсия этой средней равна сумме квадратов отклонений от общей средней.

Запишем расчет дисперсии по фактору А в табл. 5.Дисперсионный анализ - определение и вычисление с примерами решения

Аналогично вычисляются дисперсии по фактору В. Дисперсия по сочетаниям признаков Дисперсионный анализ - определение и вычисление с примерами решения находится из табл. 6, а также из формулы суммы трех частных дисперсий:
Дисперсионный анализ - определение и вычисление с примерами решения

Способы определения Дисперсионный анализ - определение и вычисление с примерами решения описаны выше. Остается неизвестной величина Дисперсионный анализ - определение и вычисление с примерами решения которая и определяется. Но находить дисперсию по сочетаниям признаков можно только для пропорциональных комплексов.

Для определения дисперсии Дисперсионный анализ - определение и вычисление с примерами решения можно использовать также следующую таблицу.

Дисперсионный анализ - определение и вычисление с примерами решения

Здесь D является первой степенью отклонений. Дисперсионный анализ - определение и вычисление с примерами решения — отклонения средних по подгруппам от общей средней; Дисперсионный анализ - определение и вычисление с примерами решения — отклонения средних по группам Дисперсионный анализ - определение и вычисление с примерами решения от общей средней; Дисперсионный анализ - определение и вычисление с примерами решения — отклонения средних по группам Дисперсионный анализ - определение и вычисление с примерами решения от общей средней; Дисперсионный анализ - определение и вычисление с примерами решения и есть дисперсия по сочетанию признаков.

Разберем изложенное на конкретном примере. Методом дисперсионного анализа изучается влияние внесенных удобрений (факторов А) и глубины вспашки (факторов В) на урожай (у) (см. табл. 7). По фактору А взяты 2 группы участков: хорошо удобренные и мало удобренные.
Дисперсионный анализ - определение и вычисление с примерами решения

По фактору В также 2 группы: с глубокой вспашкой и с мелкой. В каждую группу отобрали методом рэндомизации (случайной выборки) по 2 участка, которые имели следующую урожайность (у): 14; 16; 12; 10; 8; 10; 4; 6.

Общая дисперсия Дисперсионный анализ - определение и вычисление с примерами решенияДисперсионный анализ - определение и вычисление с примерами решения 

Факториальная дисперсия суммарного действия факторов определяется по формуле: Дисперсионный анализ - определение и вычисление с примерами решения Для вычисления необходимо прежде всего найти частные средние по подгруппам: Дисперсионный анализ - определение и вычисление с примерами решения

Дисперсионный анализ - определение и вычисление с примерами решения

Случайная дисперсия выразится: Дисперсионный анализ - определение и вычисление с примерами решенияДисперсионный анализ - определение и вычисление с примерами решения

Вычислим частную факториальную дисперсию по фактору А.Дисперсионный анализ - определение и вычисление с примерами решения

Отношение Дисперсионный анализ - определение и вычисление с примерами решения говорит о том, что удельный вес влияния фактора А составляет 69% суммарного действия факторов А и В.
Отношение  Дисперсионный анализ - определение и вычисление с примерами решения говорит о том, что удельный вес влияния фактора А составляет 59% действия всех факторов. Рассчитаем частную факториальную дисперсию по фактору В в табл. 9.Дисперсионный анализ - определение и вычисление с примерами решения

Влияние фактора В в суммарном влиянии факторов А и В составит Дисперсионный анализ - определение и вычисление с примерами решения или 31%. Влияние фактора В в общем влиянии всех факторов составляет Дисперсионный анализ - определение и вычисление с примерами решения или 14 %.

Вычислим дисперсию по сочетанию факторов АВ, т. е. дисперсию Дисперсионный анализ - определение и вычисление с примерами решения Для этого составим табл. 10. Влияние сочетания факторов равно нулю. Это означает, что в данном комплексе действие одного фактора не зависит от действия другого.

Находим число степеней свободы и определяем дисперсии на одну степень свободы для рассмотрения достоверности влияния факторов.
Дисперсионный анализ - определение и вычисление с примерами решения

Для общей дисперсии число степеней свободы равно: Дисперсионный анализ - определение и вычисление с примерами решения

Дисперсионный анализ - определение и вычисление с примерами решения
для случайной дисперсии Дисперсионный анализ - определение и вычисление с примерами решения

Проверяем, чтобы

Дисперсионный анализ - определение и вычисление с примерами решения

В нашем примере:

Дисперсионный анализ - определение и вычисление с примерами решения

Дисперсии на одну степень свободы составят.
Дисперсионный анализ - определение и вычисление с примерами решения

Определим величину F для каждой дисперсии. Для этого делим каждую факториальную дисперсию на случайную.
Дисперсионный анализ - определение и вычисление с примерами решения

Сравниваем каждое отношение дисперсий F со стандартными величинами, данными в таблице, учитывая число степеней свободы обеих взятых дисперсий.

Для фактора A Дисперсионный анализ - определение и вычисление с примерами решения превышает стандартное отношение. Следовательно, влияние фактора А можно считать достоверным. Для фактора В Дисперсионный анализ - определение и вычисление с примерами решения превышает второе стандартное отношение. Влияние фактора В достоверно. Для сочетания факторов А и В Дисперсионный анализ - определение и вычисление с примерами решения

Для суммарного действия факторов сравниваем Дисперсионный анализ - определение и вычисление с примерами решения со стандартным отношением при данных числах степеней свободы. Оно превышает любую стандартную величину. Значит, суммарное действие обоих факторов весьма достоверно.

Используя свойства дисперсии, можно составить упрощенную схему расчета двухфакторного комплекса. При этом расчет общей дисперсии Дисперсионный анализ - определение и вычисление с примерами решения случайной дисперсии Дисперсионный анализ - определение и вычисление с примерами решения и дисперсии суммарного действия обоих факторов Дисперсионный анализ - определение и вычисление с примерами решенияпроизводится так же, как и в однофакторном комплексе, т. е. путем нахождения вспомогательной величины Н, где Дисперсионный анализ - определение и вычисление с примерами решения

Тогда

Дисперсионный анализ - определение и вычисление с примерами решения

где Дисперсионный анализ - определение и вычисление с примерами решения т. е. исчисляется по той же формуле, что и Н, но только Дисперсионный анализ - определение и вычисление с примерами решения берется по подгруппам.

Дисперсионный анализ - определение и вычисление с примерами решения

Дисперсии по факторам А и В, а также дисперсию по сочетанию факторов АВ находим по тем же формулам. Так, дисперсия по фактору A Дисперсионный анализ - определение и вычисление с примерами решения а дисперсия по фактору В Дисперсионный анализ - определение и вычисление с примерами решения Дисперсию по сочетанию факторов найдем из дисперсии суммарного действия Дисперсионный анализ - определение и вычисление с примерами решения откуда Дисперсионный анализ - определение и вычисление с примерами решения

Вычислим дисперсии по факторам А и В для приведенного выше примера.
Дисперсионный анализ - определение и вычисление с примерами решения

Дисперсионный анализ - определение и вычисление с примерами решения найдена ранее и составляла 104.

Дисперсионный анализ - определение и вычисление с примерами решения что и подтверждает ранее приведенный расчет.

Расчет двухфакторного комплекса при большом числе наблюдений ведется по корреляционной таблице по той же схеме, как и для однофакторного комплекса. Дисперсии можно находить по способу сумм по формулам:
Дисперсионный анализ - определение и вычисление с примерами решения
где Дисперсионный анализ - определение и вычисление с примерами решения — вторые накопленные суммы.

Исследование продолжаем далее по общей схеме дисперсионного анализа.

Анализ дисперсий трехфакторного комплекса ведется по тому же принципу, что и двухфакторного комплекса, только в этом случае будет 3 дисперсии по факторам Дисперсионный анализ - определение и вычисление с примерами решения и 4 дисперсии по сочетанию признаков: Дисперсионный анализ - определение и вычисление с примерами решения

Дисперсионный анализ - определение и вычисление с примерами решения
 

Непропорциональные комплексы

Непропорциональными называются дисперсионные комплексы, в которых не соблюдается пропорциональность численностей вариантов.

В непропорциональных дисперсионных комплексах дисперсия суммарного действия факторов не равна сумме дисперсий по факторам и дисперсии сочетания факторов. Между этими дисперсиями существует следующая связь: Дисперсионный анализ - определение и вычисление с примерами решения

где Дисперсионный анализ - определение и вычисление с примерами решения — величина, зависящая от степени статистических связей, возникающих в непропорциональных комплексах между отдельными факторами вследствие нарушения пропорциональности.

Для пропорциональных комплексов Дисперсионный анализ - определение и вычисление с примерами решения =0. Однако в непропорциональных комплексах не нарушается равенство: Дисперсионный анализ - определение и вычисление с примерами решенияДисперсионный анализ - определение и вычисление с примерами решения так как расчет дисперсий в этом случае происходит по принципам однофакторного комплекса, а однофакторные комплексы всегда пропорциональны.

При решении непропорциональных комплексов создаются затруднения не только при отыскании дисперсий, но также при определении степени влияния каждого фактора, так как сумма частных влияний не равна суммарному влиянию. Влияние каждого фактора определяется при помощи соответствующего корреляционного отношения.

В непропорциональных комплексах общее корреляционное отношение не состоит из суммы частных корреляционных отношений, так как имеется еще слагаемое it, которое не имеет реального смысла и носит условный характер.

Чтобы определить, как влияет каждый из факторов в непропорциональном комплексе, необходимо иметь единую структуру комплекса.

Одним из способов приведения непропорционального комплекса к единой структуре является способ его замены пропорциональным комплексом, в котором частоты осереднены по группам. Когда такая замена произведена, комплекс решается по принципам пропорциональных комплексов в отношении Дисперсионный анализ - определение и вычисление с примерами решенияДисперсионный анализ - определение и вычисление с примерами решения но расчет Дисперсионный анализ - определение и вычисление с примерами решения т. е. дисперсии сочетаний действия , факторов, идет по-другому.

Дисперсионный анализ - определение и вычисление с примерами решения определяется при помощи нахождения отклонений первой степени по схеме: Дисперсионный анализ - определение и вычисление с примерами решения Дисперсионный анализ - определение и вычисление с примерами решенияКвадраты этих отклонений и дают соответствующие дисперсии Дисперсионный анализ - определение и вычисление с примерами решения

Мы не должны при этом смущаться тем обстоятельством, что сумма составляющих дисперсий Дисперсионный анализ - определение и вычисление с примерами решения не равна суммарной дисперсии Дисперсионный анализ - определение и вычисление с примерами решениянайденной в общей части комплекса.

Величину дисперсии Дисперсионный анализ - определение и вычисление с примерами решения разделяют пропорционально полученным величинам дисперсий Дисперсионный анализ - определение и вычисление с примерами решения

Так получается комплекс, общая часть которого совпадает с пропорциональной частью комплекса, а отношения между частными дисперсиями пропорциональны соотношениям частных дисперсий в исходном комплексе.Дисперсионный анализ - определение и вычисление с примерами решения

Схема расчета непропорционального комплекса дана в таблице 12.

Дисперсионный анализ - определение и вычисление с примерами решения

Альтернативный комплекс

Если исследование методом дисперсионного анализа ведется по альтернативному признаку, в котором из n единиц у m единиц имеется данный признак, то расчет ведется несколько по-другому, чем в варьирующих комплексах.

Дисперсия альтернативного комплекса исчисляется по формуле: Дисперсионный анализ - определение и вычисление с примерами решениягде Дисперсионный анализ - определение и вычисление с примерами решения откуда Дисперсионный анализ - определение и вычисление с примерами решения
Используя свойства дисперсии приведем их к расчету по сокращенным формулам:

Дисперсионный анализ - определение и вычисление с примерами решения

Расчет однофакторного альтернативного комплекса удобно вести, как показано в табл. 13, где в качестве группировочного признака выступают различные показатели одного и того же признака. Например, изучая действие режима работы (хотя бы, например, температуры) на качество продукции, мы выделяем несколько групп по этому признаку.

Определение достоверности вывода ведется исходя из соответствия эмпирического F стандартному. Число степеней свободы определяется по формулам: для общей дисперсии Дисперсионный анализ - определение и вычисление с примерами решения для факториальной дисперсии Дисперсионный анализ - определение и вычисление с примерами решения для случайной дисперсии Дисперсионный анализ - определение и вычисление с примерами решения Дисперсия на одну степень свободы определится отношением Дисперсионный анализ - определение и вычисление с примерами решения

Расчет двухфакторного альтернативного комплекса ведется в общей части по тем же правилам и схемам, что и в однофакторном альтернативном комплексе. Расчет же частных дисперсий Дисперсионный анализ - определение и вычисление с примерами решения и Дисперсионный анализ - определение и вычисление с примерами решения лучше вести в специальной таблице типа табл. 12, в которой объединены соответствующие группы и подгруппы m и n.
Дисперсионный анализ - определение и вычисление с примерами решения               

Используя данные табл. 14, будем иметь все необходимое для расчета дисперсий Дисперсионный анализ - определение и вычисление с примерами решения Расчет же дисперсий по сочетанию факторов Дисперсионный анализ - определение и вычисление с примерами решения производим путем вычитания из общей факториальной дисперсии частных дисперсий, т. е. Дисперсионный анализ - определение и вычисление с примерами решения

Дисперсионный анализ - определение и вычисление с примерами решения                 

Достоверность вывода определяется методами, известными из предыдущего изложения.

При помощи дисперсионного анализа сравниваются также средние величины по группам комплекса и устанавливается достоверность разности между ними. Однако изложение этих методов не входит в нашу задачу.

  • Математическая обработка динамических рядов 
  • Корреляция — определение и вычисление
  • Элементы теории ошибок
  • Методы математической статистики
  • Теория статистической проверки гипотез
  • Линейный регрессионный анализ
  • Вариационный ряд
  • Законы распределения случайных величин

Однофакторный дисперсионный анализ: определение, формула и пример

  • Редакция Кодкампа

17 авг. 2022 г.
читать 4 мин


Однофакторный дисперсионный анализ («дисперсионный анализ») сравнивает средние значения трех или более независимых групп, чтобы определить, существует ли статистически значимая разница между соответствующими средними значениями генеральной совокупности.

В этом руководстве объясняется следующее:

  • Мотивация для выполнения однофакторного дисперсионного анализа.
  • Допущения, которые должны быть соблюдены для выполнения однофакторного дисперсионного анализа.
  • Процесс выполнения однофакторного дисперсионного анализа.
  • Пример выполнения однофакторного дисперсионного анализа.

Однофакторный дисперсионный анализ: мотивация

Предположим, мы хотим узнать, приводят ли три разные программы подготовки к экзаменам к разным средним баллам на вступительном экзамене в колледж. Поскольку по всей стране проживают миллионы старшеклассников, было бы слишком много времени и денег, чтобы обратиться к каждому ученику и позволить им использовать одну из программ подготовки к экзаменам.

Вместо этого мы могли бы выбрать три случайные выборки из 100 студентов из населения и позволить каждой выборке использовать одну из трех программ подготовки к экзамену для подготовки к экзамену. Затем мы могли бы записывать баллы для каждого студента после сдачи экзамена.

Отбор образцов из популяции

Однако практически гарантировано, что средний балл за экзамен между тремя выборками будет хотя бы немного отличаться. Вопрос в том, является ли эта разница статистически значимой.К счастью, однофакторный дисперсионный анализ позволяет нам ответить на этот вопрос.

Однофакторный дисперсионный анализ: предположения

Чтобы результаты однофакторного дисперсионного анализа были достоверными, должны выполняться следующие допущения:

1. Нормальность. Каждая выборка была взята из нормально распределенной популяции.

2. Равные дисперсии — дисперсии совокупностей, из которых взяты выборки, равны. Вы можете использовать тест Бартлетта, чтобы проверить это предположение.

3. Независимость.Наблюдения в каждой группе независимы друг от друга, а наблюдения внутри групп были получены путем случайной выборки.

Прочтите эту статью , чтобы получить подробную информацию о том, как проверить эти предположения.

Однофакторный дисперсионный анализ: процесс

Однофакторный дисперсионный анализ использует следующие нулевую и альтернативную гипотезы:

  • H 0 (нулевая гипотеза): µ 1 = µ 2 = µ 3 = … = µ k (все средние значения совокупности равны)
  • H 1 (альтернативная гипотеза): по крайней мере одно среднее значение популяции отличаетсяот остальных

Обычно вы будете использовать какое-либо статистическое программное обеспечение (такое как R, Excel, Stata, SPSS и т. д.) для выполнения однофакторного дисперсионного анализа, поскольку выполнять его вручную неудобно.

Независимо от того, какое программное обеспечение вы используете, в качестве вывода вы получите следующую таблицу:

| Источник | Сумма квадратов (СС) | дф | Средние квадраты (MS) | Ф | п | | — | — | — | — | — | — | | Уход | ССР | дф р | МСР | МСР/МСЭ | F df r , df е | | Ошибка | ССЭ | дф е | MSE |  |  | | Общий | SST | дф т |  |  |  |

куда:

  • SSR: сумма квадратов регрессии
  • SSE: сумма квадратов ошибок
  • SST: общая сумма квадратов (SST = SSR + SSE)
  • df r : степени свободы регрессии (df r = k-1)
  • df e : ошибки степеней свободы (df e = nk)
  • df t : общее количество степеней свободы (df t = n-1)
  • k: общее количество групп
  • n: общее количество наблюдений
  • MSR: средний квадрат регрессии (MSR = SSR/df r )
  • MSE: среднеквадратическая ошибка (MSE = SSE/df e )
  • F: статистика F-теста (F = MSR/MSE).
  • p: значение p, соответствующее F dfr, dfe

Если p-значение меньше выбранного вами уровня значимости (например, 0,05), то вы можете отклонить нулевую гипотезу и сделать вывод, что по крайней мере одно из средних значений генеральной совокупности отличается от других.

Примечание. Если вы отклоняете нулевую гипотезу, это означает, что по крайней мере одно из средних значений совокупности отличается от других, но таблица ANOVA не указывает , какие средние значения совокупности отличаются. Чтобы определить это, вам необходимо выполнить апостериорные тесты , также известные как тесты «множественных сравнений».

Однофакторный дисперсионный анализ: пример

Предположим, мы хотим знать, приводят ли три разные программы подготовки к экзаменам к разным средним баллам на определенном экзамене. Чтобы проверить это, мы набираем 30 студентов для участия в исследовании и разделяем их на три группы.

Студенты в каждой группе случайным образом назначаются для использования одной из трех программ подготовки к экзамену в течение следующих трех недель для подготовки к экзамену. По истечении трех недель все студенты сдают один и тот же экзамен.

Ниже представлены результаты экзаменов для каждой группы:

Пример однофакторных данных ANOVA

Чтобы выполнить однофакторный дисперсионный анализ этих данных, мы будем использовать калькулятор однофакторного дисперсионного анализа Statology со следующими входными данными:

Пример расчета однофакторного дисперсионного анализа

Из выходной таблицы мы видим, что статистика F-теста равна 2,358 , а соответствующее значение p равно 0,11385 .

Интерпретация выходной таблицы ANOVA

Поскольку это p-значение не меньше 0,05, мы не можем отвергнуть нулевую гипотезу.

Это означает , что у нас нет достаточных доказательств, чтобы сказать, что существует статистически значимая разница между средними экзаменационными баллами трех групп.

Дополнительные ресурсы

В следующих статьях объясняется, как выполнить однофакторный дисперсионный анализ с использованием различных статистических программ:

Как выполнить однофакторный дисперсионный анализ в Excel
Как выполнить односторонний ANOVA в R
Как выполнить односторонний ANOVA в Python
Как выполнить односторонний ANOVA в SAS
Как выполнить однофакторный дисперсионный анализ в SPSS
Как выполнить односторонний ANOVA в Stata
Как выполнить однофакторный дисперсионный анализ на калькуляторе TI-84
Онлайн-калькулятор однофакторного дисперсионного анализа

to continue to Google Sites

Not your computer? Use Guest mode to sign in privately. Learn more

Дисперсионный анализ

В примерах в данной статье данные генерятся при каждой загрузке страницы. Если Вы хотите посмотреть пример с другими значениями —
обновите страницу .

ANOVA в статистике — это мощный инструмент для определения влияния различных групп наблюдений между собой.
Дисперсионный анализ был введён Фишером — английским учёным, сделавшим огромный вклад в развитие науки.
ANOVA — это акроним от ANalysis Of VAriance (дисперсионный анализ).

Пример

Предположим, Вы хотите эмпирическим методом провести исследование бензина на качество, для этого вы заправляете бак
на одной заправке и проезжаете n километров, повторяете такой эксперимент, скажем, пять раз, затем проводите
такой же эксперимент, только на другой заправке. У Вас два набора данных — заправка A и заправка B. Разумеется,
цифры разбегаются, но всё же есть некоторая зависимость, так вот, что бы определить, влияет ли заправка на
расход бензина (или данные не связаны между собой) Вы используете дисперсионный анализ.

Дисперсионный анализ позволяет определить какой из факторов влияет больше, внутригрупповой или межгрупповой. В
примере выше Вы сможете определить, насколько влияет на расход бензина выбор заправки. В этом суть дисперсионного
анализа: узнать, является ли выбранный фактор значимым для выбранных наблюдений.

В некотором смысле, дисперсионный анализ похож на регрессионный и корреляционный анализы, т.к. позволяет
определить влияние переменных друг на друга.

Анализ

В теории, для анализа дисперсии выстраивается простая модель, схожая с изучаемой в анализе временых рядов.

Модель

Модель дисперсионного анализа включает в себя среднее значение, эффект эксперимента и случайную ошибку:

y = μ + τ + ε
τ — эффект эксперимента, ε — случайная ошибка

Однофакторный

Однофакторный дисперсионный анализ рассматривает влияние одного критерия, делается это так: мы проводим два эксперимента, в одном из них
включаем дополнительный фактор и анализируем, внёс ли этот фактор изменения. В качестве исходных данных рассмотрим
результаты ряда экспериментов:

N E1 E2 E3 E4
1 37 57 93 48
2 44 53 108 41
3 59 43 84 41
4 44 36 75 39
5 55 46 139 40
μi 47.8 47 99.8 41.8

μ = (47.8 + 47 + 99.8 + 41.8) / 4 = 59.1

Квадрат ошибок внутри групп (Square Sum within group):
SSw = ΣiΣj(yij — μi)2 = 3162.4

Квадрат ошибок между группами (Square Sum between group):
SSb = Σii — μ)2 = 2229.88

Учитывая степени свободы, ожидаемое среднее:
MSw = SSw / a(n-1) = 210.83
MSb = SSb / a-1 = 557.47

Значение Fкрит :
F0 = MSb/MSw = 2.644

Тест Фишера: если значение F0 окажется больше чем значение F λ,4,15, значит фактор оказывает влияние.

Для n = 20 и a = 5, Fλ,n-a,a-1 = Fλ,15,4 = 5,86
Поскольку F0 = 2.644 < 5.86, то принимаем, что введённый фактор не оказал влияния на результаты эксперимента.

Двухфакторный

При двухфакторном анализе выдвигаются три гипотезы на проверку:

  • Факторы А и В не оказывают влияния на результат
  • Фактор А не оказывает влияния на результат
  • Фактор B не оказывает влияния на результат

Для проведения двухфакторного анализа необходимо составить группы результатов: несколько измерений для всех значения каждого из факторов,
т.е.:

A1 A2
B1 X1a1,b1…XNa1,b1 X1a1,b2…XNa1,b2
B2 X1a1,b2…XNa1,b2 X1a1,b2…XNa1,b2

Далее подсчитывается среднее значение для каждого значения факторов, т.е. среднее для A1, среднее для В1 и т.д. Затем подсчитывается
общее среднее для всех результатов. Зададимся количеством критериев: k = 2 (количество критериев А) и m = 2 (количество критериев В).

T = ΣΣΣxijk
Сумма элементов под влиянием фактора A:
TAi = Σxi·k
Сумма элементов под влиянием фактора B:
TBj = Σx·jk
Сумма элементов под влиянием фактора AB:
TAiBj = Σxij·

SST = Σx2ijk — T2/N
SSA = ΣT2Ai/n·m — T2/N
SSB = ΣT2Bj/n·k — T2/N
SSAB = ΣΣT2AiBj/n — SSA — SSB — T2/N
SSE = ΣΣΣx2ijk — ΣΣT2AiBj/n

SST = SSA + SSB + SSAB + SSE

MSE = SSE/(n-1)·m·k
MSA = SSA/k-1
MSB = SSB/m-1
MSAB = SSAB/(m-1)·(k-1)

Тест «Критерий A не оказывает влияние на результат», ν1 = k-1:
FA = MSA/MSE
Тест «Критерий B не оказывает влияние на результат», ν1 = m-1:
FB = MSB/MSE
Тест «Критерии A и B не оказывают влияние на результат», ν1 = (k-1)(m-1):
Fint = MSAB/MSE

Для каждого F, если F > F α,ν12, то гипотеза отвергается.
ν2 = N-mk

Многофакторный

Многофакторный анализ аналогичен двухфакторному — проводятся те же операции, но критерии группируются
и итеративно находится влияние каждого из факторов.

С повторными измерениями

Дисперсионный анализ с повторными измерениями озночает, что для каждого критерия производилось несколько
замеров случайной величины для получения более точного результата (поскольку в ANOVA) используется
внутригрупповая сумма квадратов.

Применение

Дисперсионный анализ применяют в самых различных отраслях науки и производства тогда, когда необходимо изучить
зависимость критериев на различие средних значений, при этом сравнивается не среднее значение, а разброс
результатов вокруг среднего значения, т.е. дисперсию.

Решение задач

В качестве примера приведём задачу из метрологии. На заводе размещены пять станков, на которых производят валы.
Необходимо определить, влияет ли выбор станка или подготовка работника на результат производства. Для анализа
производят замеры для каждого станка и работника, в результате получается таблица:

Оператор 1
М1 30.332 30.331 30.318 30.326 30.324 30.319 30.37 30.346 30.333 30.37
М2 30.648 30.577 30.324 30.419 30.844 30.558 30.31 30.897 30.451 30.693
М3 30.375 30.34 30.384 30.31 30.369 30.364 30.341 30.314 30.376 30.314
М4 30.343 30.357 30.348 30.3 30.329 30.369 30.354 30.323 30.316 30.357
М5 30.683 30.418 30.45 30.542 30.659 30.521 30.324 30.41 30.54 30.613
Оператор 2
М1 30.482 30.343 30.355 30.691 30.785 30.683 30.46 30.696 30.642 30.789
М2 30.414 30.303 30.442 30.571 30.504 30.472 30.598 30.502 30.423 30.368
М3 30.274 30.25 30.232 30.27 30.248 30.297 30.275 30.231 30.271 30.3
М4 30.331 30.307 30.325 30.318 30.394 30.372 30.391 30.326 30.389 30.339
М5 30.927 30.404 30.601 30.779 30.352 30.395 30.809 30.827 30.619 30.664

Воспользуемся методом двухфакторного анализа, фактор А — оператор, фактор В — станок. Рассчитаем суммы квадратов,
для этого необходимо рассчитать значение среднего для каждой из групп:

T TA1 TA2 TB1 TB2 TB3 TB4 TB5
3044.173 1521.133 1523.04 609.295 610.318 606.135 606.888 611.537

SSA = 0.036
SSB = 1.04
SSAB = 0.463
SSE = 1.214

MSA = 0.036
MSB = 0.26
MSAB = 0.116
MSE = 0.304

FA = 0.118
FB = 0.855
FAB = 0.382

Критические значения для теста Фишера:
Fcrit A = F0.1, 1, 90 = 2.77
Fcrit B = F0.1, 4, 90 = 2.01
Fcrit AB = F0.1, 4, 90 = 2.01

Таблица результатов:

Влияние станка на результат Да 0.118 < 2.77
Влияние квалификации работника на результат Да 0.855 < 2.01
Взаимное влияние квалификации работника и выбора станка на результат Да 0.382 < 2.01

В excel/Open Calc

Для решения дисперсионного анализа в электронной таблице Вам потребуются следующие формулы:

sumproduct Сумма произведений, используется для нахождения суммы квадратов
finv Обратное значение распределения F — критерий Фишера

Таблица для скачивания в форматах ods и
xls.

Скачать статью в формате PDF.

Автор статьи:

Дата редакции статьи: 19.12.2019

Вам понравилась статья?
/

Просмотров: 10 560


Понравилась статья? Поделить с друзьями:
  • Configure python interpreter pycharm как исправить
  • Ребенок обрезал челку как исправить
  • Как найти швею в санкт петербурге
  • Как составить трудовой договор медицинского работника
  • Как найти площадь ноги по физике