Как найти альфа критическое

Критическое значение в статистике важно для точного представления ряда характеристик. Помимо обоснованности и точности, критическое значение может быть важным для опровержения гипотез при их проверке. Если вы изучаете курс статистики или просто интересуетесь тем, как работают эти принципы, понимание критического значения и способов его расчета важно для определения других статистических показателей, включая предел погрешности и значимость.

В этой статье мы разберем понятие критического значения и как рассчитать критическое значение, а также приведем пример подхода к использованию критического значения с помощью p-значения.

Что такое критическое значение?

В статистике критическое значение — это величина, которую статистики используют для расчета пределов погрешности в наборе данных, и выражается она следующим образом:

Критическая вероятность (p*) = 1 — (Альфа 2), где Альфа равна 1 — (уровень доверия 100).

Критическое значение можно выразить двумя способами: как Z-скор, связанный с кумулятивной вероятностью, и как критическую t-статистику, которая равна критической вероятности. Кроме того, критическое значение описывает несколько характеристик погрешности, которые статистики могут использовать для определения достоверности данных, которые они изучают.

Например, предположим, что статистик анализирует популяционное исследование о влиянии солнечного света на расстройства настроения. В пределах выборочной совокупности существует предел погрешности, который описывает частоту возникновения любых расхождений в наборе данных, например, любых выбросов.

В чем важность критической стоимости?

Критическое значение чрезвычайно важно с точки зрения оценки достоверности, точности и диапазона, в котором могут возникать ошибки или расхождения в пределах выборочной совокупности. Эта величина является существенным фактором при расчете погрешности. Аналогичным образом, критическое значение может дать вам представление о характеристиках оцениваемой выборки.

Например, выражение критического значения в виде t-статистики важно для точного измерения небольших объемов выборки или наборов данных, где стандартное отклонение неизвестно. Выражение критического значения в виде кумулятивной вероятности, или Z-score, позволяет более точно оценить более крупный набор данных, обычно с 40 или более выборками в наборе. Критическое значение становится чрезвычайно важным для оценки достоверности и точности, а также расхождений между различными размерами изучаемых вами популяций.

Как рассчитать критическое значение

Расчет критического значения набора данных достаточно прост. Вы также можете выразить критическое значение одним из двух способов, в зависимости от размера вашей выборки. Следующие шаги дают представление о том, как это сделать:

1. Вычислите значение альфа

Найдите значение альфа перед расчетом критической вероятности по формуле альфа-значение (?) = 1 — (уровень доверия 100). Уровень доверия представляет собой вероятность того, что статистический параметр также верен для измеряемой совокупности. Это значение обычно представлено в процентах. Например, уровень доверия 95% в пределах выборочной совокупности означает, что конкретный критерий с вероятностью 95% верен для всей совокупности. Используя уровень доверия 95%, вы завершите формулу, чтобы найти значение альфа:

Альфа-величина = 1 — (95100) = 1 — (0.95) = 0.05. В данном случае значение альфа равно 0.05.

2. Вычислите критическую вероятность

Используя значение альфа из первой формулы, рассчитайте критическую вероятность. Это и будет критическое значение, которое затем можно выразить в виде t-статистики или Z-score. Используя альфа-значение предыдущего примера, равное 0.05, заполните формулу для нахождения критической вероятности:

Критическая вероятность (p*) = 1 — (0.05 2) = 1 — (0.025) = 0.975. Критическая вероятность в этом примере равна 0.975, или 97.5%.

3. Используйте критическую t-статистику для небольших выборочных совокупностей

Если вы измеряете небольшой объем выборки, критическая t-статистика является подходящим выражением для критической вероятности. Выразите критическую вероятность 97.5% как t-статистика:

Степень свободы (df) = размер выборки — 1. Это означает, что количество выборок в вашем исследовании, вычтенное из единицы, будет равно степени свободы. Если объем выборки составляет 25, вычтите из этого значения единицу, чтобы получить степень свободы. В данном случае это будет 24.

4. Выразите критическое значение в виде Z-балла для больших наборов данных

Для совокупности, размер которой превышает 40 выборок в наборе, критическое значение можно выразить в виде Z-скорлупы. Z-шкала должна иметь кумулятивную вероятность, равную критической вероятности. Кумулятивная вероятность относится к вероятности того, что случайная величина будет меньше или равна определенному значению. Эта вероятность должна быть равна критической вероятности, или критическому значению.

Типы систем критических значений

Вы можете использовать различные типы систем тестирования критического значения для оценки статистической значимости данной совокупности или выборки, которую вы изучаете. Статистическая значимость скажет вам, являются ли результаты, полученные в результате ваших тестов, достоверными. Вот типы систем критических значений, которые статистики используют при расчете значимости:

Хи-квадраты

Хи-квадраты бывают двух типов: тесты добротности и независимости хи-квадратов. Тест хи-квадрат помогает определить, соответствует ли небольшой набор выборочных данных всей популяции. В тесте независимости хи-квадрат вы сравниваете две переменные, чтобы определить связь между ними.

T-коэффициенты

Т-коэффициенты являются результатом стандартизированных тестов. Например, SATs является одним из примеров стандартизированного теста, который может привести к t-баллам. t-балл в статистике позволяет преобразовать индивидуальный тестовый балл в стандартизированную форму, с которой можно сравнивать другие тестовые баллы.

Z-коэффициенты

Z-баллы — это стандартные оценки, которые вы получаете из набора данных. Z-коэффициент покажет вам, как далеко данная точка данных находится от среднего значения вашей выборки. Этот тип критического значения покажет вам, на сколько стандартных отклонений выше или ниже необработанного среднего балла в вашей популяции.

Пример

Следующий пример показывает, как можно вычислить критическое значение (критическую вероятность) выборочной совокупности, используя подход p-value (или критической вероятности):

Предположим, вы хотите сравнить вероятность того, что тестовая статистика будет больше или меньше уровня значимости, или альфа-значения, вашей выборочной совокупности. Вы можете рассчитать критическое значение с помощью p-значения, или критической вероятности. Это означает, что p-значение будет соответствовать вероятности получения выборочных данных, которые так же экстремальны, как и исходная тестовая статистика.

Если p-значение вашей проверки гипотезы равно 0.01, например, тогда вы можете отвергнуть нулевую гипотезу при любом уровне значимости, большем или равном 0.01. Если ваш уровень значимости меньше или равен 0.01, вы не отвергнете нулевую гипотезу. p-значение 0.01 в этом случае будет равно критическому значению. Кроме того, это значение будет полезно для оценки силы и достоверности доказательств против нулевой гипотезы без конкретной ссылки на ваш уровень значимости.


  Перевод


  Ссылка на автора

Обычно, если не стандартно, интерпретируют результаты статистических проверок гипотез, используя p-значение.

Не все реализации статистических тестов возвращают p-значения. В некоторых случаях вы должны использовать альтернативы, такие как критические значения. Кроме того, критические значения используются при оценке ожидаемых интервалов для наблюдений от населения, например, в интервалах толерантности.

В этом руководстве вы узнаете критические значения, почему они важны, как они используются и как их рассчитать в Python с использованием SciPy.

После завершения этого урока вы узнаете:

  • Примеры статистических проверок гипотез и их распределений, из которых можно рассчитать и использовать критические значения.
  • Как именно критические значения используются в одностороннем и двухстороннем тестировании статистических гипотез.
  • Как рассчитать критические значения для распределений Гаусса, Стьюдента и Хи-квадрата.

Давайте начнем.

Обзор учебника

Этот урок разделен на 4 части; они есть:

  1. Зачем нам нужны критические ценности?
  2. Что такое критическая ценность?
  3. Как использовать критические значения
  4. Как рассчитать критические значения

Зачем нам нужны критические ценности?

Многие статистические тесты гипотез возвращают p-значение, которое используется для интерпретации результатов теста.

Некоторые тесты не возвращают значение p, что требует альтернативного метода для прямой интерпретации вычисленной статистики теста.

Статистика, рассчитанная с помощью теста статистической гипотезы, может быть интерпретирована с использованием критических значений из распределения статистики теста.

Ниже приведены некоторые примеры тестов статистических гипотез и их распределений, из которых можно рассчитать критические значения:

  • Z-тест: Распределение Гаусса.
  • Студенческий т-тест: Студенческий т-дистрибутив.
  • Тест хи-квадратРаспределение хи-квадрат.
  • ANOVA: F-распределение.

Критические значения также используются при определении интервалов для ожидаемых (или неожиданных) наблюдений в распределениях. Расчет и использование критических значений может быть целесообразным при количественной оценке неопределенности оценочных статистических данных или интервалов, таких как доверительные интервалы и интервалы допуска.

Что такое критическая ценность?

критическое значение определяется в контексте распределения населения и вероятности.

Наблюдение от населения со значением, равным или меньшим, чем критическое значение с заданной вероятностью.

Мы можем выразить это математически следующим образом:

Pr[X <= critical value] = probability

кудаPrэто расчет вероятности,Иксявляются наблюдениями от населения,critica_valueрассчитанное критическое значение, ивероятностьэто выбранная вероятность.

Критические значения рассчитываются с использованием математической функции, в которой вероятность указана в качестве аргумента. Для большинства распространенных распределений значение не может быть рассчитано аналитически; вместо этого он должен быть оценен с использованием численных методов. Исторически сложилось так, что таблицы предварительно рассчитанных критических значений приводятся в приложениях к учебникам статистики для справочных целей.

Критические значения используются в тестировании статистической значимости. Вероятность часто выражается как значение, обозначаемое как строчная греческая буква альфа (а), которая является перевернутой вероятностью.

probability = 1 - alpha

Стандартные альфа-значения используются при расчете критических значений, выбираются по историческим причинам и постоянно используются по соображениям согласованности. Эти альфа-значения включают в себя:

  • 1% (альфа = 0,01)
  • 5% (альфа = 0,05)
  • 10% (альфа = 0,10)

Критические значения обеспечивают альтернативный и эквивалентный способ интерпретации статистических тестов гипотез р-значение,

Как использовать критические значения

Рассчитанные критические значения используются в качестве порога для интерпретации результатов статистического теста.

Значения наблюдений в популяции за пределами критического значения часто называют «критическая область» или «область отказа«.

Критическое значение: значение, указанное в таблицах для указанных статистических тестов, показывающее, при каком вычисленном значении нулевая гипотеза может быть отклонена (вычисленная статистика попадает в область отклонения).

— Страница 265, Справочник по методам исследования: руководство для практиков и студентов по общественным наукам, 2003.

Статистический тест может быть односторонний или двусторонний,

Односторонний тест

Односторонний тест имеет одно критическое значение, например слева или справа от распределения.

Часто односторонний критерий имеет критическое значение справа от распределения для несимметричных распределений (таких как распределение хи-квадрат).

Статистика сравнивается с рассчитанным критическим значением. Если статистика меньше или равна критическому значению, нулевая гипотеза статистического теста не может быть отклонена. В противном случае он отклонен

Мы можем обобщить эту интерпретацию следующим образом:

  • Тестовая статистика & lt; Критическое значение: Не в состоянии отклонить нулевую гипотезу статистического теста.
  • Тестовая статистика = & gt; Критическое значениеОтклонить нулевую гипотезу статистического теста.

Двусторонний тест

Двухсторонний тест имеет два критических значения, по одному на каждой стороне распределения, которое часто считается симметричным (например, распределение Гаусса и Стьюдента-t).

При использовании двустороннего теста уровень значимости (или альфа), используемый при расчете критических значений, должен делиться на 2. Критическое значение будет затем использовать часть этой альфа на каждой стороне распределения.

Чтобы сделать этот бетон, рассмотрите альфа 5%. Это будет разделено, чтобы получить два альфа-значения 2,5% по обе стороны от распределения с областью принятия в середине распределения 95%.

Мы можем обратиться к каждому критическому значению как к нижнему и верхнему критическим значениям для левого и правого распределения соответственно. Статистические значения теста, большие или равные нижнему критическому значению и меньшие или равные верхнему критическому значению, указывают на неспособность отклонить нулевую гипотезу. Принимая во внимание, что значения статистики теста меньше, чем нижнее критическое значение и больше, чем верхнее критическое значение, указывают на отклонение нулевой гипотезы для теста.

Мы можем обобщить эту интерпретацию следующим образом:

  • Нижний CR & lt; Тестовая статистика & lt; Верхний CR: Отказ от отклонения нулевой гипотезы статистического теста.
  • Тестовая статистика & lt; = нижний CR ИЛИ Тестовая статистика & gt; = верхний CRОтклонить нулевую гипотезу статистического теста.

Если распределение тестовой статистики симметрично относительно среднего значения, равного нулю, то мы можем сократить проверку, сравнив абсолютное (положительное) значение тестовой статистики с верхним критическим значением.

  • | Тестовая статистика | & Lt; Верхняя критическая ценность: Отказ от отклонения нулевой гипотезы статистического теста.

куда| Тестовая статистика |является абсолютным значением вычисленной статистики теста.

Как рассчитать критические значения

Функции плотности возвращают вероятность наблюдения в распределении. Напомним определения PDF и CDF следующим образом:

  • Функция плотности вероятности (PDF)Возвращает вероятность для наблюдения, имеющего конкретное значение из распределения.
  • Функция накопленной плотности (CDF)Возвращает вероятность для наблюдения, равную или меньшую, чем конкретное значение из распределения.

Чтобы рассчитать критическое значение, нам требуется функция, которая с учетом вероятности (или значимости) будет возвращать значение наблюдения из распределения.

В частности, нам требуется обратная функция кумулятивной плотности, где с учетом вероятности нам дается значение наблюдения, которое меньше или равно вероятности. Это называется функцией процента (PPF), или, в более общем смысле, квантильная функция,

  • Функция точки процента (PPF)Возвращает значение наблюдения для предоставленной вероятности, которое меньше или равно предоставленной вероятности из распределения.

В частности, значение из распределения будет равно или меньше значения, возвращенного из PPF с указанной вероятностью.

Давайте сделаем этот бетон с тремя распределениями, из которых обычно требуется вычислять критические значения. А именно, распределение Гаусса, t-распределение Стьюдента и распределение хи-квадрат.

Мы можем рассчитать функцию процента в SciPy, используяППФ ()функция на данном распределении. Следует также отметить, что вы также можете рассчитатьППФ ()используя обратную функцию выживания под названиемISF ()в SciPy. Это упоминается, поскольку вы можете увидеть использование этого альтернативного подхода в стороннем коде.

Гауссовские критические значения

В приведенном ниже примере вычисляется функция процентной точки для 95% по стандартному распределению Гаусса.

# Gaussian Percent Point Function
from scipy.stats import norm
# define probability
p = 0.95
# retrieve value <= probability
value = norm.ppf(p)
print(value)
# confirm with cdf
p = norm.cdf(value)
print(p)

При запуске примера сначала выводится значение, которое отмечает 95% или менее наблюдений из распределения около 1,65. Это значение затем подтверждается путем извлечения вероятности наблюдения из CDF, которая возвращает 95%, как и ожидалось.

Мы можем видеть, что значение 1,65 совпадает с нашими ожиданиями в отношении числа стандартных отклонений от среднего значения, которые покрывают 95% распределения в 68–95–99,7 правило,

1.6448536269514722
0.95

Студенческие т Критические ценности

В приведенном ниже примере вычисляется функция процентного пункта для 95% для стандартного t-распределения Стьюдента с 10 степенями свободы.

# Student t-distribution Percent Point Function
from scipy.stats import t
# define probability
p = 0.95
df = 10
# retrieve value <= probability
value = t.ppf(p, df)
print(value)
# confirm with cdf
p = t.cdf(value, df)
print(p)

Выполнение примера возвращает значение около 1,812 или менее, которое покрывает 95% наблюдений из выбранного распределения. Вероятность значения затем подтверждается (с незначительной ошибкой округления) через CDF.

1.8124611228107335
0.949999999999923

Критические значения хи-квадрат

В приведенном ниже примере вычисляется функция процентной точки для 95% для стандартного распределения Хи-квадрат с 10 степенями свободы.

# Chi-Squared Percent Point Function
from scipy.stats import chi2
# define probability
p = 0.95
df = 10
# retrieve value <= probability
value = chi2.ppf(p, df)
print(value)
# confirm with cdf
p = chi2.cdf(value, df)
print(p)

При запуске примера сначала вычисляется значение 18,3 или менее, которое охватывает 95% наблюдений из распределения. Вероятность этого наблюдения подтверждается его использованием в качестве входных данных для CDF.

18.307038053275143
0.95

Дальнейшее чтение

Этот раздел предоставляет больше ресурсов по теме, если вы хотите углубиться.

книги

  • Справочник по методам исследования: руководство для практиков и студентов по общественным наукам, 2003.

API

  • API scipy.stats.norm
  • scipy.stats.t API
  • API scipy.stats.chi2

статьи

  • Критическая ценность в Википедии
  • P-значение в Википедии
  • Одно- и двусторонний тесты в Википедии
  • Квантильная функция в Википедии
  • 68–95–99.7 правило в Википедии

Резюме

В этом руководстве вы обнаружили критические значения, почему они важны, как они используются и как их вычислить в Python с использованием SciPy.

В частности, вы узнали:

  • Примеры статистических проверок гипотез и их распределений, из которых можно рассчитать и использовать критические значения.
  • Как именно критические значения используются в одностороннем и двухстороннем тестировании статистических гипотез.
  • Как рассчитать критические значения для распределений Гаусса, Стьюдента и Хи-квадрата.

У вас есть вопросы?
Задайте свои вопросы в комментариях ниже, и я сделаю все возможное, чтобы ответить.

Проверка статистических гипотез

  1. Понятие о статистической гипотезе
  2. Уровень значимости при проверке гипотезы
  3. Критическая область
  4. Простая гипотеза и критерии согласия
  5. Критерий согласия (X^2) Пирсона
  6. Примеры

п.1. Понятие о статистической гипотезе

Статистическая гипотеза – это предположение о виде распределения и свойствах случайной величины в наблюдаемой выборке данных.

Прежде всего, мы формулируем «рабочую» гипотезу. Желательно это делать не на основе полученных данных, а исходя из природы и свойств исследуемого явления.
Затем формулируется нулевая гипотеза (H_0), отвергающая нашу рабочую гипотезу.
Наша рабочая гипотеза при этом называется альтернативной гипотезой (H_1).
Получаем, что (H_0=overline{H_1}), т.е. нулевая и альтернативная гипотеза вместе составляют полную группу несовместных событий.

Основной принцип проверки гипотезы – доказательство «от противного», т.е. опровергнуть гипотезу (H_0) и тем самым доказать гипотезу (H_1).

В результате проверки гипотезы возможны 4 исхода:

Верная гипотеза
(H_0) (H_1)
Принятая гипотеза (H_0) True Negative
(H_0) принята верно
False Negative
(H_0) принята неверно
Ошибка 2-го рода
(H_1) False Positive
(H_0) отвергнута неверно
(H_1) принята неверно
Ошибка 1-го рода
True Positive
(H_0) отвергнута верно
(H_1) принята верно

Ошибка 1-го рода – «ложная тревога».
Ошибка 2-го рода – «пропуск события».

Например:
К врачу обращается человек с некоторой жалобой.
Гипотеза (H_1) — человек болен, гипотеза (H_0) — человек здоров.
True Negative – здорового человека признают здоровым
True Positive – больного человека признают больным
False Positive – здорового человека признают больным – «ложная тревога»
False Negative – больного человека признают здоровым – «пропуск события»

Уровень значимости при проверке гипотезы

Статистический тест (статистический критерий) – это строгое математическое правило, по которому гипотеза принимается или отвергается.
В статистике разработано множество критериев: критерии согласия, критерии нормальности, критерии сдвига, критерии выбросов и т.д.

Уровень значимости – это пороговая (критическая) вероятность ошибки 1-го рода, т.е. непринятия гипотезы (H_0), когда она верна («ложная тревога»).
Требуемый уровень значимости α задает критическое значение для статистического теста.

Например:
Уровень значимости α=0,05 означает, что допускается не более чем 5%-ая вероятность ошибки.

В результате статистического теста на конкретных данных получают эмпирический уровень значимости p. Чем меньше значение p, тем сильнее аргументы против гипотезы (H_0).

Обобщив практический опыт, можно сформулировать следующие рекомендации для оценки p и выбора критического значения α:

Уровень
значимости (p)
Решение о гипотезе (H_0) Вывод для гипотезы (H_1)
(pgt 0,1) (H_0) не может быть отклонена Статистически достоверные доказательства не обнаружены
(0,5lt pleq 0,1) Истинность (H_0) сомнительна, неопределенность Доказательства обнаружены на уровне статистической тенденции
(0,01lt pleq 0,05) Отклонение (H_0), значимость Обнаружены статистически достоверные (значимые) доказательства
(pleq 0,01) Отклонение (H_0), высокая значимость Доказательства обнаружены на высоком уровне значимости

Здесь под «доказательствами» мы понимаем результаты наблюдений, свидетельствующие в пользу гипотезы (H_1).

Традиционно уровень значимости α=0,05 выбирается для небольших выборок, в которых велика вероятность ошибки 2-го рода. Для выборок с (ngeq 100) критический уровень снижают до α=0,01.

п.3. Критическая область

Критическая область – область выборочного пространства, при попадании в которую нулевая гипотеза отклоняется.
Требуемый уровень значимости α, который задается исследователем, определяет границу попадания в критическую область при верной нулевой гипотезе.

Различают 3 вида критических областей

Критическая область на чертежах заштрихована.
(K_{кр}=chi_{f(alpha)}) определяют границы критической области в зависимости от α.
Если эмпирическое значение критерия попадает в критическую область, гипотезу (H_0) отклоняют.
Пусть (K*) — эмпирическое значение критерия. Тогда:
(|K|gt K_{кр}) – гипотеза (H_0) отклоняется
(|K|leq K_{кр}) – гипотеза (H_0) не отклоняется

п.4. Простая гипотеза и критерии согласия

Пусть (x=left{x_1,x_2,…,x_nright}) – случайная выборка n объектов из множества (X), соответствующая неизвестной функции распределения (F(t)).
Простая гипотеза состоит в предположении, что неизвестная функция (F(t)) является совершенно конкретным вероятностным распределением на множестве (X).

Например:
Простая гипотеза и критерии согласия
Глядя на полученные данные эксперимента (синие точки), можно выдвинуть следующую простую гипотезу:
(H_0): данные являются выборкой из равномерного распределения на отрезке [-1;1]

Критерий согласия проверяет, согласуется ли заданная выборка с заданным распределением или с другой выборкой.

К критериям согласия относятся:

  • Критерий Колмогорова-Смирнова;
  • Критерий (X^2) Пирсона;
  • Критерий (omega^2) Смирнова-Крамера-фон Мизеса

п.5. Критерий согласия (X^2) Пирсона

Пусть (left{t_1,t_2,…,t_nright}) — независимые случайные величины, подчиняющиеся стандартному нормальному распределению N(0;1) (см. §63 данного справочника)
Тогда сумма квадратов этих величин: $$ x=t_1^2+t_2^2+⋯+t_n^2 $$ является случайной величиной, которая имеет распределение (X^2) с n степенями свободы.
График плотности распределения (X^2) при разных n имеет вид: Критерий согласия X^2 Пирсона
С увеличением n распределение (X^2) стремится к нормальному (согласно центральной предельной теореме – см. §64 данного справочника).

Если мы:
1) выдвигаем простую гипотезу (H_0) о том, что полученные данные являются выборкой из некоторого закона распределения (f(x));
2) выбираем в качестве теста проверки гипотезы (H_0) критерий Пирсона, —
тогда определение критической области будет основано на распределении (X^2).

Заметим, что выдвижение основной гипотезы в качестве (H_0) при проведении этого теста исторически сложилось.
В этом случае критическая область правосторонняя.
Критерий согласия X^2 Пирсона
Мы задаем уровень значимости α и находим критическое значение
(X_{кр}^2=X^2(alpha,k-r-1)), где k — число вариант в исследуемом ряду, r – число параметров предполагаемого распределения.
Для этого есть специальные таблицы.
Или используем функцию ХИ2ОБР(α,k-r-1) в MS Excel (она сразу считает нужный нам правый хвост). Например, при r=0 (для равномерного распределения):
Критерий согласия X^2 Пирсона
Пусть нам дан вариационный ряд с экспериментальными частотами (f_i, i=overline{1,k}).
Пусть наша гипотеза (H_0) –данные являются выборкой из закона распределения с известной плотностью распределения (p(x)).
Тогда соответствующие «теоретические частоты» (m_i=Ap(x_i)), где (x_i) – значения вариант данного ряда, A – коэффициент, который в общем случае зависит от ряда (дискретный или непрерывный).
Находим значение статистического теста: $$ X_e^2=sum_{j=1}^kfrac{(f_i-m_i)^2}{m_i} $$ Если эмпирическое значение (X_e^2) окажется в критической области, гипотеза (H_0) отвергается.
(X_e^2geq X_{кр}^2) — закон распределения не подходит (гипотеза (H_0) не принимается)
(X_e^2lt X_{кр}^2) — закон распределения подходит (гипотеза (H_0) принимается)

Например:
В эксперименте 60 раз подбрасывают игральный кубик и получают следующие результаты:

Очки, (x_i) 1 2 3 4 5 6
Частота, (f_i) 8 12 13 7 12 8

Не является ли кубик фальшивым?

Если кубик не фальшивый, то справедлива гипотеза (H_0) — частота выпадений очков подчиняется равномерному распределению: $$ p_i=frac16, i=overline{1,6} $$ При N=60 экспериментах каждая сторона теоретически должна выпасть: $$ m_i=p_icdot N=frac16cdot 60=10 $$ по 10 раз.
Строим расчетную таблицу:

(x_i) 1 2 3 4 5 6
(f_i) 8 12 13 7 12 8 60
(m_i) 10 10 10 10 10 10 60
(f_i-m_i) -2 2 3 -3 2 -2
(frac{(f_i-m_i)^2}{m_i}) 0,4 0,4 0,9 0,9 0,4 0,4 3,4

Значение теста: $$ X_e^2=3,4 $$ Для уровня значимости α=0,05, k=6 и r=0 находим критическое значение:
Критерий согласия X^2 Пирсона $$ X_{кр}^2approx 11,1 $$ Получается, что: $$ X_e^2lt X_{кр}^2 $$ На уровне значимости α=0,05 принимается гипотеза (H_0) про равномерное распределение.
Значит, с вероятностью 95% кубик не фальшивый.

п.6. Примеры

Пример 1. В эксперименте 72 раза подбрасывают игральный кубик и получают следующие результаты:

Очки, (x_i) 1 2 3 4 5 6
Частота, (f_i) 8 12 13 7 10 22

Не является ли кубик фальшивым?

Если кубик не фальшивый, то справедлива гипотеза (H_0) — частота выпадений очков подчиняется равномерному распределению: $$ p_i=frac16, i=overline{1,6} $$ При N=72 экспериментах каждая сторона теоретически должна выпасть: $$ m_i=p_icdot N=frac16cdot 72=12 $$ по 12 раз.
Строим расчетную таблицу:

(x_i) 1 2 3 4 5 6
(f_i) 8 12 13 7 10 22 72
(m_i) 12 12 12 12 12 12 72
(f_i-m_i) -4 0 1 -5 -2 10
(frac{(f_i-m_i)^2}{m_i}) 1,333 0,000 0,083 2,083 0,333 8,333 12,167

Значение теста: $$ X_e^2=12,167 $$ Для уровня значимости α=0,05, k=6 и r=0 находим критическое значение:
Пример 1 $$ X_{кр}^2approx 11,1 $$ Получается, что: $$ X_e^2gt X_{кр}^2 $$ На уровне значимости α=0,05 гипотеза (H_0) про равномерное распределение не принимается.
Значит, с вероятностью 95% кубик фальшивый.

Пример 2. Во время Второй мировой войны Лондон подвергался частым бомбардировкам. Чтобы улучшить организацию обороны, город разделили на 576 прямоугольных участков, 24 ряда по 24 прямоугольника.
В течение некоторого времени были получены следующие данные по количеству попаданий на участки:

Число попаданий, (x_i) 0 1 2 3 4 5 6 7
Количество участков, (f_i) 229 211 93 35 7 0 0 1

Проверялась гипотеза (H_0) — стрельба случайна.

Если стрельба случайна, то попадание на участок должно иметь распределение, подчиняющееся «закону редких событий» — закону Пуассона с плотностью вероятности: $$ p(k)=frac{lambda^k}{k!}e^{-lambda} $$ где (k) — число попаданий. Чтобы получить значение (lambda), нужно посчитать математическое ожидание данного распределения.
Составим расчетную таблицу:

(x_i) 0 1 2 3 4 5 6 7
(f_i) 229 211 93 35 7 0 0 1 576
(x_if_i) 0 211 186 105 28 0 0 7 537

$$ lambdaapprox M(x)=frac{sum x_if_i}{N}=frac{537}{576}approx 0,932 $$ Тогда теоретические частоты будут равны: $$ m_i=Ncdot p(k) $$ Получаем:

(x_i) 0 1 2 3 4 5 6 7
(f_i) 229 211 93 35 7 0 0 1 576
(p_i) 0,39365 0,36700 0,17107 0,05316 0,01239 0,00231 0,00036 0,00005 0,99999
(m_i) 226,7 211,4 98,5 30,6 7,1 1,3 0,2 0,0 576,0
(f_i-m_i) 2,3 -0,4 -5,5 4,4 -0,1 -1,3 -0,2 1,0
(frac{(f_i-m_i)^2}{m_i}) (результат) 0,02 0,00 0,31 0,63 0,00 1,33 0,21 34,34 36,84

Значение теста: (X_e^2=36,84)
Поскольку в ходе исследования мы нашли оценку для λ через подсчет выборочной средней, нужно уменьшить число степеней свободы на r=1, и критическое значение статистики искать для (X_{кр}^2=X^2(alpha,k-2)).
Для уровня значимости α=0,05 и k=8, r=1 находим:
Пример 2
(X_{кр}^2approx 12,59)
Получается, что: (X_e^2gt X_{кр}^2)
Гипотеза (H_0) не принимается.
Стрельба не случайна.

Пример 3. В предыдущем примере объединили события x={4;5;6;7} с редким числом попаданий:

Число попаданий, (x_i) 0 1 2 3 4-7
Количество участков, (f_i) 229 211 93 35 8

Проверялась гипотеза (H_0) — стрельба случайна.

Для последней объединенной варианты находим среднюю взвешенную: $$ x_5=frac{4cdot 7+5cdot 0+6cdot 0+7cdot 1}{7+1}=4,375 $$ Найдем оценку λ.

(x_i) 0 1 2 3 4,375
(f_i) 229 211 93 35 8 576
(x_if_i) 0 211 186 105 35 537

$$ lambdaapprox M(x)=frac{sum x_if_i}{N}=frac{537}{576}approx 0,932 $$ Оценка не изменилась, что указывает на правильное определение средней для (x_5).
Строим расчетную таблицу для подсчета статистики:

(x_i) 0 1 2 3 4,375
(f_i) 229 211 93 35 8 576
(p_i) 0,3937 0,3670 0,1711 0,0532 0,0121 0,9970
(m_i) 226,7 211,4 98,5 30,6 7,0 574,2
(f_i-m_i) 2,3 -0,4 -5,5 4,4 1,0
(frac{(f_i-m_i)^2}{m_i}) 0,02 0,00 0,31 0,63 0,16 1,12

Значение теста: (X_e^2=1,12)
Критическое значение статистики ищем в виде (X_{кр}^2=X^2(alpha,k-2)), где α=0,05 и k=5, r=1
Пример 3
(X_{кр}^2approx 7,81)
Получается, что: (X_e^2lt X_{кр}^2)
Гипотеза (H_0) принимается.
Стрельба случайна.

И какой же ответ верный? Полученный в Примере 2 или в Примере 3?
Если посмотреть в расчетную таблицу для статистики (X_e^2) в Примере 2, основной вклад внесло слагаемое для (x_i=7). Оно равно 34,34 и поэтому сумма (X_e^2=36,84) в итоге велика. А в расчетной таблице Примера 3 такого выброса нет. Для объединенной варианты (x_i=4,375) слагаемое статистики равно 0,16 и сумма (X_e^2=1,12) в итоге мала.

Правильный ответ – в Примере 3.
Стрельба случайна.

Внимание!Критерий согласия (X^2) чувствителен к низкочастотным (редким) событиям и может ошибаться на таких выборках. Поэтому низкочастотные события нужно либо отбрасывать, либо объединять с другими событиями. Эта процедура называется коррекцией Йетса.
  • Редакция Кодкампа

17 авг. 2022 г.
читать 1 мин


Когда вы проводите тест Хи-квадрат, в результате вы получаете тестовую статистику. Чтобы определить, являются ли результаты теста хи-квадрат статистически значимыми, можно сравнить статистику теста с критическим значением хи-квадрат.Если статистика теста больше критического значения хи-квадрат, то результаты теста являются статистически значимыми.

Критическое значение хи-квадрат можно найти с помощью таблицы распределения хи-квадрат или с помощью статистического программного обеспечения.

Чтобы найти критическое значение хи-квадрат, вам нужно:

  • Уровень значимости (обычно выбирают 0,01, 0,05 и 0,10).
  • Степени свободы

Используя эти два значения, вы можете определить значение хи-квадрата, которое будет сравниваться со статистикой теста.

Как найти критическое значение хи-квадрат в Python

Чтобы найти критическое значение хи-квадрата в Python, вы можете использовать функцию scipy.stats.chi2.ppf() , которая использует следующий синтаксис:

scipy.stats.chi2.ppf(q, df)

куда:

  • q: уровень значимости для использования
  • df : Степени свободы

Эта функция возвращает критическое значение из распределения хи-квадрат на основе предоставленного уровня значимости и степеней свободы.

Например, предположим, что мы хотим найти критическое значение хи-квадрата для уровня значимости 0,05 и степеней свободы = 11.

import scipy.stats

#find Chi-Square critical value
scipy.stats.chi2.ppf(1-.05, df=11)

19.67514

Критическое значение хи-квадрата для уровня значимости 0,05 и степеней свободы = 11 равно 19,67514 .

Таким образом, если мы проводим какой-либо тест хи-квадрат, мы можем сравнить статистику теста хи-квадрат с 19,67514.Если статистика теста больше 19,67514, то результаты теста статистически значимы.

Обратите внимание, что меньшие значения альфа приведут к большим критическим значениям хи-квадрата. Например, рассмотрим критическое значение хи-квадрат для уровня значимости 0,01 и степеней свободы = 11.

scipy.stats.chi2.ppf(1-.01, df=11)

24.72497

И рассмотрим критическое значение хи-квадрата с точно такими же степенями свободы, но с уровнем значимости 0,005 :

scipy.stats.chi2.ppf(1-.005 df=11) 
26.75685

Подробную информацию о функции chi2.ppf() см. в документации SciPy .

F-critical value is a particular value that we used to compare our f value to. While conducting the F test we obtain F statistics as an outcome. For determining whether the result of the f test is statistically significant the f statistic is compared with the F critical value. If the F statistic is larger than the F critical value then we assume that the result of the test is statistically significant. 

This article focuses upon finding F critical value in Python. Before proceeding further we need Scipy library already installed in our system. You can install this library by using the below command on your terminal,

pip3 install scipy

Calculating F critical value in Python is a step by step process,

Step 1: Import the Scipy library.

The very first step is to import the Scipy library. It is used for scientific computation and uses NumPy internally.

Python3

Step 2: Define parameters.

To calculate F-Critical value we need these parameters: A significance level, Numerator degrees of freedom, Denominator degrees of freedom. As an example, we have assumed respective values,

significance level = 0.01, numerator degrees of freedom = 4, and denominator degrees of freedom = 6

Step 3: Calculate F-Critical value.

For calculating F-Critical value scipy.stats provide us scipy.stats.f.ppf() function using which we can calculate the F-Critical value. The syntax is given below,

Syntax:

scipy.stats.f.ppf(q, dfn, dfd)

Parameters:

q: It represents the significance level to be used

dfn: It represents the numerator degrees of freedom

dfd: It represents the denominator degrees of freedom

Return Type:

Returns the critical value from the F-distribution

Example:

Python3

import scipy.stats

print(scipy.stats.f.ppf(q=1-.01, dfn=4, dfd=6))

Output:

F-Critical value

Hence, The F critical value for a significance level of 0.01, numerator degrees of freedom = 4, and denominator degrees of freedom = 6 is 9.148.

Bonus:

The alpha value is inversely proportional to the critical values. For example, consider the below program having the alpha value = 0.05, numerator degrees of freedom = 4, and denominator degree of freedom = 6 (the latter two are the same as the above-taken example).

Example:

Python3

import scipy.stats

print(scipy.stats.f.ppf(q=1-.05, dfn=4, dfd=6))

Output:

F-Critical value

Hence, The F critical value for a significance level of 0.05, numerator degrees of freedom = 4, and denominator degrees of freedom = 6 is 4.533.

Last Updated :
21 Feb, 2022

Like Article

Save Article

Понравилась статья? Поделить с друзьями:
  • Как найти отправление без трек номера сдэк
  • Как найти дорогу к господу
  • Загадка как найти на картинке кота
  • Как найти айфон по айклауду с локатора
  • Invalid osu folder or no beatmaps found как исправить