Зависимые(связанные) и независимые (несвязанные) выборки
Если
можно установить гомоморфную пару
(то есть, когда одному случаю из выборки
X соответствует один и только один
случай из выборки Y и наоборот) для
каждого случая в двух выборках (и это
основание взаимосвязи является важным
для измеряемого на выборках признака),
такие выборки называются зависимыми.
Примеры зависимых выборок:
пары
близнецов, два измерения какого-либо
признака до и после экспериментального
воздействия, мужья и жёны и т. п.
В
случае, если такая взаимосвязь между
выборками отсутствует, то эти выборки
считаются независимыми,
например:
мужчины и женщины,
психологи и математики.
Соответственно,
зависимые выборки всегда имеют одинаковый
объём, а объём независимых может
отличаться.
Нулевая
гипотеза и Альтернативная гипотезы:
Первоначально
гипотезу всегда можно сформулировать
таким образом: между двумя генеральными
совокупностями нет ожидаемого различия.
Такая
гипотеза называется нулевой
гипотезой,
или нуль-гипотезой. Обратное ей
утверждение о том, что в действительности
между генеральными совокупностями
есть различие, называется альтернативной
гипотезой,
или альтернативой.
Нулевой
(основной) называют
выдвинутую гипотезу Н0. Конкурирую-щей
(альтернативной) называют
гипотезу Н1,
которая противоречит нулевой.
27.
Принципы проверки статистических
гипотез, уровень значимости, параметрические
и
непараметрические
критерии различия. Процедура принятия
статистического вывода.
Общие
принципы проверки статистических
гипотез
Процедура
проверки нулевой гипотезы в общем
случае включает следующие этапы:
1. задается
допустимая вероятность ошибки первого
рода (Ркр=0,05)
2. выбирается
статистика критерия (Т)
3. ищется
область допустимых значений
4. по
исходным данным вычисляется значение
статистики Т
5.
если Т
(статистика критерия) принадлежит
области принятия нулевой гипотезы, то
нулевая гипотеза принимается (корректнее
говоря, делается заключение, что исходные
данные не противоречат нулевой гипотезе),
а в противном случае нулевая гипотеза
отвергается и принимается альтернативная
гипотеза.
При
проверке статистических гипотез
возможны ошибки (ошибочные
суждения) двух видов:
— можно
отвергнуть нулевую гипотезу, когда она
на самом деле верна (так называемая ошибка
первого рода);
— можно
принять нулевую гипотезу, когда она на
самом деле не верна (так называемая ошибка
второго рода)
Допустимая
вероятность ошибки первого рода (Ркр) может
быть равна 5% или 1% (0.05 или 0.01). Уровень
значимости –
это вероятность ошибки первого рода
при принятии решения (вероятность
ошибочного отклонения нулевой гипотезы).
Критерий
различия называют параметрическим,
если он основан на конкретном типе
распределения генеральной совокупности
(как правило, нормальном) или использует
параметры этой совокупности (среднее,
дисперсии и т. д.).Обратное –
непараметрический. При нормальном
распределении генеральной совокупности
параметрические критерии обладают
большей мощностью по сравнению с
непараметрическими (способны с большей
достоверностью отвергать нулевую
гипотезу, если последняя не верна).
Однако,
как показывает практика, подавляющее
большинство данных, получаемых в
психологических экспериментах, не
распределены нормально,
поэтому применение параметрических
критериев при анализе результатов
психологических исследований может
привести к ошибкам в статистических
выводах. В таком случае непараметрические
критерии становятся более мощными, т.
е. способными с большей достоверностью
отвергать нулевую гипотезу.
Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]
- #
- #
- #
- #
- #
- #
- #
- #
- #
- #
- #
to continue to Google Sites
Not your computer? Use Guest mode to sign in privately. Learn more
У меня есть таблица recipients и recipient_history. В таблице recipients есть такие поля как:
- RECIPIENT_ID,
- RECIPIENT_NAME
а в таблице recipient_history:
- RECIPIENT_ID,
- START_DATE,
- END_DATE
- JOB_NAME,
- DEPARTAMENT_ID.
Мне надо вывести имя и последнее место роботы сотрудника. Надо учитывать что в таблице recipient_history один и тот же сотрудник может встречаться дважды и с разными JOB_NAME.
Например
RECIPIENT_ID[1|1|2], START_DATE[12.03.2012|12.03.2015|15.04.2012], END_DATE[12.03.2014|12.03.2016|12.03.2013], JOB_NAME[it_spec,it_prog, manager],
DEPARTAMENT_ID[101,102,103]
artoodetoo
3,4731 золотой знак11 серебряных знаков33 бронзовых знака
задан 12 окт 2016 в 13:03
4
К сожалению, без вложенных запросов не обойдешься.
SELECT
R.RECIPIENT_NAME AS RECIPIENT_NAME,
IFNULL(RH2.JOB_NAME,'') AS JOB_NAME
FROM
recipients R
LEFT JOIN
(
SELECT
RECIPIENT_ID,
MAX(END_DATE) AS END_DATE
FROM
recipient_history RH
GROUP BY
RECIPIENT_ID
) RH ON RH.RECIPIENT_ID = R.RECIPIENT_ID
LEFT JOIN recipient_history RH2 ON RH.END_DATE = RH2.END_DATE AND RH.RECIPIENT_ID = RH2.RECIPIENT_ID
ORDER BY
RH.END_DATE DESC;
Вложенные запросы — зло, они порождают временные таблицы при обработке запроса.
ответ дан 12 окт 2016 в 16:47
Вам надо
- В таблице
recipient_history
найти записи с максимальной датой. - Результат этой выборки объединить с
recipient
.
Пункт (2) не составляет труда. Как найти (1) ? Есть несколько способов.
- Один из них предложил @ArtemAleksashkin: сгруппировать, найти максимальную дату и по этой дате объединить с этой же таблицей чтобы получить строку целиком.
-
Грязный трюк, использующий «особенность» MySQL: с дефолтными настройками он допускает группировку с выводом всех полей, а не только группируемых + агрегаты. Надо только обеспечить нужный нам порядок (решение фу, я считаю):
SELECT * FROM
(
SELECT * FROMrecipient_history
ORDER BYEND_DATE
DESC
) t1
GROUP BYRECIPIENT_ID
-
Открытое самообъединение со сравнением на больше/меньше и отсечкой по NULL:
SELECT o.*
FROMrecipient_history
o
LEFT JOINrecipient_history
b
ON o.RECIPIENT_ID
= b.RECIPIENT_ID
AND o.END_DATE
< b.END_DATE
WHERE b.END_DATE
is NULL
ответ дан 12 окт 2016 в 18:25
artoodetooartoodetoo
3,4731 золотой знак11 серебряных знаков33 бронзовых знака
Сделайте обычный запрос, просто добавьте в конце
ORDER BY `END_DATE` DESC LIMIT 0,1
ответ дан 12 окт 2016 в 13:09
ДенисДенис
8544 серебряных знака10 бронзовых знаков
1
SELECT
r.RECIPIENT_NAME, h.START_DATE, h.END_DATE, h.JOB_NAME
FROM
recipients r, recipient_history h
WHERE
r.RECIPIENT_ID = h.RECIPIENT_ID AND
h.START_DATE = (SELECT MAX(h2.START_DATE) FROM recipient_history h2 WHERE r.RECIPIENT_ID = h2.RECIPIENT_ID)
ответ дан 17 окт 2016 в 14:20
Лекция 8.
ПРОВЕРКА ГИПОТЕЗЫ О РАВЕНСТВЕ ГЕНЕРАЛЬНЫХ СРЕДНИХ
(ЗАВИСИМЫЕ ВЫБОРКИ)
1. Постановка задачи о различии средних для зависимых выборок
Существует много практических задач, в которых две сравниваемые выборки
взаимосвязаны в силу особенностей организации эксперимента или просто потому, что
этой взаимосвязи нельзя избежать.
Примеры зависимых выборок:
— первая и вторая выборки состоят из наблюдений типа «до – после»;
— первая выборка – совокупность значений времени самостоятельного выполнения
задания, а вторая – совокупность значений времени выполнения задания под
наблюдением и при руководстве преподавателя.
В практике психологических, педагогических, медицинских исследований часто
используются так называемые парные сравнения. При парных сравнениях нельзя
использовать методы для независимых выборок, поскольку это приведет к большим
ошибкам.
Для сравнения средних значений здесь используется модификация t -критерия Стьюдента
для зависимых выборок.
Постановка задачи.
Даны две зависимые выборки объема n , то есть связанные пары наблюдений: x1, y1 ,
x2 , y2 , …, xn , yn . Проверяется гипотеза H 0 о равенстве математических ожиданий
a x a y . Альтернативной гипотезой H1 является гипотеза a x a y .
Критерий (правило) проверки гипотезы
1. Формулируем нулевую гипотезу H 0 : x y , что генеральные средние равны.
2. Формулируем альтернативную гипотезу Н1 : x y .
3. Назначаем уровень значимости .
4. Делаем предположение о нормальном распределении разностей di xi yi .
5. Вычисляется эмпирическое значение t -критерия по формуле
t эмп
d
n,
Sd
n
1 n
1
( xi y i ) ; S d
(d i d ) 2 .
n i 1
n 1 i 1
6. По таблице критических значений t -критерия распределения Стьюдента находится
критическое значение t кр (, k ) при уровне значимости и числе степеней свободы
где величины d
k n 1.
7. Сравниваем t эмп и t кр . Если t эмп t кр , то гипотеза H 0 отклоняется, так как t эмп.
попало в критическую область. Значит, наблюдаемое различие между средними значениями
двух связанных выборок значимо на уровне значимости . Если t эмп t крит , то различие
между средними значениями двух связанных выборок статистически незначимо.
2. Задача об оценке различия средних значений признака в зависимых выборках
Задача.
Группа школьников ( n 10 ) в течение летних каникул находилась в спортивном лагере.
До и после сезона у них измерили жизненную емкость легких (признак X ).
До «эксперимента» ( x i , мл):
3400, 3600, 3000, 3500, 2900, 3100, 3200, 3400, 3200, 3400.
После «эксперимента» ( y i , мл):
3800, 3700,3300, 3600, 3100, 3200, 3200, 3300, 3500, 3600.
По результатам измерений нужно определить, значимо ли изменился этот показатель под
влиянием интенсивных физических упражнений.
Решение.
Вычислим средние значения жизненной емкости легких школьников
до эксперимента
x
3400 3600 3000 3500 2900 3100 3200 3400 3200 3400
3270
10
и
после эксперимента
y
3800 3700 3300 3600 3100 3200 3200 3300 3500 3600
3430 .
10
Как оказалось, средние значения двух зависимых выборок различаются.
Определим, значимо ли это различие.
Будем считать, что разности d i xi yi имеют нормальное распределение. Выдвигаем
нулевую гипотезу о равенстве средних значений жизненной емкости легких школьников
до и после спортивного сезона H 0 : x y .
В качестве альтернативной возьмем двустороннюю гипотезу H 1 : x y .
Выбираем уровень значимости 0,05 . Имеем две зависимые (связанные) выборки
объема n 10 .
Для удобства результаты вычислений проведем в таблице.
Расчетная таблица критерия t -Стьюдента для зависимых выборок
Значения признака
Разности связанных Квадраты
Номер
пар
результатов отклонений
до
после
школьн эксперимента
эксперимент измерений
d i2 ( xi yi ) 2
ика
di xi yi
( xi )
а ( yi )
1
2
3
4
5
6
7
8
9
10
Сумма
Среднее
3400
3600
3000
3500
2900
3100
3200
3400
3200
3400
32700
3800
3700
3300
3600
3100
3200
3200
3300
3500
3600
34300
— 400
— 100
— 300
— 100
— 200
— 100
100
— 300
— 200
— 1600
х 3270
y 3430
1 n
d di 160
n
i 1
1600
10000
90000
10000
40000
10000
10000
90000
40000
460000
–
Вычислим среднее арифметическое разностей d i :
1 n
1
d d i 400 100 300 100 200 100 0 100 300 200 160 .
n
10
i 1
Теперь вычислим для разностей d i «исправленную» выборочную дисперсию (так как
n
1
2
d 2 (d ) 2 , получим:
объем выборки меньше 30) по формуле S
d n 1 i
i 1
1
S 2 400 2 100 2 300 2 100 2 200 2 100 2 0 100 2 300 2 200 2 (160) 2
d 9
25511,11.
Тогда выборочное среднее квадратическое отклонение равно S d
и эмпирическое значение t -критерия:
t эмп
25511,11 159,72
d
160
n
10 3,17 .
Sd
159,72
Найдем критическое значение распределения Стьюдента t крит (0,05; 9) 2,262 для
уровня значимости
0,05 и числа степеней свободы k n 1 9 .
Так как альтернативная гипотеза H 1 : x y 0 , то критическая область двусторонняя.
Строим ось значимости для t -критерия Стьюдента, на которой отмечаем значение
t эмп 3,17 .
Критическая
область
(различия значимы)
t эмп 3,17
Критическая
область
(различия значимы)
Область
допустимых
значений
t кр 2,262
t кр 2,262
t
Значение t эмп 2,238 попало в область допустимых значений, поэтому показатели
жизненной емкости легких школьников до и после спортивного лагеря значимо
различаются с достоверностью 0,95.
Контрольные вопросы
1. Опишите последовательность действий применения критерия Стьюдента для
зависимых выборок.
2. Каковы особенно применения критерия Стьюдента для зависимых выборок
Вопрос 4
Дисперсионный анализ для связанных выборок
Назначение метода
Метод дисперсионного анализа для связанных выборок применяется в тех случаях, когда исследуется влияние разных градаций фактора или разных условий на одну и ту же выборку испытуемых.
Градаций фактора должно быть не менее трех.
Непараметрический вариант этого вида анализа — критерий Фридмана χ2r.
Описание метода
Рекомендуемые материалы
В данном случае различия между испытуемыми — возможный самостоятельный источник различий. В схеме однофакторного анализа для несвязанных выборок различия между условиями в то же время отражали различия между испытуемыми. Теперь различия между условиями могут проявиться только вопреки различиям между испытуемыми.
Фактор индивидуальных различий может оказаться более значимым, чем фактор изменения экспериментальных условий. Поэтому нам необходимо учитывать еще одну величину — сумму квадратов сумм индивидуальных значений испытуемых.
Графическое представление метода
На Рис. 7.3 представлена кривая изменения времени решения анаграмм разной длины: четырехбуквенной, пятибуквенной и шестибуквенной. Однофакторный дисперсионный анализ для связанных выборок позволит определить, что перевешивает — тенденция, выраженная этой кривой, или индивидуальные различия, диапазон которых представлен на графике в виде вертикальных линий — от минимального до максимального значения.
Рис. 7.3. Изменение времени работы над разными анаграммами у тати испытуемых; вертикальными линиями отображены диапазоны изменчивости признака е разных условиях от минимального значения (снизу) до максимального значения (сверху)
Ограничения метода дисперсионного анализа для связанных выборок
1. Дисперсионный анализ для связанных выборок требует не менее трех градаций фактора и не менее двух испытуемых, подвергшихся воздействию каждой из градаций фактора.
2. Должно соблюдаться правило равенства дисперсий в каждой ячейке комплекса. Это условие косвенно выполняется за счет одинакового количества наблюдений в каждой ячейке комплекса. Предлагаемая схема расчета ориентирована только на такие равномерные комплексы.
3. Результативный признак должен быть нормально распределен в исследуемой выборке.
В приводимом ниже примере показатели асимметрии и эксцесса составляют:
А=218
тА=0,632;
tA =2,18/0,632=3,45;
E=4,17;
ME =l,264;
tE =4,17/1,264=3,30.
Таким образом, распределение показателей 5-тй- человек, составляющих дисперсионный комплекс, несколько отличается от нормального: tA>3; tE>3. Однако в целом по выборке распределение нормальное:
n=22;
A=1,26;
тА=0,522
tA=2,41<3;
E=2,29;
mE=1,044;
tE=2,19<3.
По-видимому, необходимо удовлетвориться тем, что в выборке в целом результативный признак распределен нормально. Случайно отобранные 5 человек распределением своих оценок демонстрируют некоторое отклонение. Однако, если бы мы выбирали испытуемых таким образом, чтобы распределение их оценок подчинялось нормальному закону, это нарушило бы правило рандомизации — случайности отбора объектов без учета значений результативного признака при отборе (Плохинский Н.А. 1970).
Данные этого примера нам уже знакомы. Они использовались для иллюстрации непараметрического критерия Фридмана χ2r. Использование здесь этого же примера позволит нам сопоставить результаты, получаемые с помощью непараметрических и параметрических методов.
Пример
Группа из 5 испытуемых была обследована с помощью трех экспериментальных заданий, направленных на изучение интеллектуальной настойчивости (Сидоренко Е. В., 1984). Каждому испытуемому индивидуально предъявлялись последовательно три одинаковые анаграммы: четырехбуквенная, пятибуквенная и шестибуквенная. Можно ли считать, что фактор длины анаграммы влияет на длительность попыток ее решения?
Сформулируем гипотезы.
Наборов гипотез в данном случае два.
Набор А.
Но(А): Различия в длительности попыток решения анаграмм разной длины являются не более выраженными, чем различия, обусловленные случайными причинами.
Н1(А): Различия в длительности попыток решения анаграмм разной длины являются более выраженными, чем различия, обусловленные случайными причинами. Набор Б.
Но(Б): Индивидуальные различия между испытуемыми являются не более выраженными, чем различия, обусловленные случайными причинами.
Н1(Б): Индивидуальные различия между испытуемыми являются более выраженными, чем различия, обусловленные случайными причинами.
Таблица 7.5
Длительность попыток решения анаграмм (сек)
Код имени испытуемого |
Условие 1: |
Условие 2. |
Условие 3: |
Суммы го испытуемым |
Четырехбуквенная анаграмма |
пятибуквенная анаграмма |
шести буквенная анаграмма |
||
1. Л-в |
5 |
235 |
7 |
247 |
2. П-о |
7 |
604 |
20 |
631 |
3. К-в |
2 |
93 |
5 |
100 |
4. Ю-ч |
2 |
171 |
8 |
181 |
5. Р-о |
35 |
141 |
7 |
183 |
Cvmmы по столбцам |
51 |
1244 |
47 |
1342 |
Установим все промежуточные величины, необходимые для расчета критерия F.
Таблица 7.6
Расчет промежуточных величин для критерия F в примере об анаграммах
Обозначение |
Расшифровка обозначения |
Экспериментальное значение |
Тс |
суммы индивидуальных значений по каждому из условий (столбцов) |
51; 1244; 47 |
∑T2c |
сумма квадратов суммарных значений по каждому из условий |
∑T2c =512+12442+472 |
n |
количество испытуемых |
n=5 |
c |
количество значений у каждого испытуемого (т. е. количество условий) |
c=5 |
N |
общее количество значений |
N=15 |
Tи |
суммы индивидуальных значений по каждому испытуемому |
247; 631; 100; 181; 183 |
∑T2и |
сумма квадратов сумм индивидуальных значений по испытуемым |
247г+6312+1002+181г+1832 |
(∑xi)2 |
квадрат общей суммы индивидуальных значений |
(∑xi)2=13422 |
1 *(∑xi)2 N |
константа, которую нужно вычесть из каждой суммы квадратов |
1/N*(∑xi)2 = 1*13422 15 |
xi |
каждое индивидуальное значение |
|
∑x2i |
сумма квадратов индивидуальных значений |
Мы по-прежнему помним разницу между квадратом суммы и суммой квадратов!
Последовательность расчетов приведена в Табл. 7.7.
Таблица 7.7.
Последовательность операций в однофакторной модели дисперсионного анализа для связанных выборок
Последовательность операций в однофакторной модели
Примечание: (См.Приложение 2).
Вывод:
Но(А) отклоняется. Различия в объеме воспроизведения слов в разных условиях являются более выраженными, чем различия, обусловленные случайными причинами (р<0,05).
Но(Б) принимается: Индивидуальные различия между испытуемыми являются не более выраженными, чем различия, обусловленные случайными причинами.
Однако, судя по Рис. 7.3, мы не можем утверждать, что срабатывает фактор длины анаграммы. Более значимыми оказываются качественные, а не количественные различия между анаграммами. Как мы уже имели возможность убедиться (см. параграфы 3.4 и 3.5), непараметрический L — критерий Пейджа подтверждает тенденцию увеличения индивидуальных показателей при переходе от анаграммы КРУА к анаграмме ИНААМШ, а затем к анаграмме АЛСТЬ (р<0,01). Значимые различия были получены и с помощью критерия Фридмана χ2r
(р=0,0085).
Итак, непараметрические критерии позволяют нам констатировать более высокий уровень значимости различий между условиями!
Зачем же тогда использовать достаточно сложный дисперсионный анализ? Для того, чтобы подобрать существенные факторы, которые могут стать основой для формирования двух-, трех- и более факторных дисперсионных комплексов, позволяющих оценить не только влияние каждого из факторов в отдельности, но и их взаимодействие.
Приложение 1
Таблица 7.4.
Последовательность операций в однофакторном дисперсионном анализе для несвязанных выборок
Операция |
Формула расчёта |
Расчёт по экспериментальным данным |
1.Подсчитать SSфакт |
SSфакт=(432+372+242)/6-1042/18=31,44 |
|
2.Подсчитать SSобщ |
SSобщ=82+72+92+52+62+82+72+82+52 +42+62+72 +42+52+32+62+22+42-1042/18=63,11 |
|
3. Подсчитать случайную (остаточную) величину SSсл |
SSсл = SSобщ — SSфакт |
SSсл=63,11-31,44=31,67 |
4.Определить число степеней свободы |
dfфакт=с-1 dfобщ=N-1 dfсл = dfобщ –dfфакт |
dfфакт=3-1=2 dfобщ=18-1=17 dfсл = 17-2=15 |
5.Разделить каждую SS на соответствующее число степеней свободы |
MSфакт= SSфакт/ dfфакт MSсл =SSсл/ dfсл |
MSфакт= 31,44/2=15,72 MSсл =31,67/15=2,11 |
6.Подсчитать значение Fэмп |
Fэмп= MSфакт /MSсл |
Fэмп(2,15)= 15,72/2,11=7,45 |
7.Определить критическое значение по Таблице ХУ11 Приложения 1 |
Для df1= 2df2 =15 |
|
8.Сопоставить эмпирическое и критическое значение F |
При Fэмп ≥Fкр Н0 отклоняется |
Fэмп >Fкр → Н0 отклоняется |
Приложение 2
Таблица 7.7.
Последовательность операций в однофакторном дисперсионном анализе для связанных выборок
Операция |
Формула расчёта |
Расчёт по экспериментальным данным |
1.Подсчитать SSфакт |
SSфакт= *(512 +12442 +472)- * 13422 =*1552346-*1800964=190405 |
|
2.Подсчитать SSисп |
SSисп= *(247+631+100+181+183)*1342 *535420- *1800964=58409 |
|
3. Подсчитать случайную (остаточную) величину SSобщ |
SSобщ = ∑х2i—*(∑х2i) |
SSобщ=52 +72 +22+22+35 2+2352 +6042 +932 +1712 +1412 +72 +202 +52 +82 +72 —*1800964=479706-120064,26=359642 |
4.Подсчитать SSсл |
SSсл =SSобщ -SSфакт -SSисп |
SSсл =359642-190405-58409=110828 |
5.Подсчитать число степеней свободы |
dfфакт=с-1 dfисп=n-1 dfобщ = N-1 dfсл =dfобщ -dfфакт dfисп |
dfфакт=3-1=2 dfисп=5-1=4 dfобщ = 15-1=14 dfсл = 14-2-4=8 |
6.Разделить каждую SS на число степеней свободы |
MSфакт= SSфакт /dfфакт MSисп = SSисп /dfисп MSсл = SSсл /dfсл |
MSфакт= 190405/2=95202,5 MSисп = 58409/4=14602,2 MSсл = 110827/8=13853,4 |
7.Подсчитать значения F и определить им df1 по числителю и df2 по знаменателю |
Fфакт=MSфакт /MSсл Fисп=MSисп /MSсл |
Fфакт(2,8)=95202,5/13853,4=6,872 Fисп(4,8)=14602,2/13853,4=1,054 |
8.Определить критические значения F по Табл.ХУ11 Приложения 1 |
Для df1 =2 и df2=8 Для df1 =4 и df2=8 |
|
9.Сопоставить эмпирические значения F с критическим |
4.3. Принципы и методы создания ИС — лекция, которая пользуется популярностью у тех, кто читал эту лекцию. При Fэмп <Fкр Н0 принимается При Fэмп >Fкр Н0 отклоняется |
Fфакт >Fкр → Н0(А) отклоняется Fфакт <Fкр → Н0(Б) принимается |