В
дальнейшем под генеральной совокупностью
мы будем подразумевать не само множество
объектов, а множество значений случайной
величины, принимающей числовое значение
на каждом из объектов.
В действительности генеральной
совокупности как множества объектов
может и не существовать. Например, имеет
смысл говорить о множестве деталей,
которые можно
произвести,
используя данный технологический
процесс. Используя какие-то известные
нам характеристики данного процесса,
мы можем оценивать параметры этого
несуществующего множества деталей.
Размер детали – это случайная величина,
значение которой определяется воздействием
множества факторов, составляющих
технологический процесс. Нас, например,
может интересовать вероятность, с
которой случайная величина принимает
значение, принадлежащее некоторому
интервалу. На данный вопрос можно
ответить, зная закон распределения
случайной величины, а также ее параметры,
такие как математическое
ожидание и дисперсия.
Итак,
будем рассматривать генеральную
совокупность как случайную величину
X,
закон распределения и параметры которой
определяются с помощью выборочного
метода.
Рассмотрим
выборку объема n,
представляющую данную генеральную
совокупность. Первое выборочное значение
x1
будем рассматривать как одно из возможных
значений случайной величины X1,
имеющей тот же закон распределения с
теми же параметрами, что и случайная
величина X.
Второе выборочное значение x2
– одно из возможных значений случайной
величины X
2
с тем же законом распределения, что и
случайная величина X.
То же самое можно сказать о значениях
x3,
x4,…,
xn
.
Таким
образом, на выборку будем смотреть как
на совокупность независимых случайных
величин X
1,
X
2,
…, X
n,
распределенных так же, как и случайная
величина X,
представляющая генеральную совокупность.
Выборочные значения x1,
x2,
…,
xn
– это значения, которые приняли данные
случайные величины в результате 1-го,
2-го,
…,
n-го
эксперимента.
Дискретное статистическое распределение
Пусть
генеральная совокупность изучается с
помощью некоторого признака или числовой
характеристики, которую можно измерить
(размер детали, удельное количество
нитратов в арбузе, шум работы двигателя,
количество бракованных изделий). Данная
характеристика – случайная величина
X,
принимающая для каждой единицы
определенное числовое значение. Из
выборки объема n
получаем значения данной случайной
величины в виде ряда из n
чисел: x1,
x2,…,
xn.
Эти числа называются значениями признака
или вариантами.
Если
все
значения
признака
упорядочить, т.е. расположить в порядке
возрастания, то в результате получим
вариационный
ряд.
При этом некоторые значения ряда могут
повторяться. Выписав все
различные значения признака
xi
и подсчитав, сколько раз данное значение
встречается в выборке
mi,
получим таблицу, которая называется
дискретным
статистическим
распределением (табл.
3.1).
Число
mi
называется частотой i-го
значения
признака.
Таблица
3.1
Дискретное
статистическое распределение
-
Варианты
x1
x2
x3
…
xk
Частоты
m1
m2
m3
…
mk
Очевидна
также справедливость равенства
.
Используя
статистическое распределение, можно
вычислить такие показатели, как
относительная частота, накопленная
частота, эмпирическая функция
распределения:
wi
=
– относительная частота. В соответствии
с законом больших чисел (теорема Бернулли)
относительная частота при
стремится
к вероятности случайного события wi
≈ pi.
mx
– накопленная частота или число
наблюдений в выборке, меньших либо
равных х.
=
– выборочная
или эмпирическая
функция распределения
случайной величины Х,
вычисленная по выборке. Величина
является относительной частотой
попадания значений выборки левее точки
х
в данной
выборке, т.е. относительной частотой
события (X
< x).
Иначе говоря,
является
выборочным аналогом функции распределения
в генеральной совокупности.
Свойства эмпирической
функции распределения:
1. 0 ≤
≤ 1, следует из
определения.
2.
–
неубывающая
функция.
3.
=
0,
если
.
4.
=
1,
если
.
В точке
функция
увеличивается на величину wi
и до следующего значения
остается постоянной, затем в точке
опять увеличивается на величину wi+1
и т.д. (рис. 3.1).
Рис. 3.1. График
эмпирической функции распределения
Видно, что график
эмпирической функции распределения
напоминает график функции дискретного
распределения вероятностей. Это не
случайно: эмпирическую функцию
распределения выборки
можно рассматривать как функцию
распределения вероятностей, где каждому
значению
,
соответствует вероятность
wi.
Связь между
и F(x)
основана на теореме Бернулли, так же,
как связь между относительной частотой
события и его вероятностью. Поэтому
если выборка репрезентативная, то
→ F(x)
при
.
Наглядное
представление о дискретном статистическом
распределении дает полигон
частот
(xi;
ni)
или полигон
относительных частот
(xi;
wi)
(рис. 3.2).
Рис. 3.2. Полигон
распределения относительных частот
Пример 1.
На втором курсе института теорию
вероятностей изучают 690 студентов.
Случайным образом выбрано 50 человек.
На экзамене по теории вероятностей эти
студенты получили следующие оценки:
8, 2 , 6, 5, 4, 5, 7, 6, 4, 3,
5, 5, 5, 4, 6, 7, 6, 6, 6, 3, 9, 8, 4, 4, 6, 7, 5, 5, 4, 3, 5, 5, 4,
3, 6, 6, 7, 7, 5, 4, 4, 5, 6, 3, 6, 6, 3, 4, 8, 6.
Необходимо:
1) построить
вариационный ряд, вычислить относительные,
накопленные частоты и значения
эмпирической функции распределения;
2) построить полигон
распределения относительных частот и
график эмпирической функции распределения;
3) вычислить
вероятность того, что оценка случайно
выбранного студента окажется не менее
семи.
Решение
1. Построим
вариационный ряд, упорядочив все значения
выборки по возрастанию:
2, 3, 3, 3, 3, 3, 3, 4, 4, 4,
4, 4, 4, 4, 4, 4, 4, 5, 5, 5, 5, 5, 5, 5, 5, 5, 5, 5, 6, 6, 6, 6, 6,
6, 6, 6, 6, 6, 6, 6, 6, 7, 7, 7, 7, 7, 8, 8, 8, 9.
Используя
вариационный ряд, подсчитаем, сколько
раз каждое значение признака встречается
в выборке. Затем вычислим относительные
частоты, накопленные частоты, значения
эмпирической функции распределения и
все полученные
результаты занесем в табл. 3.2.
Таблица
3.2
Х |
mi |
wi |
mx |
|
2 |
1 |
= |
1 |
0 |
3 |
6 |
= |
1 + 6 = 7 |
= |
4 |
10 |
= |
10 + 7 = 17 |
= |
5 |
11 |
= |
11 + 17 = 28 |
= |
6 |
13 |
= |
13 + 28 = 41 |
= |
7 |
5 |
= |
5 + 41 = 46 |
= |
Окончание табл. 3.2
Х |
mi |
wi |
mx |
|
8 |
3 |
= |
3 + 46 = 49 |
= |
9 |
1 |
= |
1 + 49 = 50 |
= |
x |
0 |
0 |
50 |
= |
Сумма |
50 |
1 |
2. По данным табл.
3.2. построим полигон распределения
относительных частот (рис. 3.3).
Рис. 3.3. Полигон
распределения
относительных частот
Используя данные
последнего столбца табл. 3.2, построим
график эмпирической функции распределения
(рис. 3.4).
Рис. 3.4. График
эмпирической функции распределения
3. Используя данные
табл. 3.2, вычислим вероятность того, что
оценка случайно выбранного студента
окажется не менее семи:
P(X
≥ 7) = P(X
= 7) + P(X
= + P(X
= 9) ≈
≈ w7
+ w8
+ w9
= 0,10 + 0,06 + 0,02 = 0,18.
Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]
- #
- #
- #
- #
- #
- #
- #
- #
- #
- #
- #
При систематизации данных выборочных обследований используются статистические дискретные и интервальные ряды распределения.
1. Статистическое дискретное распределение. Полигон.
Пусть из генеральной совокупности извлечена выборка, причем х1 наблюдалось n1 раз, х2 – n2 раз, хk – nk раз и ∑ni=n — объем выборки. Наблюдаемые значения х1 называют вариантами, а последовательность вариант, записанных в возрастающем порядке – вариационным рядом. Число наблюдений варианты называют частотой, а ее отношение к объему выборки — относительной частотой ni/n=wi
ОПРЕДЕЛЕНИЕ. Статистическим (эмпирическим) законом распределения выборки, или просто статистическим распределением выборки называют последовательность вариант хi и соответствующих им частот ni или относительных частот wi.
Статистическое распределение выборки удобно представлять в форме таблицы распределения частот, называемой статистическим дискретным рядом распределения:
x1 | x2 | … | xm |
n1 | n2 | … | nm |
(сумма всех частот равна объему выборки ∑ni=n)
или в виде таблицы распределения относительных частот:
x1 | x2 | … | xm |
w1 | w2 | … | wm |
(сумма всех относительных частот равна единице ∑wi=1)
Пример 1. При измерениях в однородных группах обследуемых получены следующие выборки: 71, 72, 74, 70, 70, 72, 71, 74, 71, 72, 71, 73, 72, 72, 72, 74, 72, 73, 72, 74 (частота пульса). Составить по этим результатам статистический ряд распределения частот и относительных частот.
Решение. 1) Статистический ряд распределения частот:
xi | 70 | 71 | 72 | 73 | 74 |
ni | 2 | 4 | 8 | 2 | 4 |
2) Объем выборки: n=2+4+8+2+4=20. Найдем относительные частоты, для чего разделим частоты на объем выборки ni/n=wi: wi=2/20=0.1; w2=4/20=0.2; w3=0.4; w4=4/20=0.1; w5=2/20=0.2. Напишем распределение относительных частот:
xi | 70 | 71 | 72 | 73 | 74 |
wi | 0.1 | 0.2 | 0.4 | 0.1 | 0.2 |
Контроль: 0,1+0,2+0,4+0,1+0,2=1.
Полигоном частот называют ломаную, отрезки, которой соединяют точки (х1,n1),(х2,n2),…,(хk,nk). Для построения полигона частот на оси абсцисс откладывают варианты х2, а на оси ординат – соответствующие им частоты ni. Точки (хi,ni) соединяют отрезками и получают полигон частот.
Полигоном относительных частот называют ломаную, отрезки, которой соединяют точки (х1,w1),(х2,w2),…,(хk,wk). Для построения полигона относительных частот на оси абсцисс откладывают варианты хi, а на оси ординат соответствующие им частоты wi. Точки (хi,wi) соединяют отрезками и получают полигон относительных частот.
Пример 2. Постройте полигон частот и относительных частот по данным примера 1.
Решение: Используя дискретный статистический ряд распределения, составленный в примере 1 построим полигон частот и полигон относительных частот:
2. Статистический интервальный ряд распределения. Гистограмма. Статистическим дискретным рядом (или эмпирической функцией распределения) обычно пользуются в том случае, когда отличных друг от друга вариант в выборке не слишком много, или тогда, когда дискретность по тем или иным причинам существенна для исследователя. Если же интересующий нас признак генеральной совокупности Х распределен непрерывно или его дискретность нецелесообразно ( или невозможно) учитывать, то варианты группируются в интервалы.
Статистическое распределение можно задать также в виде последовательности интервалов и соответствующих им частот (в качестве частоты, соответствующей интервалу, принимают сумму частот, попавших в этот интервал).
Замечание. Часто hi-hi-1=h при всех i, т.е. группировку осуществляют с равным шагом h. В этой ситуации можно руководствоваться следующими эмперическими рекомендациями по выборке а, k и hi:
1. Rразмах=Xmax-Xmin
2. h=R/k; k-число групп
3. k≥1+3.321lgn (формула Стерджеса)
4. a=xmin, b=xmax
5. h=a+ih, i=0,1…k
Полученную группировку удобно представить в форме частотной таблицы, которая носит название статистический интервальный ряд распределения:
Интервалы группировки | [h0;h1) | [h1;h2) | … | [hk-2;hk-1) | [hk-1;hk) |
Частоты | n1 | n2 | … | nk-1 | nk |
Аналогическую таблицу можно образовать, заменяя частоты ni относительными частотами:
Интервалы группировки | [h0;h1) | [h1;h2) | … | [hk-2;hk-1) | [hk-1;hk) |
Отн. частоты | w1 | w2 | … | wk-1 | wk |
Пример 3. Из очень большой партии деталей извлечена случайная выборка объема 50 интересующий нас признак Х-размеры деталей, измеренные с точностью до 1см, представлен следующим вариоционным рядом: 22, 47, 26, 26, 30, 28, 28, 31, 31, 31, 32, 32, 33, 33, 33, 33, 34, 34, 34, 34, 34, 35, 35, 36, 36, 36, 36, 36, 37, 37, 37, 37, 37, 37, 38, 38, 40, 40, 40, 40, 40, 41, 41, 43, 44, 44, 45, 45, 47, 50. Найти статистический интервальный ряд распределения.
Решение. Определим характеристики группировки с помощью замечания.
k≥1+3.321lg50=1+3.32lg(5•10)=1+3.32(lg5+lg10)=6.6
Имеем, a=22, k=7, h=(50-22)/7=4, hi=22+4i, i=0,1,…,7.
Интервалы группировки | 22-26 | 26-30 | 30-34 | 34-38 | 38-42 | 42-46 | 46-50 |
Частоты ni | 1 | 4 | 10 | 18 | 9 | 5 | 3 |
Отн.частоты wi | 0.02 | 0.08 | 0.2 | 0.36 | 0.18 | 0.1 | 0.06 |
Десятичные логарифмы от 1 до 10
n | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 |
lnn≈ | 0 | 0.3 | 0.48 | 0.6 | 0.7 | 0.78 | 0.85 | 0.9 | 0.95 | 1 |
Наиболее информативной графической формой частот является специальный график, называемы гистограммой частот.
Гистограммой частот называют ступенчатую фигуру, состоящую из прямоугольников, основаниями которых служат частичные интервалы длиною h, а высоты равны отношению ni/h (плотность частоты).
Для построения гистограммы частот на оси абсцисс откладывают частичные интервалы, а над ними проводят отрезки, параллельные оси абсцисс на расстоянии ni/h. Площадь i-го частичного прямоугольника равна h•ni/h=ni — сумме частот вариант i-го интервала; следовательно, площадь гистограммы частот равна сумме всех частот, т.е. объему выборки.
Гистограммой относительных частот называют ступенчатую фигуру, состоящую из прямоугольников, основаниями которых служат частичные интервалы длиною h, а высоты равны отношению wi/h (плотность относительной частоты).
Для построения гистограммы относительных частот на оси абсцисс откладывают частичные интервалы, а над ними проводят отрезки, параллельные оси абсцисс на расстоянии wi/h. Площадь i-го частичного прямоугольника равна h•wi/h=wi — относительной частоте вариант, попавших в i-й интервал. Следовательно, площадь гистограммы относительных частот равна сумме всех относительных частот, т.е. единице.
Пример 4. Постройте гистограмму частот и относительных частот по данным примера 3.
Выборочная медиана – это середина вариационного ряда, значение, расположенное на одинаковом расстоянии от левой и правой границы выборки.
Выборочная мода – это наиболее вероятное, т.е. чаще всего встречающееся, значение в выборке.
Добавлять комментарии могут только зарегистрированные пользователи.
Регистрация Вход
Поможем решить контрольную, написать реферат, курсовую и диплом от 800р
Узнать стоимость
Статистическое распределение выборки
Содержание:
- Примеры использования формул и таблиц для решения практических задач
- Статистический интервальный ряд распределения
Предположим случай, когда из генеральной совокупности извлекается некоторая выборка, при этом каждому значению соответствует некоторый параметр, означающий количество раз, когда появлялось данное значение. Здесь $x_1$ было зафиксировано $n_1$ раз, $x_2$ было обнаружено $n_2$$x_k$ выявлено $n_k$. При этом
$sum_{i=1}^{k}n_i=n$
Где n — объём рассматриваемой выборки.
Определение 1
Используется следующая терминология: $x_k$ носят наименование вариантов, а последовательность таких вариантов, зафиксированный по возрастанию именуется вариационным рядом. Количество наблюдений каждого из вариантов носят название частот. При этом частное частот и выборки называют относительными частотами.
Определение 2
Статистическое распределение —это название всего набора вариантов и частот, которые с ними соотносятся. Чаще всего задаётся с помощью специальной таблицы, где представлены частоты, а также интервалы им соответствующие.
$x_1$ | $x_2$ | … | $x_k$ |
$n_1$ | $n_2$ | … | $n_k$ |
$frac{n_1}{n}$ | $frac{n_2}{n}$ | $frac{n_k}{n}$ |
Здесь в первой строке представлены варианты, во второй частоты, в третьеq взяты относительные частоты.
Для определения размера интервала используется следующее выражение:
$d=frac{x_{max}- x_{min}}{1+3,332cdot lg n}$
Здесь $x_{max}$, $x_{min}$ наибольшее и наименьшее значения ряда вариантов, а n характеризуем объём выборки.
Примеры использования формул и таблиц для решения практических задач
Пример 1
В ходе проведения измерений в однородных группах, были определены следующие значения выборки: 71, 72, 74, 70, 70, 72, 71, 74, 71, 72, 71, 73, 72, 72, 72, 74, 72, 73, 72, 74. Необходимо использовать данные значения, что определить ряд распределения частот и ряд распределения относительных частот.
Решение.
1) Составим статистический ряд распределения частот:
xi | 70 | 71 | 72 | 73 | 74 |
ni | 2 | 4 | 8 | 2 | 4 |
2) Рассчитаем суммарный размер выборки: n=2+4+8+2+4=20. Определим относительные частоты, для этого используем формулы: ni/n=wi: wi=2/20=0.1; w2=4/20=0.2; w3=0.4; w4=4/20=0.1; w5=2/20=0.2. Теперь зафиксируем в таблице распределение относительных частот:
xi | 70 | 71 | 72 | 73 | 74 |
wi | 0.1 | 0.2 | 0.4 | 0.1 | 0.2 |
Контрольная сумма должна равняться единице: 0,1+0,2+0,4+0,1+0,2=1.
Полигон частот
Название «полигоном частот» применяют для обозначения ломаной линии, каждый отрезок, которой соединяют точки $(х_1,n_1),(х_2,n_2),…,(х_k,n_k)$. Для построения на графике полигона частот по оси абсцисс отмечают варианты $х_2$, при этом на оси ординат отсчитывают– соответствующие частоты $n_i$. Когда полученные точки $(х_i,n_i)$ соединяются с помощью отрезков, то автоматически получают полигон частот.
Статистический интервальный ряд распределения.
Статистическим дискретным рядом (или эмпирической функцией распределения) обычно пользуются, если число различающихся вариант в полученной выборке не слишком большое. Также применение возможно, когда дискретность имеет важное значение для экспериментатора. В тех случаях, когда важный для задачи признак генеральной совокупности Х распределяется непрерывным образом, либо его дискретность нет возможности учесть, то варианты предпочтительнее всего группировать, чтобы получить интервалы.
Статистическое распределение допустимо задавать в том числе в качестве последовательности интервалов и частот, соответствующих этим интервалам. При это за частоту какого-либо интервала принимается сумма всех частот, вошедших в данный интервал.
Особенно следует отметить ,что $h_i-h_{i-1}=h$ при всех i, т.е. группировка проводится с равным шагом h. Также в вопросе группировки можно ориентироваться на ряд полученных опытным путём рекомендацийу, касающихся таких параметров, как а, k и $h_i$:
1. $Rраз_{мах}=X_{max}-X_{min}$
2. $h=R/k$; k-число групп
3.$ kgeq 1+3.321lgn$ (формула Стерджеса)
4. $a=x_{min}, b=x_{max}$
5.$ h=a+h_i, i=0,1…k$
Определённую в ходе решения задачи группировку удобнее всего скомпоновать и перевести в вид специальной таблицы, которая также может именоваться — «статистический интервальный ряд распределения»:
Интервалы группировки | [h0;h1) | [h1;h2) | … | [hk-2;hk-1) | [hk-1;hk) |
Частоты | n1 | n2 | … | nk-1 | nk |
Таблицу подобного вида можно сделать, поменяв частоты $n_i$ на относительные частоты:
Интервалы группировки | [h0;h1) | [h1;h2) | … | [hk-2;hk-1) | [hk-1;hk) |
Отн. частоты | w1 | w2 | … | wk-1 | wk |
236
проверенных автора готовы помочь в написании работы любой сложности
Мы помогли уже 4 430 ученикам и студентам сдать работы от решения задач до дипломных на отлично! Узнай стоимость своей работы за 15 минут!
Пример 2
На склад пришла крупная партия деталей. Из них методом случайного отбора взято 50 экземпляров. Рассматривая изделия по одному, особенно интересующему признаку — размеру, определённому с точностью до 1 см, получим следующий вариационный ряд: 22, 47, 26, 26, 30, 28, 28, 31, 31, 31, 32, 32, 33, 33, 33, 33, 34, 34, 34, 34, 34, 35, 35, 36, 36, 36, 36, 36, 37, 37, 37, 37, 37, 37, 38, 38, 40, 40, 40, 40, 40, 41, 41, 43, 44, 44, 45, 45, 47, 50. Требуется произвести расчёт и определить статистический интервальный ряд распределения.
Решение
Найдём параметры выборки используя сведения из условия задачи.
$k geq1+3,321cdot lg50=1+3.32lg(5cdot10)=1+3.32(lg5+lg10)=6.6$
Получили a=22, k=7, h=(50-22)/7=4, hi=22+4i, i=0,1,…,7.
Интервалы группировки | 22-26 | 26-30 | 30-34 | 34-38 | 38-42 | 42-46 | 46-50 |
Частоты | 1 | 4 | 10 | 18 | 9 | 5 | 3 |
Отн. частоты | 0.02 | 0.08 | 0.2 | 0.36 | 0.18 | 0.1 | 0.06 |
Десятичные логарифмы от 1 до 10
n | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 |
lnn≈ | 0 | 0.3 | 0.48 | 0.6 | 0.7 | 0.78 | 0.85 | 0.9 | 0.95 | 1 |
Не получается написать работу самому?
Доверь это кандидату наук!
Содержание:
- Интервальное статистическое распределение выборки и его числовые характеристики
- Двумерное статистическое распределение выборки и его числовые характеристики
- Условное статистическое распределение и их числовые характеристики
- Корреляционный момент, выборочный коэффициент корреляции
- Четное статистическое распределения выборки и его числовые характеристики
Количественные характеристики элементов генеральной совокупности могут быть одномерными и многомерными, дискретными и непрерывными.
Когда реализуется выборка, количественный признак, например приобретает конкретное числовое значение которое называют вариантой.
Возрастающий числовой ряд вариант называют вариационным.
Каждая варианта выборки может быть наблюденной если число частотой варианты .
При этом
где — количество вариант, что отличаются числовым значением; — объем выборки.
Соотношение частоты варианты к объему выборки называют ее относительной частотой и обозначают через то есть
Для каждой выборки выполняется равенство
если исследуется признак генеральной совокупности которая будет непрерывной, то вариант будет много. В этом случае, вариационный ряд — это определенное количество равных или неравных частичных интервалов или групп вариант со своими частотами.
Такие частичные интервалы вариант, которые размещены в возрастающей последовательности, образуют интервальный вариационный ряд.
На практике для удобства, как правило, рассматривают интервальные вариационные ряды, в которых интервалы являются равными между собой.
2. Дискретное статистическое распределение выборки и ее числовые характеристики.
Перечень вариант вариационного ряда и соответственных им частот, или относительных частот, называют дискретным статистическим распределением выборки.
В табличной форме можно представить так:
Дискретное статистическое распределение выборки можно представить эмпирической функцией .
Эмпирическая функция и ее свойства. Функция аргумента что обозначает относительную частоту события то есть
называется эмпирической.
Тут — объем выборки; — количество вариант статистического распределения выборки значения которых меньше фиксированной варианты
— называют еще функцией накопления относительных частот.
Свойства
где является наименьшей вариантой вариационного ряда;
где является наименьшей вариантой вариационного ряда;
является не спадающей функцией аргумента а именно: при
Полигон частот и относительных частот. Дискретное статистическое распределения выборки можно изобразить графически в виде ломанной линии, отрезки которой образуют координаты точек или
В первом случае ломанную линию называют полигоном частот, а во втором — полигоном относительных частот.
Пример. По заданному дискретному статистическому распределению выборки
нужно:
1. Построить и изобразить ее графически;
2. Начертить полигоны частот и относительных частот.
Решение. Согласно с определением и свойствам имеет такой вид:
Графическое изображение предоставлено на рис. 106.
Полигоны частот и относительных частот изображены на рис. 107, 108.
Числовые характеристики:
1) выборочная средняя величина Величину, которая обозначается формулой
называют выборочной средней величиной дискретного статического распределения выборки.
Тут — варианта вариационного ряда выборки;
— частота этой выборки
— объем выборки
Если все варианты выявляются в выборке только по одному разу, то есть то
2) отклонение вариант. Разницу называют отклонением этих вариант.
При этом
Следует, сумма отклонений всех вариант вариационного ряда выборки всегда равна нулю;
3) мода Модой дискретного статистического распределения выборки называют варианту, что имеет наибольшую частоту появления.
Мод может быть несколько. Когда дискретное статистическое распределение имеет одну моду, то оно называется одномодальным. если имеет две моды — двумодальным и так далее.
4) медиана Модой дискретного статистического распределения выборки называют варианту, которая делит вариационный ряд на две части, равные количеством вариант:
5) дисперсия. Для измерения рассеивания вариант выборки относительно выбирается дисперсия.
Дисперсия выборки — это среднее арифметическое квадратов отклонений вариант относительно , которое вычисляется по формуле
или
6) среднее квадратичное отклонение выборки При вычислении отклонения приводиться к квадрату, а следует, изменяется единица измерения признака потому на основании дисперсии приводится среднее квадратичное отклонение
которое измеряет рассеивание вариант выборки относительно то в тех же единицах, в которых изменяется признак
7) размах Для четкой оценки рассеивания вариант относительно используется величина, которая равна разнице между наибольшей и наименьшей вариантами вариационного ряда. Эта величина называется размахом
коэффициенты вариации Для сравнения оценок вариаций статистических рядов с разными значениями которые не равны нулю, приводится коэффициент вариации, который вычисляется по формуле
Пример. По заданному статистическому распределению выборки
нужно:
1) вычислить
2) найти
3)
Решение. Поскольку то согласно с формулами (354), (357), (358) получим:
Для вычисления обозначается
Тогда
Следует, приведенное статистическое распределение выборки будет двумодальным. поскольку варианта делит вариационный ряд на две части: и которые имеют одинаковое количество вариант
Интервальное статистическое распределение выборки и его числовые характеристики
Перечень долевых интервалов и соответственных им частот, или относительных частот называют интервальным статистическим распределением выборки
В табличной форме это распределение имеет такой вид:
Тут является длиной частичного — нного интервала. Как правило, этот интервал берется одинаковым.
Интервальное статистическое распределение выборки можно преподать графически в виде гистограмм частот или относительных частот, а также, как и для дискретного статистического распределения, эмпирической функцией
Гистограмма частот и относительных частот. Гистограмма частот — фигура, которая складывается из прямоугольников, каждый из которых имеет основу и высоту
Гистограмма относительных частот — фигура, которая складывается из прямоугольников, каждый из которых имеет основу длиной и высоту. что равен
Пример. По заданному интервальному статистическому распределению выборки
нужно построить гистограмму частот и относительных частот
Решение. Гистограммы частот и относительных частот приведены на
Площадь гистограммы частот
Площадь гистограммы относительных частот
Эмпирическая функция . При постройке кумуляты для интервального статистического распределения выборки за основу берется предположение, что признак на каждом частичном интервале имеет равномерную плотность вероятностей. Потому кумулята имеет вид ломанной линии, которая возрастает на каждом частичном интервале и приближается к единице.
Пример. По заданному интервальному статистическому распределению выборки
построить и предоставить ее графически.
Решение
график изображен на рис. 111.
Аналогом эмпирической функции в теории вероятностей будет интегральная функция
Медана. Для обозначения медианы интервального статистического распределения выборки необходимо обозначить медианный частичны интервал. Если, например, на — нном интервале и то обратим внимание, что исследование признака является непрерывной и при этом является не спадающей функцией, на середине интервала обязательно существует такое значение где
Из признаков подобности треугольников и изображенных на рис. 112, получим:
где называют шагом.
Мода. Для определения моды интервального статистического распределения необходимо найти модальный интервал, то есть такой частичный интервал, что имеет наибольшую частоту появления.
Используя линейную интерполяцию, моду вычислим по формуле
где — начало модального интервала;
— длина или шаг частичного интервала;
— частота модального интервала;
— частота домодального интервала;
частота послемодального интервала;
Пример. По заданному интервальному статистическому распределению выборки
построить гистограмму частот и
Обозначим
Решение. Гистограмма частот изображена на рис. 113.
График изображен на рис. 114
Из рис. 113 обозначается модальный интервал, который равен Используя и обратив на внимание, что получим
Следует,
Из графика обозначается медианный интеграл, который равен
Обратим внимание, что и используя (361), получим:
Следует,
для интервального статистического распределения выборки. Для обозначения перейдем от интервального распределение к дискретному, вариантами которого будет середина частичных интервалов и который имеет вид:
Тогда вычисляется по формуле:
Пример. По заданному интервальному статистическому распределению выборки, в котором приведено распределение массы новорожденных
вычислить
Решение. Построим дискретное статистическое распределение к заданным интервальным. Поскольку то получим:
Обращая внимание на и то, что получим:
Следует,
Следует,
Двумерное статистическое распределение выборки и его числовые характеристики
Перечень вариант и соответственных им частот совместного их появления образуют двумерное статистическое распределение выборки, что реализована из генеральной совокупности, элементам этой выборки присущие количественные признаки и
В табличной форме это распределение имеет такой вид:
Тут — частота совместного появления вариант
Общие числовые характеристики признака
общая средняя величина признака
общая дисперсия признака
общие среднее квадратичное отклонение признака
Общие числовые характеристики признака
общая средняя величина признака :
общая дисперсия признака :
общее среднее квадратичное отклонение признака :
Условное статистическое распределение и их числовые характеристики
Условным статистическим распределением признака при фиксированном значении называют пересечение вариант признака и соответственных им частот, взятых при фиксированном значении .
Тут
Числовые характеристики для такого статистического распределения называют условными. К ним принадлежат: условный средний признак
условная дисперсия признака
условное среднее квадратичное отклонение признака :
измеряют рассеивание вариант признака относительно средней величины
Условным статистическим распределением признака при называют пересечение вариант и соответственных им частот, взятых при фиксированном значении признака
Тут
Условные числовые характеристики для этого распределения: условная средняя величина признака
условная дисперсия признака
условное среднее квадратичное отклонение признака
При известных значениях условных средних общие средние признаки и вычислить по формулам:
Корреляционный момент, выборочный коэффициент корреляции
Во время исследования двумерного статистического распределения выборки предстает потребность использовать наглядность связи между признаками и , какой в статистике называют корреляционным. Для этого вычисляется эмпирический корреляционный момент по формуле
Если то корреляционная связь между признаками и нет. Если же то эта связь существует.
Следует, корреляционный момент дает только ответ на вопросы: существует связь между признаками и или нет.
Для измерения тесноты корреляционной связи вычисляется выборочный коэффициент корреляции по формуле
как и в теории вероятностей
Пример. По заданному двумерному статистическому распределению выборки признаки и
нужно:
1) вычислить
2) построить условно статистические распределения и вычислить условные числовые характеристики.
Решение. 1) Чтобы вычислить обозначим
Поскольку то
Следует,
Следует,
для обозначения вычисляют
Тогда
Следует, а это свидетельствует о том, что между признаками и существует отрицательная корреляционная связь.
Для измерения тесноты этой связи вычислим выборочный коэффициент корреляции
Следует, то есть теснота корреляционной связи между признаками и является слабой.
Условное статистическое распределение имеет такой вид:
Вычисляют условные числовые характеристики для этого распределения:
Условная средняя величина
Условная дисперсия и среднее квадратичное отклонение
Следует,
Условное статистическое распределение имеет такой вид:
Вычисляются условные числовые характеристики.
Условная средняя величина
Следует,
Условная дисперсия и среднее квадратичное отклонение
Следует,
Четное статистическое распределения выборки и его числовые характеристики
Если частота общего появления признака и для всех вариант, то в этом случае двумерное статистическое распределение приобретает такой вид:
его называют четным статистическим распределением выборки. Тут каждая пара значений признаков и выявляется только один раз.
Объем выборки в этом случае равен количеству пар, то есть
Числовые характеристики признака :
средняя величина
дисперсия
среднее квадратичное отклонение
Числовые характеристики признака :
средняя величина
дисперсия
среднее квадратичное отклонение
эмпирический корреляционный момент
выборочный коэффициент корреляции
Пример. Зависимость количества масла что использует определенная особь за месяц, от ее прибыли в рублях приведена в таблице
Нужно вычислить
Решение. Поскольку объем выборки то получим:
Следует
Поскольку значение близко к единице, то отсюда получается, что зависимость между количеством масла, использованного определенной особой, и ее месячной прибылью почти функциональная.
6. Эмпирические моменты
Начальные эмпирические моменты. Среднее взвешенное значение вариант в степени называют начальным эмпирическим моментом — ого порядка который вычисляется по формуле
При получим начальный момент первого порядка:
При вычислим начальный момент второго порядка:
Следует, дисперсию выборки можно преподать через начальные моменты первого и второго порядков, а именно:
Центральный эмпирический момент — ого порядка. Среднее взвешенное отклонение вариант в степени называют центральным эмпирическом моментом — ого порядка
При получим:
При получим:
На практике чаще используются центральные эмпирические моменты третьего и четвертого порядков, что вычисляются по формулам:
Преподнося к третьему и четвертому степени отклонения вариант, придадим и через соответственные начальные моменты:
Коэффициент асимметрии Центральный эмпирический момент третьего порядка используется для вычисления коэффициента асимметрии:
Если варианты статистического распределения выборки симметрично распределены относительно то в этом случае поскольку
При варианты статистического распределения преобладают варианты Такую асимметрию называют отрицательной. При статистического распределения преобладают варианты и такую асимметрию называют положительной.
Эксцесс. Центральный эмпиричный момент четвертого порядка используется для вычисления эксцесса:
как правило, используется при исследовании непрерывности признаков генеральных совокупностей, поскольку он оценивает крутизну закона распределения непрерывной случайной величины уравнена с нормальным. Для нормального закона распределения, как известно,
Пример. Оценить в баллах полученные абитуриенты на вступительных испытаниях по математике, приведены в таблице дискретного распределения:
Вычислить
Решение. Используя приведенные выше формулы и учитывая, что вычислим
Откуда
Следует, получим:
поскольку сравнительно малый, то статистическое распределение ближе к симметричному.
Пример. Длина заготовок изготовленных работником за смену, и частоты этих длин приведены в виде статистического распределения:
обозначить
Решение. Вычисляются значения Поскольку то получим:
Следует,
Вычислим центральный эмпирический момент четвертого порядка.
Поскольку то вершина закона распределения случайной величины, заданного плотностью вероятностей, будет плоской, то есть так называемое туповершинное распределение.
Лекции:
- Статистические оценки
- Статистические гипотезы
- Корреляционный и регрессионный анализ
- Комбинаторика основные понятия и формулы с примерами
- Число перестановок
- Непосредственное вычисление вероятностей примеры с решением
- Действия над событиями. Теоремы сложения и умножения вероятностей примеры с решением
- Примеры решения задач на тему: Случайные величины
- Примеры решения задач на тему: основные законы распределения
- Примеры решения задач на тему: совместный закон распределения двух случайных величин
Что такое группировка статистических данных, и как она связана с рядами распределения, было рассмотрено в первой части этой лекции, там же можно узнать, о том что такое дискретный и вариационный ряд распределения.
Ряды распределения одна из разновидностей статистических рядов (кроме них в статистике используются ряды динамики), используются для анализа данных о явлениях общественной жизни. Построение вариационных рядов вполне посильная задача для каждого. Однако есть правила, которые необходимо помнить.
Как построить дискретный вариационный ряд распределения
Пример 1. Имеются данные о количестве детей в 20 обследованных семьях. Построить дискретный вариационный ряд распределения семей по числу детей.
0 1 2 3 1
2 1 2 1 0
4 3 2 1 1
1 0 1 0 2
Решение:
- Начнем с макета таблицы, в которую затем мы внесем данные. Так как ряды распределения имеют два элемента, то таблица состоять будет из двух колонок. Первая колонка это всегда варианта – то, что мы изучаем – ее название берем из задания (конец предложения с заданием в условиях) — по числу детей – значит наша варианта это число детей.
Вторая колонка это частота – как часто встречается наша варианта в исследуемом явление – название колонки так же берем из задания — распределения семей – значит наша частота это число семей с соответствующим количеством детей.
В итоге макет нашей таблицы будет выглядеть так:
Варианта Число детей в семье — (х) |
Частота Количество семей (f) |
- Теперь из исходных данных выберем те значения, которые встречаются хотя бы один раз. В нашем случае это
0 2 4 1 и 3.
И расставим эти данные в первой колонке нашей таблицы в логическом порядке, в данном случае возрастающем от 0 до 4. Получаем
Число детей в семье — (х) | Количество семей (f) |
0 1 2 3 4 |
И в заключение подсчитаем, сколько же раз встречается каждое значение варианты.
0 1 2 3 1
2 1 2 1 0
4 3 2 1 1
1 0 1 0 2
В результате получаем законченную табличку или требуемый ряд распределения семей по количеству детей.
Число детей в семье — (х) | Количество семей (f) |
0 1 2 3 4 |
4 8 5 2 1 |
Итого | 20 |
Задание. Имеются данные о тарифных разрядах 30 рабочих предприятия. Построить дискретный вариационный ряд распределения рабочих по тарифному разряду. 2 3 2 4 4 5 5 4 6 3
1 4 4 5 5 6 4 3 2 3
4 5 4 5 5 6 6 3 3 4
Как построить интервальный вариационный ряд распределения
Построим интервальный ряд распределения, и посмотрим чем же его построение отличается от дискретного ряда.
Пример 2. Имеются данные о величине полученной прибыли 16 предприятий, млн. руб. — 23 48 57 12 118 9 16 22 27 48 56 87 45 98 88 63. Построить интервальный вариационный ряд распределения предприятий по объему прибыли, выделив 3 группы с равными интервалами.
Общий принцип построения ряда, конечно же, сохраниться, те же две колонки, те же варианта и частота, но в здесь варианта будет располагаться в интервале и подсчет частот будет вестись иначе.
Решение:
- Начнем аналогично предыдущей задачи с построения макета таблицы, в которую затем мы внесем данные. Так как ряды распределения имеют два элемента, то таблица состоять будет из двух колонок. Первая колонка это всегда варианта – то, что мы изучаем – ее название берем из задания (конец предложения с заданием в условиях) — по объему прибыли – значит, наша варианта это объем полученной прибыли.
Вторая колонка это частота – как часто встречается наша варианта в исследуемом явление – название колонки так же берем из задания — распределения предприятий – значит наша частота это число предприятий с соответствующей прибылью, в данном случае попадающие в интервал.
В итоге макет нашей таблицы будет выглядеть так:
Варианта Объем полученной прибыли, млн. руб. — (х) | Частота Число предприятий (f) |
- Построим интервалы. Следует сказать, что есть несколько способов построения интервала: визуальный способ без дополнительных расчетов на основе логического анализа данных, расчет по формуле, если по условию требуется построить равные интервалы. Для упрощения расчетов величины интервала чаще всего эта формула имеет следующий вид:
где i – величина или длинна интервала,
Хmax и Xmin – максимальное и минимальное значение признака,
n – требуемое число групп по условию задачи.
Рассчитаем величину интервала для нашего примера. Для этого среди исходных данных найдем самое большое и самое маленькое
23 48 57 12 118 9 16 22 27 48 56 87 45 98 88 63 – максимальное значение 118 млн. руб., и минимальное 9 млн. руб. Проведем расчет по формуле.
В расчете получили число 36,(3) три в периоде, в таких ситуациях величину интервала нужно округлить до большего, чтобы после подсчетов не потерялось максимальное данное, именно поэтому в расчете величина интервала 36,4 млн. руб.
- Теперь построим интервалы – наши варианты в данной задаче. Первый интервал начинают строить от минимального значения к нему добавляется величина интервала и получается верхняя граница первого интервала. Затем верхняя граница первого интервала становится нижней границей второго интервала, к ней добавляется величина интервала и получается второй интервал. И так далее столько раз сколько требуется построить интервалов по условию.
Объем полученной прибыли, млн. руб. — (х) | Число предприятий (f) |
9,0 + 36,4 = 45,4 45,4 + 36,4 = 81,8 81,8 + 36,4 = 118,2 |
Обратим внимание если бы мы не округлили величину интервала до 36,4, а оставили бы ее 36,3, то последнее значение у нас бы получилось 117,9. Именно для того чтобы не было потери данных необходимо округлять величину интервала до большего значения.
- Проведем подсчет количества предприятий попавших в каждый конкретный интервал. При обработке данных необходимо помнить, что верхнее значение интервала в данном интервале не учитывается (не включается в этот интервал), а учитывается в следующем интервале (нижняя граница интервала включается в данный интервал, а верхняя не включается), за исключением последнего интервала.
При проведении обработки данных лучше всего отобранные данные обозначить условными значками или цветом, для упрощения обработки.
23 48 57 12 118 9 16 22
27 48 56 87 45 98 88 63
Первый интервал обозначим желтым цветом – и определим сколько данных попадает в интервал от 9 до 45,4, при этом данное 45,4 будет учитываться во втором интервале (при условии что оно есть в данных) – в итоге получаем 7 предприятий в первом интервале. И так дальше по всем интервалам.
Объем полученной прибыли, млн. руб. — (х) | Число предприятий (f) |
9,0 — 45,4 45,4 — 81,8 81,8 — 118,2 |
7 5 4 |
Итого | 16 |
- (дополнительное действие) Проведем подсчет общего объема прибыли полученного предприятиями по каждому интервалу и в целом. Для этого сложим данные отмеченные разными цветами и получим суммарное значение прибыли.
По первому интервалу — 23 + 12 + 9 + 16 + 22 + 27 + 45 = 154 млн. руб.
По второму интервалу — 48 + 57 + 48 + 56 + 63 = 272 млн. руб.
По третьему интервалу — 118 + 87 + 98 + 88 = 391 млн. руб.
Объем полученной прибыли, млн. руб. — (х) | Число предприятий (f) | Общий объем прибыли, млн. руб. |
9,0 — 45,4 45,4 — 81,8 81,8 — 118,2 |
7 5 4 |
154 272 391 |
Итого | 16 | 817 |
Задание. Имеются данные о величине вклада в банке 30 вкладчиков, тыс. руб. 150, 120, 300, 650, 1500, 900, 450, 500, 380, 440,
600, 80, 150, 180, 250, 350, 90, 470, 1100, 800,
500, 520, 480, 630, 650, 670, 220, 140, 680, 320
Построить интервальный вариационный ряд распределения вкладчиков, по размеру вклада выделив 4 группы с равными интервалами. По каждой группе подсчитать общий размер вкладов.