Как найти факт по статистике

Примеры решения задач по статистике

Методы прикладной математической статистики активно применяются в технических исследованиях, экономике, теории и практике управления (менеджмента), социологии, медицине, геологии, истории и т. д. С результатами наблюдений, измерений, испытаний, опытов, с их анализом имеют дело специалисты во всех отраслях практической деятельности, почти во всех областях теоретических исследований.

Прикладная математическая статистика нацелена на решение реальных задач. Поэтому в ней возникают новые постановки математических задач анализа статистических данных, развиваются и обосновываются новые методы. Обоснование часто проводится математическими методами, то есть путем доказательства теорем. Большую роль играет методологическая составляющая — как именно ставить задачи, какие предположения принять с целью дальнейшего математического изучения. Велика роль современных информационных технологий, в частности, компьютерного эксперимента.

Здравствуйте на этой странице я собрала примеры решения задач по предмету статистика с решением по каждой теме, чтобы вы смогли освежить знания!

Если что-то непонятно — вы всегда можете написать мне в WhatsApp и я вам помогу!

Статистика

Статистика изучает массовые общественно-экономические явления в конкретных обстоятельствах места и времени.

Предметом статистики выступают размеры и количественные соотношения массовых общественных явлений в неразрывной связи с их качественной стороной с целью выявления закономерностей их развития.

Статистика является важным элементом плана подготовки специалистов высшей экономической квалификации. Знание статистики необходимо современному специалисту для принятия решений в условиях, когда анализируемые явления подвержены влиянию случайностей, для анализа элементов рыночной экономики, прогнозирования и разработки сценариев поведения экономических систем при изменении условий их функционирования

Основные понятия и формы статистического наблюдения

Всякое статистическое исследование делится на три последовательных этапа: статистическое наблюдение, сводка и группировка материалов, полученных в результате наблюдения; вычисление обобщающих показателей, всесторонне характеризующих изучаемое явление и их анализ.

Таким образом, статистическое наблюдение (СН) является исходным этапом статистического исследования и состоит в планомерном, научно-организованном собирании массовых данных о явлениях и процессах общественной жизни. Целью СН является регистрация элементов, составляющих изучаемое массовое явление, по заранее установленным наиболее существенным признакам. Это означает, что СН должно быть организовано как планомерное, массовое и систематическое.

Планомерность статистического наблюдения заключается в том, что оно подготавливается и осуществляется по заранее подробно разработанному плану и программе, которые охватывают все вопросы методологии, организации и техники сбора информации. В программно-методологическую часть плана статистического наблюдения включаются вопросы определения цели, объекта наблюдения, единицы наблюдения и единицы совокупности.

Объектом статистического наблюдения называется совокупность единиц изучаемого явления, подлежащих статистическому изучению (совокупность предприятий, лиц, магазинов, фермерских хозяйств и др.).

Единицей наблюдения называется первичная ячейка совокупности, которая является источником информации.

Единицей совокупности называется элемент единицы наблюдения, служащий основой счета и обладающий признаками, подлежащими регистрации.

Каждая единица наблюдения и единица совокупности должны характеризоваться совокупностью признаков, которые по форме и содержанию делятся на количественные, т. е. выражающиеся числом (возраст, заработная плата и т. д.) и атрибутивные, характеризующие качественное состояние данного явления и не имеющие количественного выражения (пол, специальность, образование и пр.). В свою очередь и те и другие могут быть факторными, т. е. характеризующими условия, определяющие размер того или иного явления, и результативными, являющимися результатом действия факторных признаков (например, стаж работы  факторный признак, производительность труда  результативный признак).

Массовый характер статистического наблюдения означает, что оно организовано и направлено на охват возможно большего, массового числа случаев проявления данного явления или процесса

Систематичность статистического наблюдения определяется тем, что оно производится не стихийно, а регулярно или непрерывно.

Статистическое наблюдение осуществляется в двух формах: путем представления отчетности и проведения специально организованного статистического наблюдения, причем основной формой СН является представление отчетности.

Возможно эта страница вам будет полезна:

Виды и способы статистического наблюдения

Статистическое наблюдение различается по видам и способам проведения. Их можно классифицировать следующим способом:

I. По степени охвата единиц исследуемой совокупности.

По этому классификационному признаку СН подразделяется на два способа:

1. Сплошное наблюдение, т.е. когда охватываются все единицы совокупности (например, перепись населения, текущая отчетность предприятии).

2. Несплошное (частичное) наблюдение — обследованием охватывается определенная часть изучаемой совокупности. Несплошное наблюдение занимает очень важное место в статистике и подразделяется на следующие виды:
а) метод основного массива (наблюдение наиболее важных объектов) заключается в том, что обследованию подвергается та часть совокупности, у которой величина изучаемого признака является определяющей во всем объеме. Например, отслеживания объема реализации и динамики цен на колхозных рынках в России проводились в 264 крупных городах, составляющих менее 5% всех городов, но в которых проживало более 50% всего городского населения.
б) монографическое наблюдение состоит в подробном описании небольшого числа или отдельных единиц совокупности (описание работы передового или отстающего предприятия и т. д.);
в) суть анкетного вида несплошного наблюдения заключается в рассылке и сборе анкет;
г) случайный отбор определенного количества единиц из совокупности (выборочный метод).
В свою очередь он может выполняться следующими способами:

— при собственно-случайном отборе, отбор единиц для выборочной совокупности осуществляется случайным образом по жребию;
— сущность механического отбора состоит в том, что единицы изучаемой совокупности предварительно располагают в определенном порядке (например, по возрастанию или убыванию), а потом механическим путем выбирают необходимое количество единиц (например, берут каждую 4-ю, каждую 10-ю единицу и пр.);
— типологическому отбору предшествует распределение единиц изучаемой совокупности на группы по типичному признаку, затем внутри каждой группы проводится тот или иной отбор (собственно-случайный, механический или любой другой);
серийный отбор предполагает образование выборочной совокупности не из отдельных единиц, а из целых серий, причем серии выбираются путем механического или собственно-случайного отбора, а внутри каждой серии проводится сплошное наблюдение.

Все способы случайного отбора могут выполняться по двум схемам:
— повторный отбор (схема возвращенного шара) — после выбора какой-либо единицы она вновь возвращается в исходную совокупность и может быть выбрана снова;
— бесповторный отбор (схема невозвращенного шара) — отобранная единица обратно в совокупность не возвращается и не может быть выбрана снова.

II. В зависимости от времени статистическое наблюдение может быть непрерывным (текущим), периодическим и единовременным.

1. Непрерывным или текущим наблюдением называется такое, которое проводится непрерывно, по мере возникновения явлений, например, учет выпуска продукции на предприятии;
2. Если наблюдение проводится через определенные промежутки времени, то оно называется периодическим (сессия в вузах);
3. Единовременное наблюдение проводится по мере необходимости, например, перепись населения.

Установление времени наблюдения является очень важным, и в статистике различают, объективное и субъективное время и критический момент.

Объективным временем называется время, к которому относятся данные наблюдения. Оно характеризует тот момент или период времени, по состоянию на который были собраны и зарегистрированы данные. Например, данные о выпуске продукции, размерах потребления и т.д. можно получить только за определенный период. Сведения же о численности населения, числе больничных коек и т. д. можно собрать только по состоянию на определенную дату.

Если наблюдение приурочено к определенному моменту, то этот момент называется критическим.

Субъективное время наблюдения — это время производства наблюдения, т.е. период, в течение которого проводится регистрация единиц совокупности. В целях обеспечения точности наблюдения субъективное время должно измеряться возможно более коротким периодом. Когда наблюдение основано на документальных данных, длительность субъективного времени не имеет значения.

III. В зависимости от источников собираемых данных различают:

4) Непосредственное наблюдение, т.е. наблюдение лично регистратором — снятие товарных остатков, изучение и замер норм времени и т. д.;
5) Документальное наблюдение, когда используются различного рода документы;
6) Наблюдение базируется на опросе заинтересованных лиц и получение данных в форме ответов.

IV. По способу организации наблюдения различают:

1) Наблюдение, заключающееся в обработке отчетных данных — отчетность, наиболее распространен в практике работы.
2) Экспедиционный способ — к каждой единице совокупности посылается специальное лицо, которое в соответствующих формулярах фиксирует необходимые сведения;
3) Саморегистрация — заполнение специально выданных бланков;
4) Анкетный способ — рассылка анкет и их обработка.

Наиболее распространенной формой статистического наблюдения является представление отчетности. Виды статистической отчетности делятся на типовую и специализированную; по периодичности различают недельную, двухнедельную, месячную, квартальную и годовую отчетность; в зависимости от установленного порядка прохождения отчетность делится на централизованную (наиболее распространенную) и децентрализованную.

Пример №1.

На заводе ведется учет выполнения норм выработки. Укажите виды наблюдения по времени проведения, охвату единиц совокупности и источника данных.
Так как наблюдению подвергаются все, без исключения, рабочие, то по степени охвата единиц наблюдение сплошное; наблюдение непрерывное, так как проводится по мере возникновения явления; источником данных служат документы.

Пример №2.

Проведено обследование части школьных буфетов в городе. Укажите вид наблюдения по степени охвата единиц и способу проведения.
Так как наблюдалась только часть буфетов, то наблюдение несплошное и, повидимому, был применен экспедиционный способ, т.е. в каждый проверяемый буфет посылался специальный человек, который и фиксировал необходимую информацию.

Пример №3.

Первая Всесоюзная перепись населения 1926 г. проводилась по состоянию на 12 ч. ночи с 16 на 17 декабря и продолжалась в городах 7 дней, а в сельской местности — 14 дней. Укажите объективное и субъективное время и критический момент наблюдения.
Объективное время — 12 ч. ночи с 16 на 17 декабря. Этот же момент является критическим. Субъективное время: в городах — 7 дней; в сельской местности — 14 дней.

Пример №4.

Срок представления годовых отчетов за 1995 год — 1-25 января 1996 г. Укажите объективное и субъективное время и критический момент наблюдения.
Объективное время — 1995 год, т.к. данные наблюдения относятся именно к этому периоду; субъективное время — 1-25 января 1996 г., так как в это время составляется отчет, собираются данные; критический момент отсутствует.

Пример №5.

Проводится перепись художественной литературы в библиотеках области. Укажите объект, единицу наблюдения и единицу совокупности.
Объектом наблюдения являются библиотеки области, единицей наблюдения здесь будет фонд художественной литературы, так как другие ее виды не учитываются, а единицей наблюдения является каждая конкретная книга, так как она обладает признаками, подлежащими регистрации.

Ошибки наблюдения и их контроль

Ошибкой называется расхождение между результатом наблюдения и истинным значением исследуемой величины.

Все ошибки статистического наблюдения можно классифицировать:

1. По характеру ошибок:
а) случайные ошибки, которые вызываются самыми разными причинами. Так как искажение может быть как в ту, так и в другую сторону, то случайные ошибки могут не очень влиять на общий результат;
б) систематические ошибки, которые искажают явление только в одну сторону более опасны и, как правило, вызываются действием систематического фактора (например, тяготение к круглым цифрам вносит большие осложнения при собирании сведений о возрасте населения).

2. По стадии возникновения:
а) ошибки регистрации;
б) ошибки при подготовке данных к обработке;
в) ошибки при обработке.

3. По причинам возникновения:
а) свойственные только выборочному методу и связанные с неправильным выбором части совокупности ошибки репрезентативности (представительности);
б) непреднамеренные ошибки, совершаются неумышленно, непреднамеренно, т. е. не имеют целью исказить результаты наблюдения;
в) преднамеренные ошибки возникают в результате умышленного искажения фактов. Все преднамеренные ошибки являются систематическими.

Для исключения ошибок статистические данные проверяются арифметическим и логическим контролем.

Логический контроль состоит в сопоставлении ответов на взаимосвязанные между собой вопросы программы наблюдения.

Счетный и арифметический контроль сводится к проверке общих и групповых цифровых итогов и сопоставлений; задача его обнаружить и исправить неверные итоги числовых показателей.

Пример №6.

В сводку завода о выпуске продукции за февраль была включена и продукция, выпущенная 1 и 2 марта. Укажите характер допущенной ошибки и причины возникновения.
Ошибка систематическая и преднамеренная, так как были сознательно искажены действительные результаты для получения определенных материальных выгод.

Пример №7.

В переписном листе записано: «лет-, месяцев — 11» вместо «лет — 11, месяцев-». Укажите характер и причину ошибки.
Ошибка случайная (описка) и непреднамеренная.

Пример №8.

Проведите логический контроль правильности заполнения переписного листа Всесоюзной переписи населения 1970 г. В ответах на какие вопросы допущены ошибки?

Переписной лист № 4
1. Фамилия имя и отчество — Антонова Мария Павловна.
2. Пол -женский.
3. Отношение к главе семьи -внучка.
4. Возраст (число исполнившихся лет) -4.
5. Состоит ли в браке в настоящее время -да.
6. Образование -не имеет начального.
Логика ответов подсказывает, что ошибка в 5 вопросе. Должно быть — «нет».

Сводка и группировка статистических данных. Сводка и группировка. Виды группировок

В результате статистического наблюдения получают сведения о каждой единице совокупности в отдельности. Чтобы на основе этих данных сделать определенные выводы, необходимо провести сводку полученных материалов, т.е. в узком смысле сводка -это подсчет или подведение итогов.

Однако в более широком смысле под статистической сводкой понимают сложную операцию научной обработки первичных статистических данных, которая включает группировку материала, разработку системы показателей для характеристики типичных групп и подгрупп, подсчет (подведение) итогов по группам и по совокупности в целом и изображение сгруппированных данных в виде статистических таблиц.

Статистическая группировка — расчленение общей совокупности единиц по одному или нескольким существенным признакам на однородные группы, различающиеся между собой в качественном и количественном отношении и позволяющие выделить социальноэкономические типы, изучить структуру совокупности или проанализировать связи между отдельными признаками. Группировка проводится только для целей конкретного исследования.

В соответствии с решаемыми задачами все группировки подразделяются на типологические, структурные и аналитические.

1.Расчленение разнородной совокупности на качественные однородные группы, выделение качественно однородных экономических групп или типов общественных явлений осуществляется при помощи типологических группировок.

Таблица 2.1

Распределение промышленной продукции, произведенной в различных формах хозяйствования за отчетный период

Примеры решения задач по статистике

Приведенные данные характеризуют социально-экономический состав промышленной продукции (выделены типы явления), а также свидетельствуют о возникших в последнее время новых формах хозяйствования.

2. Группировка, цель которой расчленение совокупности единиц на группы, характеризующие структуру по определенным признакам, называется структурной группировкой.

Приведенная в табл. 2.2 группировка, содержит систему показателей, характеризующих структуру изучаемой совокупности по ряду признаков, а также концентрацию торгово-закупочного процесса, нашедшего свое выражение в укрупнении магазинов по величине товарооборота.

Таблица 2.2

Группировка торговых предприятий района по объему товарооборота (в процентах к итогу)

Примеры решения задач по статистике

3. Группировка, целью которой является установление взаимосвязей между изучаемыми явлениями, называется аналитической. Примером аналитической группировки могут служить данные табл.2.3.

Таблица 2.3

Зависимость урожайности зерновых культур от количества внесенных удобрений по группе совхозов

Примеры решения задач по статистике

Данные показывают, что увеличение количества внесенных удобрений (факторный признак) приводит при прочих равных условиях к повышению урожайности (результативный признак).

Возможно эта страница вам будет полезна:

Группировочные признаки

Признаки в статистике — это свойства, характерные черты или особенности явлений, которые можно выразить рядом статистических величин. Признаки, положенные в основание группировки, называются группировочными.

Группировки по одному признаку называются простыми. Когда же для выделения групп берутся два более признака, т. е. группы, образованные по одному признаку, подразделяются на подгруппы по другому, а полученные в результате этого подгруппы подразделяются (каждая в отдельности) еще на подгруппы и т. д., то такие группировки называются комбинационными.

Различают четыре вида группировочных признаков: атрибутивные, количественные, признаки пространства и признаки времени.

2. Атрибутивным называется признак, который характеризует свойство, качество данного явления и не имеет количественного выражения. При группировке по атрибутивным (качественным) признакам статистическая совокупность разбивается на столько групп, сколько разновидностей имеет признак (по полу — на две группы, по национальному составу — на столько групп, сколько имеется национальностей и т.д.).
Разновидностью атрибутивных признаков являются альтернативные, т.е. такие признаки, которыми одни единицы совокупности обладают, а другие -нет. Например, одни работники имеют высшее образование, а другие не имеют и т. д.

3. Количественным называется признак, характеризующий размеры, величину изучаемой совокупности и дающий возможность расчленить её на группы по величине индивидуальных значений группировочного признака.

4. Признак пространства -это адресный признак (адрес предприятия и пр.). Группировки по признаку пространства применяются для изучения пространственных (географических) закономерностей.

5. Признак времени позволяет установить хронологию событий, и его применяют для изучения изменений явлений во времени.
Признаки бывают первичные и вторичные. Первичные признаки характеризуют абсолютные размеры изучаемых явлений (например, численность рабочих), вторичные являются производными от первичных и показывают структуру группируемых явлений (фондовооруженность, себестоимость и т. д.).

Предварительные сведения о рядах распределения

Ряд цифровых показателей, представляющий распределение единиц совокупности по одному признаку, разновидности которого расположены в определенной последовательности, называется рядом распределения.

Ряд распределения -это первичная характеристика массовой статистической совокупности, в которой находят количественное выражение закономерности массовых явлений и процессов.

Ряды распределения могут быть построены как по атрибутивному признаку — атрибутивные ряды распределения, так и по количественному — вариационные ряды распределения.

Числовые значения количественного признака в вариационном ряду называются вариантами и располагаются в определенном порядке; численность единиц в каждой группе называется частотой, а если частоты выражены в процентах, то они называются частостями. Рассмотрим табл.2.4.

Таблица 2.4

Распределение рабочих завода по уровню месячной заработной платы

Примеры решения задач по статистике

Примеры решения задач по статистике

В данной таблице уровень заработной платы является вариантой, а число рабочих — частотой, показывающей, сколько раз повторяется данная варианта (т.е. сколько рабочих получают заработную плату, лежащую в пределах от 350 до 450 тыс. руб.). Частота, выраженная в процентах (в данном примере — 48,0) — это частость. Сумма всех частот называется объемом ряда распределения или его численностью (в данном случае было обследовано 180 рабочих).

Вариация признака может быть дискретной (прерывной) или непрерывной. При дискретной вариации признака значение вариантов отличается друг от друга на вполне определенную величину, и варианты обычно выражаются целыми числами (например, число членов семьи — 1, 2, 3, 4 и т. д.). Такие ряды называются вариационными дискретными рядами.

При непрерывной вариации признака его величина может принимать любые значения в определенном интервале (интервальные ряды распределения), например, рост человека, урожайность, заработная плата и т.д. Построение интервального ряда основано на принципах статистической группировки.

Интервалы могут быть неравными, поэтому сравнивать частоты и судить о степени заполнения разных интервалов нельзя. В целях сравнения заполненности интервалов рассчитывается показатель, называемый плотностью распределения, — т.е. число единиц совокупности, приходящееся в среднем на одну единицу ширины интервала (ширина интервала — разность между его границами). Если плотность определяется с помощью частот, она называется абсолютной, если с помощью частостей — относительной.

Для облегчения анализа рядов распределения их изображают при помощи графиков.

При дискретной вариации анализа признака графиком вариационного ряда служит полигон распределения. Он представляет собой замкнутый многоугольник, абсциссами вершин которого являются значения варьирующего признака, а ординатами — соответствующие им частоты или частости. Для примера рассмотрим построение полигона распределения по следующим данным (таблица 2.5). Полигон распределения приведен на рис.2.1.

Таблица 2.5

Распределение квартир жилого дома по числу проживающих в них лиц

Примеры решения задач по статистике

Для иллюстрации рядов распределения часто используется кумулятивная кривая или кумулята, построенная по накопленным частотам. Накопленная частота показывает, какое число единиц имеет величину варианта не большую данной и находится путем последовательного суммирования частот (строка 3 в табл.2.5), например из табл.2.5 видно, что в 10 квартирах проживают семьи, состав которых не превышает 2 человек, в 78 квартирах проживают семьи, состав которых не превышает 4 человек и т. д. Кумулята приведена на рис.2.2.

Если при построении кумуляты поменять местами значения признака и частоты (т.е. на оси ординат отложить значения признака, а на оси абсцисс — частоты) то получим кривую, называемую огивой.

Для иллюстрации интервального ряда распределения применяют график, называемый гистограммой распределения. Гистограмма представляет собой ряд смежных столбиков, основание каждого равно величине соответствующего интервала, а высота — частоте (правильнее — пропорциональна частоте). Пример гистограммы приведен на рис.2.3.

Разновидностью кумулятивной кривой является график Лоренца или кривая концентрации. Например, необходимо дать характеристику уровня концентрации производства в промышленности России по числу рабочих (см. табл. 2.6). График приведен на рис. 2.4. Если бы численность рабочих распределялась равномерно по числу предприятий, т.е. процесс концентрации отсутствовал полностью, график представлял бы собой прямую линию. При неравномерном распределении линия концентрации отходит от прямой, причем, чем выше уровень концентрации, тем больше ее кривизна.

Примеры решения задач по статистике

Таблица 2.6

Группировка промышленных предприятий по численности рабочих за 19__г.

Примеры решения задач по статистике

Возможно эта страница вам будет полезна:

Абсолютные и относительные величины
Абсолютные величины

Абсолютной величиной называется статистический показатель, выражающий абсолютные размеры изучаемого явления.

По способу выражения размеров изучаемых явлений абсолютные величины подразделяются на индивидуальные, которые отражают абсолютные размеры каждой отдельной единицы совокупности, и суммарные (групповые), которые получаются суммированием индивидуальных абсолютных величин.

Абсолютные величины — всегда числа именованные, имеющие определенную размерность, единицу измерения. В зависимости от различных причин и целей анализа применяют натуральные, условно-натуральные, трудовые и стоимостные единицы измерения.

Натуральные измерители в большинстве своем соответствуют природным или потребительским свойствам предмета изучения и выражаются в физических мерах веса, длины и т. д. Учет в натуральных единицах измерения называется натуральным учетом. Иногда применяется составная единица измерения (например, тоннокилометры — ткм и т. д.).

Однородная, но неодинаковая продукция измеряется в условно-натуральных единицах измерения. Такие единицы получают, приводя различные натуральные единицы к одной, принятой за базу, например, в консервной продукции емкость банки в 354,4 см3 принята за условную и вся продукция пересчитывается в этих условных банках. Аналогично производится пересчет в условно-натуральные измерители и в других отраслях (топливной, текстильной и пр.).

Показатели, отражающие результаты труда, измеряются в трудовых единицах измерения, а наиболее распространенные – в стоимостных (или денежных) единицах измерения.

Относительные величины: сущность, виды, единицы измерения

Статистические показатели, выражающие относительные размеры изучаемого явления, называются относительными величинами.

Относительные величины получаются в результате деления одной величины на другую, принимаемую за базу сравнения (или основание относительной величины). Причем следует иметь в виду, что в числителе всегда находится показатель, отражающий то явление, которое изучает, т.е. сравнимый показатель, а в знаменателе — показатель, с которым производится сравнение.

База сравнения выступает в качестве своеобразного измерителя. Если значение базы принимается за единицу (производится простое деление двух величин), то относительная величина выражается в коэффициенте (например, темпы роста), если основание (база) — 100%, то относительная величина выражается в процентах.

Иногда за базу принимают 1000 (при расчете коэффициентов рождаемости или смертности, естественного или механического прироста показателя, в фармации и т. д.). Такие единицы измерения называются промилле и обозначаются %0.

Все относительные величины делятся на относительные величины выполнения плана и планового задания (в настоящее время лучше говорить о выполнении договорных обязательств), динамики, структуры, координации, интенсивности, сравнения, уровня экономического развития.

Относительная величина выполнения плана (ОВВП) — соотношение величины показателя, достигнутое за какое-то время или какому-либо моменту, и величины его, установленной по плану за это же время:

ОВВП = Факт(95)/План(95)
— факт (95) — фактическое выполнение за 1995 г.;
— план (95) — плановое значение за 1995 г.

Относительная величина планового задания (ОВПЗ) — соотношение плановой величины показателя к его фактически достигнутому уровню в предыдущем периоде (или в периоде, принятом за базу):

ОВПЗ = Факт(94)/План(95)
— факт (94) — фактическое выполнение за 1994 г.

Произведение этих двух величин дает относительную величину динамики (см. ниже): ОВД = ОВВП — ОВПЗ;

Относительная величина динамики (ОВД) — соотношение величины показателя за данное время и величины его за какое-либо аналогичное предшествующее время, принятое за базу сравнения. Относительная величина динамики характеризует степень, скорость изменения показателя во времени, в частности, темпы роста. Она выражается в виде краткого отношения (коэффициента) или в процентах. Если имеется ряд динамики (ряд во времени) абсолютных величин, то ОВД может исчисляться как отношение величины показателя за каждое последующее время к величине его за непосредственно предшествующее ему время или как отношение к величине его за одно и то же время, принятое за базу сравнения. В первом случае относительная величина динамики называется ОВД с переменной базой или цепная, во втором — с постоянной базой сравнения или базисная.

Если уровни ряда обозначить через Примеры решения задач по статистике, то ОВД вида:

Примеры решения задач по статистике называются цепными, а вида:
Примеры решения задач по статистике базисными (более подробно эта тема раскрывается в разделе рядов динамики).

Относительная величина структуры характеризует состав изучаемой совокупности и показывает какой удельный вес (какую долю) в общем итоге составляет каждая ее часть. Она получается в результате деления значения каждой части совокупности на их общий итог, принятой за базу.

Относительная величина координации характеризует соотношение отдельных частей целого, одна из которых принимается за базу сравнения и является дополнением к относительной величине структуры. Например, число сельских жителей, приходящихся на 100 городских и т. д.

Относительная величина интенсивности (степени) показывает степень распространенности данного явления в определенной среде. Обычно это отношение двух разноименных абсолютных величин (плотность населения на квадратный километр; производство сельскохозяйственной продукции на 1 га сельхозугодий и пр.).

Относительная величина сравнения характеризуют соотношение одноименных показателей, относящихся к различным объектам или территориям, но за один и тот же период времени.

Относительная величина уровня экономического развития – обычно соотношение величины важнейших экономических показателей (страны, региона, отрасли) и численности населения (так называемые показатели на душу населения).

Возможно эта страница вам будет полезна:

Пример №9.

Мыловаренный завод произвел за отчетный период следующее количество продукции, т.:

мыло хозяйственное 40%-ное – 25,0;
мыло туалетное – 20,0;
мыло хозяйственное 60%-ное – 22,0; порошок стиральный – 55,0.

Определите общий выпуск продукции в пересчете на условное 40%-ное мыло по следующим переводным коэффициентам: мыло 60%-ное и туалетное – 1,75, порошок стиральный – 0,5.

Решение:

Перемножив фактический выпуск продукции на коэффициенты пересчета в условное 40%-ное мыло, получим:

25·1.0 + 22.0·1.75 + 20.0·1.75 + 55.0·0.5 = 126 тыс. т условного 40%-ного мыла.

Пример №10.

По плану предусматривалось собрать по 30 ц пшеницы с гектара, а собрано по 33 ц. Определить выполнение плана по урожайности.

Решение:

Поделим фактическую урожайность на плановую и получим:

(33·100)/30 = 110%

План по урожайности выполнен на 110%, или перевыполнен на 10%.

Пример №11.

Планом предприятия предусматривалось повысить производительность труда на 5% и снизить затраты на 2%. Фактически производительность труда возросла на 6%, затраты были снижены на 4%. Определите выполнение плана по росту производительности труда и снижению затрат.

Решение:

Степень выполнения плана по повышению производительности труда равна отношению достигнутого уровня — 106% (100% + 6%) к показателю плана — 105% (100% +5%) в процентах:

(106 ·100)/105 = 101%

Аналогично, фактическое снижение затрат — 96% (100% — 4%), а плановое — 98% (100% — 2%) их отношение дает 98%, т.е. план по снижению затрат перевыполнен на 2%.

Пример №12.

Плановое задание по выпуску продукции на 1995 г. составило 04%, а выполнено на 105%. Определить относительную величину динамики.

Решение:

Здесь 104% — это относительная величина планового задания, а 105%- это относительная величина выполнения плана, а так как ОВД = ОВВП · ОВПЗ, то (104 ·105)/100 = 109,2%, т.е. выпуск продукции в 1995 г. составил по сравнению с 1994 годом 109,2% или увеличился на 9,2%.

Пример №13.

По данным переписи населения 1970 г. в СССР проживало в возрасте 100 лет и старше 19304 чел., из них мужчин — 4252 чел., женщин — 15052. Определите структуру долгожителей по полу и относительную величину координации, приняв число мужчин за базу, равную 100.

Решение:

Для вычисления относительных величин структуры нужно разделить значение каждой части на общий итог, принимаемый за целое (100%). Количество мужчин и 18 женщин в возрасте 100 лет и старше надо поделить на общее их число или исчислить удельный вес мужчин, а затем отнять его от 100%:

(4250 ·100)/19304 = 22% мужчин
женщин — 78% (100%-22%).

Относительные величины координации характеризуют соотношение отдельных частей совокупности. В задаче требуется вычислить соотношение между численностью мужчин и женщин в возрасте 100 лет и старше. Для этого, приняв число мужчин за базу сравнения, равную 100, поделим численность женщин на численность мужчин и получим

(15052·100)/4252 = 354

Это значит, что на каждые 100 мужчин в возрасте 100 лет и старше приходится 354 женщины в том же возрасте.

Средние величины

Средней величиной называется показатель, который дает обобщенную характеристику варьирующего признака единиц однородной совокупности.

Средняя отражает то общее, что скрывается в каждой единице совокупности, улавливает общие черты, общую тенденцию, закономерность, присущую данному распределению, она является равнодействующей, потому что в ней находит свое отражение, суммируется и синтезируется влияние всей совокупности факторов, под воздействием которых формируется ряд распределения. Средняя дает также характеристику центра распределения.

Средняя арифметическая

Обозначив индивидуальные значения признака через

Примеры решения задач по статистике

их количество — через n, можно записать:

Примеры решения задач по статистике

Исчисленная таким образом средняя называется средней арифметической простой, т.е. она равна частному от деления суммы индивидуальных значений признака на их количество.

Средняя арифметическая простая применяется в тех случаях, когда каждое индивидуальное значение признака встречается один, или одинаковое количество раз, т. е. когда средняя рассчитывается по не сгруппированным данным.

В том случае, когда мы имеем дискретный ряд распределения, т. е. когда значение признака встречается несколько раз, применяют среднюю арифметическую взвешенную, рассчитываемую по формуле:Примеры решения задач по статистике

Таблица 4.1

Примеры решения задач по статистике

По данным таблицы средняя заработная плата рассчитывается:

(1002+2005+30020+40030+50015+60010+7005) / 87 = 36200 / 87 = 416 тыс.руб.

Таким образом, средняя арифметическая взвешенная равна сумме произведений индивидуальных значений признака x на их частоты или веса f, поделенной на сумму частот ∑f.

Довольно часто в статистике приходится вычислять среднюю арифметическую в интервальном ряду, среднюю из групповых средних и среднюю из относительных величин.

При вычислении средней интервального ряда необходимо найти середину каждого интервала, и, взяв ее за значение признака использовать формулу средней арифметической взвешенной.

При вычислении средней из групповых (или частных) средних (например, при вычислении средней заработной платы по отрасли, когда имеется средняя заработная плата по предприятиям этой отрасли), в качестве индивидуальных значений признака берется соответствующая групповая средняя и рассчитывается по формуле средней арифметической взвешенной.

При вычислении средней из относительных величин в качестве весов (или частот) берут основание относительной величины, а в качестве значения признака — соответствующую этому основанию относительную величину.

Свойства средней арифметической

1) Средняя арифметическая суммы варьирующих величин равна сумме средних арифметических этих величин.
2) Алгебраическая сумма отклонений индивидуальных значений признака от средней равно нулю.
3) Если все варианты ряда (значения признака) изменить на одно и то же число a или изменить в A раз, то и средняя изменится на a или в A раз соответственно.
4) Если все частоты ряда изменить в A раз, то средняя не изменится.

Средняя гармоническая

Во многих статистических исследованиях приходится сталкиваться с таким положением, когда известны значения индивидуального признака — x и произведения x · f, т.е. действительные значения весов (частот) неизвестны. В этом случае расчет средней производится с использованием средней гармонической взвешенной, которая определяется по формуле: ,

Примеры решения задач по статистике

где Z=x·f, т.е. произведению значения признака на частоту.

В тех случаях, когда произведения x·f одинаковы или равны единице

Примеры решения задач по статистике

применяется средняя гармоническая простая, определяемая по формуле:

Примеры решения задач по статистике

где x — отдельные варианты (значения признака);
n— число наблюдений (общее число признаков или вариант).

Таким образом, средняя гармоническая представляет собой особый вид средней, которая применяется в тех случаях, когда известны варианты x и произведения вариантов на частоты — x·f , при отсутствии действительных весов.

Средняя геометрическая

В некоторых случаях приходится вычислять средний коэффициент роста в единицу времени. Коэффициент роста характеризует скорость изменения статистических показателей и представляет собой отношение величины показателя за два периода времени, как правило, за ряд смежных лет (табл. 4.2).

Таблица 4.2

Примеры решения задач по статистике

Средняя, которая отражает средний коэффициент роста показателя за определенный период называется средней геометрической, которая равна корню степени m из произведений коэффициентов роста (m — число коэффициентов роста),

Примеры решения задач по статистике

Средний коэффициент роста (среднюю геометрическую) можно определить и по значениям первого и последнего членов динамического ряда. Если первый уровень ряда обозначить Примеры решения задач по статистике, а последний — Примеры решения задач по статистике , то Примеры решения задач по статистике , где n — число членов ряда (число лет).

Средняя квадратическая

В тех случаях, когда осреднению подлежат величины, выраженные в виде квадратных функций, применяется средняя квадратическая. Средние диаметры колес, труб, стволов, средние стороны квадратов и т.д. определяются при помощи средней квадратической.

Средняя квадратическая простая вычисляется путем извлечения квадратного корня из частного от деления суммы квадратов отдельных значений признака на их число:

Примеры решения задач по статистике

Соотношение между различными видами средних (мажорантность средних)

Все выше рассмотренные виды средних величин можно получить из формулы степенной средней вида Примеры решения задач по статистике

При различных значениях показателя получаются различные средние, средняя арифметическая, гармоническая, геометрическая и квадратическая.

Мажорантность средних состоит в том, что средняя некоторого вида всегда больше средней некоторого другого вида (для признака, не могущего иметь отрицательных значений). В частности, если для одной совокупности вычислить средние гармоническую, геометрическую, арифметическую и квадратическую, то по численному значению они расположатся в возрастающем порядке. Порядок возрастания этих средних определяет показатель степени k в формуле степенной средней, т.е. чем больше k, тем больше средняя (табл.4.3).

Таблица 4.3

Примеры решения задач по статистике

Подробно общее условие мажорантности т.е. соотношения между различными видами средних было сформулировано А. Я. Боярским. Проиллюстрируем правило мажорантности геометрически (см. рисунок).

Примеры решения задач по статистике

Примеры решения задач по статистике

Опишем на отрезке c = a + b, как на диаметре, полукруг и восстановим из общей точки отрезка a и b перпендикуляр, длина которого будет равна. Примеры решения задач по статистике. Восстановим также перпендикуляр из центра полукруга, длина которого будет равна (a + b)/2. Из рисунка видно, что средняя геометрическая меньше средней арифметической. При этом, чем меньше отличаются отрезки а и b друг от друга, тем меньше разница между средними.

Возможно эта страница вам будет полезна:

Мода и медиана

Кроме средних в статистике для описательной характеристики величины варьирующего признака пользуются показателями моды и медианы.

Мода — это наиболее часто встречающийся вариант ряда. Мода применяется, например при определении размера одежды, обуви, пользующейся наибольшим спросом у покупателей, наиболее распространенной цены на тот или иной товар и пр.

Модой в дискретном ряду называется варианта (значение признака), имеющая наибольшую частоту (повторяющаяся самое большое количество раз), например: имеем данные о продаже магазином обуви по размерам (табл.4.4):

Примеры решения задач по статистике

В этом примере модой является 35-й размер, так как обуви такого размера продано больше всего — 187 пар.

Если мы имеем интервальный ряд, то для определения моды необходимо сначала определить модальный интервал, причем, если интервалы равны, то модальный интервал определяется по наибольшей частоте, а если неравны, то по наибольшей плотности. При равных интервалах мода внутри модального интервала может определяться по формуле:

Примеры решения задач по статистике

где Примеры решения задач по статистике— нижняя граница модального интервала;
h — величина (ширина) интервала;
Примеры решения задач по статистике — частота модального интервала;
Примеры решения задач по статистике — частота интервала, предшествующего модальному;
Примеры решения задач по статистике — частота интервала, следующего за модальным.

Мода является наиболее распространенной и в этом смысле типичной величиной в распределении. Но мода и средняя величина по разному характеризуют совокупность. Мода определяет непосредственно размер признака, свойственный хотя и значительной части, но все же не всей совокупности. Поэтому мода по своему обобщающему значению уступает средней, которая характеризует совокупность в целом, так как складывается под воздействием всех без исключения элементов совокупности.

При наличии одной моды распределение называют унимодальным, при двух модах — бимодальным, при трех и более модах — мультимодальным.

Медианой называется варианта, которая приходится на середину ряда, расположенного в порядке возрастания или убывания численных значений признака. Медиана делит ряд на две равные части.

Если в совокупности нечетное число единиц, т. е. 2m+1, то значение признака у (m+1)-ой единицы будет медианным. Если в совокупности четное число, т.е. 2∙m единиц, то медиана равна средней арифметической из двух серединных значений вариантов.

Для определения медианы в дискретном ряду при наличии частот сначала вычисляют полусумму частот, а затем определяют, какое значение признака приходится на нее. В примере с размером обуви (см. табл.4.4) медианой является 35-й размер, так как именно он приходится на полусумму частот (500:2=250). Это значит, что 35-й размер делит ряд на две равные части.

При вычислении медианы для интервального вариационного ряда вначале определяют медианный интервал, т.е. первый интервал, накопленная частота которого принимает полусумму частот, а затем приближенное значение медианы по формуле:

Примеры решения задач по статистике

где Примеры решения задач по статистике— сумма частот;
Примеры решения задач по статистике — нижняя граница медианного интервала;
h — ширина интервала;
Примеры решения задач по статистике— сумма накопленных частот интервалов, предшествующих медианному;
Примеры решения задач по статистике— частота медианного интервала.

Главное свойство медианы состоит в том, что сумма абсолютных отклонений вариантов от медианы меньше, чем от любой другой величины (в том числе и от средней арифметической):
∑|x-Ме|= min.

Медиану, являющуюся описательной характеристикой вариационного ряда, иногда называют непараметрической средней. Медиана меньше, чем средняя арифметическая, зависит от формы распределения признака. Она не зависит ни от амплитуды колебаний ряда, ни от распределения частот в пределах двух равных частей ряда. Вот почему в медиане не находят отражения важные свойства совокупности и она используется обычно для решения некоторых частных задач, связанных с определением оптимума, совпадающего с вариантой, приходящейся на середину ряда.

Мода и медиана являются описательными характеристиками совокупностей с количественно варьирующими признаками и не могут заменить среднюю обобщающую величину. Величина моды и медианы, как правило, отличается от величины средней, совпадая с ней только в случае симметрии вариационного ряда.

Пример №14.

По следующим данным определите средний стаж рабочего (табл.4.5):

Примеры решения задач по статистике

Решение:

Признаком в данной задаче является общий стаж рабочего, а частотами соответственно количество рабочих, имеющих тот или иной стаж. Ряд распределения — интервальный, причем первый и последний интервал — открытые.

Если интервалы открыты, то по правилам принимаем величину первого интервала равной второму, а последнего предпоследнему. Так как имеются и значения признака и частоты, то средний стаж находим по формуле средней арифметической взвешенной. А так как ряд интервальный, то в качестве значения признака в каждой группе берём середины интервала

Примеры решения задач по статистике

Пример №15.

Все частоты уменьшились в два раза, а все варианты увеличились на две единицы. Что произойдет со средней?

Решение:

Согласно свойствам средней арифметической, если все частоты ряда уменьшить или увеличить в одинаковое количество раз, то средняя не изменится, т.е. с точки зрения частот  средняя не изменится. Если все варианты увеличить или уменьшить на одно и то же число, то и средняя изменится на это же число. В нашем случае средняя увеличится на две единицы.

Пример №16.

Двое рабочих в течение 8-часового рабочего дня изготовляют одни и те же детали. Первый из них тратит на изготовление детали 30 мин., второй — 40 мин. Вычислите среднюю затрату времени на изготовление одной детали.

Решение:

В этой задаче явно даны только значения признака  затраты времени, а частоты, которыми является количество изготовленных каждым рабочим деталей, в явном виде не присутствуют. Однако произведения значений признака на частоты дает количество проработанного времени — 8 час. Так как произведения признака на частоту равны, то средняя определяется по формуле средней гармонической простой:

Примеры решения задач по статистике

Пример №17.

Автомобиль проехал 1000 км, из них 480 км он прошел со скоростью 60 км/час, 320 — со скоростью 80 км/час и 200 км — со скоростью 50 км/час. Определите среднюю скорость, с которой совершался рейс.

Решение:

В этой задаче опять известны только значения признака, а значения частот (время) не даны, однако имеются данные о пройденном расстоянии, которое является произведением признака на частоту. В этом случае средняя рассчитывается по формуле средней гармонической взвешенной:

Примеры решения задач по статистике

Пример №18.

Определите среднегодовой темп роста выпуска продукции на заводе, если в 1990 г. было произведено продукции на 21,15 у.д.е., а в 1995 г. было запланировано произвести продукции на 35 у.д.е.

Решение:

Для определения средних темпов роста применяется средняя геометрическая. Когда имеются данные о первом периоде (в нашем случае — выпуск продукции в 1990 г. на сумму 21,15 у.д.е.) и в последнем периоде (в задаче — выпуск продукции по плану в 1995 г. на сумму 35 у.д.е.), среднегодовой темп роста определяется по формуле:

Примеры решения задач по статистике

Пример №19.

Определить моду и медиану по следующим данным (табл. 4.6):

Примеры решения задач по статистике

Решение:

Для определения моды определяем модальный интервал. Им является интервал 25-30 лет, так как его частота наибольшая (1054), тогда

Примеры решения задач по статистике

Для определения медианы тоже необходимо определить медианный интервал. Медианным интервалом является интервал 25-30, так как он является первым интервалом, накопленная частота которого превышает полусумму частот (3462:2=1731). Тогда медиана определится как:

Примеры решения задач по статистике

Показатели вариации и другие характеристики рядов распределения. Понятие о вариации

При изучении процессов и явлений общественной жизни статистика встречается с разнообразной вариацией признаков, характеризующей отдельные единицы совокупности. Величина признака изменяется, колеблется под влиянием различных причин и условий. Чем разнообразнее условия, влияющие на размер данного признака, тем больше его вариация.

Примеры решения задач по статистике

Одна и та же средняя может характеризовать совокупность, в которой размеры вариации признака существенно отличаются друг от друга (табл.5.1). Как видно, средняя дневная выработка в обеих бригадах одинакова, хотя в первой бригаде средняя значительно меньше отличается от индивидуальных значений признака, чем во второй.

Следовательно, для всесторонней характеристики рядов распределения необходимы показатели, определяющие меру, степень колеблемости отдельных значений признака от средней, т.е. степень вариации, а также форму (тип) распределения, характеризующую ее закономерности.

Показатели вариации и способы их расчета

а) Размах вариации является наиболее простой мерой колеблемости значений признака и представляет собой разность между максимальным и минимальным значением признака: R = Хmax — Хmin.

Размах вариации имеет недостаток, проявляющийся в том, что при вычислении R используется только крайние значения ряда распределения, и он не всегда правильно характеризует колеблемость признака.

В связи с тем, что каждое индивидуальное значение признака отклоняется от средней на определенную величину, мерой вариации может служить средняя из отклонений каждой отдельной варианты от их средней.

Такими показателями являются среднее линейное отклонение, дисперсия, среднее квадратическое отклонение.

б) Среднее линейное отклонение представляет собой среднюю из абсолютных значений отклонений индивидуальных значений признаков от их средней:

Примеры решения задач по статистике

Недостаток среднего линейного отклонения в том, что оно берется без учета знака. Поэтому в статистике чаще используют дисперсию и среднее квадратическое отклонение.

в) Дисперсия и среднее квадратическое отклонение. Дисперсией называется средний квадрат отклонений индивидуальных значений признака от их средней величины

Примеры решения задач по статистике

Дисперсия имеет очень большое значение в анализе. Однако ее применение как меры вариации в ряде случаев бывает не совсем удобным, потому что размерность дисперсии равна квадрату размерности изучаемого признака. Поэтому вычисляют среднее квадратическое отклонение, равное корню квадратному из суммы квадратов отклонений индивидуальных значений признака от их средней, т.е. из дисперсии

Примеры решения задач по статистике

Сопоставление линейных или средних квадратических отклонений по нескольким совокупностям дает возможность определять степень их однородности в отношении того или иного признака. Чем меньше: Примеры решения задач по статистике тем совокупность более однородна, тем более типичной будет средняя величина.

г) Коэффициент вариации. Так как дисперсия и среднее квадратическое отклонение характеризуют абсолютный размер отклонений, то представляет интерес сопоставить среднее квадратическое отклонение с его средней величиной. Такой показатель называется коэффициентом вариации

Примеры решения задач по статистике

Если взять отношение среднего линейного отклонения к средней арифметической, то получим линейный коэффициент вариации Примеры решения задач по статистике

Отношение размаха вариации к средней арифметической называется коэффициентом осцилляции: Примеры решения задач по статистике

Взаимосвязь показателей вариации

В нормальном ряду распределения между показателями вариации имеются следующие примерные соотношения: Примеры решения задач по статистике

Основные свойства дисперсии

1. Если все значения признака уменьшить или увеличить на какое-то постоянное число а, то дисперсия не изменится.

2. Если все значения признака уменьшить или увеличить в К раз, то дисперсия изменится в К 2 раз.

3. Сумма квадратов отклонений индивидуальных значений признака x от их средней x меньше суммы квадратов отклонений индивидуальных значений признака от любого числа а, при условии, что Примеры решения задач по статистике

Примеры решения задач по статистике

4. Дисперсия признака равна разности между средним квадратом значения признака и квадратом их средней:

Примеры решения задач по статистике

Дисперсия альтернативного признака

В ряде случаев возникает необходимость измерить вариацию альтернативного признака, то есть такого, который может принимать только два значения. Обозначив отсутствие интересующего нас признака через 0, его наличие через 1, долю единиц, обладающих данным признаком — через р, не обладающих — через q, дисперсию этого признака можно определить как

Примеры решения задач по статистике

Например, если 64% работников предприятия имеют высшее образование р, то дисперсия будет равна:

Примеры решения задач по статистике

Правило сложения дисперсий

На вариацию признака влияют различные причины и факторы, которые делятся на случайные и систематические. Поэтому и вариация может быть случайной, вызванной действием случайных причин и систематической, обусловленной воздействием постоянных причин и факторов. В связи с этим возникает необходимость в определении случайной систематической составляющей и её роли в общей вариации. Общую дисперсию мы уже рассматривали. Она характеризует общую вариацию признака под влиянием всех условий, всех причин, вызывающих эту вариацию и исчисляется по формуле:

Примеры решения задач по статистике

Для определения влияния постоянного фактора на величину вариации пользуются аналитической группировкой. Вариация, обусловленная фактором, положенным в основание группировки, называется межгрупповой вариацией. Размеры ее определяются при помощи дисперсии групповых средних или межгрупповой дисперсии, которая характеризует колеблемость групповых или частных средних Примеры решения задач по статистикеоколо их общей средней:

Примеры решения задач по статистике

где Примеры решения задач по статистике — средняя по каждой отдельной группе;
Примеры решения задач по статистике— средняя по всей совокупности;
n — число единиц совокупности;
f — частоты или веса.

Таким образом, межгрупповая дисперсия (дисперсия групповых средних) равна средней арифметической из квадратов отклонений частных средних от общей средней. Она характеризует систематическую вариацию, которая возникает под влиянием фактора, признака, положенного в основание группировки.

Для определения влияния случайных факторов и их роли в общей вариации определяют дисперсию в пределах каждой группы, т.е. внутригрупповую дисперсию, а затем и среднюю из внутригрупповых дисперсий: Примеры решения задач по статистике

где x — индивидуальные значения признака;Примеры решения задач по статистике — групповые или частные средние: Примеры решения задач по статистике

В математической статистике доказано, что общая дисперсия признака равна сумме межгрупповой дисперсии и средней из внутригрупповых дисперсий.

Примеры решения задач по статистике

Это правило называется правилом сложения дисперсий.

Ряды распределения и их моделирование

а) Моменты распределения

Одной из важных задач анализов рядов распределения является выявление закономерности распределения, определение ее характера и количественного выражения. Эта задача решается при помощи показателей, характеризующих форму, тип распределения.

Кроме рассмотренных выше важной характеристикой рядов распределения являются моменты распределения.

Моментом распределения Примеры решения задач по статистике называется средняя арифметическая из отклонений значений признака x от некоторой постоянной величины а в степени к:

Примеры решения задач по статистике

Величина к определяет порядок момента. В зависимости от величины а различают начальные, центральные и условные моменты (табл. 5.2).

Примеры решения задач по статистике

Условные моменты используются для определения дисперсий высоких степеней. Практически используются моменты первых четырех порядков. Если в качестве весов взять не частоты, а вероятности, то получим теоретические моменты распределения.

б) Кривые распределения

Для обобщенной характеристики особенностей формы распределения применяются кривые распределения, которые выражают закономерность распределения единиц совокупности по величине варьирующего признака.

Эмпирическая кривая — это фактическая кривая, полученная по данным наблюдения, в которой отражаются как общие, так и случайные условия, определяющие распределение (кривая 1, рис.5.3)

Теоретическая кривая распределения — это кривая, выражающая функциональную связь между изменением варьирующего признака и изменением частот и характеризующая определенный тип распределения (кривая 2, рис.5.3).

По форме кривые распределения бывают симметричными и асимметричными. В зависимости от того, какая ветвь кривой вытянута, различают правостороннюю асимметрию и левостороннюю асимметрию (рис.5.1). Кривые распределения также могут иметь различную островершинность (рис.5.2).

Для характеристики степени асимметрии кривой используют коэффициент асимметрии, который представляет собой отношение центрального момента третьего порядка к среднему квадратическому отклонению в кубе

Примеры решения задач по статистике

Если А > 0, то асимметрия правосторонняя, а если А < 0, то асимметрия левосторонняя, в симметричном распределении — А=0. Кроме этого коэффициента для характеристики асимметрии применяют и соотношение между Примеры решения задач по статистикеи модой или медианой по отношению к среднеквадратическому отклонению.

Примеры решения задач по статистике

Он менее точен по сравнению с коэффициентом асимметрии и применяется реже.

Для характеристики островершинности кривой распределения применяют коэффициент эксцесса, который равен отношению центрального момента четвертого порядка к дисперсии в квадрате

Примеры решения задач по статистике

В нормальном распределении Е=3, поэтому, если Е>3, то эксцесс выше нормального (островершинная кривая), Е<3, эксцесс ниже нормального (плосковершинная кривая).

в) Моделирование рядов распределения

Все рассмотренные выше показатели характеризуют отдельные свойства совокупности. Общую характеристику ряда распределения можно представить аналитически, в виде функции, характеризующей зависимость между изменениями признака и частотами. Если имеется эмпирический ряд распределения, то необходимо найти функцию распределения, т. е. подобрать такую теоретическую кривую, которая наиболее полно бы раскрывала закономерность распределения.

Нахождение функции кривой распределения называется моделированием.

Для аппроксимации (выравнивания) эмпирических кривых распределения в статистике часто пользуются нормальным распределением, функция которого

Примеры решения задач по статистике

где F(x) — интегральная функция распределения;
t — нормированное отклонение;
e — основание натуральных логарифмов.

Примеры решения задач по статистике

Примеры решения задач по статистике

Эмпирическое и теоретическое распределение рабочих по степени выполнения норм приведено в табл.5.3 и на рис.5.3.

Примеры решения задач по статистике

г) критерии согласия

Для оценки близости эмпирического и теоретического распределения используются специальные показатели, которые называются критериями согласия. Критерии согласия как правило тем или иным способом оценивают степень расхождения между эмпирическими и теоретическими частотами.

Наиболее часто используется критерий, который называется хи-квадрат Пирсона и рассчитывается Примеры решения задач по статистике

где f’ — теоретические частоты, f — эмпирические частоты.

Чем меньше значение Примеры решения задач по статистике, тем лучше теоретическое распределение отражает реальное положение в совокупности и наоборот. Если Примеры решения задач по статистике то расхождение между f и f’ отсутствует.

Для проверки согласия с помощью Примеры решения задач по статистике рассчитанное значение Примеры решения задач по статистикесравнивают с табличным и при условииПримеры решения задач по статистикеможно с определенной вероятностью сказать, что расхождение теоретического и эмпирического распределения случайно, и наоборот.

Также применяется и критерий согласия Колмогорова Примеры решения задач по статистике , который равен Примеры решения задач по статистике , где D — максимальная разность накопленных частот (без учета знака), n — объем совокупности.

Вычислив фактический критерий Примеры решения задач по статистике, по специальной таблице находят вероятность достижения критерием этого значения. Если вероятность значительна, то расхождение между эмпирическим и теоретическим распределением можно считать случайным.

В явлениях общественной жизни асимметричные распределения встречаются гораздо чаще, чем симметричные. Некоторые асимметричные распределения могут быть приведены к симметричному путем преобразования признака Х, например логарифмированием. В этом случае распределение называется логарифмически нормальным. Такое преобразование производится, как правило, для сильно асимметричных распределений.

Пример №20.

Проверка пряжи на крепость в лаборатории дала следующие результаты (табл. 5.4):

Примеры решения задач по статистике

Вычислить все показатели вариации.

Решение:

В задаче значения признака имеют различную численность, поэтому значения, Примеры решения задач по статистикедолжны вычисляться как средние взвешенные величины. Для вычисления показателей вариации проводим дополнительные расчеты (табл. 5.5)

Примеры решения задач по статистике

Примеры решения задач по статистике

Средняя крепость пряжи определяется по формуле

Примеры решения задач по статистике

Размах вариации

Примеры решения задач по статистике

Среднее линейное отклонение вычисляется по формуле

Примеры решения задач по статистике

Дисперсия, взвешенная по частоте вариантов, равна

Примеры решения задач по статистике

Среднее квадратичное отклонение равно:

Примеры решения задач по статистике

коэффициент вариации составляет

Примеры решения задач по статистике

Пример №21.

На предприятии 64% работников имеют среднее и высшее образование. Определить дисперсию доли рабочих, имеющих среднее и высшее образование.

Решение:

Дисперсия альтернативного признака определяется как Примеры решения задач по статистикегде p – доля единиц совокупности, обладающих данным признаком, а q=1-p – доля единиц совокупности, не обладающих данным признаком, следовательно: Примеры решения задач по статистике

Пример №22.

Имеются следующие данные (табл.5.6):

Примеры решения задач по статистике

Вычислить: среднюю месячную заработную плату для каждой группы и для всех рабочих; групповые дисперсии; среднюю из внутригрупповых дисперсий; межгрупповую дисперсию; общую дисперсию; проверить правило сложения дисперсий и сделать выводы.

Решение:

В задаче требуется определить, как влияют на изменение заработной платы рабочих постоянные причины, положенные в основание группировки (в данном случае  различия в профессии), и случайные причины. Для этого необходимо определить систематическую и случайную вариации и их роль в общей вариации. Для решения задачи и вычисления заданных показателей, построим вспомогательную таблицу (табл.5.7).

Примеры решения задач по статистике

Среднюю заработную плату по каждой группе и для всех рабочих определяем по формуле средней арифметической простой:

Примеры решения задач по статистике

Внутригрупповые дисперсии вычисляем по формуле:

Примеры решения задач по статистике

Средняя из внутригрупповых дисперсий равна:

Примеры решения задач по статистике

Межгрупповая дисперсия определяется как:

Примеры решения задач по статистике

Общая дисперсия равна: Примеры решения задач по статистике

По правилу сложения дисперсий общая дисперсия равна сумме средней внутригрупповых и межгрупповой дисперсии: Примеры решения задач по статистике

Пример №23.

Средняя успеваемость студентов экономического факультета Примеры решения задач по статистике=4 балла, Мо=4,8 балла, Ме=4,2 балла. Указать, симметричным или асимметричным является распределение студентов по успеваемости. Если асимметричным, то с какой асимметрией (левосторонней или правосторонней).

Решение:

В симметричном распределении Примеры решения задач по статистике=Мо=Ме. В нашей задаче такого равенства нет. Следовательно, распределение асимметрично, а так как Примеры решения задач по статистике<Ме<Мо, то разности между Примеры решения задач по статистике–Ме и Примеры решения задач по статистике–Мо отрицательные и асимметрия левосторонняя.

Пример №24.

Урожайность сахарной свеклы в сельхозпредприятиях области характеризуется следующими показателями: Примеры решения задач по статистике=300 ц/га, Примеры решения задач по статистике=120 ц/га, Мо=240 ц/га, а урожайность зерновых — Примеры решения задач по статистике=30ц/га; Примеры решения задач по статистике=10 ц/га, Мо=27 ц/га. Вычислить показатели асимметрии и указать где она больше. Каково направление асимметрии?

Решение:

Примеры решения задач по статистике

Асимметрия правосторонняя, так как Примеры решения задач по статистикеи больше в первом случае.

Пример №25.

Центральный момент третьего порядка Примеры решения задач по статистике=34,56 при Примеры решения задач по статистике =12. Вычислить коэффициент асимметрии и сделать выводы; центральный момент четвертого порядка Примеры решения задач по статистике=64,32 при Примеры решения задач по статистике=2 . Вычислить коэффициент эксцесса и сделать выводы.

Решение:

Примеры решения задач по статистике

Асимметрия правосторонняя, так как A>0 , и незначительная

Примеры решения задач по статистике

Эксцесс выше нормального, потому что E>3.

Выборочное наблюдение
Общие сведения о выборочном наблюдении

В связи с тем, что статистика имеет дело с массовыми совокупностями статистические исследования весьма трудоемки. Поэтому давно возникла мысль о замене сплошного наблюдения выборочным.

Выборочное наблюдение — это наиболее совершенный способ несплошного наблюдения, при котором обследуется не вся совокупность, а лишь ее часть, отобранная по определенным правилам выборки и обеспечивающая получение данных, характеризующих всю совокупность в целом.

При проведении выборочного наблюдения нельзя получить абсолютно точные данные. Как при сплошном, так как при выборочном наблюдении неизбежны ошибки, которые делятся на ошибки регистрации и ошибки репрезентативности. В свою очередь, ошибки репрезентативности бывают случайные и систематические.

Важнейшим условием применения выборочного метода является правильный отбор единиц совокупности, а именно:
а) строго объективный отбор единиц совокупности, при котором каждая из них получала бы абсолютно одинаковую возможность попасть в выборку;
б) достаточное количество отобранных единиц совокупности. При соблюдении этих условий выборка будет репрезентативной или представительной.

Вся совокупность единиц, из которой производится отбор, называется генеральной совокупностью и обозначается буквой N. Часть генеральной совокупности, попавшая в выборку, называется выборочной совокупностью и обозначается n.

Обобщающие показатели генеральной совокупности — средняя, дисперсная и доля — называются генеральными и соответственно обозначается Примеры решения задач по статистике где p — доля или отношение числа единиц совокупности М, обладающих данным признаком ко всей численно- 36 сти генеральной совокупности, т.е. Примеры решения задач по статистике Те же обобщающие характеристики в выборочной совокупности обозначаются соответственно Примеры решения задач по статистике

Теоретической основой выборочного метода является теорема П.Л.Чебышева, которая формулируется следующим образом: с вероятностью, сколь угодно близкой к единице (достоверности), можно утверждать, что при достаточно большом объеме выборки и ограниченной дисперсии генеральной совокупности разность между выборочной средней и генеральной средней будет сколь угодно мала:

Примеры решения задач по статистике

При практическом использовании теоремы Чебышева генеральную дисперсию Примеры решения задач по статистике, которая неизвестна, заменяют выборочной дисперсией.

Виды и схемы отбора

Формирование выборочной совокупности из генеральной может осуществляться по-разному. Различают следующие виды отбора: собственно-случайный; механический; типический; серийный; комбинированный.

5. Собственно-случайный отбор. Он ориентирован на выборку единиц из генеральной совокупности без всякого расчленения ее на части или группы. Либо применяется жеребьевка, либо используются таблицы случайных чисел.
6. Механический отбор. Он состоит в том, что отбор единиц в выборочную совокупность производится из генеральной совокупности, разбитой на равные интервалы (группы), причем все единицы генеральной совокупности должны располагаться в определенном порядке. Размер интервала или группы равен обратной величине доли выборки (или количеству отбираемых единиц). Из каждой группы (интервала) берется только одна единица. Так, при 2%-ной выборке отбирается каждая 50-ая единица (1:0,02; или формируется 50 групп или интервалов), при 20%-ной выборке — каждая 5-я единица (1:0,2) и т. д.
7. Типический отбор. При его осуществлении вся генеральная совокупность делится на группы по типическому признаку, а затем в каждой группе проводится тот или иной отбор. Наиболее часто из каждой группы выбирается количество единиц, пропорциональное удельному весу группы в общей совокупности и как правило — механическим отбором. Такой отбор часто называют пропорциональным типическим отбором с механической выборкой.
8. Серийный отбор с равновеликими сериями состоит в выборке не отдельных единиц генеральной совокупности, а целых серий (гнезд). Попавшие в выборку серии подвергаются сплошному наблюдению. Сами серии могут формироваться различными методами и способами.
9. Комбинированный отбор. Все вышеперечисленные виды отбора комбинируются между собой.

Используя различные виды отбора, можно применить и различные схемы отбора: бесповторный отбор (схема невозвращенного шара) — после выбора какой-либо единицы она обратно в генеральную совокупность не попадает и не может быть выбрана снова; повторный отбор (схема возвращенного шара) — после выбора какой-либо единицы она вновь возвращается в генеральную совокупность и может быть выбрана снова.

Определение средних и предельных ошибок при различных видах отбора

Ошибка выборки Примеры решения задач по статистике— разность между характеристиками выборочной и генеральной совокупности.

Если Примеры решения задач по статистике представляет собой предел, которого не превосходит абсолютная величина Примеры решения задач по статистикето Примеры решения задач по статистике

Ошибка выборки зависит от многих факторов, и, если из одной и той же генеральной совокупности можно сформировать бесконечное множество выборочных совокупностей, каждая из них даст и свою ошибку. Поэтому при выборочном наблюдении говорят о средней из возможных ошибок (средняя или стандартная ошибка выборки), которую обозначают как Примеры решения задач по статистике.

Величина Примеры решения задач по статистикепрямо пропорциональна корню квадратному из дисперсии и обратно пропорциональна квадратному корню из объема выборочной совокупности; Примеры решения задач по статистике , для доли, соответственноПримеры решения задач по статистике .

Эти формулы справедливы для повторной схемы отбора. При бесповторном отборе вводится поправочный коэффициент, равный

Примеры решения задач по статистике

В тех случаях, когда выборка небольшая этим множителем можно пренебречь, так как его значение близко к единице (обычно приПримеры решения задач по статистике).

Для решения практических задач важна не средняя ошибка выборки, а пределы, за которые она не выйдет, т.е. говорят о предельной ошибке выборки.

Предельная ошибка выборки связана со средней ошибкой соотношением Примеры решения задач по статистикегде t— коэффициент доверия, или t— статистика; t принимает значения 1, 2 или 3 и связан с вероятностью достижения заданного предела. Если t=1 это значит, что вероятность того, что ошибка выборки не превысит заданного значения, равна 0,683 или 68,3%. При t=2P=0,954 или 95,4%; t=3P=0,997 или 99,7%.

Таким образом, предельная ошибка выборки зависит от трех факторов: дисперсии Примеры решения задач по статистике , объема выборки n, и коэффициента доверия t. Формулы для определения предельных ошибок при различных видах и схемах отбора приведены в табл. 6.1.

Таблица 6.1

Примеры решения задач по статистике

Примеры решения задач по статистике

Возможно эта страница вам будет полезна:

Определение необходимой численности выборки

При разработке выборочного наблюдения предполагают заранее заданными величину допустимой ошибки выборки и вероятность ответа (и t). Неизвестным, следовательно, остается тот минимальный объем выборки, который должен обеспечить требуемую точность. Из формулы Примеры решения задач по статистике и формул предельных ошибок выборки устанавливаем необходимую численность выборки. Формулы для определения численности выборки n зависят от способа отбора (табл.6.2).

Таблица 6.2

Примеры решения задач по статистике

Численность выборки можно выразить через отношение Примеры решения задач по статистике, т.е. предельную ошибку выборки выражают в единицах среднего квадратичного отклонения. Так, например, формула численности бесповторной собственно-случайной выборки для средней при t=3 примет вид Примеры решения задач по статистике

Для типического и серийного отбора объем выборки определяется по специальным формулам.

Пример №26.

Методом случайной повторной выборки было взято для проверки на вес 200 шт. деталей. В результате был установлен средний вес детали — 30 г при среднеквадратическом отклонении равном 4 г. С вероятностью 0,954 требуется определить предел, в котором находится средний вес детали в генеральной совокупности.

Решение:

Предельная ошибка средней при собственно-случайном отборе (повторная выборка) определится по формуле

Примеры решения задач по статистике

Нам известно, что t=2 (т.к. P=0.954); Примеры решения задач по статистике n=200, тогда

Примеры решения задач по статистике

Следовательно, с вероятностью 0,954 можно утверждать, что средний вес детали в генеральной совокупности будет находиться в пределах

Примеры решения задач по статистике

Пример №27.

Был проведен учет городского населения города А методом случайного бесповторного отбора. Из общей численности населения 500 тыс. человек было отобрано 500 тыс. и установлено, что 15% имеют возраст старше 60 лет. С вероятностью 0,683 определить предел, в котором находится доля жителей города А в возрасте старше 60 лет.

Решение:

Предельная ошибка доли при собственно-случайном бесповторном отборе определится как

Примеры решения задач по статистике

Здесь Примеры решения задач по статистике тогда подставляя эти данные в формулу получим:

Примеры решения задач по статистике

Следовательно, с вероятностью 0,683 можно утверждать, что доля жителей старше 60 лет находится в пределах:

Примеры решения задач по статистике

Пример №28.

Проведена 10%-ная типическая выборка пропорциональна численности отобранных групп (табл. 6.3).

Таблица 6.3

Примеры решения задач по статистике

Требуется с вероятностью 0,954 определить пределы, в которых находится средний процент выполнения норм рабочими завода в целом. Выборка бесповторная.

Решение:

Вычислим общий средний процент выполнения норм выработки:

Примеры решения задач по статистике

Далее определим среднюю из групповых дисперсий

Примеры решения задач по статистике

Рассчитаем предельную ошибку выработки для типического отбора

Примеры решения задач по статистике

Таким образом, с вероятностью 0,954 можно утверждать, что средний процент выполнения норм рабочими завода в целом находится в пределах

Примеры решения задач по статистике

т.е. он не меньше 103,82% и не больше 104,18%.

Пример №29.

Для определения средней урожайности сахарной свеклы в области проведена 20%-ная серийная бесповторная выборка, в которую вошло 5 районов из 25. Средняя урожайность по каждому отобранному району составила: 250, 260, 275, 280, 300 ц/га. Определить с вероятностью 0,954 пределы, в которых будет находиться средняя урожайность сахарной свеклы по области.

Решение:

Найдем общую среднюю

Примеры решения задач по статистике

Определим межсерийную дисперсию по формуле

Примеры решения задач по статистике

Рассчитаем предельную ошибку выборки при серийном бесповторном отборе

Примеры решения задач по статистике

Следовательно, с вероятностью 0,954 можно утверждать, что средняя урожайность сахарной свеклы в области будет находиться в пределах от 272,66 до 287,34 ц/га.

Пример №30.

Предполагается, что партия деталей содержит 8 % брака. Определить необходимый объем выборки, чтобы с вероятностью 0,954 можно было установить долю брака с погрешностью не более 2% . Исследуемая партия содержит 5000 деталей.

Решение:

По условию задачи t=2 , доля бракованных деталей Примеры решения задач по статистикеПримеры решения задач по статистике Предельная ошибка доли по условию равна Примеры решения задач по статистикеа N=5000. Подставляем эти данные в формулу и получим

Примеры решения задач по статистике

Чтобы с вероятностью 0,954 можно было утверждать, что предельная ошибка доли брака не превысит 2% , необходимо из 5000 деталей отобрать 642.

Пример №31.

Что произойдет с предельной ошибкой выборки, если:
а) дисперсия уменьшится в 4 раза;
б) численность выборки увеличить в 9 раз;
в) вероятность исчисления изменится с 0,683 до 0,997.

Решение:

Из формулы для расчета предельной ошибки выборки Примеры решения задач по статистикевидно, что она:
а) прямо пропорциональна корню квадратному из дисперсии. Следовательно, если дисперсия уменьшится в 4 раза, то предельная ошибка уменьшится в 2 раза;
б) обратно пропорциональна корню квадратному из численности выборки. Следовательно, если объем выборки увеличится в 9 раз, то предельная ошибка уменьшится в 3 раза;
в) прямо пропорциональна вероятности исчисления, т.е. при увеличении Р с 0,683 (t=1) до 0,997 (t=3) ошибка увеличится в 3 раза.

Статистическое изучение связи, виды и формы взаимосвязи между явлениями

Одной из важнейших задач статистики является изучение, измерение и количественное выражение взаимосвязи между явлениями общественной жизни, установленной на основе качественного анализа.

Различают два вида связей: функциональную и корреляционную, обусловленные двумя типами закономерностей: динамическими и статистическими.

Для явлений, в которых проявляются динамические закономерности, характерна жесткая, механическая причинность, которая может быть выражена в виде уравнения, четкой зависимости и т.д. Такая зависимость называется функциональной. При функциональной связи каждому значению одной величины (аргумента) соответствует одно или несколько вполне определенных значений другой величины (функции).

В общественных процессах, в которых проявляются статистические закономерности, нет строгой зависимости между причиной и результатом и обычно не представляется возможным выявить строгую зависимость.

Связь, при которой каждому значению аргумента соответствует не одно, а несколько значений функции и между аргументом и функциями нельзя установить строгой зависимости называется корреляционной. Корреляционная зависимость проявляется только в средних величинах и выражает числовое соотношение между ними в виде тенденции к возрастанию или убыванию одной переменной величины при возрастании или убывании другой.

По направлению различают прямую и обратную связи.

По аналитическому выражению корреляционная связь может быть прямолинейной и криволинейной.

Основные приемы изучения взаимосвязей

а) Метод параллельных рядов. Чтобы установить связь между явлениями достаточно расположить полученные в результате сводки и обработки материалы в виде параллельных рядов и сопоставить их между собой.

б) Балансовый метод. Для характеристики взаимосвязи между явлениями в статистике широко применяется балансовый метод. Сущность его заключается в том, что данные взаимосвязанных показателей изображаются в виде таблицы и располагаются таким образом, чтобы итоги между отдельными частями были равны, т.е. чтобы был баланс. Балансовый метод используется для характеристики взаимосвязи между производством и распределением продуктов, денежными доходами и расходами населения и т.д.

в) Метод аналитических группировок. При наличии массовых статистических данных для изучения и измерения взаимосвязей социально-экономических явлений широко пользуются методом аналитических группировок. Аналитические группировки позволяют установить наличие связи между двумя и более признаками и ее направление. Метод группировок сочетается с методом средних и относительных величин.

г) Дисперсионный анализ. Аналитические группировки при всей своей значимости не дают количественного выражения тесноты связи между признаками. Эта задача решается при помощи дисперсионного и корреляционного анализов.

Дисперсионный анализ дает, прежде всего, возможность определить роль систематической и случайной вариаций в общей вариации и, следовательно, установить роль изучаемого фактора в изменении результативного признака. Для этого пользуются правилом сложения дисперсий.

Корреляционный анализ. Определение формы связи

Изучение взаимосвязей между признаками статистической совокупности заключается в определении формы и количественной характеристики связи, а также степени тесноты связи. Корреляционный анализ и решает эти две основные задачи.

Первая задача заключается в определении формы связи, т.е. в установлении математической формы, в которой выражается данная связь.

Предварительный этап при установлении формы связи заключается в теоретическом анализе изучаемого явления, а также в представлении искомой связи графически. График, построенный по исходным данным, позволяет приблизительно определить: есть ли какая-то связь между явлениями; ее направление (прямая или обратная); примерную тесноту связи (естественно, что при графическом анализе используются только две переменные).

Применение методов корреляционного анализа дает возможность выражать связь между признаками аналитически — в виде уравнения — и придавать ей количественное выражение.

Другими словами необходимо найти зависимость вида y=f(x), причем в качестве функции f(x) могут быть

полином 1-го порядка — Примеры решения задач по статистике
полином 2-го порядка — Примеры решения задач по статистике
степенная функция — Примеры решения задач по статистике
гиперболическая функция — Примеры решения задач по статистике
(могут быть использованы и другие виды функций).

Неизвестные параметры функций (аналитических уравнений связи) находятся методом наименьших квадратов, сущность которого в следующем: сумма квадратов отклонений фактических данных от выровненных должна быть наименьшей (см. рисунок):

Примеры решения задач по статистике

или

Примеры решения задач по статистике

Примеры решения задач по статистике

Отклонение фактических уровней от выровненных

Измерение тесноты связи

При изучении корреляционной связи важно выяснить не только форму, но и тесноту связи между факторным и результативным признаком. Для этого (при прямолинейной связи) рассчитывается показатель, называемый парным линейным коэффициентом корреляции Примеры решения задач по статистике, вычисляемый по формуле

Примеры решения задач по статистике

Коэффициент корреляции принимает значение от -1 до +1, причем если Примеры решения задач по статистике то корреляция прямая, если Примеры решения задач по статистикето корреляция обратная, а если Примеры решения задач по статистике то корреляция отсутствует полностью. В зависимости от того, насколько Примеры решения задач по статистике приближается к единице, различают связь слабую, умеренную, заметную, высокую, тесную и весьма тесную. Коэффициент корреляции может быть исчислен и по следующей формуле

Примеры решения задач по статистике

где Примеры решения задач по статистике — среднее квадратическое отклонение результативного признака;
Примеры решения задач по статистике — среднее квадратическое отклонение факторного признака.

Зная линейный коэффициент корреляции, можно определить и параметры уравнения регрессии вида Примеры решения задач по статистике потому что:

Примеры решения задач по статистике

Коэффициент корреляции Примеры решения задач по статистике применяется только в тех случаях, когда между явлениями существует прямолинейная связь. Если же связь криволинейная, то пользуются коэффициентом корреляции, вычисляемым по формуле

Примеры решения задач по статистике

где y— исходные значения результативного показателя;
Примеры решения задач по статистике-теоретические значения;
Примеры решения задач по статистике— среднее значение y.

Имея среднее значение дисперсий, коэффициент корреляции можно вычислить как

Примеры решения задач по статистике

где Примеры решения задач по статистикефакторная (межгрупповая) дисперсия или дисперсия воспроизводимости;
Примеры решения задач по статистике — случайная (средняя из внутригрупповых) дисперсия или остаточная дисперсия;
Примеры решения задач по статистике — общая дисперсия.

Коэффициент корреляции по своему абсолютному значению находится в пределах от 0 до 1.

Если коэффициент корреляции возвести в квадрат и выразить в процентах, получим показатель, называемый коэффициентом детерминации

Примеры решения задач по статистике

Он показывает, на сколько процентов изменение результативного фактора зависит от изменения факторного признака. Коэффициент детерминации является наиболее конкретным показателем, так как он отвечает на вопрос о том, какая доля в общем результате зависит от фактора, положенного в основании группировки.

Множественная корреляция

Определение формы и тесноты связи между тремя и более параметрами называется множественной корреляцией. При множественной корреляции определение формы связи аналогично определению формы связи при парной корреляции, а само уравнение регрессии ищется в виде (как правило)

Примеры решения задач по статистике

При определении тесноты связи есть свои особенности. Теснота связи измеряется множественным коэффициентом корреляции, вид которого аналогичен коэффициенту корреляции при парной связи

Примеры решения задач по статистике

Если изучается взаимодействие только трех факторов y=f(x,z), то коэффициент множественной корреляции можно определить по формуле

Примеры решения задач по статистике

где Примеры решения задач по статистике— парные коэффициенты корреляции.

Множественный коэффициент корреляции находится в пределах от 0 до 1.

Множественный коэффициент детерминации, равный квадрату R, выраженному в процентах, характеризует долю вариации результативного признака Y под воздействием всех изучаемых факторных признаков.

Поскольку факторные признаки действуют не изолировано, а по взаимосвязи, то может возникнуть задача определения тесноты связи между результативным признаком и одним из факторных при постоянных значениях прочих факторов. Она решается при помощи частных коэффициентов корреляции. Например, при линейной связи y=f(x,z) частный коэффициент корреляции между x и y при постоянном z вычисляется по следующей формуле

Примеры решения задач по статистике

Частный коэффициент корреляции при изучении зависимости Y от Z при постоянном Х определяется по формуле

Примеры решения задач по статистике

Парные коэффициенты корреляции, как правило, выше частных. Это объясняется тем, что факторы взаимно коррелируют между собой.

При значительном количестве факторов частный коэффициент корреляции можно получить по формуле

Примеры решения задач по статистике

где Примеры решения задач по статистике — коэффициент множественной корреляции;
Примеры решения задач по статистике — коэффициент множественной корреляции результативного фактора (y) со всеми за исключением исследуемого.

Простейшие методы измерения тесноты связи

Измерение тесноты связи между факторами с помощью корреляционно-регрессионного и дисперсионного анализов сопряжено с большими вычислительными трудностями. Для ориентировочной оценки степени тесноты связи существуют приближённые методы, не требующие трудоемких расчетов. К ним относятся: коэффициент корреляции знаков Фехнера, коэффициент корреляции рангов, коэффициент ассоциации и коэффициент взаимной сопряженности.

Коэффициент корреляции знаков

Основан на сопоставлении знаков отклонений от средней и подсчете числа случаев совпадения и несовпадения знаков Коэффициент корреляции знаков определяется по формуле

Примеры решения задач по статистике

где U — число пар с одинаковыми знаками отклонений x и y от Примеры решения задач по статистикеи Примеры решения задач по статистике; V- число пар с разными знаками отклонений x и y от Примеры решения задач по статистикеи Примеры решения задач по статистике.

Коэффициент корреляции знаков колеблется от -1 до +1. Этот показатель исчисляется очень просто, но именно в силу этого он не очень точен.

Коэффициент корреляции рангов

Этот показатель вычисляется не по первичным данным, а по рангам (порядковым номерам ), которые присваиваются всем значениям изучаемых признаков,расположенным в порядке их возрастания. Если значения признака совпадают, то определяется средний ранг путем деления суммы рангов на число совпадающих значений.Коэффициент корреляции рангов определяется по формуле

Примеры решения задач по статистике

где Примеры решения задач по статистике— квадрат разности рангов для каждой единицы d=x-y. Коэффициент корреляции рангов также колеблется в пределах от -1 до +1.

Коэффициент ассоциации

Коэффициент ассоциации применяется для установления меры связи между двумя качественными альтернативными признаками. Для его вычисления строится комбинационная 4-клеточная таблица:

Примеры решения задач по статистике

которая выражает связь между двумя альтернативными явлениями. Коэффициент ассоциации рассчитывается по формуле

Примеры решения задач по статистике

Коэффициент ассоциации тоже колеблется в пределах от -1 до +1.

Коэффициент взаимной сопряженности

В тех случаях, когда требуется установить связь между качественными признаками, каждый из которых состоит из трех и более групп, применяется коэффициент взаимной сопряженности. Для определения степени тесноты связи вычисляется специальный показатель, который называется коэффициентом взаимной сопряженности. Он определяется по формуле:

Примеры решения задач по статистике

где n — число единиц совокупности;
Примеры решения задач по статистике— число групп по первому и второму признаку;
Примеры решения задач по статистике — показатель абсолютной квадратичной сопряженности Пирсона.

Методика применения всех четырех коэффициентов показана при решении типовых задач.

Пример №32.

По данным о месячной заработной плате 10 рабочих трех разных профессий (токарь, слесарь и кузнец) вычислены: общая дисперсия заработной платы Примеры решения задач по статистикеи средняя из внутригрупповых дисперсий Примеры решения задач по статистике Вычислить корреляционное отношение.

Решение:

Корреляционное отношение вычисляется по формуле

Примеры решения задач по статистике

Следовательно, сначала необходимо найти межгрупповую дисперсию

Примеры решения задач по статистике

Подставляя это значение в вышеприведенную формулу, получим:

Примеры решения задач по статистике

Пример №33.

Вычислено следующее уравнение множественной регрессии по сельскохозяйственным предприятиям области, характеризующее связь между размерами предприятия по посевной площади х га, числу коров z шт., доходами предприятия y млн. руб.: y=290+3,12x+0,65z. Требуется проанализировать параметры уравнения регрессии.

Решение:

Увеличение посевной площади на один гектар приводит к повышению доходов в среднем на 3,12 млн руб.; увеличение числа коров на 1 голову приводит к повышению доходов на 0,65 млн руб.

Пример №34.

По данным задачи №2 получены следующие парные коэффициенты корреляции

Примеры решения задач по статистике

Вычислить коэффициент множественной корреляции и детерминации.

Решение:

Примеры решения задач по статистике

Таким образом, между доходами, посевной площадью и числом коров существует тесная связь. Коэффициент детерминации в нашем случае равен

Примеры решения задач по статистике

Это значит, что 70% всей вариации денежных доходов предприятий объясняется действием рассматриваемых факторов.

Пример №35.

По данным задачи №3 вычислите коэффициент корреляции между y и x и сделайте выводы.

Решение:

Частный коэффициент корреляции характеризует тесноту связи между результативным признаком и одним из факторных при постоянных значениях прочих факторов, т. е.

Примеры решения задач по статистике

где Примеры решения задач по статистике — парные коэффициенты корреляции.

Подставляя в формулу их значения, получим:

Примеры решения задач по статистике

Следовательно, связь между денежными доходами и посевной площадью при исключении влияния других факторов заметная.

Этот же результат можно получить, используя общую формулу коэффициента частной корреляции

Примеры решения задач по статистике

Подставляя имеющиеся значения, получим:

Примеры решения задач по статистике

Пример №36.

По 10 предприятиям имеются следующие данные, млн руб. (табл.7.1).

Примеры решения задач по статистике

Определите коэффициент корреляции знаков и сделайте выводы о тесноте связи.

Решение:

Для вычисления коэффициента корреляции знаков составим вспомогательную таблицу (табл. 7.2), из которой получим число совпадений знаков от средней. В нашем случае оно равно 8, число несовпадений знаков отклонений от средней — 2.

Примеры решения задач по статистике

Подставляя эти значения в формулу коэффициента корреляции, получим:

Примеры решения задач по статистике

Связь между выпуском продукции и фондом заработной платы прямая и заметная.

Пример №37.

По 10 предприятиям имеются следующие данные (табл 7.3):

Примеры решения задач по статистике

Решение:

Коэффициент корреляции рангов вычисляется по рангам (порядковым номерам), которые присваиваются всем единицам совокупности, расположенным в порядке возрастания признака. Для его вычисления составим вспомогательную таблицу (табл 7.4).

Примеры решения задач по статистике

Подставляя соответствующие данные в формулу коэффициента, получим:

Примеры решения задач по статистике

то есть связь между выпуском продукции и среднесписочной численностью работников весьма тесная.

Пример №38.

По данным табл. 7.5 вычислить коэффициент ассоциации.

Таблица 7.5

Примеры решения задач по статистике

Решение:

Коэффициент ассоциации используется для установления степени тесноты связи между двумя качественными альтернативными признаками, состоящими из двух групп, и определяется по следующей формуле

Примеры решения задач по статистике

Подставим соответствующие данные из табл. 7.5 в формулу и получим:

Примеры решения задач по статистике

Как видно, между выполнением плана и наличием специальной подготовки существует прямая и заметная связь.

Ряды динамики, понятие о динамических рядах и их видах

Процессы и явления общественной жизни, которые изучаются статистикой, находятся в постоянном движении и изменении. В процессе развития меняются размеры, состав, объем, структура конкретных общественных явлений. Эти изменения статистика выражает при помощи различных статистических показателей.

Статистические данные, характеризующие изменения явлений во времени, называются динамическими (хронологическими или временными) рядами. Такие ряды имеют огромное значение для выявления и изучения складывающихся закономерностей в явлениях общественной жизни.

Довольно часто имеющиеся динамические ряды несопоставимы в силу изменения круга объектов учета, территориальных границ, изменения масштаба единиц измерения и т.д. В этом случае для преобразования несопоставимых динамических рядов в сопоставимые используют различные приемы, основные из которых следующие: прямой пересчет данных, пересчеты при помощи ключей и смыкание рядов.

В зависимости от характера изучаемых величин различают три вида динамических рядов: моментные, интервальные и ряды средних.

Моментными рядами называются ряды статистических величин, характеризующие размеры изучаемого явления на определенные даты или моменты времени. Примером могут служить данные о среднесписочной численности работающих по состоянию на первое число каждого месяца.

Отличительной особенностью моментных рядов является то, что они не подлежат суммированию.

Интервальными рядами называются ряды статистических показателей, характеризующих размеры изучаемого явления за определенные промежутки (периоды, интервалы) времени. Интервальные ряды можно суммировать.

Ряды средних величин — это ряды, характеризующие изменения средних уровней изучаемого явления во времени. Как и моментные, ряды средних величин не подлежат суммированию.

Вычисление средней динамического ряда

Средняя, вычисленная из уровней динамического ряда, называется хронологической средней. Способы ее расчета зависят от вида динамического ряда.

a) для интервальных рядов средняя исчисляется по формуле средней арифметической, причем при равных интервалах применяется средняя арифметическая простая, а при неравных — средняя арифметическая взвешенная.
б) для моментных рядов средняя рассчитывается по формуле

Примеры решения задач по статистике

т.е. средняя хронологическая моментного ряда равна сумме всех уровней ряда, поделенной на число членов ряда без одного, причем первый и последний члены ряда берутся в половинном размере.

Если интервалы между периодами неравные, то применяется средняя арифметическая взвешенная, а в качестве весов берутся отрезки времени между датами, к которым относятся парные средние смежных значений уровня.

Основные показатели, используемые при анализе динамических рядов

Динамические ряды анализируются при помощи ряда показателей, определяющих характер, направление, интенсивность количественных изменений во времени. К ним относятся: уровень ряда, средний уровень, абсолютный прирост, темп роста, коэффициент роста, темп прироста, коэффициент опережения, абсолютное значение одного процента прироста.

Уровнем ряда называется абсолютная величина каждого члена динамического ряда. Различают начальный (величина первого члена ряда), конечный (последнего), средний уровень ряда.

Средний уровень определяется в зависимости от вида динамического ряда.

Абсолютный прирост характеризует размер увеличения или уменьшения изучаемого явления за определенный период времени. Он определяется как разность между данным уровнем и предыдущим или начальным. Уровень, который сравнивается, называется текущим, а уровень с которым производится сравнение, называется базисным. Если каждый уровень ряда сравнивается с предыдущим, то получаются цепные показатели. Если же все уровни ряда сравниваются с одним и тем же, первоначальным уровнем, то полученные показатели называются базисными.

Абсолютный прирост определяется по формулам;

цепной: Примеры решения задач по статистике базисный: Примеры решения задач по статистике
где Примеры решения задач по статистике — текущий уровень ряда; Примеры решения задач по статистике— уровень предшествующий; Примеры решения задач по статистике — начальный уровень ряда.

Темпом роста называется отношение данного уровня к предыдущему или начальному, выраженному в процентах. Темпы роста бывают цепными и базисными и вычисляются по формулам

цепной:Примеры решения задач по статистикебазисный: —Примеры решения задач по статистике

Если темпы роста выражены в виде простых отношений (база-1), то полученные показатели называются коэффициентами роста.

Темпом прироста называется отношение абсолютного прироста к предыдущему или начальному членам ряда, выраженным в процентах;

цепной:Примеры решения задач по статистике базисный Примеры решения задач по статистике

Темп прироста также может быть рассчитан как:

цепной: Примеры решения задач по статистике базисный Примеры решения задач по статистике

Для характеристики темпов роста и прироста в среднем за весь период вычисляют средний темп роста и прироста. Средний темп, коэффициент роста и прироста определяются по формулам средней геометрической.

Для определения средней из средних коэффициентов или темпов роста за неодинаковые промежутки времени применяется средняя геометрическая взвешенная

Примеры решения задач по статистике

где m — продолжительность отрезков времени.

Коэффициентом опережения называется отношение базисных темпов роста двух динамических рядов за одинаковые отрезки времени

Примеры решения задач по статистике

гдеПримеры решения задач по статистике -базисные темпы роста первого ряда; Примеры решения задач по статистике — базисные темпы роста второго ряда.

В тех случаях, когда темпы роста по двум сравниваемым рядам динамики неизвестны, а имеются средние темпы роста за одинаковый период времени, коэффициент опережения рассчитывается по формуле

Примеры решения задач по статистике

где Примеры решения задач по статистике— средний темп роста первого ряда динамики, Примеры решения задач по статистике— второго, а n — число лет в периоде.

Отношение абсолютного прироста к темпу прироста представляет собой абсолютное значение одного процента прироста и определяется по формуле

Примеры решения задач по статистике

где A % — абсолютный прирост; Примеры решения задач по статистике — цепной темп прироста; Примеры решения задач по статистике — уровень, предшествующийПримеры решения задач по статистике .

Из формулы видно, что абсолютное значение одного процента прироста равно одной сотой части предшествующего уровня.

Важнейшие приемы обработки и анализа динамических рядов

Существуют различные приемы обработки динамических рядов:

а) Приведение рядов к одному основанию.
Для выявления связи или различия в динамике двух или нескольких рядов их можно привести к одному основанию. Для этого показатели каждого ряда выражаются в процентах к первому или любому другому члену ряда.

б) Разбивка ряда на короткие периоды.
Для выявления тенденции данных колеблющихся рядов их разбивают на более короткие периоды, а затем определяют средний уровень по каждому периоду.

в) Сглаживание способом скользящих (подвижных) средних.
Сущность его заключается в том, что по конкретным уровням ряда рассчитываются сглаженные, скользящие средние, которые получаются из подвижных сумм путем последовательного сдвига на одну дату суммируемых показателей. Затем подвижные суммы делят на число дат, получая, таким образом, скользящие или подвижные средние. Например, складывают три первых члена ряда, а их среднюю относят ко второму периоду, затем складывают 2-й, 3-й и 4-й члены ряда, а их среднюю относят к третьему периоду и т.д.

г) Метод аналитического выравнивания динамических рядов.
Сущность метода состоит в том, что основная тенденция выражается в виде функции y=f(x), где за параметр х принимается время t .

Кстати готовые на продажу задачи тут, и там же теория из учебников может быть вам поможет она.

Корреляционный анализ и сезонные колебания в рядах динамики

Для изучения связи в рядах динамики применяется и корреляционный анализ. Однако его применение связано с определенными трудностями, потому что в динамических рядах уровни независимы друг от друга.

Зависимость между каждым предыдущим и последующим членами динамического ряда называется автокорреляцией. Корреляция между уровнями динамических рядов будет правильно отражать связь между явлениями только при условии устранения автокорреляции. Для этого существует ряд способов.

Первый способ состоит в том, что ищется связь не между уровнями рядов, а между первыми, вторыми и т. д. разностями (т. е. из каждого последующего уровня ряда вычитается значение предыдущего — первые разности и т. д.). В этом случае коэффициент корреляции вычисляется по формуле

Примеры решения задач по статистике

Второй способ исключения автокорреляции состоит в том, что сопоставляются отклонения от тренда (основной тенденции) по изучаемым рядам: для каждого динамического ряда проводится аналитическое выравнивание, затем находятся отклонения от найденной основной тенденции и уже потом, используя эти отклонения в качестве искомых переменных, определяют связь.

Для многих явлений общественной жизни характерны внутригодичные повторяющиеся колебания, которые называются сезонными. Они наблюдаются в различных отраслях народного хозяйства: при производстве большинства видов сельхозпродуктов, их переработки, в строительстве, транспорте, торговле и т. д.

Для выявления и измерения интенсивности сезонных колебаний пользуются индексами сезонности, причем индексы сезонности могут вычисляться по-разному.

14.Если средний годовой уровень сезонного явления остается от года к году относительно неизменным, применяется метод простых средних. Он состоит в определении простой средней за одни и те же месяцы всего изучаемого периода и в сопоставлении их со средней за весь изучаемый период.

15.Когда уровень явления проявляет тенденцию к росту или снижению, применяют метод помесячных отношений. Он заключается в том, что в начале вычисляются по каждому году процентные отношения между показателями за каждый данный и предшествующий месяцы, а затем из полученных отношений определяется среднеарифметическое.

Пример №39.

По следующим данным вычислить среднемесячные остатки материалов за полугодие (табл 8.1):

Примеры решения задач по статистике

Решение:

В нашей задаче даны остатки материалов на определенные моменты в ремени (1/1, 1/2, и т.д.), промежутки между которыми равны. В этом случае средняя исчисляется по формуле средней хронологического ряда:

Примеры решения задач по статистике

Пример №40.

По следующим данным определите среднее поголовье коров по совхозу за год (табл 8.2):

Примеры решения задач по статистике

Решение:

В задаче дано поголовье коров за определенный момент, даты, причем интервалы между датами не равны (6, 4 и 2 месяца). В таких случаях средняя хронологическая моментного ряда рассчитывается как средняя арифметическая взвешенная, где в качестве весов применяются отрезки времени между датами, к которым относятся парные средние смежные значения уровня. Определим прежде всего средние смежные значения уровней.

Примеры решения задач по статистике

Взвесим их теперь на отрезке времени между датами

Примеры решения задач по статистике

Пример №41.

Производство продукции по предприятию за 1990  1994 гг. характеризуется следующими данными (табл. 8.3):

Примеры решения задач по статистике

Определить:

16.начальный, конечный и средний уровни ряда;
17.абсолютные приросты по годам, к 1990 г. и среднегодовой абсолютный прирост;
18.темп роста и прироста по годам и к 1990 г.;
19.абсолютное значение одного процента прироста;
20.среднегодовой темп роста и прироста за период 1990  1994 гг.

Решение:

1. Начальный уровень (величина первого члена ряда) — 4140, конечный — 5426. Средний уровень ряда определяется по формуле простой средней арифметической, так как ряд периодический

Примеры решения задач по статистике

Вычисленные основные показатели данного динамического ряда сводим в таблицу 8.4.

2. Абсолютный прирост показывает, насколько изменился текущий уровень по сравнению с предыдущим или базисным и определяется как разность двух уровней

Примеры решения задач по статистике

Среднегодовой абсолютный прирост исчисляется по формуле средней арифметической простой и равен

Примеры решения задач по статистике

Среднегодовой абсолютный прирост можно вычислить и таким образом:

Примеры решения задач по статистике

3. Темп роста показывает, во сколько раз текущий уровень больше предыдущего или базисного, и определяется как отношение двух уровней, выраженное в процентах:

Примеры решения задач по статистике

Темп прироста показывает, на сколько процентов увеличился текущий уровень по сравнению с текущим или базисным и определяется как разность соответствующего темпа роста и 100%:

Примеры решения задач по статистике

Абсолютное значение 1% прироста определяется как отношение абсолютного прироста к темпу прироста:

Примеры решения задач по статистике

Среднегодовой темп роста рассчитывается по формуле средней геометрической

Примеры решения задач по статистике

Среднегодовой темп прироста равен среднегодовому темпу роста минус 100%, т. е. 107% — 100% = 7%

Примеры решения задач по статистике

Пример №42.

Среднегодовой темп роста заработной платы рабочих завода за 1990-91 гг. составил 104%, а за 1992-1994 гг. -106%. Определить среднегодовой темп роста заработной платы на заводе за 1990 — 1994 гг.

Решение:

Средняя из средних темпов роста за неодинаковые промежутки времени рассчитывается по формуле средней геометрической взвешенной, причем весами являются сами промежутки времени, следовательно:

Примеры решения задач по статистике

Задачи с решением по всем темам статистики

Статистика — отрасль общественных наук, имеющая целью сбор, упорядочение, анализ и сопоставление фактов, относящихся к самым разнообразным массовым явлениям.

Под предметом статистики понимается количественная сторона массовых общественных явлений в постоянной связи с их содержанием или количественной стороной, а также количественное выражение закономерностей общественного развития в конкретных условиях места и времени. Каждая отрасль имеет свою статистику. Статистика развивается как отдельная наука. Отраслевая статистика дополняет теорию статистики.

Теория статистики является основополагающей дисциплиной и служит фундаментом для применения статистического метода анализа для хозяйственных субъектов. На любом уровне и в любой сфере эффективность использования статистики во многом определяется качеством исходной информации.

Демографическая статистика, показатели численности и состава населения

Для развития национальной экономики в целом и для развития ее основных отраслей необходима статистическая информация о населении. Как статистическая категория население представляет собой совокупность людей, проживающих на данной территории. Оно непрерывно изменяется за счет рождения и смертей, а также миграции.

Информация о населении включает его естественный прирост, естественное движение, его профессиональный состав, возрастной состав, численность трудоспособного населения. Единицей наблюдения или единицей учета в статистике населения может быть как отдельный человек, так и семья, а также домохозяйство и населенный пункт.

Основным источником информации о населении является перепись. Она даёт наиболее подробные сведения о населении страны, включая его экономическую активность, жилищные условия, владение языками и т.д.

Главные принципы переписей населения, которые фактически действуют уже более полутора веков:

  1. периодичность (переписи проводятся в строгой периодичности, чтобы было возможно выявить тенденции в народонаселении страны и мира);
  2. сплошной характер (переписи подлежат все лица, независимо от гражданства находящиеся на территории данной страны, а также граждане данной страны, временно проживающие за рубежом. Исключение составляют иностранные дипломаты, сотрудники международных миссий и т.д.);
  3. индивидуальность регистрации (наблюдению подвергается каждый человек);
  4. одновременность (синхронность получения информации обо всех единицах наблюдения, что достигается введением критического момента переписи – такого момента времени, по состоянию на который регистрируются сведения).

Достоинством переписей является полнота информации о населении страны, однако такая форма наблюдения весьма затратная (по финансам и по времени), а также сложно организуемая. Поэтому переписи проводятся с 10-летней периодичностью. Сроки переписей в разных странах координирует ООН, чтобы обеспечить сопоставимость статических данных о демографических процессах в мире.

Альтернативой классическим переписям являются выборочные обследования. Они охватывают малую часть жителей, проводятся в более сжатые сроки, но они не могут дать полную картину о численности и составе населения всей страны.

При переписи населения учитываются две основные категории населения:

1) постоянное население (ПН) — лица, для которых данный населённый пункт является местом постоянного проживания, включая временно отсутствующих (ВО);
2) наличное население (НН) — лица, фактически находящиеся на момент переписи в данном населенном пункте, включая временно проживающих (ВП).

Рассмотрим более подробно две дополнительные категории населения – временно отсутствующие и временно проживающие. Временно отсутствующие (ВО) — это лица, имеющие постоянное место жительства в данном населённом пункте, которые на момент учёта отсутствуют. Их отсутствие не должно превышать 6 месяцев.

Временно проживающие (ВП) — это лица, находящиеся на момент учёта в данном населённом пункте, но имеющие постоянное место жительства в другом населённом пункте.

Взаимосвязь данных категорий населения:

ПН = НН – ВП + ВО, (1.1)
НН = ПН – ВО + ВП. (1.2)

В ходе статистического обследования населения определяется численность населения на момент проведения переписи. Сведения о наличном населении очень важны для населенных пунктов, где наблюдается сильное влияние сезонного фактора (курортные районы) или где используется рабочая сила вахтовым методом.

Указанные категории населения не связаны с временной или постоянной регистрацией (с пропиской) граждан РФ по месту пребывания и по месту жительства.

Численность населения – это моментный показатель, так как он рассчитывается на определённую дату. Для того чтобы охарактеризовать демографическую ситуацию за период (год, месяц и т.д.), необходим интервальный показатель – средняя численность населения Решение задач по статистике.

Формула расчёта зависит от исходных данных. Обычно Росстат публикует данные о населении на начало и конец периода. Следовательно, расчёт производится по средней арифметической простой формуле:

Решение задач по статистике

где Решение задач по статистике— численность населения на начало периода;
Решение задач по статистике— численность населения на конец периода.

В других случаях необходимо обратиться к рассмотренному ранее материалу темы «Ряды динамики» в курсе «Теория статистики» [1, c. 18-23], где изучаются методы расчёта среднего уровня ряда динамики. Рассмотрим пример расчёта средней численности населения.

Задача с решением №1.1

Данные по трём городам о численности наличного населения (тыс. чел.):

ГОРОД «А»
1 января 2015 г. – 230; 1 января 2016 г. – 242.

ГОРОД «Б»
1 января 2015 г. – 148; 1 февраля – 147; 1 марта – 146; 1 апреля – 142; 1 мая – 145; 1 июня – 150; 1 июля – 155; 1 августа – 162; 1 сентября – 160; 1 октября – 153; 1 ноября – 155; 1 декабря – 154; 1 января 2016 г. – 150.

ГОРОД «В»
1 января 2015 г. – 87; 1 апреля – 93; 1 сентября – 95; 1 октября – 100. Рассчитать среднюю численность населения каждого города в 2015 году.

Решение

ГОРОД «А»
Есть данные на начало и конец периода. Расчёт производится по средней арифметической простой формуле:

Решение задач по статистике

ГОРОД «Б»
Моментный ряд динамики с равными промежутками между датами. Расчёт ведётся по формуле средней хронологической:

Решение задач по статистике

ГОРОД «В»
Моментный ряд динамики с неравными промежутками между датами. Расчёт ведётся по формуле средней арифметической взвешенной:

Решение задач по статистике

Напомним, что в числителе каждый уровень ряда (численность населения на определённую дату – Н) умножается на число месяцев, в течение которого он не менялся (t). В знаменателе — число месяцев в году.

Показатели движения населения

Движение населения – это изменение численности населения. В статистике различают:

1) естественное движение (рождаемость и смертность);
2) механическое движение (миграция).

Выделяют две группы показателей движения населения.
К первой группе относятся абсолютные показатели (единица измерения — чел.):
число родившихся (Р), число умерших (У);
естественный прирост (Δе) = Р – У;
число прибывших (П), число выбывших (В);
механический (миграционный) прирост, называемый также сальдо миграции (Δм) = П – В;
общий прирост (Δобщ) = Δе + Δм.

Кроме того, общий прирост можно также вычислить как разность численности населения на конец и на начало периода. Показатели естественного, механического и общего прироста (Δе, Δм, Δобщ) могут иметь отрицательное значение, что говорит об уменьшении численности населения под влиянием тех или иных причин.

Задача с решением №1.2

Данные о численности населения региона, тыс. чел.:

НА 1 ЯНВАРЯ
Численность наличного населения – 2050,
из них — временно проживающих 113.
Численность временно отсутствующих 125.

В ТЕЧЕНИЕ ГОДА Родилось 27; умерло 36; прибыло на постоянное жительство из других городов 15; выехало на постоянное жительство из числа постоянного населения 11.

Рассчитать:
1) численность постоянного населения на начало и конец года;
2) естественный, механический и общий прирост населения.

Решение

1) Численность постоянного населения на начало года:

Решение задач по статистике

Численность постоянного населения на конец года определяется, исходя из численности на начало года, а также с учётом демографических процессов в течение года:

Решение задач по статистике

2) Естественный прирост (Δе) = Р – У = 27-36 = — 9 тыс. чел; Механический прирост (Δм) = П – В = 15 – 11 = 4 тыс. чел.;
Общий прирост (Δобщ) = Δе + Δм = -9 + 4 = -5 тыс. чел.
Проверка: Решение задач по статистике

Вторая группа – относительные показатели (демографические коэффициенты). Традиционно большинство из них измеряется в промилле (‰). Эти показатели удобны при сравнении демографических процессов в регионах с разным числом жителей.

Общий коэффициент рождаемости (Кр) характеризует интенсивность деторождения по отношению к населению в целом (всех возрастов) и вычисляется как отношение числа родившихся живыми в течение года (Р) к среднегодовой численности населения Решение задач по статистике:

Решение задач по статистике

Коэффициент рождаемости показывает число родившихся в расчёте на 1000 жителей (измеряется в ‰).

Общий коэффициент смертности (Кс) представляет собой отношение общего числа умерших в течение года (У) к среднегодовой численности населения:

Решение задач по статистике

Коэффициент смертности показывает число умерших в расчёте на 1000 жителей (измеряется в ‰).

Коэффициент естественного прироста Решение задач по статистике представляет собой разность между коэффициентом рождаемости и коэффициентом смертности и измеряется в ‰:

Решение задач по статистике

Коэффициент жизненности, или Индекс Покровского (Кж) показывает, сколько родившихся приходится на 1 умершего за период:

Решение задач по статистике

Если данный коэффициент более 1, это говорит о положительной демографической тенденции – превышении числа родившихся над числом умерших. Специальный коэффициент рождаемости Решение задач по статистике рассчитывается не по отношению ко всему населению, а к численности женщин репродуктивного (фертильного, детородного) возраста (15-49 лет):

Решение задач по статистике

где Решение задач по статистике — среднегодовая численность женщин репродуктивного возраста. Этот показатель также измеряется в ‰.

Коэффициент прибытия (Кп) представляет собой соотношение общего числа прибывших в течение года (П) к среднегодовой численности населения:

Решение задач по статистике

Коэффициент прибытия показывает число прибывших в расчёте на 1000 жителей (измеряется в ‰).

Коэффициент выбытия (Кв) есть соотношение общего числа выбывших в течение года (В) к среднегодовой численности населения:

Решение задач по статистике

Коэффициент выбытия показывает число выбывших в расчёте на 1000 жителей (измеряется в ‰).

Коэффициент механического прироста Решение задач по статистике – это разность между коэффициентами прибытия и выбытия. Он измеряется в ‰:

Решение задач по статистике

Коэффициент общего прироста Решение задач по статистике – итоговый показатель, представляющий собой сумму коэффициентов естественного и механического приростов (и измеряется в ‰):

Решение задач по статистике

Относительные показатели естественного, механического и общего прироста Решение задач по статистике могут иметь отрицательное значение.

Задача с решением №1.3

Данные о населении Самарской области (тыс. чел.) за 2014 год: численность на начало года – 3211,2, на конец года – 3212,7; родилось 40,3, умерло 45,9.

Рассчитать относительные показатели естественного движения населения Самарской области в 2014 году.

Решение

Проведём предварительный расчёт, необходимый для вычисления демографических коэффициентов – рассчитаем среднюю численность населения за год. Так как имеются данные на начало и конец года, то применяем среднюю арифметическую простую формулу:

Решение задач по статистике

Далее рассчитаем показатели в соответствии с заданием.

Общий коэффициент рождаемости

Решение задач по статистике, то есть в расчёте на 1000 жителей в среднем рождалось 12,5 чел.

Общий коэффициент смертности

Решение задач по статистике, то есть из каждой 1000 жителей в среднем умирает 14,3 чел.

Коэффициент естественного прироста

Решение задач по статистике

Коэффициент жизненности

Решение задач по статистикето есть на одного умершего в среднем приходится 0,88 родившихся (на 100 умерших – 88 родившихся, и т.д.).

В отдельную группу можно выделить показатели, которые дают косвенную или дополнительную характеристику движения населения.

Средний возраст населения Решение задач по статистике— примерная характеристика возрастной структуры населения. Его величина во многом является следствием таких демографических явлений, как смертность и миграция населения. Средний возраст вычисляется как средняя арифметическая путем деления общего числа человеко–лет (сумма произведений значений возраста на численность населения в этом возрасте) на общую численность населения.

Расчет можно производить также исходя из данных о численности населения по возрастным группам; тогда значением возраста считается середина интервала. Средний возраст населения рассчитывается по формуле:

Решение задач по статистике

где Н – общая численность населения;
Решение задач по статистике – численность лиц в возрасте «Х» лет;
Х – число исполнившихся лет в годах, от 0 до 168;
0,5 – const;
Решение задач по статистике– численность лиц, не указавших возраст.

Задача с решением №1.4

Численность населения Самарской области в возрасте 25 лет – 50474 чел., в возрасте 26 лет – 49910 чел., 27 лет – 49636 чел. Определить средний возраст населения в возрастной группе 25 – 27 лет.

Решение

1) Определим число человеко-лет в каждом из данных возрастов:
(25+0,5) х 50474 = 1287087,
(26+0,5) х 49910 = 1322615,
(27+0,5) х 49636 = 1364990
.

2) Определим общее число человеко-лет в данной возрастной группе:
1287087 + 1322615 + 1364990 = 3974692.

3) Определим численность населения в возрастной группе 25-27 лет:
50474 + 49910 + 49636 = 150020 чел.

4) Определим средний возраст в возрастной группе 25-27 лет — число человеко-лет данной возрастной группы разделим на численность населения в этой же возрастной группе:
3974692 : 150020 = 26,49 лет.

На основе распределений родившихся по очередности рождения можно, прежде всего, определить относительные показатели структуры (долю рождений у матерей разного возраста в общей численности родившихся, долю первых, вторых и более рождений в общей численности рождений) и средние величины (средняя очередность рождения ребенка у матери).

Средняя очерёдность рождения (l) ребенка у матери характеризует интенсивность рождаемости и определяется по формуле:

Решение задач по статистике

l – порядковый номер родов (1, 2, 3 и более);
V – число живорожденных у матери с данным порядковым номером родов.

Задача с решением №1.5

Число родившихся у женщин, не состоящих в зарегистрированном браке, по очередности рождения первыми составляет 5701 чел., вторыми – 2026 чел., третьими – 537 чел., четвертыми – 156 чел., пятыми – 63 чел. Определить среднюю очередность рождения.

Решение

1) Найдем сумму произведений числа родившихся на очередность их рождения:
1 * 5701 + 2 * 2026 + 3 * 537 + 4 * 156 +5 * 63 = 12303.

2) Определим число родившихся всех очередностей рождения:
5701 + 2026 + 537 + 156 + 63 = 8483.

3) Определим среднюю очередность рождения – сумму произведений числа родившихся на очередность их рождения разделим на число родившихся всех очередностей рождения:
12303 : 8483 = 1,45.

Возрастные коэффициенты смертностиРешение задач по статистикеявляются частными показателями по отношению к рассмотренному ранее общему коэффициенту смертности. Они характеризуют уровень 16 смертности населения определённой возрастной группы (например, 70-летних жителей или населения в возрасте 50-59 лет).

Эти коэффициенты рассчитываются как отношение числа умерших в данном возрасте Решение задач по статистикев течение календарного года к среднегодовой численности лиц данного возраста Решение задач по статистике:

Решение задач по статистике

Младенческая смертность – это смертность детей на первом году жизни (0-12 мес.), важный статистический показатель состояния здравоохранения в стране (регионе). Расчет коэффициента младенческой смертности Решение задач по статистикеза год проводится по формуле:

Решение задач по статистике

Решение задач по статистике– число умерших в возрасте до 1 года из родившихся в том году, для которого вычисляется коэффициент;
Решение задач по статистике – число умерших в возрасте до 1 года из родившихся в предыдущем году;
Решение задач по статистике– число родившихся в том году, для которого вычисляется коэффициент;
Решение задач по статистике – число родившихся в предыдущем году.

Коэффициент перинатальной смертности рассчитывается как отношение суммы мертворожденных и умерших в возрасте 0-6 дней в данном году к числу родившихся живыми и мертвыми в этом же году, или как сумма коэффициентов мертворождаемости и ранней неонатальной смертности.

Коэффициент мертворождаемости рассчитывается как отношение числа мертворожденных в данном году к числу родившихся живыми и мертвыми в том же году.

Коэффициент ранней неонатальной смертности рассчитывается как отношение числа умерших в возрасте 0-6 дней к числу родившихся живыми и мертвыми в том же году.

Коэффициенты смертности по причинам смерти рассчитываются как отношения чисел умерших от указанных причин смерти к среднегодовой численности населения;

Коэффициент младенческой смертности по основным классам причин смерти рассчитывается для групп причин смерти, (инфекционные и паразитарные болезни, болезни органов дыхания, болезни органов пищеварения, врожденные аномалии, состояния, возникающие в перинатальном периоде, другие причины) как произведение доли умерших от данной причины среди всех умерших в возрасте до 1 года на коэффициент младенческой смертности;

Коэффициенты смертности рассчитывают на 1000 населения, коэффициенты смертности по причинам — на 100000 населения; коэффициенты младенческой смертности рассчитываются на 1000 родившихся, по причинам смерти — на 10000 родившихся.

Для оценки эффективности миграции Решение задач по статистикеопределяется отношение механического прироста Решение задач по статистикек объёму миграции, то есть к сумме прибывших (П) и выбывших (В):

Решение задач по статистике

Отрицательное значение говорит о том, сколько выбывших приходится на 1000 общей численности мигрантов; положительное значение — о том, сколько прибывших приходится на 1000 общей численности мигрантов.

Показатели брачности и разводимости

Семейная организация общества статистически может быть исследована показателями брачности и разводимости.

Брачность — это процесс образования супружеских пар населения. В ходе опросов и переписей состояние в браке учитывается не только на основании соотвествующего свидетельства, выданного органом ЗАГС, но и на основании собственного представления о своём брачном статусе (например, люди, совместно проживающие, но не зарегистрировавшие свои отношения официально, так же могут признать себя состоящими в браке).

Разводимость – процесс распада супружеских пар вследствие официального или неофициального расторжения брака. Прекращение брака, вызванное овдовением, не относится к понятию «разводимость», так как в данном случае причиной является смерть одного из супругов.

Брачность и разводимость являются факторами естественного движения населения (прежде всего, рождаемости).

Показатели брачности и разводимости также делятся на два вида:

1) абсолютные (измеряемые в единицах) – число браков (Бр) и число разводов (Рв);
2) относительные (измеряемые в коэффициентах или в промилле). Рассмотрим их более подробно.

Общий коэффициент брачности (Кбр) — отношение числа заключённых браков на определённой территории (Бр) за некоторый период к среднегодовой численности населения Решение задач по статистике этой территории:

Решение задач по статистике

Общий коэффициент брачности показывает число зарегистрированных браков в расчёте на 1000 жителей (измеряется в ‰).

Общий коэффициент разводимости (Кразв) — отношение числа разводов (Рв) за данный период к средней численности населения Решение задач по статистике за этот же период:

Решение задач по статистике

Общий коэффициент разводимости показывает число разводов в расчёте на 1000 жителей (измеряется в ‰).

Коэффициент соотношения браков и разводов (Кб/р) определяется по следующей формуле:

Решение задач по статистике

Этот показатель отражает число браков в расчёте на 1000 разводов. Если данный коэффициент более 1000, это говорит о превышении числа браков над числом разводов.

Обратная величина коэффициента соотношения браков и разводов — коэффициент неустойчивости браков (Кр/б). Он может быть определен на основе соотношения числа разводов и браков (или коэффициентов разводимости и брачности) и рассчитывается по формуле:

Решение задач по статистике

В данном случае определяется число разводов в расчёте на 1000 браков. Рост этого показателя говорит о нарастающей дезорганизации института семьи.

Задача с решением №1.6

Данные по Российской Федерации за 2014 год: среднегодовая численность населения 144 967 100 чел.; зарегистрировано браков 1225985, разводов 693730.

Рассчитать относительные показатели брачности и разводимости в РФ в 2014 году.

Решение

Общий коэффициент брачности

Решение задач по статистике, то есть в расчёте на 1000 жителей в среднем заключалось 8,5 браков.

Общий коэффициент разводимости

Решение задач по статистике, то есть в расчёте на 1000 жителей в среднем регистрировалось 4,8 разводов.

Коэффициент соотношения браков и разводов:

Решение задач по статистике

На 1000 разводов в среднем приходится 1767 браков.

Коэффициент неустойчивости браков:

Решение задач по статистике

На 1000 браков в среднем приходится 570 разводов.

Коэффициенты брачности и разводимости зависят от возрастной и брачной структуры населения, так как число браков и разводов сопоставляется со всем населением, включая не состоящих в браке людей (в том числе детей). Это облегчает их расчёт и интерпретацию, однако при этом не всегда понятен экономический смысл результатов. Данный недостаток можно устранить расчётом частных коэффициентов (по отношению не к населению в целом, а к его определённой части).

Специальные коэффициенты брачности Решение задач по статистикеи разводимости Решение задач по статистикеопределяются для населения брачного возраста – от 15 лет (Н15+) — независимо от его брачного состояния:

Решение задач по статистике

Эти коэффициенты отражают, соответственно, число браков и разводов в расчёте на 1000 жителей в возрасте от 15 лет (измеряются в ‰). Несмотря на то, что Семейный кодекс РФ (ст. 13) устанавливает наступление брачного возраста с 18 лет, тот же нормативный акт позволяет региональным властям разрешать снижение брачного возраста (до 16 лет) при наличии исключительных обстоятельств. Часть субъектов Федерации этим правом уже воспользовалась.

Демографические прогнозы

Для прогнозирования численности населения используются как стандартные статистические и эконометрические методы (например, прогнозирование на основе трендовых моделей), так и специфические, присущие только демографическим расчётам.
Рассмотрим два подобных метода:

1) прогнозирование на основе общего прироста;
2) возрастная передвижка (передвижка возрастов).

Прогнозирование на основе общего прироста

В основе прогнозирования лежит формула:

Решение задач по статистике

Решение задач по статистике– численность населения на начало прогнозного периода;
Решение задач по статистике – коэффициент общего прироста населения;
L – срок прогноза.

Эта формула представляет собой модификацию формулы прогнозирования на основе среднего темпа роста (см. тему «Ряды динамики» в курсе «Теория статистики») [1, c. 18-23]. Роль среднего темпа роста выполняет коэффициент общего прироста населения.

Задача с решением №1.7

Данные по региону:
Среднегодовая численность населения в 2015 году составила 2500 тыс. чел.
В последние годы в регионе смертность всего населения составила в среднем 19 ‰, рождаемость 12 ‰, прибытие 10 ‰, выбытие 8 ‰.
Вычислить перспективную численность населения региона в 2017 году.

Решение

Сделаем предварительный расчёт коэффициента общего прироста:

Решение задач по статистике

Нам известны: численность населения на начало прогнозного периода (2500 тыс. чел.), срок прогноза (2 года = 2017 – 2015). Рассчитаем перспективную численность населения региона в 2017 году:

Решение задач по статистике

Возрастная передвижка

Метод основан на данных о вероятности людей возраста i дожить до возраста i+1. Для реализации метода требуется следующая информация по каждой возрастной группе населения:

1) возрастные коэффициенты смертностиРешение задач по статистике;
2) возрастные коэффициент дожития Решение задач по статистике.

Эти показатели взаимодополняют друг друга до 1, то есть до 1000 ‰.

Задача с решением №1.7.1

Смертность 70-летних жителей региона составляет 35 ‰ (то есть вероятность умереть равна 0,035). Значит, коэффициент дожития будет равен 1000 ‰ — Решение задач по статистике Таким образом, из каждой тысячи 70-летних жителей до возраста 71 год в среднем доживают 965 чел. (вероятность дожития составляет 0,965).

Общая формула для передвижки возрастов:
Решение задач по статистике, где:
Решение задач по статистике– численность населения в следующем году (в возрасте i+1).

Данные о возрастной смертности содержатся в таблицах смертности, формируемых на основе многолетних наблюдений за уровнем смертности каждой возрастной группы на конкретной территории.

При прогнозировании населения важно знать, что коэффициенты смертности различаются не только по территориям и возрастам, но и по полу (у мужчин они значительно выше, чем у женщин).

Таблицы смертности – это таблица, содержащая информацию о смертности в определённой совокупности населения, точнее, порядок вымирания поколений людей при тех или иных заданных вероятностях умереть.

Для построения таблиц смертности необходимы сведения о численности возрастно-половых групп населения, количестве умерших по возрастным группам.

Задача с решением №1.8

Данные по городу: На 1 января 2016 года проживало 1700 чел. в возрасте 44 года. Известны данные о смертности:

Решение задач по статистике

Определить вероятную численность 47-летних жителей на 1 января 2019 года.

Решение

Сделаем «передвижку» на один год вперёд, когда 44-летним жителям исполнится 45 лет. Для удобства и корректности расчётов коэффициенты выразим не в промилле, разделив их на 1000.

Рассчитаем численность 45-летних жителей на 1 января 2017 года:

Решение задач по статистике

Сделаем ещё одну «передвижку» на один год вперёд, когда 45- летним жителям исполнится 46 лет.

Рассчитаем численность 46-летних жителей на 1 января 2018 года:

Решение задач по статистике

В итоге делаем ещё одну «передвижку» на один год вперёд, когда 46-летним жителям исполнится 47 лет.

Рассчитаем численность 47-летних жителей на 1 января 2018 года:

Решение задач по статистике

Все расчёты можно свести к следующей формуле:

Решение задач по статистике

Информация о вероятности дожития имеет важное применение в таких сферах деятельности, как: пенсионная система, страхование жизни, оценка демографической ситуации и т.д.

Статистика рынка труда, показатели численности и состава трудовых ресурсов

Термин «трудовые ресурсы» появился в 1920-х годах в работах академика С.Г. Струмилина. Наибольшее распространение он получил именно в отечественной статистике.

Трудовые ресурсы — это часть населения, которая по возрасту и состоянию здоровья способна производить материальные и духовные блага, а также оказывать услуги [4, c. 101-102]. Трудовые ресурсы включают как занятых, так и незанятых, но способных работать. Таким образом, трудовые ресурсы состоят из населения, занятого фактически, а также потенциально занятого.

Основой для расчёта трудовых ресурсов является группировка населения по возрасту. Выделяют 3 возрастных группы населения.

1) Трудоспособный (рабочий) возраст – это женщины 16-54 лет (включительно), мужчины 16-59 лет (включительно).
2) Моложе трудоспособного возраста – лица обоего пола 0 – 15 лет.
3) Старше трудоспособного возраста (лица пенсионного возраста) — это женщины 55 лет и старше, мужчины 60 лет и старше.

Примечания:
— в зависимости от законодательно изменённых возрастных границ выхода на пенсию могут измениться и границы трудоспособного возраста;
— нижняя граница трудоспособного возраста (16 лет) не связана с законодательно разрешённым в РФ возрастом, когда подростки могут вступать в трудовые отношения (только по достижению 14 лет).

Среди лиц трудоспособного возраста по признаку состояния здоровья различают две группы населения – трудоспособные и нетрудоспособные.

В группу нетрудоспособных включаются: неработающие инвалиды I и II групп рабочего возраста, неработающие пенсионеры трудоспособного возраста, получающие пенсию на льготных условиях.

Для того чтобы рассчитать численность трудовых ресурсов, можно взять за основу общую численность населения трудоспособного возраста, к которой прибавляется число работающих пенсионеров и работающих подростков (моложе 16 лет) и исключается количество неработающих инвалидов I и II групп (рабочего возраста), а также численность пенсионеров трудоспособного возраста, получающих пенсию на льготных условиях.

Решение задач по статистике

Рис. 2.1. Состав трудовых ресурсов

Задача с решением2.1

Имеются следующие данные по региону на конец года, тыс. чел.:

Трудоспособные наёмные работники рабочего возраста 2040;
Трудоспособные лица рабочего возраста, занятые собственным делом 175;
Занятые инвалиды рабочего возраста 4;
Незанятые инвалиды рабочего возраста 36;
Занятые льготные пенсионеры рабочего возраста 17;
Незанятые льготные пенсионеры рабочего возраста 98;
Незанятые трудоспособные лица рабочего возраста 604;
Занятые подростки и пенсионеры 233.

Рассчитать (на конец года):
1. численность лиц рабочего возраста;
2. численность трудоспособных лиц рабочего возраста;
3. численность трудовых ресурсов.

Решение

1) Численность лиц рабочего возраста =
2040+175+4+36+17+98+604=2974 тыс. чел.

2) Численность трудоспособных лиц рабочего возраста =
2040+175+604=2819 тыс. чел.

3) Численность трудовых ресурсов =
2040+175+4+17+604+233=2840 тыс. чел.

Средняя численность трудовых ресурсов Решение задач по статистикерассчитывается теми же методами, что и средняя численность населения (см. тему 1). Так, по данным на начало и конец года определяется по формуле средней арифметической простой:

Решение задач по статистике

Решение задач по статистике— численность трудовых ресурсов на начало периода;
Решение задач по статистике — численность трудовых ресурсов на конец периода;

по данным на определённые даты через равные промежутки времени между ними по формуле средней хронологической простой:

Решение задач по статистике

n – число уровней ряда динамики (дат).

Соотношение между отельными возрастными группами в структуре трудовых ресурсов дают показатели демографической нагрузки. Они характеризуют соотношение лиц того или иного возраста и лиц трудоспособного возраста.

Коэффициент пенсионной нагрузки (нагрузки пожилыми людьми) Решение задач по статистике рассчитывается как отношение числа лиц старше трудоспособного возраста Решение задач по статистике к численности лиц трудоспособного возраста Решение задач по статистике:

Решение задач по статистике

Он показывает, сколько лиц пенсионного возраста приходится в среднем на 1000 лиц трудоспособного возраста.

Коэффициент замещения трудовых ресурсов (нагрузки детьми) Решение задач по статистикерассчитывается как отношение числа лиц моложе трудоспособного возраста Решение задач по статистике к численности лиц трудоспособного возраста Решение задач по статистике:

Решение задач по статистике

Он показывает, сколько лиц в возрасте моложе 16 лет приходится в среднем на 1000 лиц трудоспособного возраста.

Коэффициент общей (демографической) нагрузки Решение задач по статистикеможно рассчитать суммированием двух предыдущих коэффициентов или соотношением числа лиц нетрудоспособных возрастов Решение задач по статистике к численности лиц трудоспособного возраста:

Решение задач по статистике

Результат показывает, сколько лиц нетрудоспособных возрастов приходится в среднем на 1000 лиц трудоспособного возраста.

Задача с решением №2.2

Данные о распределении населения Российской Федерации (на начало 2015 года), тыс. чел.:

Решение задач по статистике

Исчислить:

1) удельный вес отдельных возрастных групп в общей численности населения;
2) коэффициенты нагрузки детьми, пожилыми людьми;
3) общий коэффициент демографической нагрузки.

Решение

Сделаем предварительный расчёт – вычислим общую численность населения (Н) страны на начало 2015 года:
25689+85415+35163=146267 тыс. чел.

1) Удельный вес (доля) отдельных возрастных групп в общей численности населения – это относительная величина структуры (см. тему «Относительные величины» в курсе «Теории статистики»). Она представляет собой соотношение части и целого. При этом вся совокупность принимается равной 100 %.
Удельный вес населения моложе трудоспособного возраста = 17,6 %
Удельный вес населения трудоспособного возраста = 58,4 %
Удельный вес населения старше трудоспособного возраста = 24,0 %

Проверить правильность расчётов можно суммированием всех трёх полученных чисел. Сумма должна составить 100 %:
17,6 + 58,4 + 24 = 100 %.

2) Коэффициент нагрузки детьми = 301 ‰
На 1000 чел. трудоспособного возраста в среднем приходится 301 чел. моложе трудоспособного возраста.
Коэффициент нагрузки пожилыми людьми = 412 ‰
На 1000 чел. трудоспособного возраста в среднем приходится 412 чел. старше трудоспособного возраста.

3) Коэффициент общей нагрузки = 713 ‰
На 1000 чел. трудоспособного возраста в среднем приходится 713 чел. нетрудоспособных возрастов.

Показатели движения трудовых ресурсов

Движение трудовых ресурсов – это изменение численности трудовых ресурсов. По аналогии с демографической статистикой, различают 2 формы движения:

1) естественное (не связанное с процессом миграции);
2) механическое (миграция).

Выделяют две группы показателей движения трудовых ресурсов.

К первой группе относятся абсолютные показатели (единица измерения — чел.).
естественное пополнение (Пе) – это пополнение численности трудовых ресурсов по следующим причинам: вступление в 30 трудоспособный возраст подростков; привлечение к занятости пенсионеров, инвалидов, а также лиц моложе 16 лет;
естественное выбытие (Ве) – это выход из числа трудовых ресурсов по следующим причинам: смертность и переход на инвалидность трудовых ресурсов, выход на пенсию; прекращение занятости лиц моложе 16 лет.
естественный прирост (Δе) = Пе – Ве;
механическое пополнение (Пм) – это пополнение численности трудовых ресурсов по причине миграции (приезда из других регионов);
механическое выбытие (Вм) – это выбытие из числа трудовых ресурсов по причине миграции (отъезда в другие регионы);
механический (миграционный) прирост (Δм) = Пм – Вм;
общий прирост (Δобщ) = Δе + Δм.

Кроме того, общий прирост можно также вычислить как разность численности трудовых ресурсов на конец и на начало периода.

Показатели естественного, механического и общего прироста (Δе, Δм, Δобщ) могут иметь отрицательное значение, что говорит об уменьшении численности трудовых ресурсов под влиянием тех или иных причин.

Для того чтобы рассчитать интенсивность изменения численности трудовых ресурсов, используются относительные показатели (коэффициенты), измеряемые в промилле (‰).

Коэффициент естественного пополнения Решение задач по статистикетрудовых ресурсов рассчитывается как отношение числа вступивших в трудоспособный возраст и привлеченных к общественному труду пенсионеров и подростков к среднему количеству трудовых ресурсов за определённый период:

Решение задач по статистике

Коэффициент естественного выбытия Решение задач по статистикерассчитывается как отношение количества выбывших из состава трудовых ресурсов (по причине смертности, инвалидности, выхода на пенсию) к средней величине трудовых ресурсов:

Решение задач по статистике

Коэффициент естественного прироста Решение задач по статистике рассчитывается как разность между коэффициентами пополнения и выбытия трудовых ресурсов:

Решение задач по статистике

Коэффициент механического пополнения Решение задач по статистике показывает число прибывших трудовых ресурсов в расчёте на 1000 человек трудовых ресурсов:

Решение задач по статистике

Коэффициент механического выбытия Решение задач по статистикерассчитывается как отношение количества выбывших из состава трудовых ресурсов по причине миграции к средней величине трудовых ресурсов:

Решение задач по статистике

Коэффициент механического прироста Решение задач по статистикетрудовых ресурсов рассчитывается как отношение миграционного прироста к средней величине трудовых ресурсов:

Решение задач по статистике

Коэффициент общего прироста Решение задач по статистикетрудовых ресурсов рассчитывается как сумма коэффициентов естественного и механического прироста:

Решение задач по статистике

Относительные показатели естественного, механического и общего приростаРешение задач по статистикемогут иметь отрицательное значение.

Задача с решением №2.3

Данные по региону, тыс. чел.:

Решение задач по статистике

Рассчитать:

1. численность трудовых ресурсов на начало и конец года;
2. среднегодовую численность трудовых ресурсов;
3. абсолютные показатели движения трудовых ресурсов;
4. относительные показатели движения трудовых ресурсов.

Решение

1) численность трудовых ресурсов на начало года (ТРнач):
ТРнач = 2800-480+215 = 2535 тыс. чел.
численность трудовых ресурсов на начало года (ТРкон):
ТРкон = 2535+198-252+20-16+67-47=2505 тыс. чел.

2) среднегодовая численность трудовых ресурсов Решение задач по статистике

Решение задач по статистике

3) абсолютные показатели движения трудовых ресурсов

Естественное пополнение:
Пе = 198+20 = 218 тыс. чел.
Естественное выбытие:
Ве = 252 +16 = 268 тыс. чел.
Естественный прирост:
Δе = Пе — Ве = 218-268 = — 50 тыс. чел;
Механическое пополнение:
Пм = 67 тыс. чел.
Механическое выбытие:
Вм = 47 тыс. чел.
Механический прирост:
Δм = Пм – Вм = 67 – 47 = 20 тыс. чел.;
Общий прирост:
Δобщ = Δе + Δм = -50 + 20 = -30 тыс. чел.
Проверка: Решение задач по статистике

4) относительные показатели движения трудовых ресурсов

Коэффициент естественного пополнения:

Решение задач по статистике,то есть на каждую 1000 человек трудовых ресурсов естественное пополнение составляет в среднем 86,5 чел.
Коэффициент естественного выбытия:

Решение задач по статистике, то есть на каждую 1000 человек трудовых ресурсов естественное выбытие составляет в среднем 106,3 чел.
Коэффициент естественного прироста:

Решение задач по статистике

Коэффициент механического пополнения:

Решение задач по статистике, то есть на каждую 1000 человек трудовых ресурсов механическое пополнение составляет в среднем 26,6 чел.
Коэффициент механического выбытия:

Решение задач по статистике, то есть на каждую 1000 человек трудовых ресурсов механическое выбытие составляет в среднем 18,7 чел.
Коэффициент механического прироста:

Решение задач по статистике

Коэффициент общего прироста:

Решение задач по статистике

Показатели экономической активности населения

При изучении экономической активности населения статистика использует следующие источники информации:

— отчётность предприятий (о численности занятых);
— отчётность служб занятости (о численности зарегистрированных безработных);
— переписи населения;
— периодические выборочные обследования.

Отечественная статистическая методология исследования рынка труда во многом базируется на рекомендациях МОТ (Международной организации труда).

При исследовании рынка труда выделяют четыре основные категории населения: «занятые», «безработные», «экономически активное население» (ЭАН), «экономически неактивное население» (ЭНН). При этом объектом статистического наблюдения является население только в возрасте 15 – 72 лет.

С 2017 года Росстат заменяет две последние категории новыми, принятыми в международных стандартах – «рабочая сила» и «лица, не входящие в состав рабочей силы», а также планирует отменить верхнюю границу обследуемого возраста.

Занятые – это лица, которые в рассматриваемый период:

1) выполняли работу по найму за вознаграждение на условиях полного или неполного рабочего времени* (при этом не важно, присутствовал ли человек фактически на рабочем месте или находился, например, в отпуске); (*Неполное рабочее время – как минимум, один час в неделю)
2) самостоятельно обеспечивали себя работой (с использованием или без использования наёмной рабочей силы);
3) выполняли работу без оплаты на семейном предприятии.

Однако отметим, что в нашей стране не существует такой юридической формы предпринимательства, как «семейный бизнес».

К занятым также относятся:

— служители религиозных культов (духовенство),
— военнослужащие (в том числе срочной службы),
— лица, которые временно отсутствовали на работе (из-за болезни, ухода за больными, ежегодного отпуска и т.д.),
— лица, занятые в домашнем хозяйстве производством товаров и услуг для продажи или обмена.

К занятым не относятся учащиеся очных отделений трудоспособного возраста (школьники, студенты). Если данные категории населения вышли на работу, то они включаются в состав занятых.

В статистике выделяют несколько группировок занятого населения. Во-первых, оно группируется по основным социальнодемографическим характеристикам (по полу, возрасту, уровню образования и т.д.); во-вторых, по статусу занятости.

Различают два статуса занятости: наёмные работники и лица, работающие не по найму.

К наёмным работникам относятся:

а) лица, заключившие договор, контракт или устное соглашение с работодателем об условиях трудовой деятельности;
б) лица, избранные или назначенные на оплачиваемую должность.

Лица, работающие не по найму, включают следующие категории:

а) самозанятые – лица, работающие на индивидуальной основе (не использующие наёмный труд или использующие его нерегулярно);
б) работодатели (занятые на собственном предприятии и использующие труд наёмных работников на постоянной основе);
в) члены производственных кооперативов;
г) неоплачиваемые работники семейных предприятий.

В развитых странах с рыночной экономикой наёмные работники составляют в среднем более 90% всей рабочей силы.

Согласно методологии МОТ, к безработным относятся лица 15- 72 лет, которые в рассматриваемый период соответствовали трём критериям (одновременно):

а) не имели работы (доходного занятия);
б) занимались поиском работы (обращались в службу занятости, использовали или помещали объявления в печати, непосредственно обращались к работодателю, использовали личные связи, предпринимали шаги к организации собственного дела);
в) были готовы приступить к работе в настоящий момент (если появится возможность трудоустройства).

Обратим ваше внимание на то, что признание человека безработным может произойти и в случае, если он не обращался в службу занятости (государственную или коммерческую), а искал работу своими силами.

Учащиеся, студенты, пенсионеры и инвалиды учитываются в качестве безработных, если они занимались поиском работы и были готовы приступить к ней.

Таким образом, понятие «безработный» не тождественно понятию «незанятый». Первая категория является частью второй, так как не каждый незанятый человек ищет работу или готов к ней приступить.

Согласно Федеральному Закону (ФЗ) «О занятости населения РФ» (ст. 3) [2] безработными признаются трудоспособные граждане старше 15 лет, которые не имеют работы и заработка, зарегистрированы в органах службы занятости в целях поиска подходящей работы, ищут работу и готовы приступить к ней.

В отличие от методологии МОТ, Федеральный Закон позволяет признать человека безработным только после регистрации в службе занятости («зарегистрированная безработица»).

Экономически активное население (ЭАН) (Рабочая сила) – это лица, обеспечивающие предложение рабочей силы. В количественном отношении ЭАН равно сумме занятых и безработных. В ЭАН входит население, которое ведёт себя активно на рынке труда.

С 2017 года в практику статистики вводится показатель «потенциальная рабочая сила», который включает лиц, частично удовлетворяющих критериям безработных, но формально не относящимся к ним: 1) искали работу, но не были готовы приступить к ней; 2) не искали работу, однако хотели работать и были готовы приступить к работе.

Экономически неактивное население (ЭНН) (Лица, не входящие в состав рабочей силы) – это часть трудоспособного населения и лиц старших возрастов, которые в рассматриваемый период не работали по найму, не имели занятия, приносящего доход, и не были заняты поиском работы:
— учащиеся и студенты очной формы обучения;
— лица, занятые ведением домашнего хозяйства, уходом за детьми, больными и т.д.;
— лица, у которых нет необходимости работать;
— отчаявшиеся найти работу и т.д.

Рынок труда характеризуется следующими статистическими показателями.

Уровень занятости (Уз) – соотношение численности занятого населения (Зан) с той или иной численностью населения. Он может быть вычислен как на определённую дату, так и в среднем за период. Уровень занятости рассчитывается в процентах (%) и определяется в нескольких вариантах:

а) в расчёте на общую численность трудовых ресурсов:

Решение задач по статистике

б) в расчёте на трудоспособное население Решение задач по статистике:

Решение задач по статистике

в) в расчёте на экономически активное население:

Решение задач по статистике

Уровень безработицы (Уб) показывает процент безработного населения в общей численности экономически активного населения. В то же время надо различать уровень безработицы по методологии МОТ и по методологии ФЗ «О занятости населения в Российской Федерации»:

А) по методологии МОТ:

Решение задач по статистике

Б) по методологии ФЗ «О занятости населения в Российской Федерации» рассчитывается уровень зарегистрированной безработицы (Уб’):

Решение задач по статистике

Б’ — численность безработных, зарегистрированных в государственных учреждениях службы занятости.

По своей величине уровень безработицы (МОТ) больше, чем уровень зарегистрированной безработицы, так как числитель его формулы больше числителя в формуле Уб’.

Уровень занятости (в расчёте на экономически активное население) и уровень безработицы взаимодополняют друг друга до 100 %.

Уровень экономической активности населения (Уэан) – это удельный вес (доля) численности экономически активного населения в общей численности населения (Н):

Решение задач по статистике

Он также может быть вычислен как на определённую дату, так и в среднем за период.

Коэффициент напряжённости на рынке труда Решение задач по статистикехарактеризует численность незанятых граждан, зарегистрированных в государственных учреждениях службы занятости населения, в расчёте на одну заявленную вакансию:

Решение задач по статистике

Решение задач по статистике– численность безработных, обратившихся в службу занятости;
В – число вакантных должностей и свободных рабочих мест.

Этот коэффициент показывает, какое число не занятых трудовой деятельностью лиц, состоящих на учёте в службе занятости, приходится на одно свободное рабочее место.

Продолжительность безработицы, или Среднее время поиска работы безработнымиРешение задач по статистике характеризует длительность поиска работы лицами, имеющими статус безработного на конец рассматриваемого периода, а также теми безработными, которые были в этом периоде трудоустроены. Это отрезок времени (измеряемый в месяцах) от момента начала поиска работы до момента трудоустройства. Если безработный ещё не нашёл работу, то срок поиска рассчитывается до начала данного периода.

Безработица продолжительностью 6 – 12 месяцев называется застойной, а 12 и более месяцев – хронической. Соответственно, рассчитывается показатель «Удельный вес безработных, ищущих работу 12 месяцев и более» (соотношение хронических безработных и всей численности безработных).

Задача с решением №2.4

Результаты выборочного обследования о численности населения региона в среднем за период, тыс. чел.:

Решение задач по статистике

Вычислить:

1) в каждом периоде – численность занятых, безработных, экономически активного населения, уровень занятости (в расчёте на экономически активное население) и безработицы (по методологии МОТ);
2) абсолютные приросты и темпы прироста численности экономически активного населения и безработных.

Решение

1) БАЗИСНЫЙ ГОД

Численность занятых:
Зан = 354+26= 380 тыс. чел.;

Численность безработных: Б = 19 тыс. чел. (так как только эти лица соответствовали всем критериям безработного по методологии МОТ);

Численность экономически активного населения:
ЭАН = Зан + Б = 380+19 = 399 тыс. чел.

Уровень занятости (Уз):

Решение задач по статистике

Уровень безработицы (Уб) по методологии МОТ:

Решение задач по статистике

ОТЧЁТНЫЙ ГОД

Численность занятых:
Зан = 268+28= 396 тыс.чел.;

Численность безработных:
41 Б = 22тыс. чел.;

Численность экономически активного населения:
ЭАН = Зан + Б = 396+22 = 418 тыс.чел.

Уровень занятости (Уз):

Решение задач по статистике

Уровень безработицы (Уб) по методологии МОТ:

Решение задач по статистике

2) Абсолютные приросты и темпы прироста экономически активного населения и безработных (см. тему «Ряды динамики» в курсе «Теории статистики»).

Абсолютный прирост (Δ) — это разность уровней ряда динамики (в абсолютных единицах измерения). Темп прироста (Тп) показывает процентное изменение уровней ряда динамики. Он представляет собой величину, полученную соотношением абсолютного прироста и уровня базисного периода Решение задач по статистике.

Абсолютный прирост численности экономически активного населения:
Δ = 417 – 399 = 18 тыс. чел.

Темп прироста численности экономически активного населения:
4,5 %.

Вывод: численность ЭАН в отчётном периоде возросла на 18 тыс. чел., то есть на 4,5 %.

Абсолютный прирост численности безработных:
Δ = 22 – 19 = 3 тыс. чел.

Темп прироста численности безработных:
15,8 %.

Вывод: численность безработных в отчётном периоде возросла на 3 тыс. чел., то есть на 15,8 %.

Статистика национального богатства, понятие и состав национального богатства

Национальное богатство (НБ) — это совокупность накопленных материальных и нематериальных активов (благ), которыми располагает общество в данный момент времени, создающих необходимые условия производства товаров, оказания услуг и обеспечения жизни людей.

Экономические активы — это находящиеся в собственности объекты, владельцы и пользователи которых могут извлекать экономические выгоды в результате их хранения или использования. Все экономические активы, включаемые в состав НБ, по рекомендации ООН подразделяются на две основные группы: нефинансовые и финансовые активы.

В свою очередь, в группе нефинансовых активов выделяют произведённые и непроизведённые активы, материальные и нематериальные активы.

Произведённые активы созданы в результате производственной деятельности; непроизведённые активы не являются результатом производственной деятельности.

Материальные активы имеют натурально-вещественную форму, соответственно, нематериальные активы её не имеют.

Финансовые активы представляют собой средства осуществления финансовых расчетов между институциональными единицами, связанными финансовыми обязательствами и финансовыми требованиями.

По источникам происхождения в составе национального богатства выделяют две основные части: природные ресурсы и национальное имущество.

Природные ресурсы (природные богатства) составляют первую важнейшую группу ресурсов, куда включаются учтенные и вовлеченные в экономический оборот как невозобновляемые природные ресурсы (земля, полезные ископаемые), так и возобновляемые природные ресурсы (вода, воздух, растительные и животные ресурсы).

Вторую важнейшую группу ресурсов составляет национальное имущество — совокупность накопленных материальных благ, созданных в ходе трудовой деятельности людей. Сюда относят материальные, нематериальные, финансовые, нефинансовые активы регионов, отраслей, секторов экономики, а также юридических и физических лиц. В отдельную группу выделяют потребительские товары длительного пользования, прямые иностранные инвестиции и золотой запас. В состав национального имущества включается и личное имущество граждан.

Решение задач по статистике

Рис. 3.1. Состав национального богатства

Рассмотрим отдельные элементы национального богатства.

Материальные произведённые нефинансовые активы включают в себя:

— основные фонды (более подробно будут рассмотрены в п. 3.2);
— запасы материальных оборотных средств (более подробно будут рассмотрены в п. 3.3);
— ценности (дорогостоящие предметы длительного пользования, которые приобретаются в расчёте на увеличение их реальной стоимости
— драгоценные металлы и камни, произведения искусства, антиквариат и т.д.).

Нематериальные произведённые нефинансовые активы включают в себя:

— компьютерное программное обеспечение;
— затраты на геологоразведочные работы;
— оригинальные литературные и художественные произведения (в том числе концерты, спектакли) и т. д.

Материальные непроизведённые нефинансовые активы включают в себя природные ресурсы (невыращиваемые биоресурсы). Они делятся на следующие группы: земельные ресурсы; водные ресурсы; лесные ресурсы; запасы полезных ископаемых и т.д. Важно понимать, что не все богатства природы можно отнести к национальному богатству. Как уже отмечалось выше, критерием является наличие права собственности. Исходя из этого, в состав НБ нельзя включить атмосферный воздух, нейтральные воды Мирового океана, естественные космические объекты (планеты и т.д.).

Нематериальные непроизведённые нефинансовые активы включают в себя:

— торговые марки и товарные знаки;
— авторские права;
— патенты;
— гудвилл (деловая репутация) и т.д.

Финансовые активы включают в себя:

— наличные деньги;
— депозиты (денежные средства, размещенные в банках на хранение);
— ценные бумаги (кроме акций);
— акции и прочие виды акционерного капитала;
— займы;
— страховые технические резервы (формируются страховыми организациями в ходе проведения страховых операций как обязательные накопительные суммы, выполняющие функцию финансовых гарантий);
— дебиторская и кредиторская задолженности (торговые кредиты, авансы в счет оплаты незавершенных работ и др.);
— специальные права заимствования (международные резервные и платежные средства, которые используются для безналичных международных расчетов как форма мировых денег);
— монетарное золото (золотой запас страны, хранящийся в государственных денежно-кредитных учреждениях).

Объём НБ предполагает его стоимостную оценку, однако полную стоимость НБ страны крайне сложно достоверно рассчитать, так как по многим элементам НБ нет проработанной методики их денежной оценки (например, по оценке стоимости водных и лесных ресурсов, гудвиллу и т.д.).

Статистика основных фондов

Основные фонды (основные средства) – это активы, которые длительное время (более одного года) многократно используются в экономике в неизменной натурально-вещественной форме, постепенно перенося свою стоимость на вновь создаваемые продукты или услуги в виде амортизационных отчислений [5].

Рассмотрим классификации основных фондов.

1) По видам (здания, сооружения, машины и оборудование, транспортные средства, производственный и хозяйственный инвентарь, многолетние насаждения, продуктивный и рабочий скот, передаточные устройства и т.д.);
2) По назначению:
— производственные (обеспечивающие производственный процесс);
— непроизводственные (объекты культурно-бытового назначения).
3) По степени участия в производственном процессе (классифицируются только основные производственные фонды):
— активные (непосредственное участие в производстве – станки, инструмент);
— пассивные (косвенное участие в производстве – здания, сооружения).
4) Другие классификации (по степени износа, по формам собственности, по возрасту и т.д.).

Так как основные фонды функционируют длительное время, их стоимость подвержена изменению. Исходя из этого, различают несколько видов их стоимостной оценки.

Полная первоначальная стоимость (ПС) – это стоимость основных фондов в фактических ценах на момент ввода их в эксплуатацию, включая не только цену конкретного объекта, но и затраты на его доставку и установку.

Первоначальная стоимость за вычетом износа (остаточная первоначальная стоимость, ОС) — это стоимость основных фондов за вычетом накопленного за время их функционирования износа (И) в виде амортизационных отчислений:

ОС = ПС – И. (3.1)

Полная восстановительная стоимость (ПВС) — стоимость их воспроизводства в современных ценовых условиях. Она учитывает те же самые затраты, что и первоначальная стоимость, но в современных ценах.

Восстановительная стоимость с учётом износа (остаточная восстановительная стоимость, ОВС) — стоимость, характеризующая фактическую степень изношенности объекта в новых условиях воспроизводства:

ОВС = ПВС – И. (3.2)

Восстановительная стоимость рассчитывается после проведения переоценки основных фондов.

Таким образом, полная стоимость больше остаточной стоимости на величину износа.

Для более полного отражения состояния и движения основных фондов используют балансы основных фондов. Они бывают двух видов: по полной стоимости и по остаточной стоимости – и представляют собой таблицы с информацией об изменении стоимости основных фондов за период. Сокращённые формы обоих балансов приводятся на рис. 3.2 и 3.3.

Решение задач по статистике

Используя введённые условные обозначения, выразим балансовое равенство:

Решение задач по статистике

Решение задач по статистике

Балансовое равенство будет иметь следующий вид:

Решение задач по статистике

Сумма ежегодных амортизационных отчислений (А) включается в себестоимость изготовленной продукции и определяется по формуле:

Решение задач по статистике

Решение задач по статистике– норма амортизации (%);
Решение задач по статистике— среднегодовая полная первоначальная (восстановительная) стоимость основных фондов.

Задача с решением №3.1

Имеются следующие данные по производственному объединению за год, млн. руб.:

Основные фонды по полной стоимости на начало года 7000.
Сумма износа основных фондов на начало года 2400.
Введено в действие новых основных фондов за год 1100.
Приобретено у других предприятий основных фондов (по полной стоимости) 2300, их износ 600.
Выбыло основных фондов в течение года по полной стоимости 800.
Остаточная стоимость выбывших основных фондов 80.
Годовая сумма амортизационных отчислений 715.

Построить балансы основных фондов.

Решение

Баланс по полной стоимости

Решение задач по статистике

Баланс по остаточной стоимости

Решение задач по статистике

Баланс по полной стоимости

Балансы дают необходимую информацию для анализа основных фондов, который проводится по трём направлениям:

1) анализ состояния основных фондов;
2) анализ движения основных фондов;
3) анализ эффективности использования основных фондов.

По каждому направлению анализа вычисляется своя система показателей (коэффициентов).

К показателям состояния основных фондов относятся коэффициент годности и коэффициент (степень) износа. Они рассчитываются на начало и на конец периода и взаимно дополняют друг друга до 100 %:

Решение задач по статистике

Коэффициент годности Решение задач по статистике рассчитывается как соотношение основных фондов по остаточной (ОС) и полной стоимости (ПС) — на начало и на конец периода:

Решение задач по статистике

Он показывает, какую часть своей полной стоимости основные фонды сохранили на определённый момент времени.

Коэффициент износа Решение задач по статистикерассчитывается как соотношение суммы износа (И) и полной стоимости основных фондов (ПС) — на начало и на конец периода:

Решение задач по статистике

Он показывает, какую часть своей полной стоимости основные фонды уже утратили в результате их использования.

После расчётов делается вывод об изменении состояния основных фондов в конце периода по сравнению с началом.

Здесь возможны 3 ситуации:

1) улучшение состояния (рост коэффициента годности, снижение коэффициента износа);
2) ухудшение состояния (снижение коэффициента годности, рост коэффициента износа);
3) стабильное состояние (оба коэффициента не изменились).

Задача с решением №3.1 (продолжение)

Рассчитать показатели состояния основных фондов.

Решение

Коэффициент годности Решение задач по статистике на начало года:

Решение задач по статистике

Коэффициент износа Решение задач по статистике на начало года:

Решение задач по статистике

Коэффициент годности Решение задач по статистике на конец года:

Решение задач по статистике

Коэффициент износа Решение задач по статистике на конец года:

Решение задач по статистике

ВЫВОД: Состояние основных фондов к концу года улучшилось (так как коэффициент годности возрос, а коэффициент износа снизился).

К показателям движения основных фондов относятся: коэффициент поступления, коэффициент обновления и коэффициент выбытия. Они рассчитываются только по полной стоимости.

Коэффициент поступления Решение задач по статистикепредставляет собой отношение поступивших в данном периоде основных фондов (по полной стоимости) к их полной стоимости на конец года:

Решение задач по статистике

Он показывает долю поступивших объектов (%) в общей стоимости на конец периода.

Коэффициент обновления Решение задач по статистикепредставляет собой отношение вновь введённых в действие в данном периоде основных фондов (по полной стоимости) к полной стоимости на конец года:

Решение задач по статистике

Он показывает долю новых объектов (%) в общей стоимости на конец периода. Если введены только новые основные фонды, то коэффициенты поступления и обновления равны друг другу.

Коэффициент выбытия Решение задач по статистикеравен отношению полной стоимости выбывших в данном периоде основных фондов к полной стоимости на начало года:

Решение задач по статистике

Он показывает долю выбывших объектов (%) в общей стоимости на начало периода.

Задача с решением №3.1 (продолжение)

Рассчитать показатели движения основных фондов.

Решение

Коэффициент поступления Статистика задачи с решением:

Статистика задачи с решением

Коэффициент обновления Статистика задачи с решением:

Статистика задачи с решением

Коэффициент выбытия Статистика задачи с решением:

Статистика задачи с решением

К показателям эффективности использования основных фондов относятся: фондоотдача, фондоёмкость и фондовооружённость.

Фондоотдача Статистика задачи с решением– прямой показатель, характеризующий эффективность использования основных фондов. Его можно рассчитать соотношением стоимости продукции (Q) и среднегодовой стоимости ОФ Статистика задачи с решением:

Статистика задачи с решением

Уровень фондоотдачи показывает, сколько рублей продукции приходится на каждый рубль, вложенный в основные фонды. Рост данного показателя свидетельствует о повышении эффективности использования основных фондов.

Дополнительным показателем выступает фондоотдача активной части основных фондов Статистика задачи с решением. В этом случае в знаменателе будет использоваться среднегодовая стоимость машин, оборудования, инструмента Статистика задачи с решением:

Статистика задачи с решением

Между двумя показателями существует взаимосвязь: общую фондоотдачу получают как произведение отдачи активных фондов на их долю в общей стоимости основных фондов Статистика задачи с решением:

Статистика задачи с решением

Фондоёмкость Статистика задачи с решением – показатель, обратный фондоотдаче. Уровень фондоёмкости можно определить по формуле:

Статистика задачи с решением

Уровень фондоёмкости характеризует размер основных фондов, затраченных предприятием для производства 1 руб. продукции. Предприятие должно стремиться к снижению данного показателя.

Фондовооружённость Статистика задачи с решением представляет собой соотношение средней стоимости основных фондов и средней численности работниковСтатистика задачи с решением:

Статистика задачи с решением

В знаменателе можно рассматривать как среднесписочную численность персонала в целом, так и численность только одной категории работников.

Результат показывает, сколько рублей основных фондов приходится на одного среднесписочного работника предприятия.

Рост или снижение данного показателя нельзя интерпретировать однозначно. Например, повышение фондовооружённости может происходить как по причине покупки дорогого современного оборудования, так и по причине сокращения персонала. Выводы можно делать только на основании ознакомления с ситуацией на конкретном предприятии.

Задача с решением №3.1 (окончание)

Дополним условие задачи: объём произведённой продукции за год 33200 млн. руб., средняя численность работников 1580 чел.

Рассчитать показатели эффективности использования основных фондов.

Решение

Сделаем предварительный расчёт – вычислим среднюю полную стоимость основных фондов за год:

Статистика задачи с решением

Далее рассчитаем требуемые показатели.

Фондоотдача Статистика задачи с решением:

Статистика задачи с решением

ВЫВОД: каждый рубль, вложенный в основные фонды, принёс 4 руб. продукции.

Фондоёмкость Статистика задачи с решением:

Статистика задачи с решением

ВЫВОД: для производства 1 руб. продукции затрачено 0,25 руб. (25 коп.) основных фондов.

Фондовооружённость Статистика задачи с решением:

Статистика задачи с решением

ВЫВОД: на одного работника в среднем приходится основных фондов на сумму 5,3 млн. руб.

Статистика оборотных фондов

Оборотные фонды (оборотные средства) — это наиболее мобильная и постоянно возобновляемая часть национального богатства.

В их состав входят: денежные средства, средства в расчётах, материальные оборотные средства, расходы будущих периодов и т.д.

В производственной деятельности предприятий особую роль играют материальные оборотные средства (МОС). Их основные признаки:

— участвуют в одном производственном цикле (однократно);
— сразу и полностью переносят свою стоимость на вновь созданный продукт или услугу;
— видоизменяют свою натурально-вещественную форму в процессе производства.

Состав МОС:

— производственные запасы (запасы у предприятия-производителя для обеспечения процесса производства
— сырьё, материалы и т.д.);
— незавершённое производство (продукция, производство которой начато, но не завершено к концу отчётного периода);
— готовая продукция (запасы у предприятия-производителя для реализации на сторону);
— товары для перепродажи (запасы на складах торговых организаций);
— животные на выращивании (молодняк) и на откорме;
— государственные материальные резервы (запасы, создаваемые государством на случай чрезвычайных ситуаций – вода, продовольствие, топливо и т.д.).

Показатель размера оборотных средств характеризует их состояние на определённый момент времени. Однако для проведения ряда экономических расчетов нужны, как правило, средние показатели за период времени (месяц, квартал, год). Вычисляют средний остаток оборотных средств Статистика задачи с решением, а формула зависит от исходных данных:

а) по данным об остатке оборотных средств на начало Статистика задачи с решениеми конец периода Статистика задачи с решениемопределяется по формуле средней арифметической простой:

Статистика задачи с решением

б) по данным на определённые даты через равные промежутки времени между ними по формуле средней хронологической простой:

Статистика задачи с решением

n – число уровней (дат);
Статистика задачи с решением– остаток оборотных средств на определённую дату.

Если же дан моментный ряд динамики с неравными промежутками между датами, то расчёт ведётся по формуле средней арифметической взвешенной (см. тему «Ряды динамики» в курсе «Теория статистики») [1, c. 18-23].

Задача с решением №3.2

Данные по предприятию об остатках оборотных средств (тыс. руб.):
на 1 января – 300, на 1 февраля – 290, на 1 марта – 350, на 1 апреля – 400.

Рассчитать средний остаток оборотных средств за первый квартал.

Решение

Первый квартал – это период времени с 1 января по 1 апреля. Дан моментный ряд динамики с равными промежутками между датами. Расчёт ведётся по формуле средней хронологической:

Статистика задачи с решением

Исходя из их названия, оборотные средства должны оборачиваться, то есть совершать обороты. Схематично оборот оборотных средств производственного предприятия представлен на рисунке 3.4.

Статистика задачи с решением

Рис. 3.4. Схема оборота оборотных средств производственного предприятия

В других отраслях экономики схема может видоизменяться; например, у торгового предприятия оборот происходит по схеме «денежные средства – товары для перепродажи – денежные средства».

Важной задачей статистики в управлении предприятием является изучение оборачиваемости оборотных средств. Для этого вычисляются 2 вида показателей:

1) обобщающие (их можно рассчитать в целом по совокупности оборотных фондов предприятия);
2) частные (рассчитываются по отдельным видам оборотных фондов).

К обобщающим показателям оборачиваемости относятся следующие:

1) Коэффициент оборачиваемости Статистика задачи с решением– характеристика скорости оборота:

Статистика задачи с решением

Q – объём продукции;
Статистика задачи с решением— средний остаток оборотных средств. Показывает число оборотов оборотных средств за период.

2) Коэффициент закрепления, или Коэффициент загрузки Статистика задачи с решением – величина, обратная коэффициенту оборачиваемости:

Статистика задачи с решением

Показывает средний размер оборотных средств, приходящихся на 1 руб. продукции.

3) Длительность (продолжительность, время) оборота (t) — соотношение длительности календарного периода Статистика задачи с решениеми количества оборотовСтатистика задачи с решением:

Статистика задачи с решением

Показывает, за сколько дней в среднем совершается один оборот оборотных средств.

Длительность календарного периода может быть взята как по фактическому числу дней в периоде (май – 31 день, 2015 год – 365 дней и т.д.), так и по так называемому коммерческому (финансовому) календарю (любой месяц – 30 дней, квартал – 90, год – 360).

Задача с решением №3.3

Данные по предприятию за апрель (тыс. руб.):
остатки оборотных средств на 1 апреля – 1700, на 1 мая – 1500; стоимость реализованной продукции 8000.

Рассчитать показатели оборачиваемости оборотных средств за апрель.

Решение

Сделаем предварительный расчёт – вычислим средний остаток оборотных средств в апреле. Остатки оборотных средств даны на начало Статистика задачи с решением и конец периодаСтатистика задачи с решением, применяем среднюю арифметическую простую формулу:

Статистика задачи с решением

Коэффициент оборачиваемости Статистика задачи с решением:

Статистика задачи с решением

ВЫВОД: оборотные средства в апреле совершили 5 оборотов. Коэффициент закрепленияСтатистика задачи с решением:

Статистика задачи с решением

ВЫВОД: для получения 1 руб. продукции было затрачено 0,2 руб. (20 коп.) оборотных средств.

3) Длительность оборота (t):

Статистика задачи с решением

ВЫВОД: средняя продолжительность одного оборота 6 дней.

Изменение этих трёх показателей во времени даёт информацию об изменении эффективности использования оборотных средств. Так как они взаимосвязаны арифметически, то можно выделить 2 ситуации.

1) Снижение коэффициента оборачиваемости, рост коэффициента закрепления и длительности оборота. Такая ситуация называется замедлением оборачиваемости и приводит к тому, что в каждый оборот вовлекается большее количество оборотных средств, то есть каждый оборот становится более затратным. Такое дополнительное привлечение оборотных средств называется мобилизацией оборотных средств.

2) Рост коэффициента оборачиваемости, снижение коэффициента закрепления и длительности оборота. Такая ситуация называется ускорением оборачиваемости и приводит к тому, что каждый оборот требует меньшее количество вовлечённых оборотных средств, то есть становится более экономным. Такое высвобождение оборотных средств из оборота (точнее говоря, их экономия) называется иммобилизацией оборотных средств.

Сумма средств, высвобожденных или дополнительно вовлечённых в оборот в результате изменения скорости оборачиваемости оборотных средств (±Э) рассчитывается по формуле:

Статистика задачи с решением

где Статистика задачи с решением— остаток оборотных средств отчётного периода;
Статистика задачи с решением— это сумма оборотных средств, которая потребовалась бы для реализации объёма продукции на уровне отчётного периода при сохранении скорости оборота базисного периода.

Эту формулу можно адаптировать под каждый из известных нам показателей оборачиваемости:

а) Статистика задачи с решением

б) Статистика задачи с решением

в) Статистика задачи с решением .

Подстрочный индекс «0» говорит о том, что показатель представляет базисный период, а «1» — отчётный период.

Если в результате расчётов полученный результат является отрицательным числом, это свидетельствует об иммобилизации (экономии) оборотных средств из-за ускорения оборачиваемости; если получено положительное число – это мобилизация оборотных средств из-за замедления оборачиваемости.

Задача с решением №3.4

Данные по предприятию:

Статистика задачи с решением

Рассчитать сумма средств, высвобожденных или дополнительно вовлечённых в результате изменения скорости оборачиваемости оборотных средств.

Решение

Исходя из имеющихся данных, выберем следующую формулу:

Статистика задачи с решением

ВЫВОД: произошло замедление оборачиваемости оборотных средств; дополнительно вовлечено в оборот 480 тыс. руб. (мобилизация).

К частным показателям оборачиваемости относятся следующие.

1) Материалоотдача Статистика задачи с решением – определяется как отношение объема продукции (Q) к затратам материальных ресурсов на ее производство:

Статистика задачи с решением

где МЗ – материальные затраты (сырьё, материалы, топливо, энергия и т.д.).

Материалоотдача показывает, сколько рублей продукции принёс каждый рубль материальных затрат.

2) Материалоёмкость Статистика задачи с решением –величина, обратная материалоотдаче:

Статистика задачи с решением

Материалоёмкость показывает стоимость материальных затрат для производства одного рубля продукции.

3) Удельный расход материала (M) — средний расход конкретного вида сырья, материалов, топлива или энергии на единицу произведенной годной продукции:

Статистика задачи с решением

где q– физический объём продукции.

В данной формуле сумма всех затраченных материалов (топлива и т.д.) в натуральном выражении (∑ М) делится на натуральное (физическое) количество произведённой продукции (q). Этот показатель должен соответствовать утверждённым нормам, стандартам или техническим условиям для данного вида продукции.

Система частных показателей не ограничивается рассмотренными коэффициентами. В анализе деятельности предприятия могут использоваться такие показатели, как энергоёмкость, коэффициент оборачиваемости товарных запасов, обеспеченность производства запасами и т.д.

Статистика результатов экономической деятельности, понятие результатов экономической деятельности

Результатами экономической деятельности являются продукты (товары) и услуги.

Продукты – результаты труда, которые имеют материальновещественную форму.

Услуги — результаты труда, которые не воплощаются в материальной форме. Принципиальные отличия услуг от продуктов:

а) на услуги не распространяется право собственности (в Гражданском кодексе РФ услуга считается обязательством);
б) момент производства и потребления услуги совпадают;
в) услугу нельзя хранить, оставить в залог, завещать и т.д. (то есть выполнить те действия, которые возможны с продуктом).

Услуги делятся:

— на материальные и нематериальные;
— на индивидуальные и коллективные.

Материальные услуги удовлетворяют материально-бытовые потребности и связаны с изготовлением, восстановлением (ремонтом), перемещением материальных объектов. Сюда относятся коммунальные, транспортные, бытовые услуги.

Нематериальные услуги связаны с удовлетворением социальнокультурных и духовных потребностей (медицинские, туристические, образовательные услуги).

Индивидуальные услуги носят адресный платный характер: у них есть конкретный заказчик и тариф (ремонт обуви, фотоуслуги, платное образование, проезд в транспорте, кабельное телевидение).

Коллективные услуги (общественные блага) предполагают формально бесплатный характер, а в качестве потребителя выступает всё общество. Примерами являются услуги государственного управления, обеспечения обороны, охраны окружающей среды и т.д.

Снс: сущность и исходные категории

Система национальных счетов (СНС) – система взаимосвязанных показателей и таблиц, комплексно характеризующих состояние экономики страны.

Она была создана в 1950-е годы по заказу ООН и в настоящее время применяется более чем в 150 странах мира с рыночной экономикой (в том числе в России с 1992 г.). Её создание было вызвано потребностями органов государственного управления в информации, необходимой для регулирования экономики, а также для координации потоков экономической информации, которые международные организации получают из разных стран. Поэтому СНС базируется на общих методологических принципах расчёта показателей, хотя допускаются некоторые национальные особенности.

В настоящее время происходит переход от стандарта СНС 1993 года к стандарту 2008 г.

Исходные категории СНС: экономическая территория, институциональная единица, резидент, внутренняя экономика, национальная экономика.

Экономическая территория страны состоит из трёх частей:

1) территория, административно управляемая правительством данной страны, в пределах которой граждане, товары и капиталы могут свободно перемещаться;
2) воздушное пространство, территориальные воды данной страны и континентальный шельф в нейтральных водах, на котором данная страна имеет исключительное право на добычу топлива, сырья и т.д.;
3) территории в других странах (территориальные анклавы), используемые правительством данной страны для дипломатических, военных, научных или других целей (например, посольства).

Из определения следует, что, во-первых, экономическая и административная территории страны пусть незначительно, но не совпадают; во-вторых, территориальные анклавы зарубежных государств в данной стране не включаются в её общую экономическую территорию.

Институциональная единица — хозяйствующие единицы, которые могут от своего имени владеть активами, принимать обязательства, осуществлять экономическую деятельность и операции с другими единицами (юридические лица и домашние хозяйства).

Резидент – институциональная единица, имеющая центр экономических интересов на экономической территории данной страны 1 год и более.

Некоторые категории людей остаются резидентами своих стран, хотя длительное время находятся на территории других стран: дипломатические работники, студенты, лица на отдыхе и лечении и т.д.

Понятие «резидент» не совпадает с понятием гражданства, подданства, национальности.

Резиденты других стран, вступающие в экономические отношения с резидентами данной страны, относятся к экономическому сектору «остальной мир» («нерезиденты»).

Внутренняя экономика охватывает деятельность на территории данной страны как резидентов, так и нерезидентов. Главный показатель внутренней экономики – ВВП (валовой внутренний продукт).

Национальная экономика охватывает деятельность только резидентов данной страны, независимо от их местонахождения. Главный показатель национальной экономики – ВНД (валовой национальный доход). До 1993 г. он носил название «валовой национальный продукт» (ВНП).

Важным методологическим аспектом СНС является концепция границ экономического производства. Она определяет те сферы экономики, в которых создаётся ВВП. В СНС допускается, что в создании ВВП участвуют все виды экономической деятельности (в том числе теневые*), за исключением нижеследующих:

— деятельность, направленная против личности и имущества (грабеж, воровство, терроризм), так как в данном случае один из контрагентов не имеет свободы выбора, а сама экономическая операция не является равноценной для каждой из сторон;
— деятельность, результаты которой не являются её целью (загрязнение окружающей среды, образование мусора и т.д.), так как они являются побочными продуктами производственной деятельности;
— домашние услуги, оказываемые домашними хозяйствами для собственного жилья (приготовление пищи, уборка, ремонт и т.д.), так как крайне сложно вести их статистический учёт и оценивать их в стоимостных единицах.

*(расчёты показателей теневой экономики ведутся на основании косвенной информации, применения балансовых и других специфических методов и экспертных оценок)

Основные макроэкономические показатели

К основным показателям результатов экономической деятельности на макроуровне относятся валовой внутренний продукт (ВВП) и валовой национальный доход (ВНД).

Валовой внутренний продукт (Gross Domestic Product, GDP) — показатель, характеризующий конечный результат производственной деятельности экономических единиц. Он отражает стоимость всех продуктов и услуг, созданных на территории данной страны в течение определённого срока, за вычетом промежуточного потребления.

ВВП имеет 3 метода расчёта, которые в общих чертах соответствуют стадиям воспроизводственного процесса.

Первый метод – производственный. Он позволяет охарактеризовать структуру ВВП с точки зрения результатов деятельности отраслей (секторов) экономики и оценить их вклад в производство. Именно производство является начальной стадией в схеме воспроизводственного процесса, так как на этом этапе создаются продукты и услуги, которые в дальнейшем будут обмениваться и потребляться.

Формула ВВП производственным методом (в рыночных ценах):

Статистика задачи с решением

где: ВДС – сумма валовой добавленной стоимости (ВДС) по отраслям (секторам) экономики;
ЧНП — чистые налоги на продукты.

Валовая добавленная стоимость (ВДС) определятся по формуле:

Статистика задачи с решением

где: ВВ — валовой выпуск;
ПП – промежуточное потребление.

Валовой выпуск (Выпуск) – это стоимость всех произведённых за период материальных благ и оказанных услуг. Оценивается в текущих, т.е. рыночных ценах, действующих на момент производства товаров и оказания услуг.

Валовой выпуск (и, соответственно, валовую добавленную стоимость) чаще всего оценивают в основных ценах. Основная цена включает субсидии на продукты и не включает налоги на продукты.

Промежуточное потребление – это стоимость потреблённых в процессе производства товаров и услуг (за исключением потребления основного капитала), которые трансформируются или полностью потребляются в процессе производства в отчётном периоде.

В состав промежуточного потребления входят:

— материальные затраты (затраты сырья, материалов, топлива, энергии и т. п.);
— оплата нематериальных услуг (юридические, страховые, финансовые и т.д.);
— командировочные расходы (оплата проезда и услуг гостиниц).

Чистые налоги на продукты (ЧНП) рассчитываются по формуле:

Статистика задачи с решением

где: НП – налоги на продукты (НДС, акцизы);
СП – субсидии на продукты.

Распределительный метод ВВП (по источникам дохода) характеризует сумму первичных доходов, распределённых между участниками производства (производителями товаров и услуг). Главными участниками производства являются: предприниматели, наёмные работники, предприятия (организации). Каждый из них получает свой вид доходов:

— оплату труда наёмных работников (ОТНР);
— валовую прибыль экономики (ВПЭ);
— валовые смешанные доходы (ВСД).

Однако в рамках выполнения своих социальных функций государство должно обеспечивать доходами (трансфертами) ту часть населения, которая не участвовала в производстве (инвалидов, пенсионеров, детей, безработных). Для этого участники производства облагаются соответствующими налогами, и рассчитывается показатель ЧНПИ – чистые налоги на производство и импорт:

Статистика задачи с решением

где: НПИ — налоги на производство и импорт;
СПИ — субсидии на производство и импорт.

Формула ВВП распределительным методом:

Статистика задачи с решением

Валовая прибыль экономики представляет собой ту часть добавленной стоимости, которая остаётся у производителя после вычета расходов, связанных с оплатой труда наёмных работников и чистых налогов на производство и импорт.

Валовые смешанные доходы – это доходы, в которых сложно или невозможно отделить доходы от предпринимательской деятельности, от собственности и от оплаты труда (например, доходы фермеров).

Метод конечного использования ВВП (по расходам) характеризует сумму расходов институциональных единиц на приобретение предназначенных для конечного использования товаров и услуг в ценах потребления и чистого экспорта товаров и услуг.

Формула ВВП методом конечного использования:

Статистика задачи с решением

где: КП — конечное потребление;
ВН – валовое накопление;
ЧЭ – чистый экспорт.

Конечное потребление складывается из расходов на конечное потребление:

— домашних хозяйств;
— государственных учреждений;
— некоммерческих организаций, обслуживающих домашние хозяйства.

Валовое накопление – это вложение средств хозяйственной единицей для создания в будущем дохода в результате их использования в производстве. Оно включает в себя чистое приобретение (то есть за вычетом выбытия) объектов основного капитала, материальных оборотных средств и ценностей.

Чистый экспорт (экспортно-импортное сальдо) есть разница между экспортом (Э) и импортом (И):

Статистика задачи с решением

Его величина может быть отрицательной в случае превышения величины импорта над величиной экспорта.

Теоретически все три метода ВВП должны дать одинаковый результат. Однако на практике между ними есть так называемое «статистическое расхождение», вызванное различными причинами: использованием различных источников информации, наличием теневой экономики, недостоверностью информации и т.д. Такие расхождения обычно не превышают 1-2 %.

Задача с решением №4.1

Имеются следующие данные по стране (тыс. усл. ед.):

Статистика задачи с решением

Исчислить ВВП всеми методами.

Решение

ВВП производственным методом:

Сделаем предварительные расчёты – рассчитаем валовую добавленную стоимость (ВДС) и чистые налоги на продукты (ЧНП). Валовая добавленная стоимость:
ВДС = ВВ — ПП = 14800-9340=5460 тыс. усл. ед.;
Чистые налоги на продукты (ЧНП) рассчитываются по формуле:
ЧНП = НП — СП = 920-180=740 тыс. усл. ед.
Таким образом, ВВП будет равен:
ВВП = ВДС + ЧНП= 5460+740=6200 тыс. усл. ед.

ВВП распределительным методом:

Сделаем предварительный расчёт – рассчитаем чистые налоги на производство и импорт (ЧНПИ).
ЧНПИ = НПИ — СПИ = 230-60=170 тыс. усл. ед.
Таким образом, ВВП будет равен:
ВВП = ОТНР + ВПЭ + ВСД + ЧНПИ =2250+3780+170=6200 тыс. усл. ед.

ВВП методом конечного использования:

Сделаем предварительный расчёт – рассчитаем чистый экспорт:
ЧЭ = Э — И =2780-2830=-50 тыс. усл. ед.
Таким образом, ВВП будет равен:
ВВП = КП + ВН + ЧЭ =4110+2140+(-50)=6200 тыс. усл. ед.

Валовой национальный доход (Gross National Income, GNI) — сумма первичных доходов (в рыночных ценах), полученных резидентами данной страны в связи с их участием в производстве ВВП своей страны и ВВП других стран.

К первичным доходам относятся доходы, прямо или косвенно связанные с производством продуктов или услуг: оплата труда, прибыль, налоги на производство, предпринимательский доход, доходы от собственности (проценты, дивиденды, рента и т.п.).

Валовой национальный доход определяется по формуле:

Статистика задачи с решением

где ΔД — сальдо первичных доходов, полученных от «остального мира» и выплаченных «остальному миру»:

Статистика задачи с решением

Статистика задачи с решением – первичные доходы, полученные от «остального мира»;
Статистика задачи с решением– первичные доходы, выплаченных «остальному миру».

Например, если резиденты России получили за рубежом доходов меньше, чем резиденты других стран получили доходов в России, то сальдо ΔД будет отрицательным, а величина ВВП РФ будет меньше величины ВНД РФ. На региональном уровне в Российской Федерации вычисляют показатель «валовой региональный продукт» (ВРП) — обобщающий показатель экономической деятельности региона, характеризующий процесс производства товаров и услуг для конечного использования.

ВРП по своей сути является аналогом ВВП, рассчитанным на региональном уровне. Каждый регион представляет собой самостоятельную внутреннюю экономику (см. тему 4.2). В то же время сумма валовых региональных продуктов по всем субъектам Федерации не совпадает с объёмом

Статистика задачи с решением

ВВП больше суммарного ВРП на величину добавленной стоимости по коллективным услугам (государственное управление, оборона и т.д.), которые оказываются всему обществу в целом.

Многие макроэкономические показатели в СНС рассчитываются в двух вариантах:

1) валовые;
2) чистые.

Они отличаются между собой на величину потребления основного капитала (ПОК):

Чистый показатель = Валовой показатель – ПОК.

Потребление основного капитала представляет собой уменьшение стоимости основного капитала в течение отчётного периода в результате его морального и физического износа.

Оно включает:
— сумму амортизации основных фондов за год;
— недоамортизированную стоимость выбывших основных фондов.

Таким образом, можно рассчитать следующие макроэкономические показатели:

чистый внутренний продукт (ЧВП):

Статистика задачи с решением

чистый национальный доход (ЧНД):

Статистика задачи с решением

чистый региональный продукт (ЧРП):

Статистика задачи с решением

и ряд других показателей.

Задача с решением №4.2

Имеются следующие данные по стране (тыс. усл. ед.):

Валовая добавленная стоимость в основных ценах в сфере производства товаров 3050, а в сфере услуг 2360.
Потребление основного капитала в обеих сферах 1680.
Чистые налоги на продукты 450.
Сальдо доходов от экономической деятельности, полученных от «остального мира» и выплаченных «остальному миру» 170.

Рассчитать:
1) валовой и чистый внутренний продукт;
2) валовой и чистый национальный доход.

Решение

1) Исходя из исходных данных, мы рассчитаем ВВП производственным методом:
ВВП = ВДС + ЧНП= (3050+2360) + 450=5860 тыс. усл. ед.

Чистый внутренний продукт (ЧВП):
ЧВП = ВВП — ПОК = 5860-1680= 4180 тыс. усл. ед.

2) Валовой национальный доход:
ВНД = ВВП + ΔД = 5860+170= 6030 тыс. усл. ед.

Чистый национальный доход (ЧНД):
ЧНД = ВНД — ПОК = ЧВП + ΔД =6030-1680=4180+170=4350 тыс. усл. ед.

Статистика труда, понятие, состав и показатели численности персонала предприятия

Персонал предприятия – это совокупность физических лиц, которые состоят с предприятием в отношениях найма.

Персонал в зависимости от выполняемых работниками функций распределяется по категориям:

— руководители – работники, выполняющие управленческие функции;
— специалисты – работники, выполняющие технические и технологические функции (например, инженерно-технические работники);
— служащие – работники, выполняющие кадровые, учётные, аналитические и иные функции, хозяйственное обслуживание производства;
— рабочие – лица, непосредственно занятые в процессе создания материальных ценностей, оказанием услуг, а также ремонтом, перемещением грузов и т. п.;
— другие категории (младший обслуживающий персонал, охрана, ученики на производстве) [6].

Показатели численности персонала предприятия представлены в таблице 5.1.

Статистика задачи с решением

Списочная численность – это работники, заключившие договор найма на срок не менее одного дня. Формальным основанием включения в списки (и исключения из списков) служит соответствующий приказ. Исходя из этого, списочная численность в выходной день равна списочной численности в последний рабочий день, так как в выходные дни делопроизводство на предприятии не ведётся.

В списочном составе предприятия не учитываются внешние совместители, так как они должны быть учтены по месту основной работы.

Явочная численность – это работники, явившиеся на работу. Их учёт ведётся только по рабочим дням.
Фактическая численность (Численность фактически работавших) – это работники, фактически приступившие к работе. Они также учитываются только по рабочим дням.

Нормальной считается ситуация, когда явочная и фактическая численности совпадают. Однако расхождения между ними возможны.

Такая ситуация происходит в случае целодневного простоя по объективным причинам:

Статистика задачи с решением

где: Статистика задачи с решением– численность работников, находившихся в целодневных простоях (по объективным причинам).

Целодневный простой (по объективным причинам) – ситуация, когда работник явился на работу, но по независящим от него причинам к ней не приступил в течение дня (отсутствие материалов, электроэнергии и т.д.). Так как вины работника здесь нет, то работодатель должен оплатить ему этот простой.

Показатели средней численности персонала рассчитываются теми же методами, что и средняя численность населения или трудовых ресурсов (см. темы 1 и 2).

Однако, учитывая тот факт, что предприятие обычно располагает ежедневными данными о количестве сотрудников, применяются нижеследующие формулы.

Среднесписочная численность Статистика задачи с решением:

Статистика задачи с решением

где: Статистика задачи с решением — длительность календарного периода.
Результат показывает, сколько человек в среднем состояли в списках каждый календарный день.

Среднеявочная численность Статистика задачи с решением:

Статистика задачи с решением

где: Статистика задачи с решением— длительность рабочего периода.
Результат показывает, сколько человек в среднем являлись на работу каждый рабочий день.

Среднефактическая численность Статистика задачи с решением:

Статистика задачи с решением

Результат показывает, сколько человек в среднем приступали к работе каждый рабочий день.

Коэффициент использования среднесписочной численности Статистика задачи с решениемопределяется отношением средней фактической численности к среднесписочной численности:

Статистика задачи с решением

Аналогично рассчитывается коэффициент использования среднеявочной численности Статистика задачи с решением:

Статистика задачи с решением

Задача с решением №5.1

По организации имеются следующие данные о численности работающих за неделю, чел.:

Статистика задачи с решением

Рассчитать:

1)среднюю численность персонала за неделю;
2)коэффициенты использования среднесписочной и среднеявочной численности за неделю.

Решение

1) Среднесписочная численность Статистика задачи с решением:

Статистика задачи с решением

Среднеявочная численностьСтатистика задачи с решением:

Статистика задачи с решением

Для вычисления среднефактической численности сделаем предварительный расчёт – рассчитаем фактическую численность за каждый рабочий день, применив формулу:

Статистика задачи с решением

где: Статистика задачи с решением– численность работников, находившихся в целодневных простоях (по объективным причинам):

Статистика задачи с решением

Среднефактическая численность Статистика задачи с решением:

Статистика задачи с решением

2) Коэффициент использования среднесписочной численности Статистика задачи с решением:

Статистика задачи с решением

Вывод: из общего списочного состава фактически приступали к работе в среднем 80,9 % работников.

Коэффициент использования среднеявочной численности Статистика задачи с решением:

Статистика задачи с решением

Вывод: из общего числа явившихся фактически приступали к работе в среднем 96,6 % работников.

Рассмотрим статистические особенности расчёта среднесписочной численности:

1) в среднесписочной численности не учитываются работники, которые находятся в списках, но фактически длительное время не работают на данном предприятии и не получают там заработную плату (женщины в отпуске по беременности и родам; лица в отпуске по уходу за ребёнком; работники, обучающиеся в образовательных учреждениях и находившиеся в дополнительном отпуске без сохранения заработной платы);

2) если предприятие работало неполный календарный период (например, закрылось в середине отчётного периода), расчёт средней списочной численности производится так же, то есть путём деления на полный календарный период. Данное правило не распространяется на среднеявочную и среднефактическую численность.

Задача с решением №5.2

Данные по предприятию о численности работников, чел.:

Статистика задачи с решением

Примечание: предприятие открылось 27 октября.
Рассчитать среднесписочную и среднеявочная численность работников за октябрь.

Решение

Среднесписочная численность Статистика задачи с решением:

Статистика задачи с решением

Среднеявочная численность Статистика задачи с решением:

Статистика задачи с решением

Показатели движения персонала

Движение персонала – это изменение численности персонала предприятия (как в целом, так и по отдельным структурным элементам).

В статистике различают:

1) внутреннее движение (перевод работника в другую категорию, в другой отдел и т.д.);
2) внешнее движение (приём и увольнение).

На общую среднесписочную численность оказывает влияние только внешнее движение персонала.

Выделяют две группы показателей движения персонала.

К первой группе относятся абсолютные показатели (единица измерения — чел.):
оборот по приёму (ОП) – число принятых на работу за период;
оборот по увольнению (ОУ) – число уволенных с работы за период;
общий оборот (ОО) = ОП + ОУ.

Оборот по увольнению делится на два вида:

1) необходимый оборот по увольнению Статистика задачи с решением– включает в себя уволенных по причинам естественного, государственного, производственного характера: призыв в армию, выход на пенсию, поступление в учебное заведение на дневную форму обучения, окончание срока действия контракта, сокращение штатов, смерть, переход на инвалидность;
2) излишний оборот по увольнению Статистика задачи с решением – включает в себя уволенных по субъективным причинам: по собственному жеванию, за прогулы и иные нарушения дисциплины, по приговору суда.

Излишний оборот называется также текучестью кадров. Высокий уровень текучести кадров – отрицательное явление для предприятия, так как это говорит о неудовлетворительной организации производства, вызывает экономические, психологические, кадровые трудности.

Вторая группа – относительные показатели (коэффициенты). Они измеряются в процентах (%). Эти показатели можно применять для характеристики интенсивности движения кадров нескольких предприятий с разной среднесписочной численностью.

Коэффициент оборота по приёму Статистика задачи с решениемрассчитывается как отношение числа принятых на работу (ОП) к среднесписочной численности работников за отчётный период Статистика задачи с решением:

Статистика задачи с решением

Коэффициент оборота по увольнению Статистика задачи с решениемрассчитывается как отношение общего числа уволенных (ОУ) к среднесписочной численности работников за отчётный период Статистика задачи с решением:

Статистика задачи с решением

Коэффициент текучести кадров Статистика задачи с решениемрассчитывается как отношение излишнего оборота по увольнению (ИОУ) к среднесписочной численности работников за отчётный период Статистика задачи с решением:

Статистика задачи с решением

Коэффициент постоянства кадров Статистика задачи с решениемрассчитывается как отношение численности работников, проработавших на предприятии весь период Статистика задачи с решением к среднесписочной численности работников за период Статистика задачи с решением:

Статистика задачи с решением

Числитель можно рассчитать как разность между списочной численностью на начало периода Статистика задачи с решением и числом уволенных за период (ОУ):

Статистика задачи с решением

Задача с решением №5.3

Динамика численности персонала предприятия (чел.):

Статистика задачи с решением

Статистика задачи с решением

Найти в каждом году (2013, 2014, 2015) относительные показатели движения персонала.

Решение

Сделаем предварительный расчёт – рассчитаем среднесписочную численностьСтатистика задачи с решением. Так как нам известны только данные о списочном составе на начало каждого года, расчёт производится по средней арифметической простой формуле:

Статистика задачи с решением

Статистика задачи с решением– списочная численность персонала на начало периода; Статистика задачи с решением— списочная численность персонала на конец периода.

2013 год: Статистика задачи с решением
2014 год: Статистика задачи с решением

2015 год: Статистика задачи с решением

Коэффициент оборота по приёму Статистика задачи с решением

Статистика задачи с решением

2013 год: Статистика задачи с решением
2014 год: Статистика задачи с решением

2015 год: Статистика задачи с решением

Коэффициент оборота по увольнению Статистика задачи с решением

Статистика задачи с решением

2013 год: Статистика задачи с решением
2014 год: Статистика задачи с решением
2015 год: Статистика задачи с решением

Коэффициент текучести кадров Статистика задачи с решением

Статистика задачи с решением

В данном случае к текучести кадров можно отнести уволенных по собственному желанию.

2013 год: Статистика задачи с решением

2014 год: Статистика задачи с решением
2015 год: Статистика задачи с решением

Таким образом, несмотря на нестабильность числа уволенных по собственному желанию по годам, коэффициент текучести кадров неуклонно стремится к снижению, что свидетельствует об улучшении ситуации в системе управления персоналом.

Коэффициент постоянства кадров Статистика задачи с решением

Статистика задачи с решением

2013 год: Статистика задачи с решением
2014 год: Статистика задачи с решением
2015 год: Статистика задачи с решением

Таким образом, рост коэффициента в 2015 году говорит о стабилизации трудового коллектива предприятия.

Статистика рабочего времени

Рабочее время – это часть календарного времени, затрачиваемого на производство продукции или выполнение работ определённого вида. Оно учитывается как в стандартных единицах (часы, дни и т.д.), так и в специфических единицах: «человеко-час» (чел-ч) и «человекодень» (чел-дн). Человеко-часом отработанного или неотработанного времени считается один час пребывания работника на предприятии, а человеко-днем – один день пребывания работника на предприятии.
2 основные задачи статистического анализа рабочего времени:

1) анализ ресурсов рабочего времени;
2) анализ использования рабочего времени.

Показатели ресурсов рабочего времени обычно измеряются в человеко-днях. К ним относятся фонды рабочего времени.

Календарный фонд (КФ) — всё рабочее время предприятия за период. Он рассчитывается двумя способами: как сумма списочной численности работников за все календарные дни периода; как сумма явок (Я) и неявок (Н) на работу:

КФ = Я + Н. (5.18)

Табельный фонд (ТФ):

Статистика задачи с решением

где: Статистика задачи с решением – неявки по выходным и праздничным (нерабочим) дням.

Максимально возможный фонд (МВФ):

Статистика задачи с решением

где: Статистика задачи с решением – неявки по очередным отпускам.

Максимально возможный фонд характеризует время, которое работники предприятия должны отработать в соответствии с трудовым законодательством, так как положенное им по закону неотработанное время уже вычтено из общего календарного фонда. Соответственно, все три рассмотренных фонда (календарный, табельный и максимально возможный) можно запланировать.

В связи с тем, что существуют внеплановые неявки (по болезни, прогулам, внеочередным отпускам и т.д.), возникает необходимость рассчитывать следующие показатели:
явочный фонд (ЯФ) = Явки (Я);
фактический фонд (ФФ) = Фактически отработанное время, т.е. явки минус целодневные простои (ЦДП) по объективным причинам:

ФФ = Я – ЦДП. (5.21)

Соответственно, явочный фонд можно вычислить как сумму фактического фонда и целодневных простоев:

ЯФ = ФФ + ЦДП. (5.22)

Коэффициенты использования фондов рабочего времени характеризуют удельный вес фактически отработанного времени в 83 календарном, табельном или максимально возможном фонде рабочего времени. Чем ближе эти показатели к 100 %, тем полнее используется рабочее время.

Например, коэффициент использования максимально возможного фонда Статистика задачи с решениемопределяется отношением фактического и максимально возможного фондов рабочего времени:

Статистика задачи с решением

Фонды рабочего времени можно использовать для расчёта средней численности персонала. В этом случае формулы будут иметь следующий вид:

— среднесписочная численность Статистика задачи с решением:

Статистика задачи с решением

— среднеявочная численность Статистика задачи с решением:

Статистика задачи с решением

— среднефактическая численность Статистика задачи с решением:

Статистика задачи с решением

Задача с решением №5.4

Данные по предприятию за квартал (63 рабочих дня), чел-дн:

Статистика задачи с решением

Рассчитать за квартал:

1) фонды рабочего времени;
2) среднюю численность персонала.

Решение

1) Календарный фонд (КФ):
КФ = Я + Н = 44783+13554+ 4510 + 2466 + 294 + 1977 = 67584 чел-дн.

Табельный фонд (ТФ):
ТФ = КФ – Нвп = 67584 – 13554 = 54030 чел-дн.
где: Статистика задачи с решением – неявки по выходным и праздничным (нерабочим) дням.

Максимально возможный фонд (МВФ):
МВФ = ТФ – Нотп = 54030 – 4510 = 49520 чел-дн.

Явочный фонд (ЯФ) = Явки (Я) = 44783 чел-дн.

Фактический фонд (ФФ):
ФФ = Я – ЦДП = 44783 – 67 = 44716 чел-дн.

2) Среднесписочная численность Статистика задачи с решением:

Статистика задачи с решением

Примечание: календарная длительность квартала возьмём 90 дней.

Среднеявочная численность Статистика задачи с решением:

Статистика задачи с решением

Среднефактическая численность Статистика задачи с решением:

Статистика задачи с решением

Анализ использования рабочего времени проводится на основе расчёта следующих показателей.

Коэффициент использования установленной продолжительности рабочего дня Статистика задачи с решениемопределяется отношением средней фактической продолжительности рабочего дня Статистика задачи с решением к средней установленной продолжительности рабочего дня Статистика задачи с решением

Статистика задачи с решением

Результат показывает, на сколько процентов в среднем используется рабочий день и сколько процентов занимают внутридневные потери рабочего времени.

Коэффициент использования установленной продолжительности рабочего периода определяется отношением средней фактической продолжительности рабочего периодаСтатистика задачи с решениемк средней установленной продолжительности рабочего периода Статистика задачи с решением:

Статистика задачи с решением

Результат показывает, на сколько процентов в среднем используется рабочий период (неделя, месяц, квартал, полугодие, год) и сколько процентов занимают целодневные потери рабочего времени.

Интегральный коэффициент использования установленной продолжительности рабочего времени Статистика задачи с решением– это произведение двух предыдущих коэффициентов:

Статистика задачи с решением

Результат показывает, на сколько процентов в среднем используется рабочее время и сколько процентов занимают его внутридневные и целодневные потери.

Для расчёта этих показателей необходимо вычислить ряд других, которые встречаются в их формулах.

Средняя фактическая продолжительность рабочего дня Статистика задачи с решением измеряется в часах и рассчитывается соотношением фактически отработанных человеко-часов Статистика задачи с решением и человеко-днейСтатистика задачи с решением

Статистика задачи с решением

Средняя установленная продолжительность рабочего дня Статистика задачи с решением определяется как средняя арифметическая из установленной продолжительности рабочего дня отдельных групп работников, взвешенная по числу работников, имеющих данную продолжительность рабочего дня.

Средняя фактическая продолжительность рабочего периода Статистика задачи с решениемизмеряется в днях и рассчитывается делением фактически отработанных человеко-дней Статистика задачи с решениемна среднесписочную численность работников Статистика задачи с решением

Статистика задачи с решением

Средняя установленная продолжительности рабочего периода Статистика задачи с решением приравнивается к числу рабочих дней в периоде Статистика задачи с решением

Задача с решением №5.5

Данные по предприятию за апрель:
средняя списочная численность рабочих составляет 500 человек, в том числе работников с продолжительностью рабочего дня 6 часов – 50 человек, с продолжительностью рабочего дня 7 часов – 40 человек. Остальные рабочие имели установленную продолжительность рабочего дня 8 часов. Рабочие предприятия отработали за период 10500 человеко-дней и 79800 человеко-часов. В отчётном месяце было 22 рабочих дня.

Рассчитать показатели использования рабочего времени.

Решение

Сделаем предварительные расчёты:

Средняя фактическая продолжительность рабочего дня Статистика задачи с решением:

Статистика задачи с решением

Средняя установленная продолжительность рабочего дняСтатистика задачи с решением вычисляется по формуле средней арифметической взвешенной (см. тему «Относительные величины» в курсе «Теории статистики»):

Статистика задачи с решением

Средняя фактическая продолжительность рабочего периода Статистика задачи с решением:

Статистика задачи с решением

Рассчитаем показатели использования рабочего времени.

Коэффициент использования установленной продолжительности рабочего дня Статистика задачи с решением:

Статистика задачи с решением

Вывод: рабочий день используется на 98,4 %, т.е. внутридневные потери времени составляют 1,6 % (100 % — 98,4%).

Коэффициент использования установленной продолжительности рабочего периода Статистика задачи с решением:

Статистика задачи с решением

Вывод: рабочий период используется на 95,5 %, т.е. целодневные потери времени составляют 4,5 % (100 % — 95,5%).

Интегральный коэффициент использования установленной продолжительности рабочего времени Статистика задачи с решением:

Статистика задачи с решением

Вывод: в целом рабочее время используется на 94 %, т.е. потери времени составляют 6 % (100 % — 94%).

Таким образом, табельный фонд времени недоиспользован на 6%, в том числе за счет сокращения продолжительности рабочего дня на 1,6% и за счет недоиспользования рабочего периода на 4,5%, т. е. каждым рабочим в отчетном периоде в среднем отработано меньше на один день (22 – 21) и ежедневно на 0,12 часа (7,72 – 7,6).

Статистика производительности труда

Производительность труда — это эффективность труда, то есть его способность производить то или иное количество благ в расчёте на единицу затрат труда.

Уровень производительности труда характеризуется двумя показателями:
1) выработка (прямой показатель);
2) трудоёмкость (обратный показатель).

Выработка (w) рассчитывается соотношением объёма продукции (Q) и затрат труда (T):

Статистика задачи с решением

Выработка показывает, сколько продукции произведено в среднем за 1 единицу трудовых затрат. В экономике считается положительным явлением рост данного показателя.

Трудоёмкость (t) рассчитывается обратным соотношением:

Статистика задачи с решением

Трудоёмкость показывает, сколько затрат труда потребовалось в среднем для производства 1 единицы продукции. Предприятие должно стремиться к снижению данного индикатора.

Объём продукции может быть выражен как натуральными, так и стоимостными единицами. Исходя из этого, различают натуральную и стоимостную выработку.

В зависимости от того, чем измеряются затраты труда (затратами рабочей силы или рабочего времени), различают следующие виды показателей производительности труда, выраженных средней выработкой.

Средняя часовая выработка Статистика задачи с решениемпредставляет собой соотношение объёма продукции (Q) и фактически отработанных человеко-часов Статистика задачи с решением:

Статистика задачи с решением

Результат показывает, сколько продукции в среднем произвёл один рабочий за 1 час.

Средняя дневная выработкаСтатистика задачи с решениемпредставляет собой соотношение объёма продукции (Q) и фактически отработанных человеко-дней Статистика задачи с решением

Статистика задачи с решением

Результат показывает, сколько продукции в среднем произвёл один рабочий за 1 день.

Средняя выработка одного рабочего за период Статистика задачи с решениемпредставляет собой соотношение объёма продукции (Q) и среднесписочной численности рабочих Статистика задачи с решением

Статистика задачи с решением

Результат показывает, сколько продукции в среднем произвёл один рабочий за период (месяц, квартал и т.п.).

Средняя выработка одного работника персонала за период Статистика задачи с решениемпредставляет собой соотношение объёма продукции (Q) и среднесписочной численности персонала Статистика задачи с решением

Статистика задачи с решением

Результат показывает, сколько продукции в среднем произвёл один работник персонала за период (месяц, квартал и т.п.).

Между данными показателями существует следующая взаимосвязь:

Статистика задачи с решением

где Статистика задачи с решением— доля рабочих в среднесписочной численности персонала (рассчитывается как относительная величина структуры – см. тему «Относительные величины» в курсе «Теории статистики»).

Для анализа динамики производительности труда применяется индексный метод. Применение того или иного индекса обусловлено как масштабом исследования, так и спецификой анализируемого показателя (см. тему «Индексы» в курсе «Теории статистики»).

Для измерения динамики производительности труда по одной изучаемой единице (например, одному виду продукции) используют индивидуальный индекс, причём он может рассчитываться как по выработке, так и по трудоёмкости.

Индивидуальный индекс производительности труда (по выработке):

Статистика задачи с решением

где «0» и «1» обозначают, соответственно, базисный и отчётный периоды.

Индивидуальный индекс производительности труда (по трудоёмкости) является обратным предыдущему индексу:

Статистика задачи с решением

Для измерения динамики производительности труда по совокупности объектов применяют систему общих индексов – индексы переменного состава, постоянного состава и структурных сдвигов. Так как производительность труда характеризуется разными показателями и имеет разные измерители, то используют 3 метода анализа её динамики:

1) натуральный метод (анализируется динамика средней натуральной выработки);

2) стоимостной метод (анализируется динамика средней стоимостной выработки, выраженной в сопоставимых ценах);

3) трудовой метод (анализируется динамика средней трудоемкости).

Рассмотрим натуральный метод анализа.
На динамику средней выработки влияют два фактора:

1. изменение производительности труда по отдельным предприятиям (рабочим, бригадам и т.д.);

2. изменение структуры производства (изменение доли предприятий с той или иной производительностью труда).

Для анализа динамики используется система трёх индексов — переменного, постоянного состава и структурных сдвигов.

Индекс переменного состава Статистика задачи с решениемпоказывает общее изменение производительности труда в отчётном периодеСтатистика задачи с решениемпо сравнению с базисным Статистика задачи с решением

Статистика задачи с решением

Индекс постоянного (фиксированного) состава Статистика задачи с решениемхарактеризует влияние первого фактора на динамику средней выработки:

Статистика задачи с решением

где Статистика задачи с решением— средняя условная выработка.

Индекс структурных сдвигов Статистика задачи с решениемхарактеризует влияние второго фактора:

Статистика задачи с решением

Все три индекса взаимосвязаны — индекс переменного состава равен произведению двух других индексов:

Статистика задачи с решением

Задача с решением №5.6

Данные по совокупности предприятий: средняя выработка базисного периода Статистика задачи с решением620 шт./чел., средняя выработка отчётного периода Статистика задачи с решением600 шт./чел., средняя условная выработкаСтатистика задачи с решением 630 шт./чел.

Рассчитать индексы производительности труда натуральным методом.

Решение

Индекс переменного состава Статистика задачи с решением:

Статистика задачи с решением

Средняя выработка снизилась на 3,2 %.

Индекс постоянного (фиксированного) состава Статистика задачи с решением:

Статистика задачи с решением

За счёт изменения производительности труда по отдельным предприятиям средняя выработка снизилась на 4,8 %.

Индекс структурных сдвиговСтатистика задачи с решением:

Статистика задачи с решением

За счёт изменения структуры производства средняя выработка возросла на 1,6 %. Так как данный индекс больше 1, можно сделать вывод, что возросла доля предприятий с более высокой производительностью труда.

Соответственно, индекс структурных сдвигов, по величине меньше 1, свидетельствует о возрастании доли предприятий с более низкой производительностью труда.

Статистика оплаты труда

Оплата труда (заработная плата) – это материальное и натуральное вознаграждение наёмным работникам в соответствии с количеством и качеством их труда, а также с уровнем их квалификации.

Различают две основные формы оплаты труда: сдельную и повременную. При сдельной форме заработок зависит от количества произведённой продукции и сдельной расценки (размера оплаты за единицу продукции), а при повременной – от количества затраченного времени и тарифной ставки (размера оплаты за единицу продукции). В рамках этих форм различают системы (модификации) оплаты труда: сдельно-премиальную и повременно-премиальную (премии за качественную работу), сдельно-прогрессивную (дифференцированная шкала сдельных расценок), аккордную (оплата за весь комплекс работ) и т.д. К повременной форме относят также «должностной оклад» — фиксированный размер оплаты труда административно-управленческого персонала за исполнение трудовых обязанностей определённой сложности за календарный месяц.

Фонд оплаты труда (ФОТ) включает в себя сумму начисленной заработной платы всех работников предприятия. Это интервальный показатель, и он рассчитывается обычно за месяц или за год.

В состав фонда оплаты труда (ФОТ) входят следующие элементы:

1. оплата за отработанное время (зарплата, начисленная в соответствии с тарифными ставками, должностными окладами, сдельными расценками, в процентах от прибыли и т.д.);
2. стимулирующие надбавки и доплаты (за учёную степень, за длительный стаж на данном предприятии, за допуск к государственной тайне и т.д.);
3. компенсационные выплаты, связанные с режимом работы и условиями труда (за работу во вредных или опасных условиях, оплата работы в выходные и праздничные дни, за работу в пустынных, безводных местностях и в высокогорных районах и т.д.);
4. единовременные поощрительные выплаты;
5. регулярные выплаты на питание, жильё, топливо;
6. оплата за неотработанное время (оплата ежегодных и дополнительных отпусков, оплата простоев не по вине работника и т.д.).

Уровень заработной платы характеризуется средней заработной платой одного работника.

Средняя заработная плата Статистика задачи с решениемрассчитывается как частное от деления фонда заработной платы (L) на среднесписочную численность работниковСтатистика задачи с решением

Статистика задачи с решением

Динамика средней заработной платы изучается с помощью системы индексов.

По отдельным единицам наблюдения (одному участку, предприятию и т.д.) применяют индивидуальный индекс заработной платыСтатистика задачи с решением, представляющий собой соотношение уровня заработной платы отчётного Статистика задачи с решением и базисного Статистика задачи с решениемпериодов:

Статистика задачи с решением

На динамику средней заработной платы влияют два фактора:

1. изменение уровня заработной платы по отдельным предприятиям (рабочим, бригадам и т.д.);
2. изменение структуры работников (изменение доли работников с той или иной заработной платой).
2. стимулирующие надбавки и доплаты (за учёную степень, за длительный стаж на данном предприятии, за допуск к государственной тайне и т.д.);
3. компенсационные выплаты, связанные с режимом работы и условиями труда (за работу во вредных или опасных условиях, оплата работы в выходные и праздничные дни, за работу в пустынных, безводных местностях и в высокогорных районах и т.д.);
4. единовременные поощрительные выплаты;
5. регулярные выплаты на питание, жильё, топливо;
6. оплата за неотработанное время (оплата ежегодных и дополнительных отпусков, оплата простоев не по вине работника и т.д.).

Уровень заработной платы характеризуется средней заработной платой одного работника.

Средняя заработная плата Статистика задачи с решением рассчитывается как частное от деления фонда заработной платы (L) на среднесписочную численность работников Статистика задачи с решением

Статистика задачи с решением

Динамика средней заработной платы изучается с помощью системы индексов.

По отдельным единицам наблюдения (одному участку, предприятию и т.д.) применяют индивидуальный индекс заработной платы Статистика задачи с решением, представляющий собой соотношение уровня заработной платы отчётного Статистика задачи с решением и базисного Статистика задачи с решением периодов:

Статистика задачи с решением

На динамику средней заработной платы влияют два фактора:

1. изменение уровня заработной платы по отдельным предприятиям (рабочим, бригадам и т.д.);
2. изменение структуры работников (изменение доли работников с той или иной заработной платой).

Для анализа динамики используется система трёх индексов — переменного, постоянного состава и структурных сдвигов (см. тему «Индексы» в курсе «Теории статистики») [1, c. 24-34].

Индекс переменного состава Статистика задачи с решением показывает общее изменение средней заработной платы в отчётном периоде Статистика задачи с решением по сравнению с базисным Статистика задачи с решением:

Статистика задачи с решением

Индекс постоянного (фиксированного) состава Статистика задачи с решениемхарактеризует влияние первого фактора:

Статистика задачи с решением

где Статистика задачи с решением — средняя условная зарплата.

Индекс структурных сдвигов Статистика задачи с решением характеризует влияние второго фактора:

Статистика задачи с решением

Все три индекса взаимосвязаны — индекс переменного состава равен произведению двух других индексов:

Статистика задачи с решением

Задача с решением5.7

Имеются следующие данные по двум предприятиям о заработной плате работников:

Статистика задачи с решением

Определите индексы заработной платы:
1) индивидуальные;
2) по двум участкам вместе (переменного, постоянного состава и структурных сдвигов). Проверить взаимосвязь индексов.

Решение

1) индивидуальный индекс заработной платы Статистика задачи с решением рассчитывается по каждому предприятию в отдельности:

— по предприятию 1:

Статистика задачи с решением

— по предприятию 2:

Статистика задачи с решением

Вывод: уровень заработной платы на предприятии 1 возрос на 8 %, а на предприятии 2 возрос на 5,3 %.

2) сделаем предварительные расчёты – рассчитаем среднюю зарплату по совокупности предприятий:

Статистика задачи с решением

Индекс переменного состава Статистика задачи с решением:

Статистика задачи с решением

Средняя заработная плата возросла на 8,6 %.

Индекс постоянного (фиксированного) состава Статистика задачи с решением:

Статистика задачи с решением

За счёт изменения уровня заработной платы по отдельным предприятиям средняя заработная плата возросла на 7,7 %.

Индекс структурных сдвигов Статистика задачи с решением:

Статистика задачи с решением

За счёт изменения структуры работников средняя заработная плата возросла на 0,9 %. Так как данный индекс больше 1, можно сделать вывод, что возросла доля предприятий с более высокой заработной платой.

Соответственно, индекс структурных сдвигов, по величине меньше 1, свидетельствует о возрастании доли предприятий с более низкой заработной платой.

Взаимосвязь индексов:

Статистика задачи с решением

Статистика уровня жизни, понятие уровня жизни

Уровень жизни – это комплексная социально-экономическая категория, включающая в себя различные стороны жизнедеятельности населения.

Современная наука рассматривает категорию «уровень жизни» как сочетание трёх компонентов:

1) благосостояние населения;
2) накопление человеческого капитала;
3) уровень человеческого развития.

Благосостояние населения можно рассматривать с двух сторон – как абсолютное и относительное.

Абсолютное благосостояние характеризуется размером полученных доходов (заработной платы, пенсий, пособий и других), потреблением благ, услуг и продуктов питания, наличием жилья и предметов длительного пользования (телефонов, бытовой техники, автомобилей). Относительное благосостояние предполагает сравнение абсолютных показателей со средними, с нормативными или с показателями прошлых периодов. Например, размер дохода, наличия тех или иных благ, потребления продуктов питания может сравниваться со стандартами данной социальной группы, с физиологическим минимумом, со среднедушевыми показателями данного региона или Российской Федерации в целом.

Накопление человеческого капитала характеризует экономическую сторону воспроизводства рабочей силы. Оно тесно связано с экономическим определением капитала как совокупности активов, приносящих (в данный момент или в перспективе) определённые экономические выгоды. В этом компоненте уровня жизни можно выделить макро- и микроуровень.

На макроуровне предполагается расчёт таких показателей, как «доля расходов государственного бюджета на образование, здравоохранение, культуру и т.д.», в том числе в процентах к ВВП.

На микроуровне накопление человеческого капитала учитывает затраты работодателя и самого человека на повышение образовательного, профессионального, культурного уровня, сохранение и приумножение здоровья. Эти затраты рассматриваются с точки зрения сохранения работоспособности индивида, его конкурентоспособности на рынке труда, что в конечном итоге отражается на его уровне жизни.

Уровень человеческого развития характеризует не столько материальные, сколько духовные, гражданские, правовые и прочие нематериальные аспекты жизнедеятельности людей. Одним из ключевых понятий в оценке уровня человеческого развития является «качество жизни», которое учитывает экологические, демографические, криминогенные, природно-климатические и другие условия жизни. Термин «качество жизни» имеет вполне определённые количественные характеристики, например, уровень преступности, продолжительность жизни, объём выбросов вредных веществ в атмосферу и т.д., которые можно использовать в анализе уровня жизни населения.

Ещё одним аспектом уровня человеческого развития выступает «интеграция человека в общество», которая учитывает наличие демократических прав и свобод, отсутствие дискриминации по различным признакам (расовым, национальным, гендерным и т.д.), наличие доступа к общественным благам. В этом аспекте человек рассматривается не просто как член общества, а как гражданин, обладающий полным комплексом прав и обязанностей.

В статистической практике выделяют следующие виды уровня жизни:

— достаток (пользование благами и услугами, которые обеспечивают всестороннее развитие человека);
— нормальный уровень (потребление благ и услуг по научно обоснованным нормам, которые достаточны для полноценного восстановления физических и интеллектуальных сил человека);
— бедность (потребление благ и услуг на уровне возможности сохранения работоспособности человека);
— нищета (минимальное потребление благ и услуг на уровне биологического выживания человека).

Система показателей уровня жизни

Учитывая сложность и многоплановость понятия «уровень жизни», для его измерения не существует единого показателя, а используется система статистических показателей.

Первый блок – это обобщающие показатели. Они комплексно характеризуют уровень жизни населения, ориентируясь на основные макроэкономические индикаторы. С их помощью международные организации проводят межстрановые сопоставления. К ним относятся:

1) ВВП (или национальный доход) на душу населения (руб./чел) – соотношение величины ВВП и среднегодовой численности населения;

2) индекс стоимости жизни Статистика задачи с решением— соотношение величин прожиточного минимума (ПМ) двух периодов:

Статистика задачи с решением

где «0» — базисный период, «1» — отчётный период;

3) индекс развития человеческого потенциала ИРЧП (с 2013 года «Индекс человеческого развития» ИЧР — «Human Development Index») — это комбинированный показатель, разработанный ООН. Он включает в себя три компонента.

1) Индекс ожидаемой продолжительности жизни: здоровье и долголетие, измеряемые показателем средней ожидаемой продолжительности жизни при рождении.
2) Индекс образования: доступ к образованию, измеряемый средней ожидаемой продолжительностью обучения детей школьного возраста и средней продолжительностью обучения взрослого населения.
3) Индекс валового национального дохода: достойный уровень жизни, измеряемый величиной валового национального дохода (ВНД) на душу населения в долларах США по паритету покупательной способности (ППС).

Эти три измерения стандартизируются в виде числовых значений от 0 до 1, среднее геометрическое которых представляет собой совокупный показатель ИЧР в диапазоне от 0 до 1.

Второй блок – показатели доходов населения. Это базовая группа, так как именно величина доходов обуславливает уровень потребления и обеспеченности благами (услугами), формирует образ и уклад жизни. Так, рост доходов способствует расширению структуры расходов, в которой доля продуктов питания будет неуклонно уменьшаться за счёт включения таких статей, как приобретение одежды, предметов роскоши, затраты на отдых, культурные мероприятия и т.д.

Доходы структурируются по группам: «Оплата труда», «Доходы от предпринимательской деятельности», «Социальные выплаты», «Доходы от собственности», «Другие доходы».

В СНС существует следующая трактовка понятия «доход», которая базируется на общей концепции английского экономиста Дж. Хикса.

Доход – это максимальная сумма денег, которую субъект может потратить за период, не становясь при этом беднее (то есть, не принимая на себя финансовых обязательств и не уменьшая своего накопленного богатства).

Из данного определения следует, что доходом не считается, например, получение кредита в банке.

Доходы классифицируются по следующим признакам:
— с учётом инфляции (номинальные, реальные);
— по стадии воспроизводства (первичные, располагаемые).

Первичные доходы (ПД) – это доходы, получаемые в результате первичного распределения добавленной стоимости (оплата труда, предпринимательские доходы, доходы от собственности).

Располагаемые доходы (РД) включают в себя первичные доходы и сальдо текущих трансфертов (ΔТТ):

РД = ПД + ΔТТ. (6.2)

Трансфертом называется безвозмездный платёж (то есть поток денег, товаров и услуг, который не вызывает встречный поток денег, товаров и услуг). Сальдо рассчитывается как разность полученных трансфертов (например, пенсий, стипендий, пособий) и выплаченных трансфертов (например, налогов). Его величина может быть отрицательной.

Номинальные доходы (НД) – это первичные и располагаемые доходы, которые рассчитываются в ценах текущего периода.

Реальные доходы (РеалД) – это номинальные доходы, скорректированные на изменение цен, то есть рассчитанные в сопоставимых (постоянных) ценах:

Статистика задачи с решением

где Статистика задачи с решением– индекс потребительских цен; Статистика задачи с решением– индекс покупательной способности денег (величина, обратная индексу цен).

Сопоставляя реальные доходы отчётного периода с номинальными доходами базисного периода, можно сделать вывод об изменении физического объёма потребления благ населением.

Например, если величина данного индекса больше 1, значит, в натуральном выражении потребление благ возросло по сравнению с базисным периодом.

Расчёт реальных доходов имеет смысл только в динамике. Любой доход, полученный за год, является номинальным. Реальным он станет только после корректировки на индекс цен и сравнения с доходом прошлого периода.

Задача с решением №6.1

Данные по области на душу населения в текущих ценах (руб.):

Статистика задачи с решением

Рассчитать:

1) номинальные располагаемые доходы населения в каждом году;
2) индекс номинальных располагаемых доходов населения;
3) реальные располагаемые доходы населения в 2015 году.

Решение

1) Номинальные располагаемые доходы населения в 2014 году:
14157+6657+16079-1271=35622 руб.
Номинальные располагаемые доходы населения в 2015 году:
15092+7226+19126-1675=39769 руб.

2) Индекс номинальных располагаемых доходов населения:

Статистика задачи с решением

Вывод: номинальные располагаемые доходы населения в 2015 году возросли на 11,6 % (по сравнению с 2014 годом).

3) Реальные располагаемые доходы населения в 2015 году:

Статистика задачи с решением

Вывод: реальные располагаемые доходы населения в 2015 году снизились по сравнению с номинальными доходами 2014 года, значит, физический объём потребления благ населением области сократился.

Блок показателей доходов населения дополняется показателями дифференциации доходов. Наибольшее распространение имеют следующие:

1) децильный коэффициент дифференциации доходов – отношение совокупного дохода 10% богатейшего населения к совокупному доходу 10 % беднейшего населения;
2) коэффициент фондов, с помощью которого измеряют различие между суммарными (средними) значениями доходов 10% наиболее обеспеченной и 10% наименее обеспеченной части населения;
3) коэффициент Джини – показатель отклонения фактических доходов населения от абсолютного равенства в распределении доходов. Чем выше его значение, тем выше степень неравенства.

Третий блок – показатели расходов населения. В практической деятельности имеет значение не столько абсолютная величина расходов, сколько их структура, то есть направления затрат. Росстат выделяет следующие градации расходов: «Покупка товаров и оплата услуг», «Обязательные платежи и разнообразные взносы», «Сбережения во вкладах и ценных бумагах», «Расходы на покупку недвижимости», «Приобретение иностранной валюты» и другие расходы.

Четвёртый блок – показатели потребления продуктов питания и обеспеченности благами. В основе расчётов лежит набор из 10 групп продуктов питания продовольственной корзины (см. п. 13.3). Рассчитываются показатели:
— уровень потребления мяса и мясопродуктов (кг на 1 человека в год); — уровень потребления молока и молочных продуктов (кг на 1 человека в год);
— уровень потребления картофеля (кг на 1 человека в год) и т.д.

В качестве наиболее важных благ для населения Росстат рассматривает жильё, автомобили, потребительские товары длительного пользования (телевизоры, персональные компьютеры, стиральные машины и т.д.). Обеспеченность этими благами вычисляется соотношением их общего объёма и численности населения (или домашних хозяйств).

Рассчитываются показатели:
— число собственных легковых автомобилей (штук на 1000 человек населения);
— общая площадь жилых помещений, приходящаяся в среднем на одного жителя (м2 /чел.);
— число телевизоров (штук на 100 домохозяйств) и т.д.

Обобщающую оценку изменения потребления благ дают следующие показатели.

Индивидуальный индекс физического объёма потребления благ Статистика задачи с решениемхарактеризует динамику объёма потребления отдельных видов товаров и услуг:

Статистика задачи с решением

где Статистика задачи с решениеми Статистика задачи с решением, соответственно, физический объём потребления товара (услуги) в отчётном и базисном периодах.

Общий индекс физического объёма потребления благ Статистика задачи с решением характеризует динамику объёма потребления по совокупности товаров и услуг в сопоставимых ценах:

Статистика задачи с решением

где Статистика задачи с решением стоимость потреблённых товаров и услуг, соответственно, в отчётном и базисном периодах в сопоставимых ценах.

Индивидуальный индекс уровня потребления благ Статистика задачи с решениемхарактеризует динамику среднедушевого потребления отдельных видов товаров и услуг:

Статистика задачи с решением

где Статистика задачи с решениеми Статистика задачи с решением, соответственно, среднегодовая численность населения в отчётном и базисном периодах.

Общий индекс уровня потребления благ Статистика задачи с решениемхарактеризует динамику среднедушевого потребления по совокупности товаров и услуг в сопоставимых ценах:

Статистика задачи с решением

Задача с решением №6.2

Данные по региону:

Статистика задачи с решением

Определите:

1) общий индекс физического объема потребления товаров и услуг;
2) общий индекс уровня потребления товаров и услуг.

Решение

1) сделаем предварительный расчёт – переведём объём потребления благ 2016 года в сопоставимые цены, то есть в данном случае в цены базисного, 2015 года (аналогично задаче 13.1):

Статистика задачи с решением

Таким образом, объём потребления благ 2015 года можно обозначить как Статистика задачи с решением

Общий индекс физического объёма потребления благ Статистика задачи с решением

Статистика задачи с решением

Вывод: физический объём потребления благ в отчётном периоде повысился на 1,2 % (по сравнению с базисным периодом).

2) Общий индекс уровня потребления благСтатистика задачи с решением

Статистика задачи с решением

Вывод: уровень потребления благ в отчётном периоде повысился на 3,1 % (по сравнению с базисным периодом).

Таким образом, за счёт роста численности населения региона потребление благ в расчёте на одного человека возросло больше, чем в целом по населению.

В системе показателей уровня жизни можно выделить ещё ряд блоков (демографические, социальные, экологические и другие показатели), однако они традиционно рассматриваются как косвенные по отношению к характеристике уровня жизни населения.

Прожиточный минимум

Прожиточный минимум представляет собой стоимостную оценку потребительской корзины, а также включает в себя обязательные платежи и сборы [3].

Он состоит из потребительской корзины и обязательных платежей и сборов.

Величина прожиточного минимума — это стоимостная оценка потребительской корзины, включающей минимальные наборы продуктов питания, непродовольственных товаров и услуг, необходимых для сохранения здоровья человека и обеспечения его жизнедеятельности, а также обязательные платежи и сборы (в этот пункт включается НДФЛ – налог на доходы физических лиц).

Потребительская корзина в субъектах Российской Федерации устанавливается законодательными органами субъектов Федерации. Её размер – это эталон для мониторинга уровня бедности и решения макроэкономических задач.

Так, прожиточный минимум в целом по Российской Федерации предназначается для решения следующих управленческих задач на государственном уровне:

— оценка уровня жизни населения страны при разработке и реализации социальной политики и федеральных социальных программ;

— обоснование устанавливаемых на федеральном уровне минимального размера оплаты труда, а также для определения устанавливаемых на федеральном уровне размеров стипендий, пособий и других социальных выплат;

-формирование федерального бюджета. Прожиточный минимум в субъектах Российской Федерации предназначается для решения следующих управленческих задач на региональном уровне:

— оценка уровня жизни населения соответствующего субъекта Российской Федерации при разработке и реализации региональных социальных программ;

— оказание необходимой государственной социальной помощи малоимущим гражданам;

— формирование бюджетов субъектов Российской Федерации.

Величина прожиточного минимума на душу населения в целом по Российской Федерации и в субъектах Федерации определяется ежеквартально на основании потребительской корзины и данных об уровне потребительских цен на продукты питания, непродовольственные товары и услуги и расходов по обязательным платежам и сборам. Кроме того, она дифференцирована по возрасту – прожиточный минимум устанавливается не только в среднем на душу населения, но и отдельно для трудоспособного населения, для пенсионеров и для детей.

Величина прожиточного минимума используется в следующих статистических показателях.

Доля населения с доходами ниже прожиточного минимума Статистика задачи с решением

Статистика задачи с решением

где Статистика задачи с решением– численность населения с доходами ниже прожиточного минимума (чел.), Н – общая численность населения (чел.).

Соотношение среднедушевых денежных доходов с величиной прожиточного минимума Статистика задачи с решением

Статистика задачи с решением

где НД – среднедушевые номинальные доходы населения (руб.), ПМ – величина прожиточного минимума (руб.).

Аналогичным образом с величиной прожиточного минимума сопоставляются среднемесячная начисленная заработная плата и средний размер назначенных пенсий.

Задача с решением №6.3

Величина прожиточного минимума в регионе в базисном периоде составляла 8500 руб., из них 60 % приходилось на приобретение продуктов питания, 8 % — на оплату услуг, 6 % — на оплату налогов. В отчётном периоде цены на продовольственные товары возросли на 12 %, на непродовольственные товары — на 15 %, на услуги – на 10 %. Величина налогов и сборов осталась на уровне базисного периода.

Рассчитать:

1) стоимость каждого элемента прожиточного минимума в базисном периоде;
2) величину прожиточного минимума в отчётном периоде;
3) индекс стоимости жизни.

Решение

1) стоимость каждого элемента прожиточного минимума в базисном периоде.
Приобретение продуктов питания
60 % * 8500 = 0,60 * 8500 = 5100 руб.;
оплата услуг
8 % * 8500 = 0,08 * 8500 = 680 руб.;
обязательные платежи и сборы
6 % * 8500 = 0,06 * 8500 = 510 руб.;
приобретение непродовольственных товаров
8500 – 5100 – 680 – 510 = 2210 руб.

2) величина прожиточного минимума в отчётном периоде Статистика задачи с решениемСделаем предварительные расчёты – рассчитаем стоимость каждого элемента прожиточного минимума в отчётном периоде. Известно, что по трём элементам произошёл рост цен, значит, их стоимость повысилась:
Приобретение продуктов питания:
5100 руб. + 12 % = 5100 * 1,12 = 5712 руб.;
оплата услуг:
680 руб. + 10 % = 680 * 1,10 = 748 руб.;
обязательные платежи и сборы – стоимость не изменилась (510 руб.);
приобретение непродовольственных товаров:
2210 руб. + 15 % = 2210 * 1,15 = 2541,5 руб.

Итого:

Статистика задачи с решением

3) индекс стоимости жизни Статистика задачи с решением

Статистика задачи с решением

Вывод: стоимость жизни в отчётном периоде повысилась на 11,9 % (по сравнению с базисным периодом).

C 1 января 2013 года в потребительскую корзину России включены следующие продукты и услуги:

Статистика задачи с решением

Статистика задачи с решением

Статистика задачи с решением

7 методов статистического анализа, которые может применять каждый

Деятельность людей во множестве случаев предполагает работу с данными, а она в свою очередь может подразумевать не только оперирование ими, но и их изучение, обработку и анализ. Например, когда нужно уплотнить информацию, найти какие-то взаимосвязи или определить структуры. И как раз для аналитики в этом случае очень удобно пользоваться не только разными техниками мышления, но и применять статистические методы.

Особенностью методов статистического анализа является их комплексность, обусловленная многообразием форм статистических закономерностей, а также сложностью процесса статистических исследований. Однако мы хотим поговорить именно о таких методах, которые может применять каждый, причем делать это эффективно и с удовольствием.

Статистическое исследование может проводиться посредством следующих методик:

  • Статистическое наблюдение;
  • Сводка и группировка материалов статистического наблюдения;
  • Абсолютные и относительные статистические величины;
  • Вариационные ряды;
  • Выборка;
  • Корреляционный и регрессионный анализ;
  • Ряды динамики.

Далее мы рассмотрим каждый из них более подробно. Но отметим, что представим лишь основные характеристики без подробного описания алгоритмов действий. Впрочем, понять их не составит никакого труда.

Статистическое наблюдение

Статистическое наблюдение является планомерным, организованным и в большинстве случаев систематическим сбором информации, направленным, главным образом, на явления социальной жизни. Реализуется данный метод через регистрацию предварительно определенных наиболее ярких признаков, цель которой состоит в последующем получении характеристик изучаемых явлений.

Статистическое наблюдение должно выполняться с учетом некоторых важных требований:

  • Оно должно полностью охватывать изучаемые явления;
  • Получаемые данные должны быть точными и достоверными;
  • Получаемые данные должны быть однообразными и легкосопоставимыми.

Также статистическое наблюдение может иметь две формы:

  • Отчетность – это такая форма статистического наблюдения, где информация поступает в конкретные статистические подразделения организаций, учреждений или предприятий. В этом случае данные вносятся в специальные отчеты.
  • Специально организованное наблюдение – наблюдение, которое организуется с определенной целью, чтобы получить сведения, которых не имеется в отчетах, или же для уточнения и установления достоверности информации отчетов. К этой форме относятся опросы (например, опросы мнений людей), перепись населения и т.п.

Кроме того, статистическое наблюдение может быть категоризировано на основе двух признаков: либо на основе характера регистрации данных, либо на основе охвата единиц наблюдения. К первой категории относятся опросы, документирование и прямое наблюдение, а ко второй – наблюдение сплошное и несплошное, т.е. выборочное.

Для получения данных при помощи статистического наблюдения можно применять такие способы как анкетирование, корреспондентская деятельность, самоисчисление (когда наблюдаемые, например, сами заполняют соответствующие документы), экспедиции и составление отчетов.

Сводка и группировка материалов статистического наблюдения

Говоря о втором методе, в первую очередь следует сказать о сводке. Сводка представляет собой процесс обработки определенных единичных фактов, которые образуют общую совокупность данных, собранных при наблюдении. Если сводка проводится грамотно, огромное количество единичных данных об отдельных объектах наблюдения может превратиться в целый комплекс статистических таблиц и результатов. Также такое исследование способствует определению общих черт и закономерностей исследуемых явлений.

С учетом показателей точности и глубины изучения можно выделить простую и сложную сводку, но любая из них должна основываться на конкретных этапах:

  • Выбирается группировочный признак;
  • Определяется порядок формирования групп;
  • Разрабатывается система показателей, позволяющих охарактеризовать группу и объект или явление в целом;
  • Разрабатываются макеты таблиц, где будут представлены результаты сводки.

Важно заметить, что есть и разные формы сводки:

  • Централизованная сводка, требующая передачи полученного первичного материала в вышестоящий центр для последующей обработки;
  • Децентрализованная сводка, где изучение данных происходит на нескольких ступенях по восходящей.

Выполняться же сводка может при помощи специализированного оборудования, например, с использованием компьютерного ПО или вручную.

Что же касается группировки, то этот процесс отличается разделением исследуемых данных на группы по признакам. Особенности поставленных статистическим анализом задач влияют на то, какой именно будет группировка: типологической, структурной или аналитической. Именно поэтому для сводки и группировки либо прибегают к услугам узкопрофильных специалистов, либо применяют конкретные техники мышления.

Абсолютные и относительные статистические величины

Абсолютные величина считаются самой первой формой представления статистических данных. С ее помощью удается придать явлениям размерные характеристики, например, по времени, по протяженности, по объему, по площади, по массе и т.д.

Если требуется узнать об индивидуальных абсолютных статистических величинах, можно прибегнуть к замерам, оценке, подсчету или взвешиванию. А если нужно получить итоговые объемные показатели, следует использовать сводку и группировку. Нужно иметь в виду, что абсолютные статистические величины отличаются наличием единиц измерения. К таким единицам относят стоимостные, трудовые и натуральные.

А относительные величины выражают количественные соотношения, касающиеся явлений социальной жизни. Чтобы их получить, одни величины всегда делятся на другие. Показатель, с которым сравнивают (это знаменатель), называют основанием сравнения, а показатель, которой сравнивают (это числитель), называют отчетной величиной.

Относительные величины могут быть разными, что зависит от их содержательной части. Например, существуют величины сравнения, величины уровня развития, величины интенсивности конкретного процесса, величины координации, структуры, динамики и т.д. и т.п.

Чтобы изучить какую-то совокупность по дифференцирующимся признакам, в статистическом анализе применяются средние величины – обобщающие качественные характеристики совокупности однородных явлений по какому-либо дифференцирующемуся признаку.

Крайне важным свойством средних величин является то, что они говорят о значениях конкретных признаков во всем их комплексе единым числом. Невзирая на то, что у отдельных единиц может наблюдаться количественная разница, средние величины выражают общие значения, свойственные всем единицам исследуемого комплекса. Получается, что при помощи характеристики чего-то одного можно получить характеристику целого.

Следует иметь в виду, что одним из самых важных условий применения средних величин, если проводится статистический анализ социальных явлений, считается однородность их комплекса, для которого и нужно узнать среднюю величину. А от такого, как именно будут представлены начальные данные для исчисления средней величины, будет зависеть и формула ее определения.

Вариационные ряды

В некоторых случаях данных о средних показателях тех или иных изучаемых величин может быть недостаточно, чтобы провести обработку, оценку и глубокий анализ какого-то явления или процесса. Тогда во внимание следует брать вариацию или разброс показателей отдельных единиц, который тоже представляет собой важную характеристику исследуемой совокупности.

На индивидуальные значения величин могут воздействовать многие факторы, а сами изучаемые явления или процессы могут быть очень многообразны, т.е. обладать вариацией (это многообразие и есть вариационные ряды), причины которой следует искать в сущности того, что изучается.

Вышеназванные абсолютные величины находятся в непосредственной зависимости от единиц измерения признаков, а значит, делают процесс изучения, оценки и сравнения двух и более вариационных рядов более сложным. А относительные показатели нужно вычислять в качестве соотношения абсолютных и средних показателей.

Выборка

Смысл выборочного метода (или проще – выборки) состоит в том, что по свойствам одной части определяются численные характеристики целого (это называется генеральной совокупностью). Основной выборочного метода является внутренняя связь, объединяющая части и целое, единичное и общее.

Метод выборки отличается рядом существенных преимуществ перед остальными, т.к. благодаря уменьшению количества наблюдений позволяет сократить объемы работы, затрачиваемые средства и усилия, а также успешно получать данные о таких процессах и явлениях, где либо нецелесообразно, либо просто невозможно исследовать их полностью.

Соответствие характеристик выборки характеристикам изучаемого явления или процесса будет зависеть от комплекса условий, и в первую очередь от того, как вообще будет реализовываться выборочный метод на практике. Это может быть как планомерный отбор, идущий по подготовленной схеме, так и непланомерный, когда выборка производится из генеральной совокупности.

Но во всех случаях выборочный метод должен быть типичным и соответствовать критериям объективности. Данные требования нужно выполнять всегда, т.к. именно от них будет зависеть соответствие характеристик метода и характеристик того, что подвергается статистическому анализу.

Таким образом, перед обработкой выборочного материала необходимо провести его тщательную проверку, избавившись тем самым от всего ненужного и второстепенного. Одновременно с этим, составляя выборку, в обязательном порядке нужно обходить стороной любую самодеятельность. Это означает, что ни в коем случае не следует делать выборку только из вариантов, кажущихся типичными, а все другие – отбрасывать.

Эффективная и качественная выборка должна составляться объективно, т.е. производить ее нужно так, чтобы были исключены любые субъективные влияния и предвзятые побуждения. И чтобы это условие было соблюдено должным образом, требуется прибегнуть к принципу рандомизации или, проще говоря, к принципу случайного отбора вариантов из всей их генеральной совокупности.

Представленный принцип служит основой теории выборочного метода, и следовать ему нужно всегда, когда требуется создать эффективную выборочную совокупность, причем случаи планомерного отбора исключением здесь не являются.

Корреляционный и регрессионный анализ

Корреляционный анализ и регрессионный анализ – это два высокоэффективных метода, позволяющие проводить анализ больших объемов данных для изучения возможной взаимосвязи двух или большего количества показателей.

В случае с корреляционным анализом задачами являются:

  • Измерить тесноту имеющейся связи дифференцирующихся признаков;
  • Определить неизвестные причинные связи;
  • Оценить факторы, в наибольшей степени воздействующие на окончательный признак.

А в случае с регрессионным анализом задачи следующие:

  • Определить форму связи;
  • Установить степень воздействия независимых показателей на зависимый;
  • Определить расчетные значения зависимого показателя.

Чтобы решить все вышеназванные задачи, практически всегда нужно применять и корреляционный и регрессионный анализ в комплексе.

Ряды динамики

Посредством этого метода статистического анализа очень удобно определять интенсивность или скорость, с которой развиваются явления, находить тенденцию их развития, выделять колебания, сравнивать динамику развития, находить взаимосвязь развивающихся во времени явлений.

Ряд динамики – это такой ряд, в котором во времени последовательно расположены статистические показатели, изменения которых характеризуют процесс развития исследуемого объекта или явления.

Ряд динамики включает в себя два компонента:

  • Период или момент времени, связанный с имеющимися данными;
  • Уровень или статистический показатель.

В совокупности эти компоненты представляют собой два члена ряда динамики, где первый член (временной период) обозначается буквой «t», а второй (уровень) – буквой «y».

Исходя из длительности временных промежутков, с которыми взаимосвязаны уровни, ряды динамики могут быть моментными и интервальными. Интервальные ряды позволяют складывать уровни для получения общей величины периодов, следующих один за другим, а в моментных такой возможности нет, но этого там и не требуется.

Ряды динамики также существуют с равными и разными интервалами. Суть же интервалов в моментных и интервальных рядах всегда разная. В первом случае интервалом является временной промежуток между датами, к которым привязаны данные для анализа (удобно использовать такой ряд, например, для определения количества действий за месяц, год и т.д.). А во втором случае – временной промежуток, к которому привязана совокупность обобщенных данных (такой ряд можно использовать для определения качества тех же самых действий за месяц, год и т.п.). Интервалы могут быть равными и разными, независимо от типа ряда.

Естественно, чтобы научиться грамотно применять каждый из методов статистического анализа, недостаточно просто знать о них, ведь, по сути, статистика – это целая наука, требующая еще и определенных навыков и умений. Но чтобы она давалась проще, можно и нужно тренировать свое мышление и улучшать когнитивные способности.

В остальном же исследование, оценка, обработка и анализ информации – очень интересные процессы. И даже в тех случаях, когда это не приводит к какому-то конкретному результату, за время исследования можно узнать множество интересных вещей. Статистический анализ нашел свое применение в огромном количестве сфер деятельности человека, а вы можете использовать его в учебе, работе, бизнесе и других областях, включая развитие детей и самообразование.

До сих пор мы исходили из того, что наши данные, например, о росте тысячи мужчин-респондентов в России полностью отражают реальные показатели роста всех россиян. На самом деле мы не знаем, так это или нет.

Мы сможем об этом говорить только, если получим измерения каждого человека. Эта задача представляется нереализуемой.

Те же, кого нам всё-таки удалось измерить, называются выборкой (sample). А вот все мужчины в России — это генеральная совокупность (population).

Существует ли вообще возможность сказать что-либо определенное про генеральную совокупность по ограниченному набору данных?

На самом деле существует. Теоретическое обоснование этой возможности называется Центральной предельной теоремой.

Центральная предельная теорема (Central Limit Theorem) гласит, что если мы будем много раз выборочно собирать данные, то среднее средних всех выборок (распределение средних) будет стремится к среднему генеральной совокупности. Рассмотрим этот процесс подробнее.

Для начала возьмем несколько выборок из одной генеральной совокупности и выясним среднее каждой выборки.

Затем посчитаем среднее арифметическое средних этих выборок. Это новое среднее будет стремиться к среднему генеральной совокупности (обозначается греческой буквой μ, мю).

Этот вывод чрезвычайно важен, потому что мы наконец-то получаем инструменты, позволяющие сказать что-то определенное про величину, которую мы в принципе не можем охватить измерением.

Теперь рассмотрим статистический вывод на практике. Центральная предельная теорема является обоснованием для двух важных инструментов изучения генеральной совокупности.

С одной стороны, даже предполагая, что выборочное среднее стремится к истинному среднему, мы не можем быть на 100 процентов уверены, что знаем этот параметр генеральной совокупности. С другой, теорема позволяет задать доверительный интервал (Confidence Interval) для среднего (и на самом деле любого другого параметра, например, пропорции).

Другими словами, мы можем утверждать, что, например, в 90 процентах случаев, наш доверительный интервал будет включать истинный параметр генеральной совокупности.

На графике греческой буквой μ (мю) как раз обозначено среднее генеральной совокупности, которое попадает в наш доверительный интервал только в 9 случаях из 10 (то есть в 90 процентах случаев).

Например, мы можем найти доверительный интервал для среднего роста всех мужчин в России. Сделаем это с помощью Питона.

# вначале вновь подгрузим данные

[185.0, 179.0, 186.0, 195.0, 178.0, 178.0, 196.0, 188.0, 175.0, 185.0, 175.0, 175.0, 182.0, 161.0, 163.0, 174.0, 170.0, 183.0, 171.0, 166.0, 195.0, 178.0, 181.0, 166.0, 175.0, 181.0, 168.0, 184.0, 174.0, 177.0, 174.0, 199.0, 180.0, 169.0, 188.0, 168.0, 182.0, 160.0, 167.0, 182.0, 187.0, 182.0, 179.0, 177.0, 165.0, 173.0, 175.0, 191.0, 183.0, 162.0, 183.0, 176.0, 173.0, 186.0, 190.0, 189.0, 172.0, 177.0, 183.0, 190.0, 175.0, 178.0, 169.0, 168.0, 188.0, 194.0, 179.0, 190.0, 184.0, 174.0, 184.0, 195.0, 180.0, 196.0, 154.0, 188.0, 181.0, 177.0, 181.0, 160.0, 178.0, 184.0, 195.0, 175.0, 172.0, 175.0, 189.0, 183.0, 175.0, 185.0, 181.0, 190.0, 173.0, 177.0, 176.0, 165.0, 183.0, 183.0, 180.0, 178.0, 166.0, 176.0, 177.0, 172.0, 178.0, 184.0, 199.0, 182.0, 183.0, 179.0, 161.0, 180.0, 181.0, 205.0, 178.0, 183.0, 180.0, 168.0, 191.0, 188.0, 188.0, 171.0, 194.0, 166.0, 186.0, 202.0, 170.0, 174.0, 181.0, 175.0, 164.0, 181.0, 169.0, 185.0, 171.0, 195.0, 172.0, 177.0, 188.0, 168.0, 182.0, 193.0, 164.0, 182.0, 183.0, 188.0, 168.0, 167.0, 185.0, 183.0, 183.0, 183.0, 173.0, 182.0, 183.0, 173.0, 199.0, 185.0, 168.0, 187.0, 170.0, 188.0, 192.0, 172.0, 190.0, 184.0, 188.0, 199.0, 178.0, 172.0, 171.0, 172.0, 179.0, 183.0, 183.0, 188.0, 180.0, 195.0, 177.0, 207.0, 186.0, 171.0, 169.0, 185.0, 178.0, 187.0, 185.0, 179.0, 172.0, 165.0, 176.0, 189.0, 182.0, 168.0, 182.0, 184.0, 171.0, 182.0, 181.0, 169.0, 184.0, 186.0, 191.0, 191.0, 166.0, 171.0, 185.0, 185.0, 185.0, 219.0, 186.0, 191.0, 190.0, 187.0, 177.0, 188.0, 172.0, 178.0, 175.0, 181.0, 203.0, 161.0, 187.0, 164.0, 175.0, 191.0, 181.0, 169.0, 173.0, 187.0, 173.0, 182.0, 180.0, 173.0, 201.0, 186.0, 160.0, 182.0, 173.0, 189.0, 172.0, 179.0, 185.0, 189.0, 168.0, 177.0, 175.0, 173.0, 198.0, 184.0, 167.0, 189.0, 201.0, 190.0, 165.0, 175.0, 193.0, 173.0, 184.0, 188.0, 171.0, 179.0, 148.0, 170.0, 177.0, 168.0, 196.0, 166.0, 176.0, 181.0, 194.0, 166.0, 192.0, 180.0, 170.0, 185.0, 182.0, 174.0, 181.0, 176.0, 181.0, 187.0, 196.0, 168.0, 201.0, 160.0, 178.0, 186.0, 183.0, 174.0, 178.0, 175.0, 174.0, 188.0, 184.0, 173.0, 189.0, 183.0, 188.0, 186.0, 172.0, 174.0, 187.0, 186.0, 180.0, 181.0, 193.0, 174.0, 185.0, 178.0, 178.0, 191.0, 188.0, 188.0, 193.0, 180.0, 187.0, 177.0, 183.0, 179.0, 181.0, 186.0, 172.0, 201.0, 170.0, 168.0, 192.0, 188.0, 186.0, 186.0, 180.0, 171.0, 181.0, 173.0, 190.0, 179.0, 172.0, 177.0, 184.0, 174.0, 172.0, 182.0, 182.0, 175.0, 175.0, 182.0, 166.0, 166.0, 173.0, 178.0, 183.0, 195.0, 189.0, 178.0, 180.0, 170.0, 180.0, 177.0, 183.0, 172.0, 185.0, 195.0, 179.0, 184.0, 187.0, 176.0, 182.0, 180.0, 181.0, 172.0, 180.0, 185.0, 195.0, 190.0, 202.0, 172.0, 189.0, 182.0, 202.0, 172.0, 172.0, 174.0, 159.0, 175.0, 172.0, 182.0, 183.0, 199.0, 190.0, 174.0, 171.0, 185.0, 167.0, 198.0, 192.0, 175.0, 163.0, 194.0, 179.0, 192.0, 164.0, 174.0, 180.0, 180.0, 175.0, 186.0, 169.0, 179.0, 181.0, 185.0, 187.0, 169.0, 165.0, 193.0, 183.0, 173.0, 196.0, 181.0, 192.0, 181.0, 201.0, 198.0, 178.0, 190.0, 186.0, 194.0, 170.0, 187.0, 191.0, 162.0, 168.0, 160.0, 177.0, 187.0, 195.0, 181.0, 196.0, 166.0, 163.0, 179.0, 184.0, 180.0, 159.0, 179.0, 167.0, 187.0, 184.0, 171.0, 175.0, 169.0, 179.0, 190.0, 170.0, 185.0, 175.0, 172.0, 179.0, 170.0, 174.0, 168.0, 200.0, 180.0, 173.0, 182.0, 179.0, 178.0, 186.0, 188.0, 175.0, 174.0, 177.0, 157.0, 165.0, 194.0, 196.0, 178.0, 186.0, 183.0, 211.0, 191.0, 179.0, 170.0, 164.0, 182.0, 172.0, 166.0, 174.0, 169.0, 197.0, 189.0, 180.0, 195.0, 181.0, 171.0, 195.0, 185.0, 170.0, 178.0, 171.0, 166.0, 189.0, 199.0, 166.0, 186.0, 173.0, 175.0, 174.0, 171.0, 180.0, 172.0, 183.0, 179.0, 178.0, 171.0, 174.0, 188.0, 185.0, 170.0, 181.0, 188.0, 163.0, 185.0, 173.0, 186.0, 172.0, 162.0, 164.0, 180.0, 183.0, 171.0, 186.0, 163.0, 179.0, 168.0, 173.0, 180.0, 171.0, 176.0, 190.0, 174.0, 188.0, 169.0, 185.0, 194.0, 155.0, 172.0, 186.0, 178.0, 184.0, 174.0, 181.0, 178.0, 192.0, 183.0, 183.0, 176.0, 175.0, 176.0, 184.0, 176.0, 183.0, 201.0, 189.0, 177.0, 192.0, 176.0, 160.0, 170.0, 161.0, 176.0, 180.0, 197.0, 183.0, 178.0, 188.0, 158.0, 182.0, 188.0, 165.0, 191.0, 183.0, 176.0, 186.0, 203.0, 182.0, 182.0, 175.0, 172.0, 188.0, 171.0, 181.0, 175.0, 185.0, 183.0, 190.0, 175.0, 177.0, 170.0, 176.0, 184.0, 188.0, 171.0, 189.0, 194.0, 184.0, 199.0, 172.0, 168.0, 162.0, 195.0, 187.0, 179.0, 183.0, 169.0, 204.0, 181.0, 181.0, 187.0, 185.0, 182.0, 172.0, 185.0, 199.0, 193.0, 196.0, 175.0, 170.0, 179.0, 181.0, 191.0, 163.0, 195.0, 178.0, 176.0, 170.0, 163.0, 188.0, 181.0, 167.0, 167.0, 177.0, 197.0, 177.0, 165.0, 178.0, 177.0, 153.0, 179.0, 178.0, 187.0, 198.0, 191.0, 177.0, 169.0, 206.0, 181.0, 180.0, 180.0, 182.0, 179.0, 174.0, 175.0, 180.0, 175.0, 173.0, 181.0, 177.0, 195.0, 153.0, 191.0, 192.0, 159.0, 177.0, 176.0, 166.0, 172.0, 169.0, 198.0, 189.0, 193.0, 187.0, 169.0, 175.0, 185.0, 168.0, 187.0, 178.0, 176.0, 187.0, 184.0, 176.0, 192.0, 169.0, 186.0, 186.0, 177.0, 183.0, 167.0, 189.0, 178.0, 175.0, 190.0, 173.0, 166.0, 164.0, 186.0, 167.0, 198.0, 159.0, 197.0, 182.0, 179.0, 175.0, 184.0, 180.0, 191.0, 181.0, 182.0, 176.0, 179.0, 183.0, 163.0, 167.0, 187.0, 182.0, 178.0, 180.0, 183.0, 175.0, 172.0, 182.0, 170.0, 184.0, 163.0, 190.0, 185.0, 183.0, 190.0, 197.0, 190.0, 162.0, 167.0, 174.0, 180.0, 185.0, 173.0, 182.0, 172.0, 174.0, 166.0, 171.0, 166.0, 170.0, 191.0, 171.0, 206.0, 185.0, 182.0, 171.0, 187.0, 174.0, 181.0, 206.0, 179.0, 191.0, 173.0, 180.0, 198.0, 174.0, 198.0, 187.0, 174.0, 186.0, 190.0, 186.0, 164.0, 173.0, 178.0, 179.0, 186.0, 182.0, 167.0, 184.0, 186.0, 186.0, 191.0, 188.0, 185.0, 179.0, 163.0, 184.0, 182.0, 183.0, 167.0, 169.0, 191.0, 180.0, 187.0, 180.0, 180.0, 189.0, 175.0, 181.0, 175.0, 176.0, 177.0, 182.0, 175.0, 193.0, 171.0, 178.0, 176.0, 194.0, 182.0, 190.0, 165.0, 183.0, 189.0, 181.0, 191.0, 175.0, 194.0, 203.0, 176.0, 176.0, 195.0, 196.0, 175.0, 176.0, 177.0, 167.0, 171.0, 170.0, 172.0, 180.0, 182.0, 196.0, 170.0, 190.0, 178.0, 180.0, 187.0, 169.0, 184.0, 182.0, 185.0, 183.0, 205.0, 174.0, 175.0, 174.0, 174.0, 174.0, 192.0, 194.0, 174.0, 172.0, 185.0, 174.0, 186.0, 182.0, 165.0, 195.0, 198.0, 174.0, 176.0, 183.0, 183.0, 187.0, 200.0, 178.0, 172.0, 166.0, 173.0, 180.0, 198.0, 175.0, 182.0, 180.0, 192.0, 205.0, 175.0, 175.0, 190.0, 187.0, 198.0, 186.0, 176.0, 186.0, 191.0, 188.0, 185.0, 191.0, 192.0, 194.0, 186.0, 178.0, 181.0, 192.0, 172.0, 184.0, 176.0, 180.0, 193.0, 182.0, 180.0, 166.0, 187.0, 186.0, 202.0, 177.0, 182.0, 182.0, 196.0, 179.0, 183.0, 186.0, 182.0, 176.0, 182.0, 191.0, 170.0, 181.0, 173.0, 192.0, 165.0, 174.0, 184.0, 196.0, 179.0, 174.0, 199.0, 166.0, 158.0, 184.0, 175.0, 170.0, 187.0, 182.0, 174.0, 167.0, 189.0, 187.0, 179.0, 198.0, 169.0, 165.0, 173.0, 180.0, 182.0, 178.0, 184.0, 167.0, 194.0, 179.0, 191.0, 183.0, 185.0, 186.0, 184.0, 186.0, 193.0, 182.0, 187.0, 179.0, 194.0, 173.0, 198.0, 180.0, 166.0, 181.0, 173.0, 188.0, 173.0, 176.0, 161.0, 175.0, 156.0, 164.0, 188.0, 188.0, 184.0, 170.0, 180.0, 180.0, 168.0, 195.0, 189.0, 178.0, 180.0, 182.0, 160.0, 178.0, 173.0, 170.0, 177.0, 198.0, 186.0, 174.0, 186.0]

Теперь импортируем новый для нас модуль stats библиотеки SciPy (Scientific Python) и построим доверительный интервал.

В данном случае мы передаем функции interval три параметра: уровень точности alpha, среднее выборки mean (используем библиотеку numpy для расчета) и стандартную ошибку среднего (пока отложим объяснение этого параметра).

Уже не так плохо, мы стали хоть что-то знать про реальную картину мира. Но какие еще применения можно найти для Центральной предельной теоремы?

Вторым применением статистического вывода является построение гипотез и их проверка.

Например, мы можем попытаться понять на основе выборки, правда ли, что средний рост всех мужчин в России составляет 182 см (предположим, так утверждает Минздрав).

По сути нам нужно ответить на вопрос, какова вероятность получить среднее выборки 180.2 см (мы его рассчитали на прошлом занятии), если истинное среднее генеральной совокупности действительно равно 182 см.

Если вероятность (probability value или p-value) окажется ниже определенного порога, мы отвергнем нашу нулевую гипотезу и скажем, что для альтернативной гипотезы есть основания. Если выше, мы будем считать нулевую гипотезу обоснованной.

Пороговое значение часто выбирают на уровне одного, пяти или десяти процентов.

Проверим наше гипотезу с помощью Питона. Для этого снова воспользуемся библиотекой SciPy.

Получилась крошечная вероятность. Около 0.000000009. Она гораздо меньше порога в пять и даже один процент, поэтому мы можем отвергнуть нашу нулевую гипотезу о том, что истинное среднее равно 182 сантиметрам.

Может показаться, что достижения не слишком велики. Мы ведь так и не выяснили, каким является среднее генеральной совокупности. Но взгляните на это иначе. Что если речь идет о невиновности человека или безвредности медицинского препарата? Проверка нулевой гипотезы уже будет иметь важные последствия.

Вы собрали данные по 1000 пациентов для того, чтобы оценить эффективность нового лекарства. Это выборка или генеральная совокупность?

Посмотреть правильный ответ

Ответ: выборка

Посмотреть правильный ответ

Ответ: доверительный интервал и проверка гипотезы

Итак, мы изучили описательную статистику и познакомились со статистическим выводом. На следующем занятии, вооружившись этими знаниями, мы перейдем к вопросу взаимосвязи переменных и построению первой модели.

Вопрос. Никак не могу понять разницу между правильной и неправильной интерпретацией:

Буду благодарен, если поясните этот момент.

Ответ. Начну немного издалека. Смотрите, когда мы не можем (но очень хотим) измерить какой-либо истинный параметр генеральной совокупности, то возникает неопределенность.

Для оценки истинного параметра и степени неопределенности можно использовать два подхода:

На занятии в примере с ростом мужчин в России мы использовали первый, частотный подход. Давайте еще раз повторим его основные тезисы.

У нас есть генеральная совокупность — все мужчины в России. У этой генеральной совокупности есть неизвестный нам параметр — средний рост (истинное среднее). Провести измерения этого параметра не представляется возможным.

При этом мы можем делать выборки из генеральной совокупности (например, опрашивать людей на улице) и без особых усилий вычислять средний рост внутри каждой выборки (выборочное среднее).

К сожалению, мы не можем быть уверены, что выборочное среднее адекватно отражает истинное среднее. Однако, полагаясь на Центральную предельную теорему, для каждой выборки мы можем построить доверительный интервал (confidence interval), который очень важно правильно интерпретировать.

Предположим, мы провели десять опросов, собрали десять выборок и для каждой выборки мы рассчитали 90-процентные интервалы. У нас получилось десять доверительных интервалов.

Так вот, следуя частотному подходу, девять из этих десяти интервалов будут включать истинное среднее, а один — нет. Приведу картинку с занятия еще раз.

Каждая черная горизонтальная черта — это выборка, кружок — выборочное среднее, а вертикальная пунктирная линия — истинное среднее. Третья сверху (и одна из 10) выборка не включает истинное значение генеральной совокупности.

Повторю сделанный вывод, но немного другими словами. Мы по-прежнему ничего не знаем о значении истинного среднего, однако в 90% случаев наш доверительный интервал его «захватит».

Это та самая «правильная» интерпретация, о которой я говорил.

Байесовский метод в корне отличается от частотного. В не слишком формальном ключе его можно выразить следующим образом.

У нас есть некоторое изначальное представление о мире и его свойствах. Например, о среднем росте мужчин в России, мы можем достаточно уверенно сказать, что человека с ростом 180 см встретить довольно легко, а человека с ростом 210 см — гораздо сложнее.

Предположим, что 180 см и есть наш изначальный средний рост.

Далее, получая данные (опрашивая людей на улице), мы будем модифицировать наше изначальное представление, исходя из того, кто нам встретится. Если вдруг окажется, что людей с ростом 210 см очень много, мы скорректируем наше изначальное представление о среднем росте в сторону повышения. Например, со 180 до 190 см.

При этом, мы разумеется понимаем, что в таких расчетах также присутствует неопределенность, поэтому мы не будем говорить, что средний рост мужчин в России составляет ровно 190 см. Мы скажем, например, что с вероятностью 90% он находится в диапазоне от 187 до 193 см (цифры, конечно, приведены для примера).

Такой интервал по-английски называется credible interval. По-русски его называют байесовским доверительным интервалом, хотя, наверное, credible можно перевести как достоверный интервал, что лучше отразит его суть.

Это та «неправильная интерпретация», про которую я говорил. Конечно, неправильной я назвал ее только потому, что она относится к байесовскому методу, который на занятии рассмотрен не был.

Еще одна причина, почему я решил заострить на этом внимание, байесовской интерпретацией интервала часто подменяют частотную.

Это связано с тем, что интерпретация байесовского доверительного интервала (credible interval) более интуитивно понятна, здесь мы напрямую делаем предположение о значении истинного параметра.

Интерпретация частотного доверительного интервала (confidence interval) лишь указывает, как часто мы «захватим» истинный параметр, но ничего не говорит о его значении.

Вопрос.

(1) Поясните пожалуйста, как из вот этой цифры 9.035492171563733e−09 получилась вот такая вероятность 0.000000009?

(2) В строчке кода
t_statistic, p_value = st.ttest_1samp(height, 182). Что это за переменная t_statistic? Хотелось бы понять откуда она взялась. Я прорешал в Google Colab, t_statistic равен -5.797229652505048. Но что это за цифра и откуда берется абсолютно не ясно.

(3) И еще одно. Загнал данные в словарь, просто посчитать количество разных значений.

Получил, что 182 встречается аж 50 раз, в то время как 180 только 45 раз. Я правильно понял, что чем объем выборки больше, тем пиковые значения в выборке меньше влияют на все средние величины?

Ответ.

1) 9.035492171563733e-09 — это так называемая экспоненциальная запись (scientific notation). С ее помощью удобно записывать очень большие и очень малые числа. Для того чтобы преобразовать экспоненциальную запись в обычную, вы умножаете число до буквы e на 10 в степени числа после буквы e.

В данном случае $9.035492171563733 times 10^{-9}$. Так как число и так чрезвычайно мало, цифры после девяти можно отбросить. Получается 0.000000009.

2) Про t-statistic я планировал подробно рассказать на курсе по статистике вывода, так как тема довольно обширная, но попробую в общих чертах объяснить суть этого показателя.

Когда мы проводим статистический тест, нам нужно выбрать критерий (распределение), относительно которого мы будем тестировать нашу гипотезу. Опуская некоторые детали, скажу, что в данном случае мы выбрали распределение Стьюдента (его еще называют t-распределением). Это распределение в целом похоже на нормальное распределение Гаусса. Ниже привожу график функции плотности (probability density function) этого распределения. Обратите внимание, оно стандартизировано, чтобы иметь среднее арифметическое 0 и СКО 1.

Значения по оси x — t-критерий (t-statistic), площадь под кривой слева (или справа) от t-statistic — вероятность (p-value).

Так вот, проводя тест (в данном случае с помощью функции ttest_1samp()), мы получаем два значения, t-statistic и p-value, которые и показывают насколько на стандартизированном t-распределении встретившееся нам среднее значение выборки 180,2 см отличается от предполагаемого истинного среднего в 182 см.

Получившийся t-критерий равен −5.797229652505048. Отложите его по оси x. Как вы видите, показатель находится очень далеко от среднего и площадь под кривой слева от этого значения чрезвычайно мала. Отсюда и такое крошечное значение p-value.

Дополню, что так как в данном случае нулевая гипотеза утверждает, что рост составляет именно 182 см (а не меньше или больше 182 см), то нам нужно посчитать площадь слева от −5.797229652505048 и справа от 5.797229652505048 (то есть как бы два хвоста по краям симметричного распределения). Такой тест называется двусторонним (two-sided).

Для наглядности можно взять функцию распределения cdf() объекта t (t-распределение) библиотеки scipy (см. в конце ноутбука), которой мы передадим наше значение t-statistic и степени свободы (рассчитываются как количество наблюдений − 1). Эта функция посчитает площадь слева от −5.797229652505048. Умножив на два (чтобы учесть оба хвоста), мы как раз получим площадь (p-value) 9.035492171563733e-09.

Возможно, если вы в первый раз сталкиваетесь с частотной статистикой вывода (frequentist inferencial statistics), тема может показаться сложной. На самом деле все довольно интуитивно и логично. Опять же постараюсь пошагово разобрать это на курсе по статистике вывода.

3) Не уверен, что до конца понял ваши вопросы. Отвечу на них в соответствии со своим пониманием того, что вы спрашиваете.

Когда вы считаете количество каждого из значений распределения, то по большому счету ищете моду (наиболее часто встречающееся значение). И мода в выборке действительно равна 182 см. Она отличается от среднего арифметического (180,2 см), потому что распределение сгенерировано псевдослучайным образом, и это расхождение — элемент случайности. В теоретическом нормальном несмещенном распределении мода, медиана и среднее арифметическое конечно совпадают.

В том что касается размера выборки и выбросов, если вы спрашиваете в целом, то конечно, по мере того как размер выборки стремится к размеру генсовокупности, показатели выборки стремятся к истинным показателям. Сложность в том, что в большинстве случаев собрать выборку больше определенного размера не представляется возможным, и насколько репрезентативны имеющиеся данные наверняка мы не знаем.

Для того чтобы преодолеть это ограничение и нужна Центральная предельная теорема. Она утверждает, что если брать выборки из одной и той же генеральной совокупности, то показатели этих выборок (например, выборочные средние) будут нормально распределены и их среднее (то есть среднее средних) будет приближаться к истинному среднему показателю генеральной совокупности. В этом смысле, действительно, мы будем получать все менее смещенную оценку истинного показателя.

При этом опять же, и это важно, мы продолжаем оставаться в неведении относительно истинного распределения (то есть генеральной совокупности).

P.S. Помимо метода .get() для подсчета частоты элементов может быть удобно использовать модуль collections, привел пример в конце ноутбука.

Математическая статистика — это раздел математики, посвященный методам сбора, анализа и обработки статистических данных для научных и практических целей.

Статистические данные представляют собой данные, полученные в результате обследования большого числа объектов или явлений; следовательно, математическая статистика имеет дело с массовыми явлениями.

Методы анализа массовых явлений — предмет многих научных дисциплин; но только в том случае, когда для анализа привлекаются формальные (абстрактные) математические модели, эти методы становятся статистическими.

Современная математическая статистика подразделяется на две обширные области: описательную и аналитическую статистику. Описательная статистика охватывает методы описания статистических данных, представления их в форме таблиц, распределений и пр.

Аналитическая статистика называется также теорией статистических выводов. Ее предметом является обработка данных, полученных в ходе эксперимента, и формулировка выводов, имеющих прикладное значение для самых различных областей человеческой деятельности. Теория статистических выводов тесно связана с другой математической наукой — теорией вероятностей и базируется на ее математическом аппарату.

Содержание:

Введение в математическую статистику

Трудно найти современную область научных исследований, где бы не использовались методы математической статистики. В последнее время они нашли широкое применение в медицине, биологии, социологии, и спорте, т. е. в областях, сравнительно недавно считавшихся далекими от математики.

Чтобы понять роль математической статистики, достаточно рассмотреть типичную схему эксперимента. Специалист, занимающийся исследованиями в конкретной области (воспользуемся здесь термином «исследователь», обращаясь к деятельности научного работника), который предложил новый подход к решению определенной задачи, например новую методику, должен доказать справедливость своей рабочей гипотезы. Чаще всего единственное, что он может сделать для этой цели, — провести хорошо организованный эксперимент, результаты которого убедительно доказывают его предположения.

Традиционная схема эксперимента заключается в том, что набираются две группы испытуемых: контрольная и экспериментальная, примерно одинаковые по всем факторам, имеющим важное значение для цели исследования (пол, возраст, квалификация и т. п.). Контрольная группа подготавливается по традиционной методике, а экспериментальная — с применением предлагаемых нововведений. После определенного этапа подготовки проводится контрольное обследование и по его результатам судят об эффективности предлагаемой методики.

Конечно, на этапе формирования конкретных целей и задач эксперимента исследователь не нуждается в методах математической статистики. Здесь он является специалистом в своей области и оперирует принятыми там понятиями. Но уже на этапе отбора в контрольную и экспериментальную группы ему приходится сталкиваться с целым рядом новых для него вопросов. Какова должна быть численность групп и как должны отбираться кандидаты в эти группы? Можно ли утверждать, что по уровню подготовленности спортсмены в обеих группах одинаковы или уже на этапе отбора одна из групп существенно отличается от другой?

Дело в том, что исследователь обычно хочет знать, насколько достоверно результаты эксперимента, полученные им на группах ограниченного объема, можно обобщить для всех спортсменов данной квалификации. Интуитивно он понимает, что чем больше численность групп, тем убедительнее должны быть результаты эксперимента. Но увеличение численности групп связано с возрастанием организационных, материальных, временных и других затрат, поэтому понятно стремление уменьшить эти затраты. В общем виде ответить на вопрос о достаточности групп нельзя без анализа целей эксперимента, но, как правило, в каждом конкретном случае найти решение этой задачи можно с помощью формальных методов математической статистики. При отборе претендентов в контрольную и экспериментальную группы также применяются статистические методы, позволяющие исключить предвзятость и произвол и тем самым повысить достоверность результатов.

После проведения контрольных наблюдений исследователь получает фактический материал, представляющий собой, как правило, большой объем чистовых данных. Массив этих чисел трудно обозрим, и сделать какие-то конкретные выводы непосредственно по ним невозможно. Здесь используются методы описательной статистики, позволяющие провести классификацию первичных данных, представить их в наиболее наглядной форме и получить некоторые обобщающие показатели, которые дают возможность сравнивать между собой различные данные и делать определенные выводы.

В качестве обобщающих числовых показателей используются средние значения и характеристики варьирования (рассеяния) экспериментальных данных. Получив эти показатели для контрольной и экспериментальной групп, исследователь видит, что они различаются. Но возникает следующий вопрос: насколько достоверны эти различия? Можно ли объяснить наблюдаемое различие действием предложенных нововведений или это различие — случайность, обусловленная малым объемом фактических данных и сильной вариативностью испытуемых? Здесь не обойтись без применения математических методов проверки статистических гипотез..

Перечисленными вопросами не исчерпывается круг задач, решаемых при конкретных исследованиях с использованием методов математической статистики. Очень часто целью исследования является установление наличия и степени связи между спортивным результатом и определенными показателями тренированности, между силой мышц и скоростью их сокращения, между спортивным достижением в одном и другом видах спорта и т. п. Подобные задачи решаются методами корреляционного и регрессионного анализа.

Генеральная совокупность и выборка

Экспериментальные данные обычно представляют собой результаты измерения некоторых признаков (спортивный результат. и пр.) объектов, выбранных из большой совокупности объектов.

Часть объектов исследования, определенным образом выбранная из более обширной совокупности, называется выборкой, а исходная совокупность, из которой взята выборка, — генеральной (основной) совокупностью.

Всегда необходимо четко определять, что понимается под генеральной совокупностью. Ее состав и численность зависят от объектов и целей проводимого исследования. Объектами исследования, составляющими генеральную совокупность, являются в спорте обычно отдельные спортсмены. Если, например, самостоятельной задачей является обследование лиц, поступающих в данный институт в текущем году, то генеральная совокупность — все абитуриенты института этого года. Если мы хотим получить подобные данные для всех институтов страны, то абитуриенты данного института — уже выборка из более широкой генеральной совокупности — всех абитуриентов физкультурных вузов этого года.

Исследования, в которых участвуют все без исключения объекты, составляющие генеральную совокупность, называются сплошными исследованиями. Такие исследования нетипичны для спорта, где обычно используется выборочный метод. Суть его в том, что для обследования привлекается лишь выборка из генеральной совокупности, но по результатам этого обследования судят о свойствах всей генеральной совокупности. Конечно, для этого к выборке должны предъявляться определенные требования. Эти требования, а также правила отбора объектов генеральной совокупности в выборку обсуждаются в гл. 5.

Статистическая совокупность и статистические признаки

Все объекты (элементы), составляющие генеральную совокупность, должны иметь хотя бы один общий признак, позволяющий классифицировать объекты, сравнивать их друг с другом (пол, возраст, спортивная квалификация и т. п.). Наличие общего признака является основой для образования статистической совокупности. Таким образом, статистическая совокупность представляет собой результаты описания или измерения общих признаков объектов исследования.

Если статистическая совокупность получена в результате выборочного исследования, то она называется выборочной совокупностью, или просто выборкой. Под генеральной (статистической) совокупностью тогда подразумевается совокупность всех возможных значений признака в данном исследовании.

Важнейшая характеристика выборки — объем выборки, т. е. число элементов в ней. Объем выборки принято обозначать символом n. Относительно объема генеральной совокупности, обозначаемого N, как правило, делается предположение, что он бесконечно велик, т. е. выборка получается из бесконечной генеральной совокупности.

По одним признакам элементы генеральной совокупности могут полностью совпадать, значения же других признаков изменяются от одного элемента к другому. Например, объектами исследования могут быть представители одного вида спорта, одинаковой квалификации, одного пола и возраста, но различающиеся по силе мышц, быстроте реакции, показателям систем дыхания и кровообращения и т. д. Предметом изучения в статистике являются именно изменяющиеся (варьирующие) признаки, которые иногда называют статистическими признаками. Они делятся на качественные и количественные.

Качественные признаки — это признаки, которыми объект обладает либо не обладает. Они не поддаются непосредственному измерению (например, спортивная специализация, квалификация, национальность, территориальная принадлежность и т. п.).

Количественные признаки представляют собой результаты подсчета или измерения. В соответствии с этим они делятся на дискретные и непрерывные.

Дискретные признаки могут принимать лишь отдельные значения из некоторого ряда чисел, например число подтягиваний на перекладине, число попаданий и промахов при серии выстрелов и т. п.

Непрерывные признаки могут принимать любые значения в определенном интервале. Например, время прохождения дистанции, скорость движения, угол в суставе.

Отдельные числовые значения варьирующего признака называются вариантами. Варианты принято обозначать строчными латинскими буквами из конца алфавита: х, у, z.

Причины варьирования признаков

Признаки варьируют под воздействием большого числа различных факторов. Лишь небольшую часть этих факторов удается контролировать в процессе исследования. Пусть, например, изучаемым признаком в нашем исследовании является спортивный результат в каком-либо виде спорта. Основные факторы, определяющие спортивный результат испытуемых, нам известны (контролируются), в противном случае наше исследование лишено смысла. К числу контролируемых факторов относятся пол, возраст, спортивная квалификация, программа специальной подготовки и ряд других. Но всегда остается большое число факторов, не поддающихся контролю (влияние погодных условий, эмоциональное состояние испытуемых, мотивация и т. п.). Предсказать влияние таких неучтенных факторов на спортивный результат невозможно, поэтому наблюдаемые значения результатов оказываются случайными, а факторы, обусловливающие случайное поведение изучаемого признака, называются случайными факторами. Все перечисленные факторы (контролируемые и случайные) естественным образом определяют значение спортивного результата, поэтому их можно назвать естественными причинами варьирования результатов.

Помимо естественных причин варьирования результатов на их значения оказывают влияние ошибки измерения, которые складываются из систематических погрешностей измерительных приборов, личных ошибок исследователя (описки, пропуски и т. п.) и случайных ошибок измерения. Природа и величина случайных ошибок могут быть различными в зависимости от физических принципов, используемых в измерительных приборах. Систематические приборные погрешности могут быть в принципе уменьшены до пренебрежимо малого уровня с помощью совершенных измерительных средств. Личные ошибки исследователя зависят от его опыта и внимания и принципиально также могут быть исключены.

Случайные ошибки остаются и вместе с естественными факторами варьирования сказываются на значениях признака.

Однако, как правило, в практике спортивных измерений случайные ошибки измерения существенно меньше величины естественного варьирования признака, поэтому будем считать, что варьирование результатов измерения признака обусловлено только естественным варьированием изучаемого признака.

Эмпирические распределения

В этой лекции рассматриваются методы построения эмпирических распределений, т. е. распределений элементов выборки по значениям изучаемого признака. Построение эмпирических распределений — необходимый этап применения статистических методов.

Здесь и далее выборочные исследования будем называть «эксперимент». При рассмотрении конкретных примеров суть эксперимента будет поясняться. Выборочные данные, полученные в ходе эксперимента, будут соответственно экспериментальными (эмпирическими) данными.

По эмпирическим данным, представляющим собой выборку из некоторой генеральной совокупности, оцениваются параметры, позволяющие описать всю генеральную совокупность, определяется интервал, в котором с заданным уровнем доверия находится истинное значение оцениваемого параметра, а затем проверяются те или иные утверждения и делаются выводы о свойствах всей генеральной совокупности.

Эти методы будут рассмотрены в последующих лекциях, и, как мы увидим, их применение всегда связано с выбором подходящей математической модели для описания свойств генеральной совокупности. Правомерность использования любого статистического метода основана на предположении, что генеральная совокупность соответствует выбранной математической модели. Это предположение должно быть сделано до проведения эксперимента, однако, как правило, для обоснованного предположения не хватает информации, и тогда выбор математической модели производится на основе построения и анализа эмпирических распределений. Поэтому необходимо прежде всего уметь строить эмпирические распределения, чтобы правильно применять методы математической статистики.

Табличное представление экспериментальных данных. Вариационные ряды

Как правило, необработанные (первичные) экспериментальные данные представлены в виде неупорядоченного набора чисел, записанных исследователем в порядке их поступления. Этот набор данных трудно обозрим, и сделать по ним какие-то выводы невозможно. Поэтому первичные данные нуждаются в обработке, которая всегда начинается с их группировки.

Группировка представляет собой процесс систематизации, или упорядочения, первичных данных с целью извлечения содержащейся в них информации. Группировка выполняется различными методами в зависимости от целей исследования, вида изучаемого признака и количества экспериментальных данных (объема выборки), но наиболее часто группировка сводится к представлению данных в виде статистических таблиц.

Рассмотрим группировку на конкретном примере.

В табл. 2.1 приведены экспериментальные данные, представляющие собой результаты в беге на 100 м, показанные группой школьников — юношей IX классов (50 человек).Математическая статистика - примеры с решением заданий и выполнение задач

В этом примере выборка представляет собой 50 измеренных значений признака (результатов в беге на 100 м), т.е. объем выборки n =50. Как видим, уже при таком сравнительно небольшом объеме выборки таблица исходных данных становится трудно обозримой, поэтому и используется группировка как прием систематизации экспериментальных данных.

Группировка заключается в распределении вариант выборки по группам, или интервалам группировки, каждый из которых содержит некоторый диапазон значений изучаемого признака.

Первая задача, которую необходимо решить при группировке, состоит в том, чтобы разбить весь диапазон варьирования признака в выборке (между минимальной й максимальной вариантами выборки) на интервалы группировки. Эта задача требует определения числа интервалов группировки и ширины каждого из них. Обычно предпочтительны интервалы одинаковой ширины, а при выборе числа интервалов исходят из следующих соображений.

Группировка производится для того, чтобы построить эмпирическое распределение и сформировать с его помощью предположения о форме распределения изучаемого признака в генеральной совокупности, из которой взята выборка.

При увеличении числа интервалов группировки и, следовательно, при сужении каждого из них уменьшается число экспериментальных данных, попадающих в каждый интервал. Поскольку выборочные значения случайны, они случайным образом распределяются по интервалам группировки, поэтому картина эмпирического распределения будет содержать много случайных деталей, что мешает установить общие закономерности варьирования признака.

И наоборот, при чрезмерно широких интервалах группировки нельзя получить детальной картины распределения, поэтому возникает опасность упустить важные закономерные подробности формы распределения.

Поэтому вопрос о выборе числа и ширины интервалов группировки приходится решать в каждом конкретном случае исходя из целей исследования, объема выборки и степени варьирования признака в выборке. Однако приближенно число интервалов k можно оценить исходя только из объема выборки n. Делается это одним из следующих способов:

1) по формуле Стерджеса:

Математическая статистика - примеры с решением заданий и выполнение задач

2) с помощью табл. 2.2.

Математическая статистика - примеры с решением заданий и выполнение задач

Вернемся к нашему примеру и воспользуемся рекомендациями табл. 2.2 для выбора числа интервалов группировки. Для объема выборки n = 50 принимаем k — 7. Заметим, что расчет по формуле Стерджеса дает k = 6,6.

Если число интервалов выбрано, то ширина каждого из них определяется по следующей формуле:

Математическая статистика - примеры с решением заданий и выполнение задач

где h — ширина интервалов;Математическая статистика - примеры с решением заданий и выполнение задач — максимальная и минимальная варианты выборки.

Математическая статистика - примеры с решением заданий и выполнение задачнаходятся непосредственно по таблице исходных данных (табл. 2.1.).

Для рассматриваемого примера

Математическая статистика - примеры с решением заданий и выполнение задач

Поскольку исходные данные определены с точностью 0,1 с, то нет никакого смысла в более точном вычислении h, поэтому округлим найденное значение ширины интервалов с учетом требуемой точности. Обычно округление производится в сторону увеличения, чтобы не уменьшать общий диапазон варьирования признака. С учетом этих замечаний принимаем h = 0,8 с.

Теперь остается наметить границы интервалов группировки. Нижняя граница первого интервала выбирается так, чтобы минимальная варианта выборки Математическая статистика - примеры с решением заданий и выполнение задач попадала примерно в середину этого интервала. Отсюда нижняя граница первого интервала определяется как

Математическая статистика - примеры с решением заданий и выполнение задач

О 8

Для нашего примера Математическая статистика - примеры с решением заданий и выполнение задач

Прибавив к этой величине ширину интервала, найдем нижнюю границу второго интервалаМатематическая статистика - примеры с решением заданий и выполнение задач Это будет одновременно и верхняя граница Математическая статистика - примеры с решением заданий и выполнение задач предыдущего (первого) интервала.

Аналогично находим Математическая статистика - примеры с решением заданий и выполнение задач и т. д. для всех семи интервалов.

После того как намечены границы всех интервалов, остается распределить по этим интервалам выборочные варианты. Однако при этом возникает следующий вопрос: как поступать в тех случаях, если какая-либо из вариант попадает точно на границу соседних интервалов группировки, т. е. варианта совпадает с нижней границей одного и верхней границей соседнего с ним интервала? Такие варианты могут быть с одинаковыми основаниями отнесены к любому из соседних интервалов, и, чтобы исключить неопределенность такой ситуации, уменьшим верхние границы всех интервалов на величину, равную точности измерения признака (в нашем примере на 0,1 с).

Для удобства последующей обработки сгруппированных данных вычислим срединные значения интервалов группировки Математическая статистика - примеры с решением заданий и выполнение задач, которые отстоят от нижних границ на величину, равную половине ширины интервалов, т. е.Математическая статистика - примеры с решением заданий и выполнение задач

где Математическая статистика - примеры с решением заданий и выполнение задач — нижняя граница Математическая статистика - примеры с решением заданий и выполнение задач-го интервала.

Теперь можно приступать к заполнению статистической таблицы. Для этого заготовим таблицу, состоящую из 8 столбцов, назначение которых поясним по ходу изложения (табл. 2.3).

Заполняем вначале 3 первых столбца таблицы. В первом столбце содержится номер интервала группировки, во втором —.границы, а в третьем — срединные значения интервалов.

Далее на основании таблицы первичных данных (см. табл. 2.1) заполняем четвертый столбец. Этот столбец необязателен, но он обеспечивает удобство составления статистической таблицы и позволяет избежать возникающих при этом ошибок. Его назначение в том, чтобы упростить распределение вариант выборки по интервалам группировки. Имея перед собой таблицу исходных данных (табл. 2.1), условными значками, например черточками, отмечаем повторяемость вариант в каждом интервале, т. е. по порядку для каждого из чисел, представленных в таблице исходных данных, ставим условный значок в строке табл. 2.3, соответствующей интервалу группировки, в который это число попадает. Для удобства последующего подсчета условные значки по мере накопления объединяем в группы (в табл. 2.3 принято объединение в группы по 5).

После того как исходные данные будут исчерпаны, остается подсчитать число условных значков в каждой строке табл. 2.3. Получившиеся числа записываем в пятый столбец таблицы. Они имеют в статистике определенное название. Числа, показывающие, сколько раз варианты, относящиеся к каждому интервалу группировки, встречаются в выборке, называются частотами интервалов.

Обозначим частоты символом Математическая статистика - примеры с решением заданий и выполнение задач. Общая сумма всех частот всегда равна объему выборки п, что можно использовать для проверки правильности составления статистической таблицы.

Прежде чем продолжить заполнение статистической таблицы, дадим ряд определений.

Накопленная частота интервала — это число, полученное последовательным суммированием частот в направлении от первого интервала к последнему, до того интервала включительно, для которого определяется накопленная частота. Накопленные частоты обозначим Математическая статистика - примеры с решением заданий и выполнение задач

Частостью (относительной частотой) называется отношение частоты к объему выборки. Обозначим частости символом Математическая статистика - примеры с решением заданий и выполнение задач

Математическая статистика - примеры с решением заданий и выполнение задач

Накопленной частостью называется отношение накопленной частоты к объему выборки.

Обозначив накопленную частность как Математическая статистика - примеры с решением заданий и выполнение задач-, получаем:

Математическая статистика - примеры с решением заданий и выполнение задач

Сумма всех частостей всегда равна 1.

Накопленные частоты для рассматриваемого примера приведены в столбце 6 табл. 2.3, частости — в столбце 7, а накопленные частости — в столбце 8.

Следует отметить, что в таком полном виде статистическая таблица необходима далеко не всегда. Часто бывает достаточным ограничиться подсчетом частот. Но остальные данные Математическая статистика - примеры с решением заданий и выполнение задач бывают полезны при последующем анализе результатов эксперимента, о чем речь пойдет ниже.

Табличное представление данных о результатах в беге на 100 мМатематическая статистика - примеры с решением заданий и выполнение задач

В заключение этого раздела дадим очень важное определение вариационного ряда.

Вариационным рядом называется двойной числовой ряд, показывающий, каким образом численные значения изучаемого признака связаны с их повторяемостью в выборке. Вариационные ряды имеют большое значение при статистической обработке экспериментальных данных, поскольку дают наглядное представление о характерных особенностях варьирования признака.

Вариационные ряды бывают интервальными и безынтервальными.

В интервальном вариационном ряду частоты (или частости), характеризующие повторяемость вариант в выборке, распределяются по интервалам группировки. В рассмотренном выше примере интервальный вариационный ряд представлен столбцами 3 и 5 (или 3 и 7) табл. 2.3. Интервальный вариационный ряд строится, если изучаемый признак варьирует непрерывно, но используется и для дискретно варьирующих признаков в тех случаях, когда признак варьирует в широких пределах.

В безынтервальном вариационном ряду частоты (или частости) распределяются непосредственно по значениям варьирующего признака. Для построения безынтервального вариационного ряда необходимо варианты выборки расположить в порядке возрастания или убывания (проранжировать) и затем подсчитать, сколько раз каждая из них встречается в выборке. Безынтервальный вариационный ряд применяется в тех случаях, когда исследуемый признак варьирует дискретно и слабо.

Пусть, например, при подсчете количества подтягиваний на перекладине для группы испытуемых получены данные, значения которых лежат в диапазоне от 10 до 15. Таким образом, данная выборка содержит всего шесть вариант: 10, 11, 12, 13, 14, 15. В этом случае сами варианты играют роль интервалов группировки и остается только подсчитать, сколько раз каждая из них встречается в выборке.

Графическое представление экспериментальных данных

Для повышения наглядности эмпирических распределений используется их графическое представление. Наиболее распространенными способами графического представления являются гистограмма, полигон частот и полигон накопленных частот (кумулята).

Гистограмма

Гистограмма используется для графического представления распределений непрерывно варьирующих признаков и состоит из примыкающих друг к другу прямоугольников, как показано на рис. 2.1. Основание каждого прямоугольника равно ширине интервала группировки, а высота его такова, что площадь прямоугольника пропорциональна частоте (или частости) попадания в данный интервал. Таким образом, высоты прямоугольников должны быть пропорциональны величинам

Математическая статистика - примеры с решением заданий и выполнение задач

где Математическая статистика - примеры с решением заданий и выполнение задач,-—частота Математическая статистика - примеры с решением заданий и выполнение задач-го интервала группировки; hi — ширина Математическая статистика - примеры с решением заданий и выполнение задач-ro интервала группировки.

На графике гистограммы основание прямоугольников откладывается по оси абсцисс (х), а высота — по оси ординат (у) прямоугольной системы координат.

Однако в тех случаях, когда ширина всех интервалов группировки одинакова, вид гистограммы не изменится, если по оси ординат откладывать не величины Математическая статистика - примеры с решением заданий и выполнение задач, а частоты интервалов Математическая статистика - примеры с решением заданий и выполнение задач

Математическая статистика - примеры с решением заданий и выполнение задач

На рис. 2.1, а представлена гистограмма распределения результатов в беге на 100 м, построенная по данным табл. 2.3. При группировке в табл. 2.3 были приняты интервалы одинаковой ширины, поэтому на гистограмме по оси ординат отложены частоты интервалов Математическая статистика - примеры с решением заданий и выполнение задач Заметим, что в табл. 2.3 мы искусственно уменьшили верхние границы всех интервалов группировки на 0,1 с единственной целью — исключить неоднозначность в распределении вариант, попадающих точно на границы соседних интервалов. При графическом представлении распределений в таком уменьшении верхних границ уже нет никакого смысла, поэтому на гистограмме рис. 2.1, а верхние границы интервалов совпадают с нижними границами соседних интервалов.

Продемонстрируем построение гистограммы для случаев, когда ширина некоторых интервалов группировки неодинакова. Объединим в табл. 2.3 два интервала, имеющих границы (14,8—15,6) и (15,6—16,4). Ширина такого объединенного интервала будет вдвое больше ширины остальных интервалов. Поэтому, чтобы не нарушить принцип построения гистограммы (площади прямоугольников пропорциональны частотам интервалов), по оси ординат уже нельзя откладывать частоты, а высоты прямоугольников должны быть пропорциональны отношениямМатематическая статистика - примеры с решением заданий и выполнение задач . Гистограмма, полученная в результате такого объединения интервалов, приведена на рис. 2.1, б.

Полигон частот

Другим распространенным способом графического представления является полигон частот.

Полигон частот образуется ломаной линией, соединяющей точки, соответствующие срединным значениям интервалов группировки и частотам этих интервалов,

Срединные значения откладываются по оси х, а частоты — по оси у.

Из сравнения двух рассмотренных способов графического представления эмпирических распределений следует, что для получения полигона частот из построенной гистограммы нужно середины вершин прямоугольников, образующих гистограмму, соединить отрезками прямых. Полигон частот для рассмотренного выше примера с результатами в беге на 100 м (данные табл. 2.3) представлен на рис. 2.2.

Математическая статистика - примеры с решением заданий и выполнение задач

Полигон частот используется для представления распределений как непрерывных, так и дискретных признаков. В случае непрерывного распределения полигон частот является более предпочтительным способом графического представления, чем гистограмма, если график эмпирического распределения описывается плавной зависимостью.

Полигон накопленных частот

Полигон накопленных частот (к у м у-л я т а) получается при соединении отрезками прямых точек, координаты которых соответствуют верхним границам интервалов группировки и накопленным частотам. Если по оси ординат откладывать накопленные частости, то полученный график называется полигоном на. полигон накопленных частот результатов в беге на 100 м (данные табл. 2.3) приведен на рис. 2.3.

На практике полигон накопленных частот используется в основном для представления дискретных данных. Ему свойственна более плавная форма, чем у гистограммы или полигона частот.

Математическая статистика - примеры с решением заданий и выполнение задач

Данное свойство и позволяет иногда отдавать предпочтение этому способу графического представления эмпирических распределений.

Числовые характеристики выборки

Вариационные ряды и графики эмпирических распределений дают наглядное представление о том, как варьирует признак в выборочной совокупности. Но они недостаточны для полной характеристики выборки, поскольку содержат много деталей, охватить которые невозможно без применения обобщающих числовых характеристик.

Числовые характеристики выборки дают количественное представление об эмпирических данных и позволяют сравнивать их между собой. Наибольшее практическое значение имеют характеристики положения, рассеяния и асимметрии эмпирических распределений.

В этой лекции рассматриваются характеристики положения и рассеяния, а также практические методы их вычисления. Характеристики асимметрии будут рассмотрены в гл. 6 применительно к проверке гипотез о виде распределения генеральной совокупности.

Характеристики положения

В этом разделе рассмотрены характеристики положения, определяющие положение центра эмпирического распределения. Чаще всего употребляются такие характеристики положения, как среднее арифметическое, медиана и мода.

Среднее арифметическое

Среднее арифметическое, или просто среднее, — одна из основных характеристик выборки. Оно представляет собой такое значение признака, сумма отклонений от которого выборочных значений признака равна нулю (с учетом знака отклонения).

Если воспользоваться геометрической интерпретацией, то среднее арифметическое можно определить как точку на оси х, которая является абсциссой центра масс гистограммы.

Среднее принято обозначать той же буквой, что и варианты выборки, с той лишь разницей, что над буквой ставится символ усреднения — черта. Например, если обозначить исследуемый признак через X, а его числовые значения — через Математическая статистика - примеры с решением заданий и выполнение задач то среднее арифметическое имеет обозначение х.

Среднее арифметическое, как и другие числовые характеристики выборки, может вычисляться как по необработанным первичным данным, так и по результатам группировки этих данных. Точность вычисления по необработанным данным всегда выше, но процесс вычисления оказывается трудоемким при большом объеме выборки.

Для несгруппированных данных среднее арифметическое определяется по следующей формуле:

Математическая статистика - примеры с решением заданий и выполнение задач

где n — объем выборки; Математическая статистика - примеры с решением заданий и выполнение задач — варианты выборки; Математическая статистика - примеры с решением заданий и выполнение задач обозначение суммы n чисел Математическая статистика - примеры с решением заданий и выполнение задач, где индекс i (порядковый номер) суммируемых чисел пробегает значения от 1 до п (1, 2, …, n).

Если данные сгруппированы, то

Математическая статистика - примеры с решением заданий и выполнение задач

где n — объем выборки; k — число интервалов группировки;Математическая статистика - примеры с решением заданий и выполнение задач — частоты интервалов; Математическая статистика - примеры с решением заданий и выполнение задач— срединные значения интервалов.

Среднее арифметическое, вычисленное по формуле (3.2), называют также взвешенным средним, подчеркивая этим, что в формуле (3.2) Математическая статистика - примеры с решением заданий и выполнение задач суммируются с коэффициентами (весами), равными частотам попадания в интервалы группировки.

Пример 3.1.

В качестве одного из тестов для оценки уровня физической подготовленности студентов 1-го курса технического вуза были выбраны прыжки в длину с места. Результаты контрольной группы студентов в количестве 15 человек оказались следующими (в см):

  • 212 223 225 208 230 216 241 202
  • 235 225 228 252 237 246 219

Математическая статистика - примеры с решением заданий и выполнение задач

Требуется определить средний результат в контрольной группе.

По формуле (3.1) находим

Математическая статистика - примеры с решением заданий и выполнение задач

В приведенном примере значение среднего арифметического вычислено приближенно, с округлением до значащей цифры, соответствующей точности измерения признака. Вопрос о том, с какой же точностью необходимо вычислять среднее, здесь подробно рассматривать не будем.).

Пример 3.2.

Вычислим среднее арифметическое результатов в беге на 100 м для экспериментальных данных, сгруппированных в табл. 2.3. Для наглядности промежуточные результаты расчетов приведены в табл. 3.1.

Среднее, рассчитанное по формуле (3.2), оказывается равным

Математическая статистика - примеры с решением заданий и выполнение задач

Медиана

Медианой (Me) называется такое значение признака X, когда одна половина значений экспериментальных данных меньше ее, а вторая половина — больше.

Собственно, этим и ограничивается смысловое значение медианы. Широкое использование этой характеристики на практике объясняется простотой ее вычисления и независимостью от формы распределения эмпирических данных.

Если данных немного (объем выборки невелик), медиана вычисляется очень просто. Для этого выборку ранжируют, т. е. располагают данные в порядке возрастания или убывания, и в ранжированной выборке, содержащей n членов, ранг R (порядковый номер) медианы определяется как

Математическая статистика - примеры с решением заданий и выполнение задач

Пусть, например, имеется ранжированная выборка, содержащая нечетное число членов n = 9: 12 14 14 18 20 22 22 26 28. Тогда ранг медианы и медиана, обозначаемая символом Me, совпадает с пятым членом ряда: Me = 20.

Математическая статистика - примеры с решением заданий и выполнение задач

Если выборка содержит четное число членов, то медиана не может быть определена столь однозначно. Например, получен ряд из 10 членов: 6 8 10 12 14 16 18 20 22 24.

Ранг медианы оказывается равным

Математическая статистика - примеры с решением заданий и выполнение задач

Медианой в этом случае может быть любое число между 14 и 16 (5-м и 6-м членами ряда). Для определенности принято считать в качестве медианы среднее арифметическое этих значений, т. е.

Математическая статистика - примеры с решением заданий и выполнение задач

Если необходимо найти медиану для сгруппированных данных, то поступают следующим образом.

Вначале находят интервал группировки, в котором содержится медиана, путем подсчета накопленных частот или накопленных частостей. Медианным будет тот интервал, в котором накопленная частота впервые окажется больше n/2 (n — объем выборки) или накопленная частость — больше 0,5. Внутри медианного интервала медиана определяется по следующей формуле:Математическая статистика - примеры с решением заданий и выполнение задач

где Математическая статистика - примеры с решением заданий и выполнение задач — нижняя граница медианного интервала; Математическая статистика - примеры с решением заданий и выполнение задач— половина объема выборки; h — ширина интервалов группировки; Математическая статистика - примеры с решением заданий и выполнение задач — накопленная частота интервала, предшествующего медианному; Математическая статистика - примеры с решением заданий и выполнение задач— частота медианного интервала.

В качестве примера найдем медиану для экспериментальных данных, представленных в табл. 2.3. Медиана содержится в интервале (14,8; 15,6), которому соответствует накопленная частота 27 n/2 = 25. По формуле (3.3) находим

Математическая статистика - примеры с решением заданий и выполнение задач

Определив медиану, мы тем самым нашли, что в группе испытуемых одна половина бегунов показала результат лучше 15,5 с, а другая — хуже.

Как видим, медиана несколько отличается от ранее найденного среднего арифметического. Так бывает всегда, когда имеет место несимметричная форма эмпирического распределения.

Для тех случаев, когда эмпирическое распределение оказывается сильно асимметричным, среднее арифметическое теряет свою практическую ценность, поскольку при этом значительно большая часть значений признака оказывается выше или ниже среднего арифметического. В этой ситуации медиана представляет собой лучшую характеристику центра распределения.

Мода

Мода (Мо) представляет собой значение признака, встречающееся в выборке наиболее часто.

Интервал группировки с наибольшей частотой называется модальным.

Для определения моды используется следующая формула:Математическая статистика - примеры с решением заданий и выполнение задач

где Математическая статистика - примеры с решением заданий и выполнение задач— нижняя граница модального интервала; h — ширина интервала группировки; Математическая статистика - примеры с решением заданий и выполнение задач — частота модального интервала; Математическая статистика - примеры с решением заданий и выполнение задач —частота интервала, предшествующего модальному;Математическая статистика - примеры с решением заданий и выполнение задач—частота интервала, следующего за модальным.

Для данных табл. 2.3 имеем: Математическая статистика - примеры с решением заданий и выполнение задач

Математическая статистика - примеры с решением заданий и выполнение задач с, т. е. наибольшее число бегунов в исследуемой группе показали результат, близкий к 15,7 с.

На рис. 3.1 представлена гистограмма распределения результатов в беге на 100 м с нанесенными на нее средним арифметическим, медианой и модой. Из приведенного графика видно, что указанные характеристики положения отличаются друг от друга. Это свидетельствует об асимметрии эмпирического распределения. Вообще, среднее, медиана и мода совпадают только в том случае, если распределение унимодальное (с одним максимумом) и симметричное. Чем больше распределение отличается от симметричного, тем сильнее различие между этими характеристиками.

Математическая статистика - примеры с решением заданий и выполнение задач

Характеристики рассеяния

Средние значения не дают полной информации о варьирующем признаке. Нетрудно представить себе два эмпирических распределения, у которых средние одинаковы, но при этом у одного из них значения признака рассеяны в узком диапазоне вокруг среднего, а у другого — в широком. Поэтому наряду со средними значениями вычисляют и характеристики рассеяния выборки. Рассмотрим наиболее употребительные из них.

Размах вариации

Размах вариации вычисляется как разность между максимальной и минимальной вариантами выборки:

Математическая статистика - примеры с решением заданий и выполнение задач

Как видим, размах вычисляется очень просто, и в этом его главное и единственное достоинство. Информативность этого показателя невелика. Можно привести очень много распределений, сильно отличающихся по форме, но имеющих одинаковый размах. Не будем здесь подробно останавливаться на особенностях применения данного показателя, укажем лишь, что размах вариации используется иногда в практических исследованиях при малых (не более 10) объемах выборки. Например, по размаху вариации легко оценить, насколько различаются лучший и худший результаты в группе спортсменов. При больших объемах выборки к его использованию надо относиться с осторожностью.

Дисперсия и стандартное отклонение

Дисперсия и стандартное отклонение являются важнейшими характеристиками рассеяния.

Дисперсией называется средний квадрат отклонения значений признака от среднего арифметического. Дисперсия, вычисляемая по выборочным данным, называется выборочной дисперсией и обознача-ется Математическая статистика - примеры с решением заданий и выполнение задач

Выборочную дисперсию вычисляют по приведенным ниже формулам:

Для несгруппированных даных:

Математическая статистика - примеры с решением заданий и выполнение задач

В этой формуле Математическая статистика - примеры с решением заданий и выполнение задач— сумма квадратов отклонений значений признака Х{ от среднего арифметического х. Для получения среднего квадрата отклонений эта сумма поделена на объем выборки n.

Для сгруппированных в интервальный вариационный ряд данных:

Математическая статистика - примеры с решением заданий и выполнение задач

Здесь Математическая статистика - примеры с решением заданий и выполнение задач ~ срединные значения интервалов группировки;

а

Математическая статистика - примеры с решением заданий и выполнение задач—взвешенная сумма квадратов отклонений.

На практике выборочная дисперсия в виде (3.5) или (3.6) вычисляется редко, а вместо этих формул используются следующие.

Для несгруппированных данных:

Математическая статистика - примеры с решением заданий и выполнение задач

Для данных, сгруппированных в интервалы:

Математическая статистика - примеры с решением заданий и выполнение задач

Различие этих формул лишь в том, что в последних деление сумм квадратов отклонений производится не на объем выборки п, как того требует вычисление среднего квадрата, а на n — 1. Смысл этого уточнения будет ясен из гл. 5 (см. замечание 1 к гл. 5).

Стандартным отклонением (или средним квадратическим отклонением) называется положительный корень квадратный из дисперсии:

Математическая статистика - примеры с решением заданий и выполнение задач

Размерность стандартного отклонения в отличие от размерности дисперсии совпадает с единицами измерения варьирующего признака, поэтому в практической статистике для характеристики рассеяния используют обычно стандартное отклонение, а не дисперсию.

Вычисление дисперсии и стандартного отклонения непосредственно по формулам (3.7) — (3.9) неудобно по следующим причинам:

  1. При вычислении суммы квадратов отклонений приходится каждый раз вычитать из значений признака (или срединных значений интервалов) Математическая статистика - примеры с решением заданий и выполнение задач предварительно вычисленное х, а затем возводить полученные разности в квадрат. При ручных методах вычислений это вызывает трудности, особенно в случаях многоразрядных значений xi.
  2. Среднее арифметическое Математическая статистика - примеры с решением заданий и выполнение задач, входящее в эти формулы, обычно вычисляется с некоторой погрешностью округления. Она приводит к накоплению ошибки округления результатов (дисперсии и стандартного отклонения). Опасность существенных ошибок округления увеличивается с увеличением объема выборки.

Поэтому на практике используют другие расчетные формулы, более удобные как для ручных расчетов, так и для вычислений на ЭВМ.

Для несгруппированных данных Математическая статистика - примеры с решением заданий и выполнение задач

или

Математическая статистика - примеры с решением заданий и выполнение задач

Соответственно, если данные сгруппированы

Математическая статистика - примеры с решением заданий и выполнение задач

Приведенные формулы легко получаются из исходных выражений (3.7), (3.8), если в последних раскрыть квадрат разности под знаком суммы. Читателю предлагается проверить справедливость формул (3.10) — (3.13) самостоятельно.

Формулы (3.10) и (3.12) применяются для определения дисперсии, если среднее арифметическое уже вычислено. При этом следует иметь в виду, что при подстановке х в эти формулы его значение не следует округлять, иначе результат может получиться с большой ошибкой.

Формулы (3.11) и (3.13) используются в тех случаях, когда среднее и дисперсия вычисляются одновременно.

Пример 3.3.

Рассмотрим вначале пример вычисления характеристик рассеяния по несгруппированным первичным данным. Воспользуемся данными примера 3.1 и найдем дисперсию и стандартное отклонение результатов в прыжках в длину с места для контрольной группы студентов.

Таблица 3.3Математическая статистика - примеры с решением заданий и выполнение задач

По формуле (3.11) получаем:Математическая статистика - примеры с решением заданий и выполнение задачМатематическая статистика - примеры с решением заданий и выполнение задач

Стандартное отклонение составит:Математическая статистика - примеры с решением заданий и выполнение задач

Промежуточные расчеты приведены в табл. 3.3.

Пример3.4

Математическая статистика - примеры с решением заданий и выполнение задач

В качестве примера расчета для сгруппированных данных найдем дисперсию и стандартное отклонение результатов в беге на 100 м по данным табл. 2.3.

Взвешенная сумма квадратов срединных значений интервалов группировки на основании расчетов в табл. 3.4 составит:

Математическая статистика - примеры с решением заданий и выполнение задач

Взвешенная сумма срединных значений Математическая статистика - примеры с решением заданий и выполнение задач По формуле (3.13) Математическая статистика - примеры с решением заданий и выполнение задач Отсюда стандартное отклонение Математическая статистика - примеры с решением заданий и выполнение задач

Коэффициент вариации

Стандартное отклонение выражается в тех же единицах измерения, что и характеризуемый им признак. Если требуется сравнить между собой степень варьирования признаков, выраженных в разных единицах измерения, возникают определенные неудобства. Пусть, например, результаты в беге на 100 м, показанные группой IX классов, имеют стандартное отклонение 0,9 с (данные примера 3.4), а исследование роста тех же учащихся показывает, что его стандартное отклонение составляет 6 см (при среднем росте 168 см). Какой из признаков варьирует сильнее? Очевидно, что только на основании сравнения стандартных отклонений на этот вопрос ответить нельзя. Требуется сопоставить стандартные отклонении со средними арифметическими этих признаков. Поэтому вводится относительный показатель называемый коэффициентом вариации.

Математическая статистика - примеры с решением заданий и выполнение задач

Обычно он выражается в процентном отношении:

Математическая статистика - примеры с решением заданий и выполнение задач

Коэффициент вариации является относительной мерой рассеяния признака.

Для рассматриваемых примеров:

Математическая статистика - примеры с решением заданий и выполнение задач

Как видим, результаты в беге на основании полученных выборочных данных варьируют сильнее, чем рост учащихся.

Коэффициент вариации используется и как показатель однородности выборочных наблюдений. По данным 18], считается, что если коэффициент вариации не превышает 10%, то выборку можно считать однородной, т. е. полученной из одной генеральной совокупности.

Однако к использованию коэффициента вариации нужно подходить с осторожностью. Продемонстрируем возможные ошибки на следующем примере. Если на основании многолетних наблюдений среднее арифметическое среднесуточных температур 8 марта составляет в какой-либо местности 0°С, то по формуле (3.14) получим бесконечный коэффициент вариации независимо от разброса температур. Поэтому в данном случае коэффициент вариации не применим в качестве показателя рассеяния температур, а специфику явления более объективно оценивает стандартное отклонение S.

Коэффициент вариации можно использовать как относительную меру рассеяния только в тех случаях, когда значения признака измерены в шкале с абсолютным нулем.

Практически коэффициент вариации применяется в основном для сравнения выборок из однотипных генеральных совокупностей.

Упрощенные методы вычисления среднего арифметического, дисперсии и стандартного отклонения

В тех случаях, когда экспериментальные данные х, представлены большим числом значащих цифр, вычисление среднего арифметического, и особенно дисперсии и стандартного отклонения, усложняется наличием громоздких операций над многоразрядными числами (см. примеры 3.3 и 3.4). Конечно, эти трудности становятся несущественными, если для статистических расчетов применяются ЭВМ. Но в тех случаях, когда возникает необходимость в ручных вычислениях, полезно помнить элементарные правила, позволяющие существенно упростить расчеты. Кроме того, рассмотренные ниже методы позволяют упростить обработку данных и при использовании вычислительных средств за счет упрощения процедуры ввода данных с клавиатуры ЭВМ или калькулятора. Это уменьшает затраты времени и число допускаемых при вводе ошибок.

Эти методы основаны на следующих математических свойствах среднего арифметического и дисперсии.

1. Если вычесть из всех выборочных значений Математическая статистика - примеры с решением заданий и выполнение задач любое постоянное число хо, т. е. заменить исходные данные Математическая статистика - примеры с решением заданий и выполнение задач на новые значения Математическая статистика - примеры с решением заданий и выполнение задач путем преобразования

Математическая статистика - примеры с решением заданий и выполнение задач

и найти среднее арифметическое Математическая статистика - примеры с решением заданий и выполнение задач и дисперсию Математическая статистика - примеры с решением заданий и выполнение задач для преобразованных данных Математическая статистика - примеры с решением заданий и выполнение задач то эти характеристики будут связаны со средним арифметическим х и дисперсией Математическая статистика - примеры с решением заданий и выполнение задач для исходных данных следующим образом:

Математическая статистика - примеры с решением заданий и выполнение задач

Следовательно, можно вместо непосредственного определения выборочных характеристик х и Математическая статистика - примеры с решением заданий и выполнение задач вначале вычесть из выборочных данных Математическая статистика - примеры с решением заданий и выполнение задач некоторое постоянное число Математическая статистика - примеры с решением заданий и выполнение задач а затем найти среднее арифметическое и дисперсию по преобразованным таким образом данным. При этом, как следует из формул (3.15) и (3.16), чтобы найти среднее арифметическое Математическая статистика - примеры с решением заданий и выполнение задач нужно добавить Математическая статистика - примеры с решением заданий и выполнение задач к среднему арифметическому Математическая статистика - примеры с решением заданий и выполнение задач определенному по преобразованным данным, а дисперсии Математическая статистика - примеры с решением заданий и выполнение задач для исходных и преобразованных данных будут равны между собой.

Смысл предварительного преобразования исходных данныхМатематическая статистика - примеры с решением заданий и выполнение задачсостоит в том, чтобы упростить расчеты, заменив исходные данные более простыми числами Математическая статистика - примеры с решением заданий и выполнение задач Обычно в качестве Математическая статистика - примеры с решением заданий и выполнение задач выбирается варианта, находящаяся примерно в середине ранжированного ряда выборочных значений Математическая статистика - примеры с решением заданий и выполнение задач, поэтому рассматриваемый метод называется в литературе методом условного среднего.

2. Если разделить выборочные значения х-, на постоянный коэффициент С, т. е. использовать преобразование

Математическая статистика - примеры с решением заданий и выполнение задач числовые характеристикиМатематическая статистика - примеры с решением заданий и выполнение задач вычисленные по преобразованным данным, будут связаны с искомыми Математическая статистика - примеры с решением заданий и выполнение задачследующим образом: Математическая статистика - примеры с решением заданий и выполнение задач

Этот прием во многих случаях позволяет упростить вычисления, если удается путем деления на постоянный коэффициент преобразовать исходные данные в целые числа или уменьшить разрядность исходных данных. Пусть, например, исходные данные измерены с точностью 0,5 единицы (…11,5, 12,0, 12,5 13,5…). Тогда естественным упрощением будет деление этих значений на С = = 0,5, в результате чего получим преобразованные данные (… 23 24 25 27…), оперировать которыми проще.

3. Иногда полезным оказывается совместное использование двух рассмотренных выше приемов, например, преобразование вида: В этом случае Математическая статистика - примеры с решением заданий и выполнение задач

Такое преобразование исходных данных всегда позволяет достичь существенного упрощения, если выборочные среднее арифметическое и дисперсия вычисляются по сгруппированным в интервальный вариационный ряд данным. В качестве условного среднего Математическая статистика - примеры с решением заданий и выполнение задач выбирается срединное значение примерно в центре вариационного ряда, а постоянный коэффициент С берется равным ширине интервалов группировки h. При этом любые исходные данные всегда преобразуются в натуральные числа 1, 2, 3, 4…, и вычисление выборочных характеристик для преобразованных данных сводится к элементарным операциям. Искомые характеристикиМатематическая статистика - примеры с решением заданий и выполнение задач в соответствии с (3.19) и (3.20) вычисляются по следующим формулам:

Математическая статистика - примеры с решением заданий и выполнение задач

гдеМатематическая статистика - примеры с решением заданий и выполнение задач преобразованные срединные значения:

Математическая статистика - примеры с решением заданий и выполнение задач Математическая статистика - примеры с решением заданий и выполнение задач — частоты интервалов группировки.

Пример 3.5.

Определим методом условного среднего среднее арифметическое и стандартное отклонение результатов в прыжках в длину с места, показанных контрольной группой студентов I курса (данные примера 3.1). Для этого ранжируем исходные данные, располагая их в порядке возрастания (столбец 2 табл. 3.5).

Та6лица 3.5 Вычисление среднего арифметического и дисперсии результатов в прыжках в длину с места методом условного среднего

Математическая статистика - примеры с решением заданий и выполнение задач

Расчет среднего арифметического и дисперсии результатов в беге на 100 м методом условного среднего Математическая статистика - примеры с решением заданий и выполнение задач

В качестве условного среднего выбираем значение Математическая статистика - примеры с решением заданий и выполнение задач 225, находящееся примерно в середине ранжированного ряда.

По формулам (3.15) и (3.16) находим:

Математическая статистика - примеры с решением заданий и выполнение задач

Математическая статистика - примеры с решением заданий и выполнение задач

Отсюда стандартное отклонение Математическая статистика - примеры с решением заданий и выполнение задач

Промежуточные расчеты приведены в табл. 3.5. Разумеется, получены те же значения выборочных характеристик, что и в примерах 3.1 и 3.3 при вычислении прямым методом, но сравнение табл. 3.5 с табл. 3.3 показывает, что промежуточные вычисления упростились.

Пример 3.6.

Продемонстрируем применение упрощенных методов для сгруппированных в интервальный вариационный ряд данных. Воспользуемся приведенными выше в примерах 3.2 и 3.4 данными о результатах в беге на 100 м группы школьников.

На основании приведенных в п. 3 настоящего раздела рекомендаций выбираем условное среднее Математическая статистика - примеры с решением заданий и выполнение задач=16,0 и коэффициент С = 0,8.

По формулам (3.21) и (3.22) находим:

Математическая статистика - примеры с решением заданий и выполнение задач

Математическая статистика - примеры с решением заданий и выполнение задач

Промежуточные расчеты приведены в табл. 3.6 и наглядно демонстрируют упрощение, достигаемое при использовании метода условного среднего (сравните с табл. 3.2 и 3.4).

Задачи к гл. 2.3

1. Ниже приведены результаты (в см), показанные группой школьников (70 человек) в тесте «Прыжок в высоту с места». Математическая статистика - примеры с решением заданий и выполнение задач

A. Выполните группировку данных при числе интервалов группировки к = 8, используя рекомендации гл. 2; для исключения неопределенности при распределении вариант, приходящихся на границы интервалов группировки, верхние границы интервалов уменьшаются на величину, равную точности измерения признака.

Б. Сгруппируйте данные, увеличив для исключения указанной неопределенности нижние границы интервалов группировки на величину, равную точности измерения.

B. Постройте для обоих методов группировки гистограмму, полигон частот и полигон накопленных частот. Наблюдается ли различие в форме распределений?

Г. Определите для двух случаев группировки среднее арифметическое и стандартное отклонение. Прокомментируйте результаты, полученные в п.п. «А», и «Г».

2. Ниже приведены результаты (в см) измерения длины бегового шага для 43 спринтеров в зоне 20 м от линии финиша на дистанции 100 м:

Математическая статистика - примеры с решением заданий и выполнение задач

А. Составьте интервальный вариационный ряд, постройте гистограмму, полигон частот и полигон накопленных частот.

Б. Найдите среднее арифметическое и стандартное отклонение прямым методом и методом условного среднего с помощью преобразования исходных данных: Математическая статистика - примеры с решением заданий и выполнение задач .

3. Группа юных спортсменов в количестве 50 человек для оценки уровня общефизической подготовки тестировалась но числу подтягиваний на перекладине. Результаты распределились следующим образом: Математическая статистика - примеры с решением заданий и выполнение задач

А. Постройте полигон частот и полигон накопленных частот.

Б. Определите среднее арифметическое и стандартное отклонение прямым методом и методом условного среднего с помощью преобразования: Математическая статистика - примеры с решением заданий и выполнение задач

4. Ниже приведены результаты (в мл) исследования жизненной емкости легких (ЖЕЛ) 20 школьников:

Математическая статистика - примеры с решением заданий и выполнение задач

Определите среднее арифметическое и стандартное отклонение результатов прямым методом и методом условного среднего.

5. Найдите Me и Мо по данным задач 2 и 3.

6. Ниже приведены результаты (в кГ), показанные группой студентов (65 человек), динамометрии правой руки. Математическая статистика - примеры с решением заданий и выполнение задач

А. Найдите среднее арифметическое и медиану для представленных данных. Какие выводы о форме распределения можно сделать из сопоставления среднего и медианы?

Б. Постройте гистограмму распределения. Рассчитайте коэффициент вариации. Какие предположения можно сделать относительно однородности выборки (однородности состава обследуемой группы студентов)?

Элементы теории вероятностей

В предыдущих двух лекциях были рассмотрены эмпирические распределения и методы вычисления их числовых характеристик. Но обработка экспериментальных данных не ограничивается рассмотренными методами. Обычно исследователь, получив данные эксперимента на одной или нескольких группах испытуемых и определив по ним некоторые обобщающие числовые характеристики (среднее, стандартное отклонение и др.), пытается найти ответ на следующие вопросы: насколько точно полученные результаты можно обобщить для более широкой совокупности (например, на всех спортсменов данного возраста и квалификации)? Как хорошо его данные согласуются с данными других исследователей? Насколько достоверно различие экспериментальных данных, полученных в разных группах испытуемых или в одной и той же группе, но в разные промежутки времени? Существует ли связь между различными признаками, изучаемыми в проводимом исследовании, и если да, то насколько она сильна?

В ряде случаев исследователь пытается установить некую экспериментальную зависимость между изучаемыми признаками, чтобы по значениям одного из них, легко поддающегося измерению, установить значение другого, измерить который трудно или невозможно.

Конечно, в зависимости от целей конкретного исследования задачи могут быть различными и не ограничиваются приведенным перечнем.

Методы математической статистики, с помощью которых можно получить ответы на поставленные выше вопросы, рассматриваются в гл. 5—7. Чаще всего эти методы основаны на использовании тех или иных согласующихся с условиями проводимого эксперимента математических моделей, разработанных теорией вероятностей.

В данной лекции рассматриваются некоторые ее элементарные. положения в том минимальном объеме, который необходим для дальнейшего изложения.

Статистический подход к определению вероятности

Испытание, событие, случайная величина

Под испытанием (случайным испытанием) в теории вероятностей принято понимать наблюдение какого-либо явления при соблюдении определенного комплекса условий, который должен каждый раз строго выполняться при повторении данного испытания. Если то же самое явление наблюдается при другом комплексе условий, то это уже другое испытание.

Результаты испытаний можно охарактеризовать качественно и количественно.

Качественная характеристика заключается в регистрации какого-либо явления, которое может наблюдаться или не наблюдаться при данном испытании. Любое из этих явлений называется в теории вероятностей событием.

Когда речь идет о соблюдении комплекса условий данного испытания, имеется в виду постоянство значений всех факторов, контролируемых в данном испытании. Но при этом, как правило, имеет место большое число неконтролируемых факторов, которые трудно или невозможно учесть. Значения неконтролируемых факторов могут быть различными при каждом повторении испытания, поэтому результаты испытания оказываются случайными. Событие может произойти или не произойти.

Теория вероятностей рассматривает именно такие случайные события. При этом предполагается, что испытание может быть повторено неограниченное (по крайней мере, теоретически) число раз. Например, выполнение штрафного броска в баскетболе есть испытание, а попадание в кольцо — событие.

Другим примером события, часто приводимым в учебниках по теории вероятностей, является выпадение определенного числа очков (от 1 до 6) при бросании игральной кости.

События в теории вероятностей принято обозначать начальными прописными латинскими буквами А, В, С, …

Количественная характеристика испытания состоит в определении значений некоторых величин, которыми интересуются при данном испытании (например, число подтягиваний на перекладине или время на беговой дистанции). В силу действия большого числа неконтролируемых факторов эти величины могут принимать различные значения в результате испытания. Причем до испытания невозможно предсказать значение величины, поэтому она называется случайной величиной.

Вероятность событий

Будем фиксировать число испытаний, в результате которых появилось некоторое событие А. Пусть было проведено N испытаний, в результате которых событие А появилось ровно Математическая статистика - примеры с решением заданий и выполнение задач раз. Тогда число Математическая статистика - примеры с решением заданий и выполнение задач называется частотой события, а отношениеМатематическая статистика - примеры с решением заданий и выполнение задач — частостью (относительной частотой) события.

Замечательным экспериментальным фактом является то, что частость события при большом числе повторений испытания начинает мало изменяться и стабилизируется около некоторого определенного значения, в то время как при малом числе повторений она принимает различные, совершенно случайные значения. Поэтому интуитивно ясно, что если при неограниченном повторении испытания частость события будет стремиться к вполне определенному числовому значению, то это значение можно принять в качестве объективной характеристики события А. Такое число Р(A), связанное с событием А, называется вероятностью события А.

Математически неограниченное число повторений испытания записывается в виде пределаМатематическая статистика - примеры с решением заданий и выполнение задач при N, стремящемся к бесконечности Математическая статистика - примеры с решением заданий и выполнение задач;

Математическая статистика - примеры с решением заданий и выполнение задач

ПосколькуМатематическая статистика - примеры с решением заданий и выполнение задач никогда не может превзойти N, то вероятность оказывается заключенной в интервале Математическая статистика - примеры с решением заданий и выполнение задач

Математическая статистика - примеры с решением заданий и выполнение задач

Следует отметить, что приведенное определение вероятности является абстрактным, оно не может быть экспериментально проверено, так как на практике нельзя реализовать бесконечно большое число повторений испытания.

Действия над событиями

В этом разделе приводятся основные правила операций над событиями с использованием для наглядности их графического изображения в виде диаграмм.

Вначале введем понятие «поле событий» как совокупности всех случайных событий данного испытания, для которых определены вероятности. На рис. 4.1 поле событий изображено в виде заштрихованного прямоугольника.

1. Сумма (объединение) событий (рис. 4.2) представляет собой сложное событие, состоящее в появлении хотя бы одного из событий A и B. Объединение событий обозначается какМатематическая статистика - примеры с решением заданий и выполнение задач

2. Произведением (пересечением) событий А и В называется их совместное появление (рис. 4.3). Обозначается произведение событий как Математическая статистика - примеры с решением заданий и выполнение задач, или АВ,

Математическая статистика - примеры с решением заданий и выполнение задач

Математическая статистика - примеры с решением заданий и выполнение задач

Математическая статистика - примеры с решением заданий и выполнение задач

Математическая статистика - примеры с решением заданий и выполнение задач

3. Достоверным событием называется событие, которое обязательно происходит в результате данного испытания (рис. 4.4). Оно обозначается обычно как Е.

4. Невозможное событие — событие, которое не может произойти в результате данного испытания. Принятое обозначение — Математическая статистика - примеры с решением заданий и выполнение задач.

5. Несовместными называются события, которые в результате данного испытания не могут произойти вместе (рис. 4.5). Примеры несовместных событий: попадание и промах при выстреле, выпадение двух и трех очков при бросании игральной кости. Рис. 4.5 наглядно показывает, что для несовместных событий АВ=- Математическая статистика - примеры с решением заданий и выполнение задач.

6. Противоположным к А событием называется событие, состоящее в непоявлении события А (рис. 4.6). Обозначается противоположное событие символом А. Примеры противоположных событий: промах и попадание при выстреле, выпадение герба или цифры при одном подбрасывании монеты.

Исчисление вероятностей

Непосредственное определение вероятностей

В некоторых простейших случаях вероятности событий могут быть легко определены непосредственно исходя из условий испытаний.

Представим себе общую схему таких испытаний.

Пусть испытание имеет n возможных исходов, т. е. отдельных событий, могущих появиться в результате данного испытания; причем при каждом повторении испытания возможен один и только один из этих исходов. Таким образом, все n исходов испытания несовместны. Кроме того, по условиям испытания нет никаких оснований предполагать, что один из исходов появляется чаще других, т. е. все исходы являются равновозможными.

Допустим теперь, что при п равновозможных исходах интерес представляет некоторое событие А, появляющееся при каждом из т исходов и не появляющееся при остальных n —m исходах. Тогда принято говорить, что в данном испытании имеется п случаев, из которых m благоприятствуют появлению события А.

Вероятность события А в такой схеме равна отношению числа случаев, благоприятствующих событию А, к общему числу всех равновозможных несовместных случаев:Математическая статистика - примеры с решением заданий и выполнение задач

Формула (4.1) представляет собой так называемое классическое определение вероятности по Лапласу, пришедшее из области азартных игр, где теория вероятностей применялась для определения перспективы выигрыша.

Рассмотрим несколько примеров на вычисление вероятностей по формуле (4.1).

Пример 4.1

Испытание состоит в подбрасывании игральной кости, на каждой из граней которой проставлено число очков (от 1 до 6). Какова вероятность того, что: 1) выпадает 2 очка? 2) выпадает нечетное число очков?

В данном испытании имеется 6 равновозможных случаев (выпадение 1, 2, 3, 4, 5, 6 очков), так как нет оснований предполагать, что появление какого-то определенного числа очков более вероятно (если, конечно, кость симметрична). Поэтому вероятность выпадения любого числа очков, в том числе и 2, при одном подбрасывании 1 равна —Математическая статистика - примеры с решением заданий и выполнение задач

Событию А, заключающемуся в появлении нечетного числа очков, благоприятствуют три случая (выпадение 1, 3 и 5), поэтому по формуле (4.1) получаем

Математическая статистика - примеры с решением заданий и выполнение задач

Пример 4.2

В урне 5 белых и 10 черных шаров. Шары тщательно перемешивают и затем наугад вынимают 1 шар. Какова вероятность того, что вынутый шар окажется белым?

В этом примере имеется 15 случаев, причем ожидаемому событию (появлению белого шара) благоприятствуют 5 из них, поэтому искомая вероятность составит

Математическая статистика - примеры с решением заданий и выполнение задач

Основные правила вычисления вероятностей сложных событий

Ниже приведены основные правила, позволяющие определить вероятность появления сложного события на основании известных вероятностей составляющих его более простых событий.

1. Вероятность достоверного события равна единице:

Математическая статистика - примеры с решением заданий и выполнение задач

2. Вероятность объединения (суммы) несовместных событий равна сумме их вероятностей:

Математическая статистика - примеры с решением заданий и выполнение задач

Эти два равенства являются аксиомами теории вероятностей, т. е. принимаются в качестве исходных, но требующих доказательства свойств вероятностей. На их основе строится вся теория вероятностей.

Все остальные, приведенные ниже без доказательств формулы могут быть выведены из принятых аксиом.

3. Вероятность невозможного события равна нулю:

Математическая статистика - примеры с решением заданий и выполнение задач

4. Вероятность события, противоположного событию А, равна

Математическая статистика - примеры с решением заданий и выполнение задач

Формула (4.5) оказывается полезной на практике в тех случаях, когда вычисление вероятности непосредственно события А затруднительно, в то время как вероятность противоположного события находится просто.

5. Теорема сложения вероятностей. Вероятность объединения произвольных событий равна сумме их вероятностей за вычетом вероятности произведения событий:

Математическая статистика - примеры с решением заданий и выполнение задач

Для несовместных событий Р(АВ) = 0 и формула (4.6) переходит в (4.2).

6. Условная вероятность. Если требуется найти вероятность события В при условии, что произошло некоторое другое событие А, то такую ситуацию характеризуют с помощью условной вероятности Математическая статистика - примеры с решением заданий и выполнение задач Условная вероятность равна отношению вероятности произведения событий А и В к вероятности события А:

Математическая статистика - примеры с решением заданий и выполнение задач

В тех случаях, когда события А и В несовместны, Р(АВ) = 0 и соответственно Математическая статистика - примеры с решением заданий и выполнение задач

Определение условной вероятности в виде (4.7) дает возможность записать следующую формулу для вычисления вероятности произведения событий:

Математическая статистика - примеры с решением заданий и выполнение задач

Последняя формула носит название теоремы умножения вероятностей.

7. Вероятности для независимых событий. Два события называются независимыми, если появление одного из них не изменяет вероятности другого, иначе говоря, появление одного из них не содержит никакой информации о другом.

Для независимых событий A и В:

Математическая статистика - примеры с решением заданий и выполнение задач

Поскольку вероятность события Л (или В) для независимых событий по определению не изменяется при появлении другого события, то условная вероятность Р(А В) совпадает с вероятностью события Л, а условная вероятность Математическая статистика - примеры с решением заданий и выполнение задач — с Р(В). Вероятности Р(А) и Р(В) в отличие от условных вероятностей называются безусловными.

Теорема умножения вероятностей для независимых событий записывается следующим образом:Математическая статистика - примеры с решением заданий и выполнение задач

т. е. вероятность произведения независимых событий равна произведению их вероятностей.

Пример 4.3

В урне 5 белых, 4 черных и 8 красных шаров. Какова вероятность того, что первый наугад вынутый шар окажется черным или красным?

Здесь имеется всего 17 случаев, из которых появлению черного шара благоприятствует 4, а появлению красного — 8. Поэтому вероятность события Л — появление черного шара:

Математическая статистика - примеры с решением заданий и выполнение задач

а вероятность события В — появление красного шара:

Математическая статистика - примеры с решением заданий и выполнение задач

Поскольку события A и В несовместны (вынимается всего один шар), то по формуле (4.2) сложения вероятностей несовместных событий получаем:

Математическая статистика - примеры с решением заданий и выполнение задач

Пример 4.4

В студенческой группе 25 человек. Какова вероятность того, что дни рождения хотя бы у двоих совпадают?

Вероятность того, что дни рождения у двух произвольно взятых людей совпадают, равна .Математическая статистика - примеры с решением заданий и выполнение задач(Считаем, что попадание дня рождения на любой день в году — равновозможные случаи). Тогда вероятность того, что дни рождения двух людей не совпадают, по формуле (4.5) для вероятности противоположного события равна Математическая статистика - примеры с решением заданий и выполнение задачВероятность того, что день рождения третьего отличается от дней рождения двух предыдущих, составит Математическая статистика - примеры с решением заданий и выполнение задач (363 случая из 365 благоприятствуют этому событию). Рассуждая аналогично, находим, что для 25-го члена группы эта вероятность равна Математическая статистика - примеры с решением заданий и выполнение задач

Теперь найдем вероятность того, что дни рождения всех 25 членов группы не совпадают. Поскольку все эти события (несовпадение дня рождения каждого очередного члена группы с днями рождения предыдущих) независимы, то по формуле (4.10) умножения вероятностей независимых событий получаем: Математическая статистика - примеры с решением заданий и выполнение задач Мы нашли вероятность того, что дни рождения у всех 25 человек не совпадают. Вероятность противоположного события будет вероятностью того, что хотя бы у двоих дни рождения совпадают, т. е. искомой вероятностью.

Определяем ее по формуле Математическая статистика - примеры с решением заданий и выполнение задач

Пример 4.5

В урне 3 белых и 7 черных шаров. Какова вероятность того, что два подряд наугад вытянутых шара окажутся белыми?

Нас интересует вероятность произведения двух событий: Математическая статистика - примеры с решением заданий и выполнение задач — при первом испытании вынут белый шар и Математическая статистика - примеры с решением заданий и выполнение задач— при втором испытании вынут белый шар. По формуле (4.8) вероятность такого события равна Математическая статистика - примеры с решением заданий и выполнение задач= Математическая статистика - примеры с решением заданий и выполнение задачВероятность события Математическая статистика - примеры с решением заданий и выполнение задач составит:

Математическая статистика - примеры с решением заданий и выполнение задач После первого испытания в урне осталось 9 шаров, из которых 2 белых, поэтому условная вероятность

Математическая статистика - примеры с решением заданий и выполнение задач

Отсюда искомая вероятность равна:

Математическая статистика - примеры с решением заданий и выполнение задач

Случайные величины

Выше мы уже дали интуитивное определение случайной величины, характеризующей количественные результаты испытания и способной в одних и тех же условиях испытания под воздействием случайных причин принимать различные значения.

Изучение случайных величин в теории вероятностей требует связи этих величин с определенными событиями, которые заключаются в попадании случайной величины в некоторый интервал и для которых определены вероятности. Иначе говоря, необходимо связать случайную величину с полем событий данного испытания (см. определение поля событий в разделе 4.3).

Для формального определения случайной величины можно поступить следующим образом: пусть при измерении определенного признака объекта получается некоторая величина X, выражаемая действительными числами. Определим событие А как событие, состоящее в том, что величина X меньше или равна заданному числовому значению Математическая статистика - примеры с решением заданий и выполнение задачВ последовательности испытаний, т. е. при измерениях на некоторой последовательности объектов, событие А может появиться или не появиться. Тогда, если для любого заданного х определена вероятность Математическая статистика - примеры с решением заданий и выполнение задач X называется случайной величиной.

Обычно рассматриваются два типа случайных величин: дискретные и непрерывные.

Дискретные случайные величины принимают в результате испытания одно из дискретного множества значений. Они хорошо подходят для описания результатов измерений, связанных с подсчетом и выражаемых целыми числами.

Примеры дискретных случайных величин: число подтягиваний на перекладине, число попаданий в кольцо в серии из 10 штрафных бросков и т. п.

Вероятность принятия дискретной случайной величиной каждого из возможных ее значений больше нуля. Эта вероятность может быть записана как

Математическая статистика - примеры с решением заданий и выполнение задач

Здесь X — обозначение случайной величины; Математическая статистика - примеры с решением заданий и выполнение задач — конкретные числовые значения, принимаемые дискретной случайной величиной; Математическая статистика - примеры с решением заданий и выполнение задач — вероятности этих значений.

Индекс i может в общем случае пробегать значения от —Математическая статистика - примеры с решением заданий и выполнение задач

Функция Математическая статистика - примеры с решением заданий и выполнение задач связывающая значения дискретной случайной величины с их вероятностями, называется ее распределением (законом распределения).

Непрерывные случайные величины в результате испытания могут принимать любые значения из некоторого интервала.

Примеры непрерывных случайных величин: спортивный результат в беге или прыжках, рост и масса тела человека, сила мышц и др.

Строго говоря, при практических измерениях результаты всегда получаются с точностью до некоторого значения (например, 0, 01 с при измерении времени на беговой дистанции), поэтому их можно было бы описывать, пользуясь моделью дискретных случайных величин, так как они принимают дискретные значения из некоторого интервала: результат в беге—10,12; 10,13; 10,14; …. рост человека —171, 172, 173 Но число возможных значений, как правило, настолько велико, что гораздо удобнее оказывается модель непрерывных случайных величин, хотя она и является в данном случае математической идеализацией.

Поскольку число возможных значений непрерывной случайной величины бесконечно велико и чаще всего нет оснований предположить, что одни значения появляются существенно чаще других, то вероятность принятия непрерывной случайной величиной каждого отдельного значения оказывается равной нулю. По этой причине нельзя описать распределение непрерывной случайной величины в виде вероятностей ее отдельных значений, как в случае дискретных случайных величин. Здесь необходимы другие подходы, которые будут рассмотрены в разделах 4.6 и 4.7.

Функция распределения

Рассмотрим вероятность того, что случайная величина X окажется меньше или равной некоторому заданному числу х, т. е.Математическая статистика - примеры с решением заданий и выполнение задач Математическая статистика - примеры с решением заданий и выполнение задач

Эта вероятность, рассматриваемая как функция переменной х, называется функцией распределения случайной величины X. Она используется для записи распределений как дискретных, так и непрерывных случайных величин.

Обратимся вначале к дискретной случайной величине и поясним построение функции распределения на конкретном примере.

Пусть баскетболист выполняет серию из 10 штрафных бросков, причем вероятность попадания в кольцо для каждой из попыток равна 0,5. Определим вероятность того, что в данной серии баскетболист поразит кольцо ровно 0; 1; 2; …; 10 раз.

Вероятность попадания с одной попытки обозначим как Р = 0,5. Тогда вероятность промаха составит q = 1—Р = 0,5.

Этот пример подходит под общую схему, известную в теории вероятностей как схема Бернулли, описываемая биномиальным распределением: если р — вероятность «успеха» в данном испытании, a q— 1 — р — вероятность «неуспеха», тогда вероятность того, что в п испытаниях «успех» наступит ровно х раз, определяется следующим выражением:Математическая статистика - примеры с решением заданий и выполнение задач

гдеМатематическая статистика - примеры с решением заданий и выполнение задач — биномиальные коэффициенты (число возможных сочетаний из п элементов по х).

Биномиальное распределение широко используется в математической статистике, таблицы биномиальных вероятностей Математическая статистика - примеры с решением заданий и выполнение задачприведены в [4].

Для нашего примера вероятности попадания в кольцо ровно 0; 1; 2; …; 10 раз равны: Математическая статистика - примеры с решением заданий и выполнение задач

Случайная величина (число попаданий в серии из 10 бросков) обозначается через X. События, состоящие в том, что случайная величина X принимает каждое из возможных значений X = 0, X = 1, …, X = 10, являются несовместными, так как случайная величина X может принимать в данной серии испытаний только одно значение.

Определим теперь функцию распределения Математическая статистика - примеры с решением заданий и выполнение задач случайной величины и рассмотрим ее поведение на графике (рис. 4.7).

Математическая статистика - примеры с решением заданий и выполнение задач

Рис. 4.7 Функция распределения дискретной случайной величины При Математическая статистика - примеры с решением заданий и выполнение задач значение Математическая статистика - примеры с решением заданий и выполнение задач равно нулю, так как случайная величина X не может принимать значения меньше 0. При Математическая статистика - примеры с решением заданий и выполнение задач

В интервале от 0 до Математическая статистика - примеры с решением заданий и выполнение задач не изменяется, поскольку случайная величина X не принимает значений в этом диапазоне.

Рассмотрим интервал Математическая статистика - примеры с решением заданий и выполнение задач. Событие Математическая статистика - примеры с решением заданий и выполнение задач для этого интервала представляет собой сумму двух событий: X — 0 и X — 1, и поскольку эти события несовместны, то по теореме сложения вероятностей (4.2)

Математическая статистика - примеры с решением заданий и выполнение задач

Аналогично для интервалаМатематическая статистика - примеры с решением заданий и выполнение задач +Математическая статистика - примеры с решением заданий и выполнение задач, для интервала Математическая статистика - примеры с решением заданий и выполнение задач Математическая статистика - примеры с решением заданий и выполнение задач и т. д.

Таким образом, функция распределения Математическая статистика - примеры с решением заданий и выполнение задач остается постоянной на интервалах между значениями Математическая статистика - примеры с решением заданий и выполнение задач которые может принимать случайная величина X. И только в этих точках Математическая статистика - примеры с решением заданий и выполнение задач она скачком меняет свое значение на величину, равную вероятности Математическая статистика - примеры с решением заданий и выполнение задач, т. е. функция распределения дискретной случайной величины является ступенчатой функцией. Это свойство является общим для всех дискретных случайных величин.

Если известна функция распределения, легко найти вероятность показания случайной величины в заданный интервал:

Математическая статистика - примеры с решением заданий и выполнение задач

т. e. вероятность того, что случайная величина X окажется меньше или равной Математическая статистика - примеры с решением заданий и выполнение задачно больше Математическая статистика - примеры с решением заданий и выполнение задач определяется как разность значений функции распределения в точках Математическая статистика - примеры с решением заданий и выполнение задач

Например, нужно найти для рассматриваемого примера вероятность того, что баскетболист в серии из 10 штрафных бросков наберет число очков меньше 8, но больше 3. По формуле (4.13) получаем: Математическая статистика - примеры с решением заданий и выполнение задач

Перейдем теперь к непрерывным случайным величинам. Как было сказано ранее, вероятность принятия непрерывной случайной величиной какого-либо конкретного значения равна 0. Следовательно, функция распределения не может иметь скачков, как для дискретной случайной величины. Функция распределения непрерывной случайной величины будет гладкой (непрерывной) функцией (рис. 4.8).

Для непрерывной случайной величины важную роль играет вероятность попадания ее в заданный интервал, которая по известной функции распределения находится какМатематическая статистика - примеры с решением заданий и выполнение задач В этом выражении совершенно не обязательно записывать интервал таким образом. Можно было бы записать Математическая статистика - примеры с решением заданий и выполнение задачМатематическая статистика - примеры с решением заданий и выполнение задачпри этом вероятность попадания случайной величины в интервал не изменится. Это связано с тем, что, как уже отмечалось, функция распределения случайной непрерывной величины не имеет скачков ни при каких значениях х.

Функция распределения представляет собой теоретический аналог полигона накопленных частот, рассмотренного в разделе 2.3.

Математическая статистика - примеры с решением заданий и выполнение задач

Плотность распределения вероятностей

Для непрерывных случайных величин вводится понятие «плотность распределения вероятное-т е й», или «плотность вероятностей», играющее исключительно важную роль при их описании.

Плотность вероятностей — это производная от функции распределения непрерывной случайной величины, т. е.

Математическая статистика - примеры с решением заданий и выполнение задач

Более подробно при рассмотрении конкретных непрерывных распределений об этой функции рассказано в разделе 4.9. Вид плотности вероятностей показан на рис. 4.9. Математическая статистика - примеры с решением заданий и выполнение задач

Рис. 4.9. Вид плотности распределения вероятностей Вероятность попадания непрерывной случайной величины в интервал между значениями Х и х2 пропорциональная площади под кривой плотности вероятностей, заключенной между точками Математическая статистика - примеры с решением заданий и выполнение задач Эта вероятность математически записывается в виде интеграла отМатематическая статистика - примеры с решением заданий и выполнение задач в пределах Математическая статистика - примеры с решением заданий и выполнение задач:

Математическая статистика - примеры с решением заданий и выполнение задач

Плотность вероятностей является теоретическим аналогом гистограммы, рассмотренной в разделе 2.3 гл. 2.

Числовые характеристики случайных величин

Распределение случайной величины, заданное в виде функции распределения или плотности вероятностей, полностью ее характеризует. Однако такая исчерпывающая характеристика случайной величины сложна и далеко не всегда необходима. Для решения многих практических задач не нужно знать распределение случайной величины, а достаточно иметь лишь некоторые обобщающие числовые характеристики этого распределения.

Математическое ожидание

Для более наглядного определения математического ожидания (среднего значения) случайной величины рассмотрим подход к этому понятию на конкретном примере.

Пусть имеется дискретная случайная величина X с возможными значениями Математическая статистика - примеры с решением заданий и выполнение задач и вероятностями этих значений Математическая статистика - примеры с решением заданий и выполнение задач В качестве X рассмотрим уже знакомую случайную величину — число попаданий в серии из 10 штрафных бросков в баскетболе. Если баскетболист с достаточными для отдыха промежутками времени, чтобы условия испытания не изменялись, выполняет большое число (n) таких серий из 10 бросков, то каждое из значений Математическая статистика - примеры с решением заданий и выполнение задач (попал 0; 1; …. 10 раз) будет наблюдаться некоторое число раз. Обозначим эти числа черезМатематическая статистика - примеры с решением заданий и выполнение задач Очевидно, что сумма Математическая статистика - примеры с решением заданий и выполнение задач Математическая статистика - примеры с решением заданий и выполнение задач

Таким образом, имеем n наблюдений случайной величины X, т. е. выборку объема n. Определим по формуле (3.2) выборочное среднее арифметическое:

Математическая статистика - примеры с решением заданий и выполнение задач

Здесь индекс n при x обозначает, что среднее арифметическое вычислено по п наблюдениям.

Теперь представим, что испытание, состоящее в серии из 10 бросков, повторяется неограниченное число раз. Здесь, абстрагируясь от физической реализуемости такого эксперимента, будем считать, что наблюдению доступна вся теоретически бесконечная генеральная совокупность значений случайной величины X.

Согласно первоначальному определению вероятности, данному в разделе 4.2.2, относительные частоты событий стремятся к их вероятностям при неограниченном повторении испытания.

Поэтому в пределе при Математическая статистика - примеры с решением заданий и выполнение задач

Математическая статистика - примеры с решением заданий и выполнение задач

Таким образом, выборочное среднее арифметическое случайной величины X стремится при неограниченном повторении испытания (при неограниченном увеличении объема выборки) к некоторому постоянному числу, так как в последней сумме Математическая статистика - примеры с решением заданий и выполнение задач — постоянные числа. Это число носит название математического ожидания (среднего значения) случайной величины.

Математическое ожидание обозначает как М (X) или Математическая статистика - примеры с решением заданий и выполнение задач

Математическое ожидание дискретной случайной величины равно сумме всех ее возможных значений, умноженных на вероятности этих значений:

Математическая статистика - примеры с решением заданий и выполнение задач

В этой записи Математическая статистика - примеры с решением заданий и выполнение задач означает, что суммирование производится по всем возможным i.

Только что рассмотренный пример показывает, что математическое ожидание — абстрактное понятие. Оно является теоретическим аналогом выборочного среднего арифметического.

Математическое ожидание равно среднему значению генеральной совокупности.

Для непрерывных случайных величин математическое ожидание определяется с помощью плотности вероятностей по формуле:Математическая статистика - примеры с решением заданий и выполнение задач

Дисперсия и стандартное отклонение

Точно так же, как математическое ожидание, являющееся теоретическим аналогом среднего арифметического, можно ввести теоретические аналоги всех числовых характеристик выборки, рассмотренных в гл. 3. Для этого нужно в соответствующих формулах для выборочных характеристик заменить все средние арифметические на математические ожидания.

Дисперсией случайной величины X называется математическое ожидание квадрата отклонений случайной величины от ее математического ожидания (сравните с определением п. 3.4.2). Дисперсия обозначается как Математическая статистика - примеры с решением заданий и выполнение задач

Математическая статистика - примеры с решением заданий и выполнение задач

Для дискретных случайных величин

Математическая статистика - примеры с решением заданий и выполнение задач

т. е. дисперсия дискретной случайной величины равна сумме квадратов отклонений отдельных значений случайной величины от ее математического ожидания, умноженных на вероятности этих значений.

Для непрерывных случайных величин Математическая статистика - примеры с решением заданий и выполнение задачМатематическая статистика - примеры с решением заданий и выполнение задач

Положительный корень квадратный из дисперсии называется средним квадратическим (стандартным) отклонением случайной величины.

Эта величина обозначается, как ах

Математическая статистика - примеры с решением заданий и выполнение задач

Дисперсия и стандартное отклонение характеризуют изменчивость (вариативность) случайной величины. Чем сильнее случайная величина отклоняется от своего математического ожидания, тем больше величины Математическая статистика - примеры с решением заданий и выполнение задач и Математическая статистика - примеры с решением заданий и выполнение задач Последнюю Математическая статистика - примеры с решением заданий и выполнение задач использовать удобнее, так как его размерность совпадает с размерностью случайной величины (например, см. с, кг и др.).

Пример 4.6

Определим в качестве примера математическое ожидание и стандартное отклонение случайной величины X, представляющей собой число попаданий в серии из 10 штрафных бросков в баскетболе при вероятности попадания с одного броска р — 0,5.

Как мы уже знаем, наша случайная величина имеет биномиальное распределение (4.12). Если подставить значения биномиальных вероятностей (4.12) в формулы (4.16) и (4.18), то после соответствующих преобразований, которые здесь не приводятся, получим:

Математическая статистика - примеры с решением заданий и выполнение задач

В этих выражениях п — число повторений испытания в серии испытаний, т. е. в этом примере число бросков в серии Математическая статистика - примеры с решением заданий и выполнение задачМатематическая статистика - примеры с решением заданий и выполнение задач

Моменты

Математическое ожидание и дисперсия представляют собой частные случаи общих числовых характеристик случайной величины, называемых моментами.

Ниже кратко рассматриваются лишь так называемые центральные моменты случайной величины.

K-м центральным моментом случайной величины X называется математическое ожидание k-й степени отклонения случайной величины от ее математического ожидания: Математическая статистика - примеры с решением заданий и выполнение задач В частности, при k = 2 второй центральный момент случайной величины есть дисперсия.

На практике часто используются также третий и четвертый центральные моменты, позволяющие судить о симметричности и остроте вершины кривой распределения случайной величины.

Если Математическая статистика - примеры с решением заданий и выполнение задач = 0, то распределение симметрично относительно математического ожидания, еслиМатематическая статистика - примеры с решением заданий и выполнение задач>0, то преобладают положительные отклонения от математического ожидания, если Математическая статистика - примеры с решением заданий и выполнение задач<0 — отрицательные. Для удобства применяется так называемый коэффициент асимметрии, который является безразмерной величиной и определяется как Математическая статистика - примеры с решением заданий и выполнение задач Об остроте вершины кривой распределения судят по коэффициенту эксцесса: Математическая статистика - примеры с решением заданий и выполнение задач Если Математическая статистика - примеры с решением заданий и выполнение задач>0, то распределение имеет острый пик, если Математическая статистика - примеры с решением заданий и выполнение задач<0 (минимальное значение Математическая статистика - примеры с решением заданий и выполнение задач = — 2), то распределение имеет плосковершинную форму по сравнению с рассмотренным ниже нормальным распределением, для которого Математическая статистика - примеры с решением заданий и выполнение задач = 0.

Нормальное распределение

Большинство экспериментальных исследований, в том числе и в области спорта, связано с измерениями, результаты которых могут принимать практически любые значения в заданном интервале и, как уже было отмечено, описываются моделью непрерывных случайных величин. Поэтому в дальнейшем будут рассматриваться в основном непрерывные случайные величины и связанные с ними непрерывные распределения.

Одним из непрерывных распределений, имеющим основополагающую роль в математической статистике, является нормальное, или гауссово*, распределение.

Нормальное распределение является самым важным в статистике. Это объясняется целым рядом причин.

1. Прежде всего, многие экспериментальные наблюдения можно успешно описать с помощью нормального распределения. Следует сразу же отметить, что не существует распределений эмпирических данных, которые были бы в точности нормальными, поскольку (как будет показано ниже) нормально распределенная случайная величина находится в пределах от —Математическая статистика - примеры с решением заданий и выполнение задач до Математическая статистика - примеры с решением заданий и выполнение задач, чего никогда не бывает на практике. Однако нормальное распределение очень часто хорошо подходит как приближение.

Проводятся ли измерения роста, силы мышц, спортивного результата в беге, прыжках, метаниях, ряда физиологических параметров — везде на результаты оказывает влияние очень большое число случайных факторов (естественные причины и ошибки измерения). Причем, как правило, действие каждого из этих факторов незначительно. Опыт показывает, что результаты именно в таких случаях будут распределены приближенно нормально.

2. Нормальное распределение хорошо подходит в качестве аппроксимации (приближенного описания) других распределений (например, биномиального).

3. Многие распределения, связанные со случайной выборкой, при увеличении объема последней переходят в нормальное.

4. Нормальное распределение обладает рядом благоприятных математических свойств, во многом обеспечивших его широкое применение в статистике.

В то же время следует отметить, что в природе встречается много экспериментальных распределений, для описания которых модель нормального распределения малопригодна. Для этого в математической статистике разработан ряд методов, некоторые из которых приводятся в следующих лекциях.

Математическая статистика - примеры с решением заданий и выполнение задач

Математическая статистика - примеры с решением заданий и выполнение задач

Плотность вероятностей нормально распределенной случайной величины записывается следующим образом:

Математическая статистика - примеры с решением заданий и выполнение задач

График плотности (нормальная кривая) представлен на рис. 4.10.

Укажем основные свойства нормального распределения.

1. Нормальная кривая имеет колоколообразную форму, симметричную относительно точки х —Математическая статистика - примеры с решением заданий и выполнение задач, с точками перегиба, абсциссы которых отстоят от Математическая статистика - примеры с решением заданий и выполнение задач

2. Для нормального распределения математическое ожидание Математическая статистика - примеры с решением заданий и выполнение задач, дисперсия Математическая статистика - примеры с решением заданий и выполнение задачи стандартное отклонение равно Математическая статистика - примеры с решением заданий и выполнение задач

3. Как видно из выражения (4.23), нормальное распределение полностью определяется двумя параметрами: р и 0— математическим ожиданием и стандартным отклонением.

График плотности вероятности нормального распределения показывает, что для нормально распределенной случайной величины вероятность отклонения от среднего значения Математическая статистика - примеры с решением заданий и выполнение задач быстро уменьшается с ростом величины отклонения.

4. Медиана и мода нормального распределения совпадают и равны математическому ожиданию р.

5. Коэффициенты асимметрии и эксцесса нормального распределения равны нулю Математическая статистика - примеры с решением заданий и выполнение задач

Последнее свойство (5) используется для проверки предположения о нормальности распределения генеральной совокупности (гл. 6).

Нормированное нормальное распределение

Формула (4.23) описывает целое семейство нормальных кривых, зависящих, как было сказано выше, от двух параметров — Математическая статистика - примеры с решением заданий и выполнение задач которые могут принимать любые значения, поэтому возможно бесконечно много нормально распределенных совокупностей.

Чтобы избежать неудобств, связанных с расчетами для каждого конкретного случая по достаточно сложной формуле (4.23), используют так называемое нормированное (или’стандартное) нормальное распределение, для которого составлены подробные таблицы.

Нормированное нормальное распределение имеет параметрыМатематическая статистика - примеры с решением заданий и выполнение задач Это распределение получается, если пронормировать нормально распределенную величину X по формуле:

Математическая статистика - примеры с решением заданий и выполнение задач

Плотность распределения вероятностей нормированного нормального распределения записывается в виде:

Математическая статистика - примеры с решением заданий и выполнение задач

На кривой нормированного нормального распределения (рис. 4.11) указаны в процентах доли площадей, соответствующих отмеченным значениям нормированного отклонения и, по отношению Математическая статистика - примеры с решением заданий и выполнение задач общей площади под кривой, равной 1 (100%). Эти площади определяют вероятности попадания случайной величины в соответствующие интервалы.

 Математическая статистика - примеры с решением заданий и выполнение задач

Таблица значений Математическая статистика - примеры с решением заданий и выполнение задач — ординат нормальной кривой приведена в Приложении (табл. 2). Значения Математическая статистика - примеры с решением заданий и выполнение задач для некоторых характерных нормированных отклонений представлены в табл. 4.1.

Математическая статистика - примеры с решением заданий и выполнение задач

Вероятность попадания в заданный интервал

Очень часто исследователя интересует вопрос: какова вероятность того, что изучаемый признак генеральной совокупности находится в заданных границах (например, вероятность того, что результат в беге на 100 м для группы испытуемых окажется в пределах 11,5—12,5 с)? Если предполагается нормальное распределение признака в генеральной совокупности, то получить ответ на этот вопрос очень просто. Как говорилось ранее, вероятность попадания нормально распределенной случайной величины в заданный интервал Математическая статистика - примеры с решением заданий и выполнение задачможно определить по функции распределения: Математическая статистика - примеры с решением заданий и выполнение задач

Если использовать функцию нормированного нормального распределения, эту вероятность можно записать следующим образом:

Математическая статистика - примеры с решением заданий и выполнение задач1),

где Ф — принятое обозначение для функции нормированного нормального распределения; Математическая статистика - примеры с решением заданий и выполнение задач—параметры исходного распределения.

Функция нормированного нормального распределения имеет следующий вид:

Математическая статистика - примеры с решением заданий и выполнение задач

Интеграл, входящий в это выражение, не выражается в элементарных функциях, поэтому для вычисления функции Ф(и) используют вспомогательную функцию — функцию Лапласа (интеграл вероятностей):

Математическая статистика - примеры с решением заданий и выполнение задач

В Приложении приведена табл. 1 удвоенных значений функции Лапласа Математическая статистика - примеры с решением заданий и выполнение задач

Чтобы найти вероятность попадания нормально распределенной случайной величины в заданный интервал Математическая статистика - примеры с решением заданий и выполнение задачс помощью функции Лапласа, используется следующая формула:

Математическая статистика - примеры с решением заданий и выполнение задач

Функция Лапласа является нечетной, т. е. Математическая статистика - примеры с решением заданий и выполнение задач = Математическая статистика - примеры с решением заданий и выполнение задач

Часто представляет интерес вероятность попадания в симметричный относительно среднего значения р, интервал. При этом

Математическая статистика - примеры с решением заданий и выполнение задач

Учитывая нечетность функции Лапласа, получаем:

Математическая статистика - примеры с решением заданий и выполнение задач

Отсюда ясен смысл того, что в табл. 1 Приложения приведены удвоенные значения функции Лапласа.

В табл. 4.2 приведены полученные по формуле (4.28) вероятности того, что нормально распределенная случайная величина отклонится от своего среднего значения Математическая статистика - примеры с решением заданий и выполнение задач не более, чем на Математическая статистика - примеры с решением заданий и выполнение задач

Таблица 4.2 Вероятности попадания нормально распределенной случайной величины в заданный интервал

Из табл. 4.2 следует, что Математическая статистика - примеры с решением заданий и выполнение задач

Это выражение известно в статистике как «правило трех сигм». Оно означает, что с вероятностью 0,9973 (практически с единичной) нормально распределенная случайная величина окажется в пределах Математическая статистика - примеры с решением заданий и выполнение задач от среднего значения. Иначе говоря, отклонения от среднего больше Математическая статистика - примеры с решением заданий и выполнение задач можно ожидать примерно в I случае из 370 испытаний.

Некоторые специальные непрерывные распределения

Нормальное распределение широко применяется как математическая модель для описания экспериментальных данных. В этом разделе будут рассмотрены три распределения, которые играют очень важную роль при обработке результатов, связанных со случайной выборкой объема n, и составляют основу применения критериев значимости и проверки статистических гипотез. Примеры использования этих распределений приводятся в гл. б, посвященной указанным статистическим методам.

X распределение

Если Математическая статистика - примеры с решением заданий и выполнение задач независимые случайные величины, каждая из которых имеет нормированное нормальное распределение с параметрами Математическая статистика - примеры с решением заданий и выполнение задачто сумма квадратов этих величин имеет так называемое Математическая статистика - примеры с решением заданий и выполнение задач (хи-квадрат)-распределение.

Математическая статистика - примеры с решением заданий и выполнение задач

Математическая статистика - примеры с решением заданий и выполнение задач

Его плотность вероятностей представлена на рис. 4.12 и зависит от единственного параметра — числа степеней свободы V.

Кривая Математическая статистика - примеры с решением заданий и выполнение задач-распределения имеет положительную асимметрию. С ростом числа степеней свободы v она становится все более симметричной и при Математическая статистика - примеры с решением заданий и выполнение задачпереходит в нормальное.

Таблицы Математическая статистика - примеры с решением заданий и выполнение задач-распределения приводятся в табл. 5 Приложения. В этой таблице содержатся значения х, соответствующие вероятностям Р— 1 — а, при а, равном 0,05; 0,01 и 0,001 для различного числа степеней свободы v.

t-распределение Стьюдента

Вторым из широко используемых специальных распределений является t-распределение Стьюдента, или просто t-распределение. Это распределение случайной величины:

Математическая статистика - примеры с решением заданий и выполнение задач

где U — случайная величина, имеющая нормированное нормальное распределение; V — случайная величина с распределением Математическая статистика - примеры с решением заданий и выполнение задач с v степенями свободы, t-распределение применяется при проверке статистических гипотез при малом объеме выборки. Эти вопросы рассмотрены в гл. 6. Форма t-распределения полностью определяется одним параметром — числом степеней свободы v.

Вид кривой плотности t-распределения показан на рис. 4.13. /-распределение симметрично при любом v и Математическая статистика - примеры с решением заданий и выполнение задач

при Математическая статистика - примеры с решением заданий и выполнение задач переходит в нормальное с параметрами Математическая статистика - примеры с решением заданий и выполнение задачи Математическая статистика - примеры с решением заданий и выполнение задач

F-распределение

Если случайные величины U и V независимы и каждая из них распределена как Математическая статистика - примеры с решением заданий и выполнение задач с Математическая статистика - примеры с решением заданий и выполнение задач степенями свободы соответственно, то величина Математическая статистика - примеры с решением заданий и выполнение задач подчиняется так называемому F-распределению, которое зависит от двух параметров — Математическая статистика - примеры с решением заданий и выполнение задач называемых числами степеней свободы. F-распределение применяется в основном в задачах, связанных с дисперсиями.

Оценка генеральных параметров

Материал, содержащийся в предыдущих лекциях, можно рассматривать как минимальный набор сведений, необходимых для использования основных статистических методов, объединенных в теории статистических выводов.

Перейдем теперь к рассмотрению этих методов. Для этого необходимо определить их место в рамках единого подхода к решению конкретных задач статистических исследований в области спорта.

Основная задача, решаемая с помощью методов математической статистики, — получение информации о закономерностях изменения изучаемого признака для большой совокупности объектов исследования, объединенных по этому признаку. В терминах математической статистики это означает, что делаются выводы о свойствах генеральной совокупности.

Для описания генеральной совокупности используются математические модели теории вероятностей. Исчерпывающую информацию о генеральной совокупности дает распределение вероятностей. Чаще всего используется модель нормально распределенной генеральной совокупности. И в этом случае распределение полностью определено всего двумя параметрами:

  • средним значением (математическим ожиданием) и стандартным отклонением.

Следовательно, чтобы полностью описать нормальную генеральную совокупность, нужно знать значения двух генеральных параметров: среднего значения и стандартного отклонения. Так, если интерес вызывают спортивные результаты, то это средний результат всех спортсменов данной категории и стандартное отклонение результата. Эти параметры неизвестны и предположительно находятся в каких-то пределах. Единственное, что можно сделать, чтобы их определить — это провести эксперимент. Эксперимент для всей генеральной совокупности нереализуем или неоправдан, поэтому применяется выборочный метод.

На основании данных, полученных по выборке, делается вывод относительно всей генеральной совокупности. Используемые для этого методы теории статистических выводов обычно подразделяются на два класса: оценка параметров и проверка гипотез.

Задача оценки параметров состоит в получении наилучших в определенном смысле оценок параметров распределения генеральной совокупности на основании выборочных данных.

Проверка гипотез охватывает методы использования выборочных данных для проверки предположений относительно распределения и параметров распределения генеральной совокупности, которые делаются до получения выборочных данных.

В данной лекции будут рассмотрены основные положения теории оценок.

Случайная выборка из генеральной совокупности

Чтобы по выборке можно было делать выводы о свойствах всей генеральной совокупности, она должна быть представительной (репрезентативной). Это обеспечивается в тех ситуациях, когда выборка является случайной. Модель случайной выборки предъявляет к ней следующие требования: 1) каждый из объектов, составляющих генеральную совокупность, должен иметь одинаковую вероятность быть представленным в выборке; 2) все п измерений, образующих выборку, должны быть независимыми, т. е. результаты каждого измерения не должны зависеть от предыдущих измерений.

Существует два основных метода отбора объектов из генеральной совокупности в выборку: повторный и бес-повторный.

При повторном отборе каждый объект после измерения значения признака возвращается в генеральную совокупность. При этом состояние генеральной совокупности перед каждым новым измерением восстанавливается и требование независимости всегда выполняется.

При бесповторном отборе после измерения объект не возвращается в генеральную совокупность. В этом случае соотношение значений признака в оставшейся части генеральной совокупности меняется, и, следовательно, проводимые измерения не являются независимыми, т. е. бесповоротный отбор не является случайным. На практике бесповоротный отбор используется чаще. Когда проводится измерение каких-то признаков, относящихся к спортсменам, выборка составляется таким образом, что после того, как очередной спортсмен принял участие в измерениях, он уже не участвует в следующих измерениях.

Но, как правило, можно считать, что объем генеральной совокупности настолько велик, что при исключении из нее относительно малого числа единиц, составляющих выборку, состояние генеральной совокупности практически не меняется. При бесконечной генеральной совокупности различие между повторным и бесповторным отбором исчезает.

На практике используется несколько способов получении случайных выборок.

1. Истинно случайной будет выборка, полученная способом жеребьевки. Если, например, нужно отобрать группу в 20 человек из генеральной совокупности, включающей 500 человек, то можно заготовить карточки, из которых 20 определенным образом пометить, а остальные оставить пустыми. Затем всем предлагается вытянуть карточку, и таким образом получается необходимая выборка.

Организационно проще случайная выборка получается методом случайных чисел. Суть этого метода заключается в использовании таблицы случайных чисел. Последние располагаются в таблице в случайном порядке, и вероятности появления цифр от 0 до 9 в каждом разряде чисел одинаковы. Фрагмент таблицы случайных чисел представлен в табл. 5.1. Более подробные таблицы можно найти в [3, 4, 7, 13].

Все объекты генеральной совокупности нумеруются. Если объектов 500, то им присваиваются номера от 001 до 500. Затем в таблице случайных чисел произвольным образом выбирается любое число. Например, первое число второго столбца в табл. 5.1 33 834. Это число пятиразрядное, а нам нужны трехразрядные номера, поэтому отбрасываем два любых разряда числа, например последние. Получим 338, и объект с таким номером включаем в выборку. Далее берем следующее число из таблицы, двигаясь слева направо. Поступая аналогичным образом, получаем число 542. Это число больше 500, поэтому оно пропускается. Далее двигаемся по таблице до числа меньше 500, еще не встречавшегося ранее. Это будет 344, затем 448 и т. д. до тех пор, пока не наберем нужное количество номеров. Объекты с полученными номерами включаем в выборку.

Принцип случайности выборки не исключает плановости отбора объектов в нее. При этом планируется отбор по тем признакам объектов, которые не подлежат измерению в проводимом эксперименте. Существуют следующие виды планового отбора.

2. Механический отбор. Генеральная совокупность делится на группы, число которых равно объему выборки, а затем из каждой группы случайным образом выбирается один объект. В других случаях отбирается каждый 10-й, каждый 100-й и т. д. экземпляр генеральной совокупности или ее представительной части. -Например, в группу включается каждый 10-й юный спортсмен ДЮСШ.

3. Типический отбор. Генеральная совокупность делится на типические участки, например по районному принципу, и в каждой из полученных групп случайным образом отбирается одинаковое число объектов.

4. Серийный отбор. Генеральная совокупность делится на группы, называемые сериями, а затем из общего числа серий отбирается нужное число для сплошного исследования. Например, предполагается получить данные о физическом развитии младших школьников города. Если имеется 50 начальных классов средних школ, то при планируемом обследовании шести классов эти классы отбираются случайным образом.

При проведении выборочных исследований предполагается, что выборка является однородной. Это означает, что она получена из одной генеральной совокупности, т. е. в исходной совокупности отсутствуют объекты, резко выделяющиеся по значениям изучаемого признака. Предположение об однородности выборки на практике обычно основывается на предварительном изучении условий эксперимента. Так, обычно есть уверенность в том, что полученные выборочные данные представляют собой результаты измерений для спортсменов одного возраста, квалификации, спортивной специализации и т, п.

Точечные оценки

Под термином «о ц е н к а» в теории оценок понимаются как сами значения параметров генеральной совокупности, полученные по выборке, так и процесс получения этих значений, т. е. правило, по которому они получены.

Определения и требования к оценкам

Оценки подразделяются на два класса: точечные и интервальные.

Точечные оценки представляют собой определенные значения параметров генеральной совокупности, полученные по выборочным данным. Эти значения должны быть максимально близки к значениям соответствующих параметров генеральной совокупности, которые являются истинными значениями оцениваемых параметров.

При формировании интервальных оценок определяют границы интервалов, между которыми с большой вероятностью находятся истинные значения параметров.

Начнем с точечных оценок и рассмотрим оценку произвольного параметра (среднего, дисперсии или какого-то другого) генеральной совокупности, который обозначим Математическая статистика - примеры с решением заданий и выполнение задач. Оценивая параметр Математическая статистика - примеры с решением заданий и выполнение задач по выборке, находим такую величину Математическая статистика - примеры с решением заданий и выполнение задач, которую принимаем за точечную оценку параметра Математическая статистика - примеры с решением заданий и выполнение задач. Естественно, при этом стремимся, чтобы оценка была в определенном смысле наилучшей, поэтому к ней предъявляется ряд требований:

1. Состоятельность. Точечная оценка Математическая статистика - примеры с решением заданий и выполнение задач называется состоятельной, если при неограниченном увеличении объема выборки Математическая статистика - примеры с решением заданий и выполнение задач она стремится к истинному значению параметра Математическая статистика - примеры с решением заданий и выполнение задач.

В математической статистике показывается, что состоятельной оценкой генерального среднего значения Математическая статистика - примеры с решением заданий и выполнение задач является выборочное среднее арифметическое х, а состоятельной оценкой генеральной дисперсии Математическая статистика - примеры с решением заданий и выполнение задач — выборочная дисперсия Математическая статистика - примеры с решением заданий и выполнение задач. Методы вычисления этих выборочных характеристик были рассмотрены в гл. 3.

2. Несмещенность. Оценка называется несмещенной, если она не содержит систематической ошибки, т. е. среднее значение оценки, определенное по многократно повторенной выборке объема n из одной и той же генеральной совокупности, стремится к истинному значению соответствующего генерального параметра.

Выборочное среднее арифметическое Математическая статистика - примеры с решением заданий и выполнение задач является несмещенной оценкой генерального среднего Математическая статистика - примеры с решением заданий и выполнение задач.

Несмещенной оценкой генеральной дисперсии Математическая статистика - примеры с решением заданий и выполнение задач является выборочная дисперсия, вычисляемая по формуле: Математическая статистика - примеры с решением заданий и выполнение задач

Замечание 1

При определении выборочной дисперсии как среднего квадрата отклонений значений признака от среднего арифметического была приведена ее формула:

Математическая статистика - примеры с решением заданий и выполнение задач

Было отмечено, что эта формула редко используется, а вместо нее применяется выражение

Математическая статистика - примеры с решением заданий и выполнение задач

Теперь поясним смысл такого изменения формулы.

Одним из свойств выборочного среднего арифметического является то, что сумма квадратов отклонений значений признака от среднего арифметического меньше, чем сумма квадратов отклонений от любой другой величины (в том числе и от генерального среднего Математическая статистика - примеры с решением заданий и выполнение задач, т. е. Математическая статистика - примеры с решением заданий и выполнение задач для любой выборки. Поэтому вычисление оценки дисперсии по формуле Математическая статистика - примеры с решением заданий и выполнение задач Математическая статистика - примеры с решением заданий и выполнение задач будет содержать систематическую ошибку, и такая оценка будет смещенной.

Можно показать, что если использовать оценку Математическая статистика - примеры с решением заданий и выполнение задачМатематическая статистика - примеры с решением заданий и выполнение задачто она будет несмещенной, т. е. при неограниченном повторении выборки из генеральной совокупности и усреднении выборочной дисперсии, полученной на основании этой формулы, по всем выборкам получается истинное значение генеральной дисперсии.

3. Эффективность. Несмещенная оценка является эффективной, если она имеет наименьшую дисперсию по сравнению с другими несмещенными оценками того же параметра генеральной совокупности.

Это надо понимать так: полученные по выборке оценки Математическая статистика - примеры с решением заданий и выполнение задач — случайные величины, так как случайны сами выборочные значения. Поэтому можно говорить о математическом ожидании и дисперсии оценок Математическая статистика - примеры с решением заданий и выполнение задач Эффективность этих оценок означает, что их дисперсии Математическая статистика - примеры с решением заданий и выполнение задач меньше дисперсий любых других несмещенных оценок среднего значения и дисперсии генеральной совокупности.

Итак, наилучшими в указанном смысле оценками генерального среднего значения и генеральной дисперсии являются выборочные характеристики:

Математическая статистика - примеры с решением заданий и выполнение задач

Стандартная ошибка среднего арифметического

Оценки Математическая статистика - примеры с решением заданий и выполнение задач полученные по выборке, как правило, не совпадают с истинными значениями параметров Математическая статистика - примеры с решением заданий и выполнение задач генеральной совокупности. Экспериментально проверить это утверждение невозможно, поскольку не известны истинные значения этих параметров. Но если брать повторные выборки нз одной и той же генеральной совокупности с параметрами р, и с2 и каждый раз вычислять их оценки Математическая статистика - примеры с решением заданий и выполнение задачто окажется, что эти оценки для разных выборок не совпадают, хотя все это из одних и тех же генеральных параметров.

Отклонения оценок генеральных параметров от истинных значений этих параметров называются статистическими ошибками, или ошибками репрезентативности. Их происхождение не имеет ничего общего с ошибками измерения, а возникают они только потому, что не все объекты генеральной совокупности представлены в выборке.

Величины статистических ошибок оценивают по среднему квадратическому (стандартному) отклонению выборочных характеристик. Здесь рассматривается только стандартное отклонение выборочного среднего арифметического.

Если взять очень много независимых выборок объема n из одной и той же генеральной совокупности и определить для каждой из них среднее арифметическое, то окажется, что полученные средние арифметические варьируют вокруг своего среднего значения (равного Математическая статистика - примеры с решением заданий и выполнение задачв —Математическая статистика - примеры с решением заданий и выполнение задач раз меньше, чем отдельные варианты выборки. Следовательно, стандартное отклонение выборочного среднего арифметического будет равно Математическая статистика - примеры с решением заданий и выполнение задач гдеМатематическая статистика - примеры с решением заданий и выполнение задач — стандартное отклонение генеральной совокупности.

В качестве оценки стандартного отклонения выборочного среднего используется величина Математическая статистика - примеры с решением заданий и выполнение задач называемая стандартной ошибкой среднего арифметического. В формуле (5.1) S — выборочное стандартное отклонение Математическая статистика - примеры с решением заданий и выполнение задач

Величина Si показывает, какая ошибка в среднем допускается, если использовать вместо генерального среднего Математическая статистика - примеры с решением заданий и выполнение задач его выборочную оценку Математическая статистика - примеры с решением заданий и выполнение задач Поэтому вычисленное среднее арифметическое часто указывают в виде

Математическая статистика - примеры с решением заданий и выполнение задач

чтобы оценить точность оценки Математическая статистика - примеры с решением заданий и выполнение задач

Из формулы (5.1) видно, как зависит стандартная ошибка Математическая статистика - примеры с решением заданий и выполнение задачот объема выборки n: с увеличением объема выборки п стандартная ошибка Математическая статистика - примеры с решением заданий и выполнение задач уменьшается пропорционально корню квадратному из n.

Пример 5.1

Найдем стандартную ошибку среднего арифметического результатов в беге на 100 м для данных примера 3.4. Рассчитанные в примере_3.4 значения выборочных характеристик составляют: Математическая статистика - примеры с решением заданий и выполнение задач=15,4 с и S = Математическая статистика - примеры с решением заданий и выполнение задач 0,94 (с). Объем выборки n = 50, отсюда стандартная ошибка среднего арифметического Математическая статистика - примеры с решением заданий и выполнение задач 0,13 (с).

Замечание 2

Теперь можно вернуться к вопросу, который был оставлен открытым при вычислении выборочных характеристик в гл. 3: с такой точностью нужно вычислять выборочные характеристики?

Как мы только что убедились, при ограниченном объеме выборки п истинное значение генерального среднего р, не может быть определено сколь угодно точно, поэтому при вычислении Математическая статистика - примеры с решением заданий и выполнение задачоставлять большое число значащих цифр не имеет смысла. Существует эмпирическое правило, согласно которому в окончательном результате положение последней значащей цифры должно соответствовать положению первой значащей цифры в величине Математическая статистика - примеры с решением заданий и выполнение задач Чтобы избежать накопления ошибок, связанных с округлением, промежуточные результаты нужно вычислять с точностью на один порядок больше, чем точность окончательных результатов.

Для рассмотренного выше примера Математическая статистика - примеры с решением заданий и выполнение задач = 0,13/3 = = 0,04 (с). Следовательно, значение Математическая статистика - примеры с решением заданий и выполнение задач надо было бы вычислять с точностью до сотых долей секунды, если, конечно, позволяет точность измерения исходных данных.

В этом примере значения признака измерены с точностью до десятых долей секунды, поэтому в более точном вычислении Математическая статистика - примеры с решением заданий и выполнение задач и его стандартной ошибки Математическая статистика - примеры с решением заданий и выполнение задач нет смысла. Окончательный результат следует проводить в виде

Математическая статистика - примеры с решением заданий и выполнение задач

Интервальные оценки

По известной величине выборочной характеристики Математическая статистика - примеры с решением заданий и выполнение задач или S и др.) можно определить интервал, в котором с той или иной вероятностью определяется значение параметра генеральной совокупности, оцениваемого по этой выборочной характеристике.

Вероятности, признанные достаточными для того, чтобы уверенно судить о генеральных параметрах на основании выборочных характеристик, называются доверительными.

Обычно в качестве доверительных вероятностей выбирают значения 0,95, 0,99 или 0,999 (их принято выражать в процентах). Перечисленным значениям соответствуют 95, 99 и 99,9 %. Выбор той или иной доверительной вероятности производится исследователем исходя из практических соображений о той ответственности, с какой делаются выводы о генеральных параметрах.

Замечание 3

Как правило, в научных исследованиях в области спорта считается достаточной доверительная вероятность 0,95 (95 %). В некоторых случаях, когда уточняются результаты предыдущих исследований или когда выводы, сделанные в данном исследовании, связаны с большой ответственностью (например, предлагается в корне пересмотреть программу тренировок или рацион питания сборной команды), применяются более высокие уровни доверительной вероятности: 99 или 99,9%.

Интервал, в котором с заданной доверительной вероятностью находится оцениваемый генеральный параметр, называется доверительным интервалом.

В соответствии с доверительными вероятностями на практике используются 95-, 99-, 99,9-процентные доверительные интервалы.

В литературе по математической статистике обычно говорят о 100 (1 —а)-процентном доверительном интервале, где (1 — а) — доверительная вероятность, а а — некоторое малое число (а — 0,05; 0,01; 0,001), задающее вероятность того, что оцениваемый генеральный параметр выходит за границы доверительного интервала.

Теперь рассмотрим формирование доверительного интервала для среднего (математического ожидания) Математическая статистика - примеры с решением заданий и выполнение задачнормально распределенной генеральной совокупности. Пронормируем значение среднего арифметического Математическая статистика - примеры с решением заданий и выполнение задач найденного по выборке объема n из этой генеральной совокупности, по формуле: Математическая статистика - примеры с решением заданий и выполнение задач где Математическая статистика - примеры с решением заданий и выполнение задач — оцениваемый параметр — среднее значение генеральной совокупности; Математическая статистика - примеры с решением заданий и выполнение задач — стандартная ошибка выборочного среднего арифметического.

Величина t имеет t-распределение Стьюдента (определенное в гл. 4) с v = n — 1 степенями свободы.

Необходимо определить доверительный интервал, в котором с доверительной вероятностью 100(1 —а) % находится истинное значение оцениваемого параметра ц. Для этого задается значение а (например, 0,05). Доверительная вероятность будет соответствовать площади под кривой t-распределения Стьюдента, заключенной между точками — Математическая статистика - примеры с решением заданий и выполнение задач (рис. 5.1). Следовательно, доверительный интервал можно записать как

Математическая статистика - примеры с решением заданий и выполнение задач Преобразуем это выражение к виду Математическая статистика - примеры с решением заданий и выполнение задач Это и есть стандартная форма записи доверительного интервала.

Учитывая формулу (5.1) приходим к окончательному выражению: Математическая статистика - примеры с решением заданий и выполнение задач

т. е. истинное значение Математическая статистика - примеры с решением заданий и выполнение задач с вероятностью 100 (1 — а) % лежит в границах Математическая статистика - примеры с решением заданий и выполнение задач ЗначенияМатематическая статистика - примеры с решением заданий и выполнение задач для стандартных значений а (0,05, 0,01 и 0,001) и различных значений параметра v t-распределения (v = n — 1) приведены в табл. 4 Приложения.

Чтобы найти границы доверительного интервала для среднего значения генеральной совокупности, действуем в следующем порядке:

  1. по полученной выборке объема n вычисляем среднее арифметическое Математическая статистика - примеры с решением заданий и выполнение задач и стандартное отклонение S. Методы вычислений рассмотрены в гл. 3;
  2. задаемся доверительной вероятностью 1 — а (например, 0,95) исходя из целей исследования;
  3. по таблице t-распределения Стьюдента находим граничные значения Математическая статистика - примеры с решением заданий и выполнение задач В силу симметричности t-распределения достаточно знать только положительное значение Математическая статистика - примеры с решением заданий и выполнение задач. Например, если объем выборки п — 12, то число степеней свободы t-распределения v = 12— 1 = 11, и по табл. 4 Приложения определяем для а = 0,05: Математическая статистика - примеры с решением заданий и выполнение задач = 2,20;
  4. находим границы доверительного интервала по формуле (5.3). Для а= 0,05 и n = 12:

Математическая статистика - примеры с решением заданий и выполнение задач

Как было отмечено в гл. 4, при больших объемах выборки (практически при n > 30) t-распределение Стьюдента переходит в нормальное. Поэтому для определения границ доверительного интервала для Математическая статистика - примеры с решением заданий и выполнение задач при больших объемах выборки можно пользоваться таблицами нормированного нормального распределения (табл. 1 Приложения).

Доверительный интервал для Математическая статистика - примеры с решением заданий и выполнение задачпри n > 30 записывается в следующем виде:

Математическая статистика - примеры с решением заданий и выполнение задач

где ua — процентные точки нормированного нормального распределения, определяемые по табл. 1 Приложения.

Для стандартных доверительных вероятностей (95, 99, 99,9%) значенияМатематическая статистика - примеры с решением заданий и выполнение задач приведены в таблице 5.2.

Математическая статистика - примеры с решением заданий и выполнение задач

Чтобы найти доверительный интервал для среднего значения генеральной совокупности при больших объемах выборки (n >30), поступаем следующим образом:

  1. По выборочным данным находим среднее арифметическое Математическая статистика - примеры с решением заданий и выполнение задач и стандартное отклонение S, как показано в гл. 3.
  2. Задаемся доверительной вероятностью I—а (например, 0,95).
  3. По табл. 5.2 находим значение Математическая статистика - примеры с решением заданий и выполнение задач соответствующее заданной доверительной вероятности Математическая статистика - примеры с решением заданий и выполнение задач= 1,96).
  4. Определяем границы доверительного интервала по формуле (5.4). Для а = 0,05 получаем:

Математическая статистика - примеры с решением заданий и выполнение задач

Как видно из сравнения найденного доверительного интервала с доверительным интервалом, полученный выше по t-распределению, при малых объемах выборки границы первого интервала шире Математическая статистика - примеры с решением заданий и выполнение задач 1,96). Это понят но из простых физических соображений: при малом объеме выборки получается меньше ин-форгиации о свойствах генеральной совокупности.

Пример 5.2

Определим границы 95 %-ного доверительного интервала для среднего результата в беге на 100 м по данным обследования группы из 50 школьников, приведенным в табл. 2.1.

Объем выборки n= 50, т. е. для определения доверительного интервала можно использовать рекомендации для большого объема выборки. Действуем в указанном выше порядке:

  1. Среднее арифметическое и стандартное отклонение для рассматриваемого примера вычислены в примере 3:4: Математическая статистика - примеры с решением заданий и выполнение задач — 15,4 с, S = 0,94 с.
  2. Задаемся доверительной вероятностью 95%.
  3. Из табл. 5.2 находим Математическая статистика - примеры с решением заданий и выполнение задач — 1,96.
  4. По формуле (5.4) определяем границы доверительного интервала:

Математическая статистика - примеры с решением заданий и выполнение задач

Таким образом, истинное значение среднего времени на дистанции 100 м для школьников этой группы находится в интервале (15,1 с, 15,7 с) с вероятностью 0,95 (95%).

Сделаем еще одно замечание по поводу доверительных интервалов.

Среднее значение р генеральной совокупности является хотя и неизвестным, но фиксированным параметром, а границы доверительного интервала, полученные по случайной выборке объема n, будут также случайными величинами. Когда говорится о 95-процентной доверительной вероятности, это означает, что примерно в 95 % случаев фиксированное, но неизвестное значение Математическая статистика - примеры с решением заданий и выполнение задач окажется в границах доверительного интервала.

Образная трактовка доверительных интервалов приведена в книге «Статистика и планирование эксперимента в технике и науке»*. «Доверительный интервал и связанные с ним понятия похожи на то, с чем мы сталкиваемся при игре с набрасыванием подковы на кол. Кол здесь играет роль оцениваемого параметра (его положение никогда не изменяется)… Подкова выступает в роли доверительного интервала. Если при 100 набрасываниях подковы удается в среднем 90 раз набросить ее на кол, то имеется 90 %-ная гарантия (или уровень доверия) набросить подкову на кол. Доверительный интервал, подобно подкове, меняет свое положение. При любом броске (или при построении некоторой интервальной оценки) кол (или параметр) может как попасть внутрь подковы (интервала), так и оказаться вне ее. Таким образом, делается вероятностное утверждение относительно переменных величин, характеризующих положение подковы».

Оценку параметра Математическая статистика - примеры с решением заданий и выполнение задач найденную в форме доверительного интервала, часто записывают в виде Математическая статистика - примеры с решением заданий и выполнение задач. Чтобы избежать неоднозначности в толковании результатов (перепутывания с записью результата как Математическая статистика - примеры с решением заданий и выполнение задач запись доверительного интервала необходимо сопровождать пояснением. Например 95 %-ный доверительный интервал для среднего результата (15,4 ±0,3 с).

Определение необходимого объема выборки для получения оценок заданной точности

Обычно исследователя интересует вопрос: какой минимальный объем выборки необходим для того, чтобы оценка (чаще всего выборочное среднее арифметическоеМатематическая статистика - примеры с решением заданий и выполнение задач отличалась от истинного значения среднего значения генеральной совокупности не более чем на заданную величину?

Ответить на этот вопрос можно, если ввести доверительную вероятность и выбрать объем выборки n таким образом, чтобы доверительный интервал имел заданный размер.

Если генеральная совокупность предполагается нормально распределенной и ее дисперсия Математическая статистика - примеры с решением заданий и выполнение задач известна, то доверительный интервал для среднего значения р записывается следующим образом:

Математическая статистика - примеры с решением заданий и выполнение задач

где «а для стандартных доверительных вероятностей определены в табл. 5.2.

Пусть требуется, чтобы выборочное среднее Математическая статистика - примеры с решением заданий и выполнение задач отличалось от генерального Математическая статистика - примеры с решением заданий и выполнение задач не более чем на заданную величину d. Это означает, что половина ширины доверительного интервала должна быть равна d, т. е. половика от

Математическая статистика - примеры с решением заданий и выполнение задач должна равняться d:

Математическая статистика - примеры с решением заданий и выполнение задач Отсюда требуемый объем выборки определяется следующим образом:

Математическая статистика - примеры с решением заданий и выполнение задач

Истинное значение параметра о генеральной совокупности обычно неизвестно, но при больших объемах выборки Математическая статистика - примеры с решением заданий и выполнение задач можно использовать его выборочную оценку S. Тогда Математическая статистика - примеры с решением заданий и выполнение задач

В качестве примера найдем минимальный объем выборки, необходимый для того, чтобы выборочное среднее значение результата в беге на 100 м, определяемое для группы школьников, отличалось от истинного значения среднего результата не более чем на d = 0,1 с.

По результатам выборочного исследования (пример 5.2) выборочное стандартное отклонение, определенное при n = 50, составляет 0,94 с. Задаемся доверительной вероятностью 95% Математическая статистика - примеры с решением заданий и выполнение задач— 1,96) и по формуле (5.6) находим Математическая статистика - примеры с решением заданий и выполнение задач Таким образом, при объеме выборки n — 339 существует 95 %-ная вероятность того, что выборочное среднее арифметическое будет отличаться от генерального среднего не более чем на 0,1 с.

Критерии значимости и проверка гипотез

В этой лекции рассматривается группа статистических методов, которые получили наибольшее распространение в статистических исследованиях, связанных с практикой спорта. Эти методы применяются всегда, когда предстоит проверить какие-то теоретические предположения, связанные с эффективностью мероприятий, направленных на совершенствование тренировочного процесса. Исследователь выдвигает предположения исходя из анализа конкретного явления с позиций спортивной педагогики, физиологии, медицины, психологии или другой области знаний, представителем которой он является. Затем справедливость предположений проверяется на основании данных соответствующего эксперимента, условия, которого контролируются.

Нулевая гипотеза (нуль-гипотеза) и альтернатива (альтернативная гипотеза)

Статистической гипотезой (или просто гипотезой) называется утверждение о распределении генеральной совокупности, соответствующее некоторым представлениям об изучаемом явлении. В частном случае это может быть утверждение о значениях параметровМатематическая статистика - примеры с решением заданий и выполнение задач нормально распределенной генеральной совокупности.

Предположим, что в эксперименте участвуют две группы юных спортсменов — прыгунов в высоту. Одна из них (контрольная) тренируется по традиционной программе, а для второй (экспериментальная) используется новый комплекс специальных упражнений. Действенность нового комплекса оценивается по различию результатов, показанных в этих группах после определенного тренировочного цикла. По полученным данным необходимо проверить следующие утверждения:

  1. 1. Среднее значение результатов не изменилось, т. е. Математическая статистика - примеры с решением заданий и выполнение задач Здесь Математическая статистика - примеры с решением заданий и выполнение задач — средние значения соответствующих генеральных совокупностей (результатов всех прыгунов данного класса, которые могли бы тренироваться по традиционной Математическая статистика - примеры с решением заданий и выполнение задач и новой Математическая статистика - примеры с решением заданий и выполнение задач программам).
  2. Вариативность результатов возросла: Z Математическая статистика - примеры с решением заданий и выполнение задач Здесь Математическая статистика - примеры с решением заданий и выполнение задач — так же, как и в п. 1, значения соответствующих генеральных параметров.
  3. Средний результат возрос на 3 см: Математическая статистика - примеры с решением заданий и выполнение задач

Это три различные статистические гипотезы. Конечно, возможные утверждения не ограничиваются приведенным списком. Гипотезы предстоит проверить с помощью какого-то метода — критерия.

Статистические гипотезы обычно рассматривают две генеральные совокупности, одна из которых может представлять собой теоретическую модель (например, нормальное распределение), а о второй судят по выборке из нее. В других случаях обе генеральные совокупности представлены выборками.

При проверке статистических гипотез принят следующий подход. Считается, что получение в результате эксперимента любых новых данных об изучаемом явлении, не согласующихся с данными, имеющимися до проведения эксперимента,— маловероятное событие. В то же время, если взять две выборки, представляющие собой результаты измерения одного и того же признака, и сравнить между собой их характеристики (среднее арифметическое, стандартное отклонение и др.), то окажется, что они практически всегда различаются. Это различие можно рассматривать как обусловленное только действием случайностей. Поэтому первоначально гипотезу всегда можно сформулировать таким образом: между двумя генеральными совокупностями нет ожидаемого различия. Такая гипотеза называется нулевой гипотезой, или нуль-гипотезой. Обратное ей утверждение о том, что в действительности между генеральными совокупностями есть различие, называется альтернативной гипотезой, или альтернативой.

Итак, вначале выдвигается нулевая гипотеза о том, что различие между генеральными совокупностями равно нулю. Затем получают выборку или несколько выборок, и если выборочные данные не противоречат нулевой гипотезе, т. е. различие можно объяснить только случайностью выборки, то нулевая гипотеза сохраняется (принимается). Если же полученные результаты не удается объяснить только действием случайных факторов, то нулевая гипотеза отвергается, а принимается альтернативная гипотеза.

Нулевую гипотезу принято обозначать, как Математическая статистика - примеры с решением заданий и выполнение задач а альтернативную — Математическая статистика - примеры с решением заданий и выполнение задач

Пусть, например, оценивается эффективность нового комплекса упражнений для юных спортсменов — прыгунов в высоту по среднему значению спортивного результата в контрольной и экспериментальной группах. Тогда нулевую гипотезу Математическая статистика - примеры с решением заданий и выполнение задач можно сформулировать так: среднее значение результатов не изменилось, т. е. Математическая статистика - примеры с решением заданий и выполнение задач Для краткости это записывается так: Математическая статистика - примеры с решением заданий и выполнение задач: Математическая статистика - примеры с решением заданий и выполнение задач

Если заранее нельзя сказать, к чему приведет новый комплекс упражнений — к увеличению или уменьшению результатов, то альтернативная гипотеза Математическая статистика - примеры с решением заданий и выполнение задач будет состоять в том, что средние значения генеральных совокупностей неодинаковы: Математическая статистика - примеры с решением заданий и выполнение задач

Ошибки при проверке гипотез

Ошибки, допускаемые при проверке гипотез, удобно разделить на два типа: L) отклонение гипотезы Математическая статистика - примеры с решением заданий и выполнение задач когда она верна, — ошибка первого рода; 2) принятие гипотезы Математическая статистика - примеры с решением заданий и выполнение задач когда в действительности верна какая-то другая гипотеза, — ошибка второго рода.

Вероятность ошибки первого рода обозначается а. Величина а называется уровнем значимости критерия, по которому проверяется справедливость гипотезы Но.

Вероятность ошибки второго рода обозначается Математическая статистика - примеры с решением заданий и выполнение задач Ее величина зависит от альтернативной гипотезы Математическая статистика - примеры с решением заданий и выполнение задач Рассмотрим для приведенного выше примера следующие две ситуации: 1) в действительности средний результат возрос на 3 см, 2) средний результат увеличился на 30 см. Ясно, что для одних и тех же условий эксперимента и одинакового уровня значимости а вероятность ошибки второго рода Математическая статистика - примеры с решением заданий и выполнение задач (принять гипотезу об отсутствии различия) для второй из альтернатив будет меньше.

Вероятности а и Математическая статистика - примеры с решением заданий и выполнение задач удобно представить, как это сделано в табл. 6.1.Математическая статистика - примеры с решением заданий и выполнение задач

Наглядным способом интерпретации ошибок является их графическое представление.

Предположим, что проверяется гипотеза Математическая статистика - примеры с решением заданий и выполнение задач о равенстве среднего значении генеральной совокупности заданной величине Математическая статистика - примеры с решением заданий и выполнение задач (известной, например, из предыдущих экспериментов).

Для этого берется выборка объема b, находится ее среднее арифметическое Математическая статистика - примеры с решением заданий и выполнение задач и по его величине судят о справедливости гипотезы Математическая статистика - примеры с решением заданий и выполнение задач.

Распределение среднего арифметического Математическая статистика - примеры с решением заданий и выполнение задач при условии, что верна гипотеза Математическая статистика - примеры с решением заданий и выполнение задач, будет Математическая статистика - примеры с решением заданий и выполнение задач Это распределение чисто качественно представлено на рис. 6.1.

Распределение среднего арифметического х при условии, что верна альтернативная гипотеза Математическая статистика - примеры с решением заданий и выполнение задач будет уже другим — Математическая статистика - примеры с решением заданий и выполнение задач

Будем считать, что гипотеза Математическая статистика - примеры с решением заданий и выполнение задачотвергается, если выборочное среднее арифметическоеМатематическая статистика - примеры с решением заданий и выполнение задач окажется больше некоторого значения К, т. е. Математическая статистика - примеры с решением заданий и выполнение задачкак показано на рис. 6.1.

Математическая статистика - примеры с решением заданий и выполнение задач

Область непринятия гипотезы Математическая статистика - примеры с решением заданий и выполнение задач называется критической областью критерия. Она показана на рис. 6.1 наклонной штриховкой. Уровень значимости будет соответствовать площади критической области.

Вероятность ошибки второго рода Математическая статистика - примеры с решением заданий и выполнение задач будет равна площади под кривой распределения Математическая статистика - примеры с решением заданий и выполнение задач показанной на рис. 6.1. вертикальной штриховкой.

Величина 1—Математическая статистика - примеры с решением заданий и выполнение задач называется мощностью критерия.

Следует особо подчеркнуть, что любая гипотеза должка формулироваться, а уровень значимости а задаваться исследователем всегда до получения экспериментальных данных, по которым эта гипотеза будет проверяться.

При выборе уровня значимости а исследователь исходит из практических соображений, отвечая на вопрос: какую вероятность ошибки он считает допустимой для его конкретной задачи?

Обычно считают достаточным а =0,05 (5%), иногда а =0,01, редко а= 0,001. Здесь можно руководствоваться соображениями, изложенными в замечании 3 гл. 5 при выборе доверительной вероятности.

Между стандартными статистическими критериями и стандартными доверительными интервалами существует тесная связь: если принимается гипотеза о том, что значение параметра (р,, с?) нормально распределенной генеральной совокупности равно фиксированному значению (ро, ао) с уровнем значимости а, то это эквивалентно заданию 100 (1—а%-ного доверительного интервала для данного параметра нормального распределения. Поэтому оба подхода — доверительные интервалы и критерии значимости — в данном случае равноценны. Преимущество доверительных интервалов в том, что они дают представление об истинном значении параметра генеральной совокупности, а недостаток в том, что их трудно построить в более сложных случаях, например при анализе дисперсий (стандартных отклонений).

Критерии значимости

В рассмотренном выше примере (см. п. 6.2.2) при проверке гипотезы об отсутствии различия среднего результата спортсменов в контрольной и экспериментальной группах можно было бы поступить следующим образом:

вычислить средние арифметические результаты в группах после этапа тренировки и сравнить их между собой. Если окажется, что различие средних арифметических больше, например, 5 см, то можно утверждать, что новый комплекс упражнений оказался эффективным. Но при этом неизвестно, какие ошибки допускаются при таком утверждении, поэтому невозможно точно доказать наличие или отсутствие различий.

Методы, которые для каждой выборки формально точно определяются, удовлетворяют выборочные данные нулевой гипотезы или нет, называются критериями значимости.

Процедура проверки гипотез обычно сводится к тому, что по выборочным данным вычисляется значение некоторой величины, называемой статистикой критерия, или просто критерием, который имеет известное стандартное распределение (нормальное, t-распределение Стьюдента и т. п.), поэтому вычислительная работа упрощается. Найденное значение критерия сравнивается с критическим (граничным) значением крите-терия, взятым из соответствующих таблиц, и по результатам сравнения делается вывод: принять гипотезу или отвергнуть.

Если вычисленное по выборке значение критерия не превосходит граничного значения, то гипотеза Математическая статистика - примеры с решением заданий и выполнение задач принимается на заданном уровне значимости а. В этом случае наблюдаемое по экспериментальным данным различие генеральных совокупностей можно объяснить только случайностью выборки. Однако принятие гипотезы Но совсем не означает доказательства равенства параметров генеральных совокупностей. Просто имеющийся в распоряжении статистический материал не дает оснований для отклонения гипотезы о том, что эти параметры одинаковы. Возможно, появится другой экспериментальный материал, на основании которого эта гипотеза будет отклонена.

Когда вычисленное значение критерия оказывается больше граничного (критического) значения при заданном уровне значимости а, то наблюдаемое различие генеральных совокупностей уже нельзя объяснить только случайностями. В этом случае гипотеза Математическая статистика - примеры с решением заданий и выполнение задач отклоняется в пользу гипотезы Математическая статистика - примеры с решением заданий и выполнение задачпри данном уровне значимости а, и говорят, что наблюдаемое различие значимо (статистически значимо) на уровне значимости а.

Следует подчеркнуть разницу между статистической значимостью и практической значимостью. Заключение о практической значимости всегда делается человеком, изучающим данное явление. И здесь истинным критерием является опыт и интуиция исследователя, а статистические критерии значимости — лишь формально точный инструмент, используемый в исследовании. Чем больше исследователь знает об изучаемом явлении, тем точнее будет сформулированная им гипотеза и тем точнее будут выводы, сделанные с помощью критериев значимости.

Замечание 1

Ранее уже подчеркивалось, что уровень значимости ос должен выбираться исследователем до получения экспериментальных данных, по которым будет проверяться гипотеза. Но часто с предварительным выбором возникают затруднения. Обычно говорят, что для научных исследований (в том числе и в спорте) достаточен уровень значимости а = 0,05, но если выводы, которые предстоит сделать по результатам проверки гипотез, связаны с большой ответственностью, то рекомендуется выбирать а = 0,01 или а =0,001.

Как установить ответственность в трактовке результатов эксперимента и тот риск, который связан с выбором уровня значимости а? Чтобы не давать прямых ответов на эти непростые вопросы, часто поступают следующим образом: уровень значимости до эксперимента точно не устанавливается, а по экспериментальным данным вычисляется вероятность Р того, что критерий (статистика критерия) выйдет за пределы значения, рассчитанного по выборке. Таким образом, Р — это экспериментальный уровень значимости. Точное значение Р обычно не указывают, а окончательные результаты приводят в следующем виде: 1) если вычисленное значение критерия не превосходит критического значения на уровне значимости а =0,05, то различие считается статистически незначимым; 2) если вычисленное по выборке значение критерия превышает критические значения при а=0,05, а=0,01 или а= 0,001, то записывают Р<0,05, Р<0,01 или Р<0,001. Это означает, что наблюдаемые различия статистически значимы на уровнях значимости 0,05, 0,01 или 0,001.

Критерии значимости подразделяются на три типа:

  1. Критерии значимости, которые служат для проверки гипотез о параметрах распределений генеральной совокупности (чаще всего нормального распределения). Эти критерии называются параметрическими.
  2. Критерии, которые для проверки гипотез не используют предположений о распределении генеральной совокупности. Эти критерии не требуют знания параметров распределений, поэтому называются непараметрически м и.
  3. Особую группу критериев составляют критерии согласия, служащие для проверки гипотез о согласии распределения генеральной совокупности, из которой получена выборка, с ранее принятой теоретической моделью (чаще всего нормальным распределением).

Односторонние и двусторонние критерии

Остановимся на одном важном обстоятельстве, которое часто не учитывается в спортивных приложениях математической статистики. Если цель исследования в том, чтобы выявить различие параметров двух генеральных совокупностей, которые соответствуют различным естественным условиям (условия тренировки, возраст испытуемых и т.п.), то часто неизвестно, какой из этих параметров будет больше, а какой меньше. Например, если интересуются вариативностью результатов в контрольной и экспериментальной группах, то, как правило, нет уверенности в знаке различия дисперсий или стандартных отклонений результатов, по которым оценивается вариативность. В этом случае нулевая гипотеза состоит в том, что дисперсии равны между собой Математическая статистика - примеры с решением заданий и выполнение задач а цель исследования — доказать обратное Математическая статистика - примеры с решением заданий и выполнение задачт. е. наличие различия между дисперсиями. При этом допускается, что различие может быть любого знака. Такие гипотезы называются двусторонними.

Но иногда задача состоит в том, чтобы доказать увеличение или уменьшение параметра; например, средний результат в экспериментальной группе выше, чем в контрольной. При этом уже не допускается, что различие может быть другого знака. Тогда альтернативная гипотеза Математическая статистика - примеры с решением заданий и выполнение задач (или Математическая статистика - примеры с решением заданий и выполнение задач а обратное ей утверждение Математическая статистика - примеры с решением заданий и выполнение задач Такие гипотезы называются односторонними.

Критерии значимости, служащие для проверки двусторонних гипотез, называются двусторонними, а для односторонних — односторонними.

Возникает вопрос о том, какой из критериев следует выбирать в том или ином случае. Ответ на этот вопрос находится за пределами формальных статистических методов и полностью зависит от целей исследования. Ни в коем случае нельзя выбирать тот или иной критерий после проведения эксперимента на основе анализа экспериментальных данных, поскольку это может привести к неверным выводам. Если до проведения эксперимента допускается, что различие сравниваемых параметров может быть как положительным, так и отрицательным, то следует использовать двусторонний критерий. Если же есть дополнительная информация, например, из предшествующих экспериментов, на основании которой можно сделать предположение, что один из параметров больше или меньше другого, то используется односторонний критерий. Когда имеются основания дли применения одностороннего критерия, его следует предпочесть двустороннему, потому что односторонний критерий полнее использует информацию об изучаемом явлении и поэтому чаще дает правильные результаты.

Например, необходимо доказать различие средних значений генеральных совокупностей (средних значений спортивного результата) при двух различных методиках тренировки по результатам в контрольной и экспериментальной группах. Если есть данные, что экспериментальная группа покажет в среднем лучший результат, то нужно выдвинуть нулевую гипотезу Математическая статистика - примеры с решением заданий и выполнение задач против двусторонней альтернативы Математическая статистика - примеры с решением заданий и выполнение задач Различие доказывается по разности средних арифметических результатов в контрольной и экспериментальной группах Математическая статистика - примеры с решением заданий и выполнение задачМатематическая статистика - примеры с решением заданий и выполнение задач Распределение разности Математическая статистика - примеры с решением заданий и выполнение задачпри условии, что верна нулевая гипотеза Математическая статистика - примеры с решением заданий и выполнение задач схематично представлено на рис. 6.2, а.

Решение об отклонении гипотезы Математическая статистика - примеры с решением заданий и выполнение задач принимается в том случае, если разность Математическая статистика - примеры с решением заданий и выполнение задач выходит за пределы некоторого значения Математическая статистика - примеры с решением заданий и выполнение задач (допустимы отклонения в обе

Математическая статистика - примеры с решением заданий и выполнение задач

Рис. 6.2. Уровни значимости при двустороннем (а) и одностороннем (б) критериях стороны от нуля). Ошибка, которая при этом допускается, равна, как известно, уровню значимости а. Но поскольку отклонения возможны в обе стороны, то при симметричном распределении вероятности отклонении, больших Математическая статистика - примеры с решением заданий и выполнение задач и меньших Математическая статистика - примеры с решением заданий и выполнение задач будут одинаковы и составят а/ 2.

Нели предположить, что в экспериментальной группе будут показаны в среднем более высокие результаты, то можно выдвинуть одностороннюю альтернативу Математическая статистика - примеры с решением заданий и выполнение задачМатематическая статистика - примеры с решением заданий и выполнение задачВ этом случае при той же нулевой гипотезе Математическая статистика - примеры с решением заданий и выполнение задачМатематическая статистика - примеры с решением заданий и выполнение задачраспределение разности Математическая статистика - примеры с решением заданий и выполнение задач будет таким же, как и для двустороннего критерия (см. рис. 6.2, б). Математическая статистика - примеры с решением заданий и выполнение задач теперь представляют интерес только положительные значения разности Математическая статистика - примеры с решением заданий и выполнение задач Решение об отклонении Математическая статистика - примеры с решением заданий и выполнение задач принимается, когда Математическая статистика - примеры с решением заданий и выполнение задач окажется больше некоторого Математическая статистика - примеры с решением заданий и выполнение задачПри том же уровне значимости а Математическая статистика - примеры с решением заданий и выполнение задач будет всегда меньше Математическая статистика - примеры с решением заданий и выполнение задач поэтому нулевая гипотеза будет при одностороннем критерии отклоняться чаще.

Таким образом, двусторонние критерии оказываются более консервативными, чем односторонние.

Критерии, основанные на нормальном распределении

Если необходимо проверить гипотезу о том, что две независимые выборки получены из генеральных совокупностей X и У с одинаковыми дисперсиямиМатематическая статистика - примеры с решением заданий и выполнение задач то можно использовать Математическая статистика - примеры с решением заданий и выполнение задач-критерий Фишера.

Сравнение двух выборочных дисперсий из нормальных совокупностей

Условия применения F-критерия: обе выборки независимы и получены из нормально распределенных генеральных совокупностей с параметрами Математическая статистика - примеры с решением заданий и выполнение задач

Известно, что это двусторонняя гипотеза, поэтому следует применять двусторонний критерий. Если же предположить, что одна из генеральных совокупностей имеет большую дисперсию (обозначим ее Математическая статистика - примеры с решением заданий и выполнение задач чем другая Математическая статистика - примеры с решением заданий и выполнение задач то можно сформулировать одностороннюю гипотезу Математическая статистика - примеры с решением заданий и выполнение задач и тогда применяется односторонний F-крите-рий.

Уровень значимости критерия задается а.

Порядок применения F-критерия следующий:

1. Принимается предположение о нормальности распределения генеральных совокупностей, формулируется гипотеза и альтернатива, назначается уровень значимости а, как указано выше.

2. Получают две независимые выборки из совокупностей X и У объемом Математическая статистика - примеры с решением заданий и выполнение задачу соответственно.

3. Рассчитываются значения выборочных дисперсийМатематическая статистика - примеры с решением заданий и выполнение задач (методы расчета рассмотрены в гл. 3). Большую из дисперсий Математическая статистика - примеры с решением заданий и выполнение задачобозначаютМатематическая статистика - примеры с решением заданий и выполнение задач, меньшую Математическая статистика - примеры с решением заданий и выполнение задач

4. Вычисляется значение F-критерия по формуле:

Математическая статистика - примеры с решением заданий и выполнение задач

5. Сравнивается вычисленное значение F с критическим значением F-критерия при заданном уровне значимости а и числе степеней свободы Математическая статистика - примеры с решением заданий и выполнение задачМатематическая статистика - примеры с решением заданий и выполнение задач1. Критические значения Математическая статистика - примеры с решением заданий и выполнение задач при уровнях значимости а, равных 0,05, 0,01, 0,001.

Отметим, что в табл. 3 Приложения приведены критические значения одностороннего F-критерия. Поэтому если цель исследования доказать, что одна дисперсия больше другой Математическая статистика - примеры с решением заданий и выполнение задач то критические значения берутся непосредственно из этой таблицы. Если же применяется двусторонний критерийМатематическая статистика - примеры с решением заданий и выполнение задач, то критические значения, взятые из табл. 3 Приложения, соответствуют удвоенным уровням значимости: 0,01, 0,02 и 0,002.

6. Делается вывод: если вычисленное значение F-критерия больше или равно критическому, то дисперсии различаются значимо на заданном уровне значимости. В противном случае нет оснований для отклонения нулевой гипотезы о равенстве двух дисперсий.

Пример 6.1

Одна группа школьников Математическая статистика - примеры с решением заданий и выполнение задач шестых классов взята из обычной школы, а другаяМатематическая статистика - примеры с решением заданий и выполнение задач — из школы со специальной спортивной подготовкой. В обеих группах измерены результаты в беге на 100 м. Предстоит проверить утверждение о том, что по вариативности результатов школьники при обеих системах подготовки не отличаются.

Действуем в порядке, указанном выше.

1. Гипотеза Математическая статистика - примеры с решением заданий и выполнение задач. Альтернатива Математическая статистика - примеры с решением заданий и выполнение задач, т. е. используем двусторонний критерий, поскольку заранее не уверены в том, что какая-либо из генеральных дисперсий больше другой.

Задаемся уровнем значимости а = 0,02 (такой «нестандартный» уровень значимости выбран из желания воспользоваться данными табл. 3 Приложения). Критические значения для двустороннего F-критерия содержатся в [8].

Принимаем предположение о нормальности распределения обеих генеральных совокупностей. Вопросы, связанные с тем, чем можно обосновать такое предположение, рассмотрены ниже в п. 6.4.

2—3. Пусть рассчитанные выборочные стандартные отклонения результатов составили: Математическая статистика - примеры с решением заданий и выполнение задач ОбозначаемМатематическая статистика - примеры с решением заданий и выполнение задач

4. Вычисляем значение F-критерия по формуле (6.1):

Математическая статистика - примеры с решением заданий и выполнение задач

5. Из табл. 3 Приложения при а= 0,02; Математическая статистика - примеры с решением заданий и выполнение задач Математическая статистика - примеры с решением заданий и выполнение задач находимМатематическая статистика - примеры с решением заданий и выполнение задач Математическая статистика - примеры с решением заданий и выполнение задач

6. Вывод: посколькуМатематическая статистика - примеры с решением заданий и выполнение задачто на уровне значимости а= 0,02 различие дисперсий статистически незначимо, т. е. можно считать, что школьники при обеих системах подготовки не отличаются по признаку вариативности результатов.

Хотя наблюдаемое в эксперименте различие выборочных стандартных отклонений и кажется большим, но имеющиеся статистические данные не дают оснований для отклонения гипотезы о том, что для генеральных совокупностей (всех школьников шестых классов обычных школ и школ со спортивной подготовкой) дисперсии (а значит, и стандартное отклонение) различаются на уровне значимости 0,02.

Следует отметить, что F-критерий очень чувствителен к отклонениям от нормальности распределения генеральной совокупности. Если предположение о нормальном распределении не может быть принято (см. п.п. 6.4), то F-критерий применять не следует. В этом случае используются непараметрические методы, рассмотренные в [3, 4).

F-критерий используется для малых и средних объемов выборки (n < 100). Для больших объемов выборки (n > 100) при проверке гипотезы о равенстве дисперсий применяется «-критерий. В этом случае вычисляется величина

Математическая статистика - примеры с решением заданий и выполнение задач

и сравнивается с критическими значениями Математическая статистика - примеры с решением заданий и выполнение задачвзятыми из таблиц нормированного нормального распределения (табл. 1 Приложения). Для стандартных уровней значимости значения Математическая статистика - примеры с решением заданий и выполнение задач приведены в табл. 6.2 (см. п. 6,3.2).

Сравнение выборочного среднего арифметического со средним значением генеральной совокупности

Рассмотрим, как с помощью статистических критериев решить вопрос: значимо ли отличие выборочного среднего значения от среднего значения генеральной совокупности, из которой предположительно взята выборка, или наблюдаемое различие является случайным? Такая постановка вопроса типична для выборочного контроля качества продукции в промышленности, но и в спортивных исследованиях такой вопрос часто возникает, когда предстоит решить, значимо ли отличается среднее значение признака, полученное по выборке, от среднего значения, известного по результатам многочисленных предыдущих экспериментов.

Применяемый для этих целей t-критерий Стьюдента также основан на предположении о нормальности распределения генеральной совокупности, но результаты проверки гипотез удовлетворяют по точности и при небольших отклонениях от нормальности распределения (см. п. 6.4).

Условия применения t-критерия: выборка получена из генеральной совокупности, имеющей приближенно нормальное распределение с параметрами Математическая статистика - примеры с решением заданий и выполнение задач

Гипотеза Математическая статистика - примеры с решением заданий и выполнение задач— среднее значение р, генеральной совокупности, из которой получена выборка, равно заданному значению Математическая статистика - примеры с решением заданий и выполнение задач (известному, например, из предыдущих экспериментов).

АльтернативаМатематическая статистика - примеры с решением заданий и выполнение задач (двусторонний критерий применяется тогда, когда допускаются отклонения в обе стороны от Математическая статистика - примеры с решением заданий и выполнение задач).

Уровень значимости: а.

Порядок применения T-критерия:

1. Принимается предположение о нормальности, формулируются гипотезыМатематическая статистика - примеры с решением заданий и выполнение задач задается уровень значимости а.

2. Получают выборку объема n.

3. Вычисляется выборочное среднее арифметическое Математическая статистика - примеры с решением заданий и выполнение задачи выборочное стандартное отклонение Математическая статистика - примеры с решением заданий и выполнение задач методами, изложенными в гл. 3.

4. Определяется значение t-критерия по формуле: Математическая статистика - примеры с решением заданий и выполнение задач Здесь |.| означает абсолютную величину разности Математическая статистика - примеры с решением заданий и выполнение задачМатематическая статистика - примеры с решением заданий и выполнение задач (без учета знака).

Величина t имеет при справедливости гипотезы Математическая статистика - примеры с решением заданий и выполнение задач t-распределение Стьюдента (определенное в гл. 4) с v = n — 1 степенями свободы.

5. По табл. 4 Приложения находится критическое значение t-критерия при уровне значимости а и числе степеней свободы v = n — 1. Табл. 4 Приложения содержит критические значения Математическая статистика - примеры с решением заданий и выполнение задач для двустороннего критерия.

6. Делается вывод: если Математическая статистика - примеры с решением заданий и выполнение задач то выборочное среднее значимо отличается от Математическая статистика - примеры с решением заданий и выполнение задач на уровне значимости а, и в этой ситуации отклоняется гипотеза Математическая статистика - примеры с решением заданий и выполнение задач т. е. считается, что выборка взята из другой генеральной совокупности, для которой Математическая статистика - примеры с решением заданий и выполнение задач Если Математическая статистика - примеры с решением заданий и выполнение задач, то на заданном уровне различие незначимо и сохраняется гипотеза Математическая статистика - примеры с решением заданий и выполнение задач

Пример 6.2

Цель исследования — проверить на основании результатов соревнований по спринтерскому бегу известное утверждение о том, что среднее различие между показаниями ручного и электронного хронометража составляет 0,25 с. На соревнованиях результаты фиксировались одновременно системой электронного хронометража и бригадой судей-хронометристов. Допустим, что есть результаты 30 спринтеров, пришедших на финиш первыми в своих забегах (для них, как правило, обеспечена наивысшая точность ручного хронометража, поскольку их результаты фиксируются несколькими хронометристами).

Используем t-критерий и действуем в указанном выше порядке.

1. Предполагаем, что распределение результатов в спринте приближенно нормальное (можно отметить, что справедливость этого предположения подтверждена исследованиями, проведенными в лаборатории спортивной радиоэлектроники ЛЭТИ им. В. И. Ульянова (Ленина) на большом статистическом материале).

Гипотеза Математическая статистика - примеры с решением заданий и выполнение задач

Альтернатива Математическая статистика - примеры с решением заданий и выполнение задач

Уровень значимости а= 0,01 (задается такой малый уровень значимости, поскольку цель — уточнить результаты, являющиеся общепринятыми).

2. Мы получили выборку объема n — 30 (разности

30 результатов по ручному и электронному хронометражу).

3. Допустим, например, что вычисленные выборочные характеристики оказались равными: х = 0,48 с, S = 0,39 с.

4. Вычисляем значение t-критерия по формуле (6.2):

Математическая статистика - примеры с решением заданий и выполнение задач

5. По табл. 4 Приложения при а = 0,01 и v = 30 — 1 = 29 находим критическое значение /-критерия: /о,о! = 2,756.

6. Вывод. ПосколькуМатематическая статистика - примеры с решением заданий и выполнение задач то на уровне значимости 0,01 мы отклоняем гипотезу Математическая статистика - примеры с решением заданий и выполнение задач т. е. среднее значение различий показаний ручного и электронного хронометража статистически значимо отличается от известного значения 0,25 с (вероятность ошибки Р<0,01).

Значит ли это, что значение 0,25 с вообще неверно? Конечно, нет. Основываясь только на полученных результатах, мы не должны даже подозревать этого. Скорее всего наши данные получены из какой-то менее обширной генеральной совокупности, в которой среднее значение отличается от 0,25 с. Математическая статистика - примеры с решением заданий и выполнение задач чтобы уверенно ответить на поставленный нами основной вопрос, мы должны провести многочисленные повторные эксперименты с целью получить значительно больший статистический материал и исключить влияние на результат многих важных факторов, не учтенных в эксперименте (квалификация судей, их эмоциональное состояние, состояние зоны финиша, освещенность и т. п.).

При больших объемах выборки Математическая статистика - примеры с решением заданий и выполнение задач как указано в гл. 4, t-распределение переходит в нормированное нормальное распределение, поэтому при проверке гипотезы вместо t-критерия можно использовать «-критерий, основанный на нормированном нормальном распределении статистики критерия.

Математическая статистика - примеры с решением заданий и выполнение задач

В этом случае вычисляют величину

Математическая статистика - примеры с решением заданий и выполнение задач

и сравнивают ее с критическими значениями иа нормированного нормального распределения. Для стандартных уровней значимости значения иа приведены в табл. 6.2.

Математическая статистика - примеры с решением заданий и выполнение задач = 2,756, их различие при n — 30 уже незначительно, но при n <30 это различие существенно, поэтому при малых выборках и используется t-критерий.

Сравнение двух выборочных средних значений для независимых выборок

В этом разделе рассматривается очень важный для практики спорта критерий математической статистики, позволяющий получить ответ на вопрос: значимо ли различаются средние значения, полученные по двум независимым выборкам (например, по результатам в контрольной и экспериментальной группах)? Здесь также применяется t-критерий Стьюдента, основанный на предположении, что выборки получены из генеральных совокупностей, имеющих приближенно нормальное распределение. Кроме того, применение t-критерия отличается при различных предположениях относительно дисперсий этих генеральных совокупностей. В математической статистике обычно рассматриваются случаи известных и неизвестных генеральных дисперсий, но, поскольку на практике генеральные дисперсии, как правило, неизвестны, здесь описывается только случай неизвестных дисперсий. При этом возможны следующие варианты предположений: 1) обе дисперсии неизвестны, но предполагается, что они равны между собой; 2) обе дисперсии неизвестны, и предположение о их равенстве не делается.

Как выбрать подходящий вариант? Конечно, если нет уверенности в равенстве дисперсий, нужно использовать второй вариант, потому что в этом случае требуется меньше знаний о распределении генеральных совокупностей, но всегда платой за это является меньшая точность выводов.

Поэтому обычно поступают следующим образом: вначале по имеющимся выборочным данным проверяют гипотезу о равенстве дисперсий, используя F-критерий, а затем уже выбирают тот или иной вариант t-критерия. Строго говоря, это некорректно с точки зрения математической статистики, поскольку, как уже неоднократно подчеркивалось, критерий должен выбираться до получения экспериментальных данных, и правильнее было бы выбрать предположение о равенстве или неравенстве дисперсий по другим, предварительно полученным экспериментальным данным.

При описанном выше подходе t-критерий применяется следующим образом.

Условия применения: обе выборки независимы и получены из генеральных совокупностей X и Y, имеющих нормальное распределение с параметрами Математическая статистика - примеры с решением заданий и выполнение задач

Гипотеза Математическая статистика - примеры с решением заданий и выполнение задач

Альтернатива Математическая статистика - примеры с решением заданий и выполнение задач в зависимости от того, что требуется доказать: простое различие средних значений или то, что одно из них больше другого.

Уровень значимости: а.

Порядок применения:

1. Принимается предположение о нормальности, формулируются гипотеза Математическая статистика - примеры с решением заданий и выполнение задач и альтернатива Математическая статистика - примеры с решением заданий и выполнение задач задается уровень значимости а.

2. Получают две независимые выборки из совокупностей X и Y объемом Математическая статистика - примеры с решением заданий и выполнение задач

3. Вычисляются выборочные характеристики Математическая статистика - примеры с решением заданий и выполнение задачМатематическая статистика - примеры с решением заданий и выполнение задач методами, рассмотренными в гл. 3.

4. Используется F-критерий для проверки гипотезы о равенстве генеральных дисперсий, как показано в разделе 6.3.1.

5. По результатам применения F-критерия принимается или не принимается предположение о равенстве дисперсий.

6. Вычисляются значение t-критерия и число степеней свободы v. Применяемые для этого формулы приведены в табл. 6.3, они различаются в зависимости от предположения о дисперсиях и соотношения между объемами выборок Математическая статистика - примеры с решением заданий и выполнение задач

7. Из табл. 4 Приложения находится критическое значение t-критерия при заданном уровне значимости а и числе степеней свободы v.

8. Делается вывод: еслиМатематическая статистика - примеры с решением заданий и выполнение задач то выборочные средние значимо различаются на уровне значимости а (вероятность ошибки Математическая статистика - примеры с решением заданий и выполнение задач В противном случае различие статистически незначимо.

Пример 6.3

Две группы юных баскетболистов, занимающихся на базе одной ДЮСШ, в течение годичного цикла тренировки занимались но разным программам специальной подготовки (традиционной и новой). Эффективность новой программы оценивалась по уровню общефизической подготовки в конце цикла, и одним из контрольных упражнений был бег на 100 м. Численность групп одинакова и составляет n — 10.

Результаты на дистанции 100 м (в с):

Математическая статистика - примеры с решением заданий и выполнение задач

Используем t-критерий Стьюдента в указанной выше последовательности:

1. Принимаем предположение о нормальности распределения генеральных совокупностей, из которых получены результаты.

Гипотеза Математическая статистика - примеры с решением заданий и выполнение задач

Альтернатива Математическая статистика - примеры с решением заданий и выполнение задач (берется двусторонний критерий, если нет оснований предполагать, что новая программа специальной подготовки приведет к улучшению результатов на 100 м).

Выбираем уровень значимости а — 0,05.

2. Получаем две выборки, независимость которых обеспечивается планированием эксперимента (результаты, показанные в одной группе, не зависят от результатов другой).

3. Рассчитываем выборочные характеристики по формулам (3.1) и (3.11) гл. 3. Расчеты дают:

Математическая статистика - примеры с решением заданий и выполнение задач 4. Применяем F-критерий для проверки гипотезы о равенстве дисперсий. Выбираем уровень значимости двустороннегоF-критерия: а ~ 0,02.

Математическая статистика - примеры с решением заданий и выполнение задач поэтому обозначим Математическая статистика - примеры с решением заданий и выполнение задач Значение ^-критерия выводим по формуле (6.1): Математическая статистика - примеры с решением заданий и выполнение задач Критическое значение Математическая статистика - примеры с решением заданий и выполнение задач двустороннего F-критерия находим из табл. 3 Приложения Математическая статистика - примеры с решением заданий и выполнение задач

Математическая статистика - примеры с решением заданий и выполнение задач

Математическая статистика - примеры с решением заданий и выполнение задач

5. ПосколькуМатематическая статистика - примеры с решением заданий и выполнение задач принимаем предположение о равенстве генеральных дисперсий Математическая статистика - примеры с решением заданий и выполнение задач

6. Вычисляем значение t-критерия: нашему случаю соответствует формула (1) из табл. 6.3. Поэтому Математическая статистика - примеры с решением заданий и выполнение задач 7. Из табл. 4 Приложения находим критическое значение t-критерия при a= 0,05 и v = 18: Математическая статистика - примеры с решением заданий и выполнение задач 8. Вывод: поскольку Математическая статистика - примеры с решением заданий и выполнение задач то на уровне значимости 0,05 принимаем гипотезу Математическая статистика - примеры с решением заданий и выполнение задач Нет оснований для заключения о том, что новая программа но изучаемому признаку (бег на 100 м) эффективнее традиционной.

Примечание. Если бы до проведения эксперимента было принято предположение, что новая программа обеспечивает прирост результатов в беге на 100 м, и нужно было бы доказать это, мы выдвинули бы одностороннюю альтернативу Математическая статистика - примеры с решением заданий и выполнение задач В этом случае следует применять односторонний t-критерий.

Последовательность действий точно такая же, за исключением того, что на этапе 7 при использовании табл. 4 Приложения нужно иметь в виду, что в ней содержатся критические значения двустороннего критерия. В случае одностороннего критерия данные табл. 4 соответствуют удвоенным уровням значимости. Таким образом, если для одностороннего критерия устанавливается уровень значимости а = 0,05, то в табл. 4 Приложения находим значение для а = 0,1.

Для этого примера имеем Математическая статистика - примеры с решением заданий и выполнение задач

Теперь уже результат проверки гипотезы будет противоположным. ПосколькуМатематическая статистика - примеры с решением заданий и выполнение задач то делаем вывод о статистически значимом различии средних значений в беге на 100 м.

В этом нет никакого противоречия или доказательства несостоятельности статистических методов. Просто в первом случае, используя двустороннюю гипотезу, мы допускали и отрицательный эффект новой программы. В такой ситуации выводы должны быть более осторожными, чем в случае односторонней гипотезы, когда имеется дополнительная информация, позволяющая сделaть предположeние о положительном эффекте новой программы, что, естественно, дает возможность сделать более точный вывод. Правда, следует отметить, что превышение критического значения в рассмотренном примере столь незначительно, что в достоверности вывода о наличии положительного эффекта можно усомниться. В такой ситуации следует провести дополнительные исследования.

Сравнение двух выборочных средних значений для связанных выборок

Существует много практических задач, в которых две сравниваемые выборки взаимосвязаны в силу особенностей организации эксперимента или просто потому, что этой взаимосвязи нельзя избежать.

В практике медицинских, биологических и педагогических исследований часто используются так называемые парные сравнения. Один из методов таких сравнений заключается в том, что измерения проводятся для одной и той же группы испытуемых до и после применения интересующих исследователя воздействий. Результаты парных сравнений всегда точнее, чем сравнения на независимых группах, и объясняется это тем, что разброс результатов внутри группы испытуемых всегда больше, чем разброс разностей результатов, полученных при повторных измерениях для одних и тех же индивидуумов. Это можно пояснить на следующем простом примере. Допустим, необходимо но частоте сердечных сокращений (ЧСС) установить влияние на спортсменов какого-то вида тренировочной нагрузки. Конечно, можно было бы провести такой эксперимент на двух независимых однородных группах: в одной из них определить среднее значение ЧСС в покое, а в другой после тренировочной нагрузки. Математическая статистика - примеры с решением заданий и выполнение задач и без точных математических доказательств ясно, что выводы будут точнее, если измерения ЧСС провести у одних и тех же спортсменов до и после тренировочной нагрузки. Поэтому парные сравнения всегда выгодно использовать, конечно, если удается организовать эксперимент так, что будет устранено влияние мешающих факторов {усталость, эффект обучения и т. п.).

При парных сравнениях нельзя использовать рассмотренные выше методы для независимых выборок, поскольку это приведет к большим ошибкам.

Для сравнения средних значений здесь используется модификация t-критерия для связанных выборок. Особенность его в том, что гипотеза формулируется в отношении разностей Математическая статистика - примеры с решением заданий и выполнение задач сопряженных пар наблюдений.

Условия применения: Математическая статистика - примеры с решением заданий и выполнение задач — разность связанных пар результатов измерения. Делается предположение о нормальном распределении этих разностей в генеральной совокупности с параметрами Математическая статистика - примеры с решением заданий и выполнение задач

Гипотеза Математическая статистика - примеры с решением заданий и выполнение задач

Альтернатива Математическая статистика - примеры с решением заданий и выполнение задач (для двустороннего критерия) . Можно сформулировать и одностороннюю альтернативу, например, Математическая статистика - примеры с решением заданий и выполнение задач

Уровень значимости: а.

Порядок применения:

1. Делается предположение о нормальном распределении разностей dМатематическая статистика - примеры с решением заданий и выполнение задачформулируется гипотеза Математическая статистика - примеры с решением заданий и выполнение задач и альтернатива Математическая статистика - примеры с решением заданий и выполнение задач выбирается уровень значимости а.

2. Получают две выборки объема n, представляющие собой ряды связанных пар наблюдений.

3. Вычисляются среднее арифметическое Математическая статистика - примеры с решением заданий и выполнение задач и выборочное стандартное отклонение Математическая статистика - примеры с решением заданий и выполнение задач по формулам гл. 3.

4. Определяется значение t-критерия: Математическая статистика - примеры с решением заданий и выполнение задач 5. Из табл. 4 Приложения находятся критические значенияМатематическая статистика - примеры с решением заданий и выполнение задач-критерия при уровне значимости а и числе степеней свободы Математическая статистика - примеры с решением заданий и выполнение задач

6. Делается вывод: если Математическая статистика - примеры с решением заданий и выполнение задач то наблюдаемое различие значимо на уровне значимости а (Р < а), в противном случае различие статистически незначимо.

Пример 6.4

Группа школьников (n = 10) в течение летних каникул находилась в спортивном лагере. До и после сезона у них измерили жизненную емкость легких (ЖЕЛ). По результатам измерений нужно определить, значимо ли изменился этот показатель под влиянием интенсивных физических упражнений.

До эксперимента Математическая статистика - примеры с решением заданий и выполнение задач

3400 3600 3000 3500 2900 3100 3200 3400 3200 3400

После эксперимента Математическая статистика - примеры с решением заданий и выполнение задач

3800 3700 3300 3600 3100 3200 3200 3300 3500 3600

Действуем в указанном выше порядке:

1. Принимаем предположение о нормальности распределения разностейМатематическая статистика - примеры с решением заданий и выполнение задач

Г ипотеза Математическая статистика - примеры с решением заданий и выполнение задач

Альтернатива Математическая статистика - примеры с решением заданий и выполнение задач

Выбираем уровень значимости: а = 0,05.

2. Имеем две связанные выборки объема n =10.

3. Вычисляем выборочные характеристики: значения разностей: Математическая статистика - примеры с решением заданий и выполнение задач 400 100 300 100 200 100 0— 100 300 200, Математическая статистика - примеры с решением заданий и выполнение задач

4. Значение t-критерия, определяемое по формуле (6.3), равно Математическая статистика - примеры с решением заданий и выполнение задач 5. Из табл. 4 Приложения для а = 0,05 и v = 9 находим Математическая статистика - примеры с решением заданий и выполнение задач= 2,262.

6. Вывод: поскольку Математическая статистика - примеры с решением заданий и выполнение задач наблюдаемое различие по показателю ЖЕЛ является статистически значимым на уровне значимости 0,05 (вероятность ошибки Р < 0,05).

При больших выборках (для пМатематическая статистика - примеры с решением заданий и выполнение задач) вместо t-критерия можно использовать u-критерий. В этом случае вычисленное значение t сравнивается с критическим значением Математическая статистика - примеры с решением заданий и выполнение задач нормированного нормального распределения (см. табл. 6.2).

Критерии согласия

Все рассмотренные выше критерии значимости являются оптимальными, т. е. обеспечивают наивысшую достоверность статистических выводов только в тех случаях, когда выборки получены из нормально распределенной генеральной совокупности. При отклонениях от нормального распределения точность оптимальных критериев существенно падает, поэтому, чтобы уверенно применять оптимальные критерии, необходимо проверить предположение о нормальном распределении генеральной совокупности. Для этого используются критерии согласия. Здесь нулевая гипотеза Математическая статистика - примеры с решением заданий и выполнение задач представляет собой утверждение о том, что распределение генеральной совокупности, из которой получена выборка, не отличается от нормального. Существует несколько разновидностей критериев согласия. Рассмотрим те из них, которые получили наибольшее распространение на практике.

Предварительная проверка соответствия нормальному распределению

Критерии согласия требуют достаточно большой вычислительной работы, поэтому целесообразно перед тем, как их использовать, проверить с помощью более простых методов соответствие имеющихся экспериментальных данных нормальному распределению. Эти методы, естественно, обладают меньшей мощностью и позволяют установить только значительные расхождения с нормальным распределением, но если такие расхождения будут установлены, то необходимость в применении более точных, но более сложных критериев, как правило, отпадает.

Для предварительной проверки эмпирического распределения на нормальность можно использовать основные свойства нормального распределения, изложенные в гл. 4. При этом эмпирическое распределение представляется в виде вариационного ряда или гистограммы (см. гл. 2). Если в качестве параметров Математическая статистика - примеры с решением заданий и выполнение задач и о нормального распределения принять их выборочные оценки Математическая статистика - примеры с решением заданий и выполнение задач и S, то для проверки можно использовать следующие свойства нормального распределения: 1) практически все отклонения от среднего значения (99,7 %) должны быть меньше ±3S; 2) примерно 2/3 всех отклонений (68,3 %) должны быть меньше ±S; 3) половина всех отклонений от среднего значения должна быть меньше Математическая статистика - примеры с решением заданий и выполнение задач 4) можно использовать такое свойство нормального распределения, что его коэффициенты асимметрии Математическая статистика - примеры с решением заданий и выполнение задач и эксцесса Математическая статистика - примеры с решением заданий и выполнение задач равны нулю.

Для проверки по этому свойству необходимо вычислить выборочные оценки этих параметров по формулам: Математическая статистика - примеры с решением заданий и выполнение задач гдеМатематическая статистика - примеры с решением заданий и выполнение задач — частоты интервалов группировки; k — число интервалов группировки; S — выборочное стандартное отклонение.

Значения коэффициентов As и Ех сравниваются с критическими значениями на уровне значимости а, и если критические значения превышены, то делается вывод о том, что распределение генеральной совокупности, из которой получена выборка, не согласуется с нормальным. В противном случае модель нормального распределения может быть принята. Таблица критических значений Математическая статистика - примеры с решением заданий и выполнение задач содержится в [7, 8,14]. Здесь не будем подробно останавливаться на этих приближенных критериях. Отметим лишь еще раз, что они могут использоваться только совместно с более точными критериями, рассмотренными ниже.

Критерий согласия x2 (хи-квадрат)

Критерий согласия Математическая статистика - примеры с решением заданий и выполнение задач разработан лучше других критериев и чаще других используется. Он основан на сравнении эмпирических частот интервалов группировки с теоретическими (ожидаемыми) частотами, рассчитываемыми по формулам нормального распределения.

Условия применения: объем выборки Математическая статистика - примеры с решением заданий и выполнение задач выборочные данные сгруппированы в интервальный вариационный ряд с числом интервалов не менее 7, ожидаемые (теоретические) частоты интервалов не должны быть меньше 5.

Гипотеза Математическая статистика - примеры с решением заданий и выполнение задач) — плотность распределения Математическая статистика - примеры с решением заданий и выполнение задач генеральной совокупности, из которой взята выборка, соответствует теоретической модели Математическая статистика - примеры с решением заданий и выполнение задач нормального распределения.

Альтернатива Математическая статистика - примеры с решением заданий и выполнение задач

Уровень значимости: а.

Порядок применения:

1. Формулируется гипотеза, выбирается уровень значимости а.

2. Получается выборка объема Математическая статистика - примеры с решением заданий и выполнение задач независимых наблюдений и представляется эмпирическое распределение в виде интервального вариационного ряда, как показано в гл. 2.

3. Рассчитываются выборочные характеристики Математическая статистика - примеры с решением заданий и выполнение задач и S (методы расчета изложены в гл. 3). Их используют в качестве генеральных параметров Математическая статистика - примеры с решением заданий и выполнение задач и аМатематическая статистика - примеры с решением заданий и выполнение задачнормального распределения, с которым предстоит сравнить эмпирическое распределение.

4. Вычисляются значения теоретических частотМатематическая статистика - примеры с решением заданий и выполнение задач попадания в i-й интервал группировки. Для этого необходимо вероятность попадания в этот интервал, определенную по формуле (4.27), умножить на объем выборки n:

Математическая статистика - примеры с решением заданий и выполнение задач

где Математическая статистика - примеры с решением заданий и выполнение задач — функции Лапласа (см. табл. 1 Приложения); Математическая статистика - примеры с решением заданий и выполнение задач — верхняя и нижняя граниты Математическая статистика - примеры с решением заданий и выполнение задач интервала группировки.

Если окажется, что вычисленные ожидаемые частоты п’ некоторых интервалов группировки меньше 5, то соседние интервалы объединяются так, чтобы сумма их ожидаемых частот была больше или равна 5. Соответственно складываются и эмпирические частоты объединяемых интервалов.

5. Значение Математическая статистика - примеры с решением заданий и выполнение задач-критерия рассчитывается по формуле: Математическая статистика - примеры с решением заданий и выполнение задач где Математическая статистика - примеры с решением заданий и выполнение задач— эмпирические частоты; Математическая статистика - примеры с решением заданий и выполнение задач — ожидаемые (теоретические) частоты; k — число интервалов группировки после объединения.

6. Из табл. 5 Приложения находится критическое значение Математическая статистика - примеры с решением заданий и выполнение задачкритерия для уровня значимости а и числа степеней свободы v = k — 3.

7. Вывод: если Математическая статистика - примеры с решением заданий и выполнение задачто эмпирическое распределение не соответствует нормальному распределению на уровне значимости а, в противном случае нет оснований отрицать это соответствие.

Пример 6.5

Воспользуемся данными табл. 2.3, где представлены результаты в беге на 100 м группы школьников (n = 50) для проверки соответствия эмпирического распределения нормальному распределению.

Исходные данные помещены в графы 2, 3 табл. 6.4 (графа 2 — границы интервалов группировки, графа 3 — эмпирические частоты интервалов). В табл. 2.3 верхние границы были уменьшены на 0,1 с для удобства подсчета частот. В табл. 6.4 верхние границы оставлены без изменений.

1. Формулируем гипотезуМатематическая статистика - примеры с решением заданий и выполнение задач выбираем уровень значимости а = 0,05.

2. Получаем выборку объема n = 50, строим интервальный вариационный ряд с числом интервалов к— 7 (см. табл. 2.3).

3. Выборочные характеристики по этим данным рассчитаны в примере 3.6:

х — 15,4 с, S — 0,9 с.

4. Вычисляем значения теоретических частот по формуле (6.4) с использованием табл. 1 Приложения. Предварительно нормируем границы интервалов группировки:

Математическая статистика - примеры с решением заданий и выполнение задач

Нормированные границы занесены в графу 4, а вычисленные теоретические частоты — в графу 5 табл. 6.4.

Поскольку для интервалов с номерами 1, 2, 7 теоретические частоты оказались меньше 5, объединяем интервалы 1 и 2 с 3-м, а интервал 7 с 6-м интервалами. Суммируем эмпирические и ожидаемые частоты интервалов, которые мы объединили. После объединения получилось k = 4 интервала. Таблица 6.4 Математическая статистика - примеры с решением заданий и выполнение задач 5. Значение критерия Математическая статистика - примеры с решением заданий и выполнение задач определяемое по формуле (6.5), равно:

Математическая статистика - примеры с решением заданий и выполнение задач

Промежуточные расчеты отражены в графах 6 и 7 табл. 6.4.

6. Из табл. 5 Приложения находим для уровня значимости а = 0,05 и числа степеней свободы v = 4— 3= 1:

Математическая статистика - примеры с решением заданий и выполнение задач

7. Вывод: поскольку Математическая статистика - примеры с решением заданий и выполнение задач считаем, что эмпирическое распределение соответствует нормальному на уровне значимости 0,05.

Критерий X (лямбда)

Другим критерием, часто используемым для проверки гипотезы о нормальности распределения, является критерий Математическая статистика - примеры с решением заданий и выполнение задач Колмогорова — Смирнова. Здесь гипотеза Математическая статистика - примеры с решением заданий и выполнение задач формулируется по отношению к функциям распределенияМатематическая статистика - примеры с решением заданий и выполнение задач — функция распределения генеральной совокупности, из которой получена выборка, a F'(x) — функция непрерывного теоретического распределения (нормального распределения).

Колмогорова — Смирнова

Условия применения: объем выборки Математическая статистика - примеры с решением заданий и выполнение задачэмпирическое распределение представлено в виде интервального вариационного ряда.

Гипотеза Математическая статистика - примеры с решением заданий и выполнение задач

Альтернатива Математическая статистика - примеры с решением заданий и выполнение задач

Уровень значимости: а.

Порядок применения:

1. Формулируется гипотеза Математическая статистика - примеры с решением заданий и выполнение задач назначается уровень значимости а.

2. Получают выборку объема Математическая статистика - примеры с решением заданий и выполнение задач независимых наблюдений, она группируется в интервальный вариационный ряд, как показано в гл. 2.

3. Вычисляются выборочные характеристики Математическая статистика - примеры с решением заданий и выполнение задач и S по формулам гл. 3.

4. Рассчитываются значения эмпирических накопленных частот Математическая статистика - примеры с решением заданий и выполнение задач как показано в гл. 2, и теоретических накопленных частот Математическая статистика - примеры с решением заданий и выполнение задач по формуле:

Математическая статистика - примеры с решением заданий и выполнение задач

где n — объем выборки; Математическая статистика - примеры с решением заданий и выполнение задач — функция Лапласа (см. табл. 1 Приложения); Математическая статистика - примеры с решением заданий и выполнение задач— срединные значения интервалов группировки.

5. Вычисляются значения критерия Математическая статистика - примеры с решением заданий и выполнение задач

Математическая статистика - примеры с решением заданий и выполнение задач

где Математическая статистика - примеры с решением заданий и выполнение задач — максимальное значение модуля (абсолютной величины) разности между эмпирическими Математическая статистика - примеры с решением заданий и выполнение задач и теоретическими Математическая статистика - примеры с решением заданий и выполнение задач накопленными частотами.

6. Определяется критическое значение Математическая статистика - примеры с решением заданий и выполнение задач критерия Колмогорова — Смирнова при уровне значимости а. Для стандартных уровней значимости критические значения равны:

Математическая статистика - примеры с решением заданий и выполнение задач

Они соответствуют рассматриваемому варианту применения критерия Колмогорова — Смирнова, когда для вычисления теоретических накопленных частот используются выборочные характеристики Математическая статистика - примеры с решением заданий и выполнение задач и S в качестве параметров Математическая статистика - примеры с решением заданий и выполнение задач нормального распределения.

7. Вывод: если Математическая статистика - примеры с решением заданий и выполнение задачто эмпирическое распределение не соответствует нормальному на уровне значимости а, в противном случае принимается гипотеза о согласии распределения генеральной совокупности с нормальным распределением.

Пример 6.6

Воспользуемся данными предыдущего примера (6.5) для проверки их соответствия нормальному распределению по критерию Колмогорова — Смирнова.

В табл. 6.5 в столбцах 2, 3 приведены срединные значения интервалов группировки и эмпирические накопленные частоты, взятые из табл. 2.3.

1. Формулируем гипотезу Математическая статистика - примеры с решением заданий и выполнение задач и выбираем уровень значимости а = 0,05.

Математическая статистика - примеры с решением заданий и выполнение задач

2. Имеем выборку объема n — 50, сгруппированную в интервальный вариационный ряд с семью интервалами.

3. Выборочные характеристики рассчитаны в предыдущем примере: Математическая статистика - примеры с решением заданий и выполнение задач

4. Эмпирические накопленные частоты приведены в графе 3, а теоретические, рассчитанные по формуле (6.6) — в графе 5.

5. Значение критерия Математическая статистика - примеры с решением заданий и выполнение задач составляет Математическая статистика - примеры с решением заданий и выполнение задач 6. Критическое значение для а = 0,05 равно Математическая статистика - примеры с решением заданий и выполнение задач = 0,895.

7. Вывод: поскольку Математическая статистика - примеры с решением заданий и выполнение задач мы вынуждены отклонить гипотезу о том, что выборка взята из нормально распределенной генеральной совокупности.

Оба рассмотренных критерия — Математическая статистика - примеры с решением заданий и выполнение задач Колмогорова — Смирнова применимы в одних и тех же условиях Математическая статистика - примеры с решением заданий и выполнение задач Сравнение мощностей этих критериев для общего случая затруднительно, но из опыта известно, что критерий Математическая статистика - примеры с решением заданий и выполнение задач Колмогорова — Смирнова является более мощным (чаще обнаруживает отклонения от нормальности), если среднее и дисперсия теоретического нормального распределения оцениваются по выборке. Рассмотренные выше примеры 6.5 и 6.6 подтверждают это: для одних и тех же данных на одинаковом уровне значимости критерий Математическая статистика - примеры с решением заданий и выполнение задач Колмогорова — Смирнова обнаружил несоответствие нормальному распределению, а Математическая статистика - примеры с решением заданий и выполнение задач-критерий позволяет принять гипотезу о нормальности.

Критерий W Шапиро — Уилки

Два рассмотренных выше критерия применяются при больших выборках Математическая статистика - примеры с решением заданий и выполнение задачЕсли объем выборки меньше, то более точные выводы дает критерий Шапиро — Уилки, позволяющий обнаружить отклонения от нормальности распределения уже приМатематическая статистика - примеры с решением заданий и выполнение задач. Ниже его применение рассматривается на конкретном примере.

Пример 6.7

Проверим на соответствие нормальному распределению данные примера 6.3 — результаты в беге на 100 м одной из групп (например, контрольной) юных баскетболистов.

Эти результаты представлены в графе 2 табл. 6.6.

Порядок применения:

1. Формулируем гипотезу Математическая статистика - примеры с решением заданий и выполнение задач о соответствии распределения генеральной совокупности, из которой получены данные, нормальному распределению. Назначим уровень значимости а = 0,05.

2. Получаем выборку объема n = 10 независимых измерений.

3. Рассчитываем значение выборочной дисперсии. Из примера 6.З: Математическая статистика - примеры с решением заданий и выполнение задач = 0,37.

Таблица 6.6

Математическая статистика - примеры с решением заданий и выполнение задач

4. Ранжируем выборку, т. е. располагаем выборочные значения в возрастающем порядке, как показано в графе 2 табл. 6.6.

5. Образуем разности Математическая статистика - примеры с решением заданий и выполнение задач для чего из максимального значения Математическая статистика - примеры с решением заданий и выполнение задач вычитаем наименьшее Математическая статистика - примеры с решением заданий и выполнение задач затем из Математическая статистика - примеры с решением заданий и выполнение задач вычитаем Математическая статистика - примеры с решением заданий и выполнение задачи т. д. Если n — четное, то число разностей

k = n/2, если n— нечетное, то Математическая статистика - примеры с решением заданий и выполнение задачпри этом

центральная варианта выборки в образовании разностей не участвует.

Номера разностей k приведены в графе 3, а значения разностей Математическая статистика - примеры с решением заданий и выполнение задач — в графе 4 табл. 6.6.

6. По табл. 6 Приложения находим значение коэффициентов Математическая статистика - примеры с решением заданий и выполнение задач критерия W Шапиро — Уилки, соответствующие объему выборки n = 10 и номерам разностей k. Эти значения помещены в графе 5 табл. 6.6.

7. Находим произведения Математическая статистика - примеры с решением заданий и выполнение задачЭти произведения

занесены в графу 6 табл. 6.6. . 8. Вычисляем величину Математическая статистика - примеры с решением заданий и выполнение задач 9. Рассчитываем значение критерия W по формуле:Математическая статистика - примеры с решением заданий и выполнение задач

10. Из табл. 7 Приложения находим критическое значение критерия Шапиро — Уилки для уровня значимости а = 0,05:

Математическая статистика - примеры с решением заданий и выполнение задач

11. Вывод: посколькуМатематическая статистика - примеры с решением заданий и выполнение задачможно говорить о соответствии эмпирических данных нормальному распределению на уровне значимости 0,05.

Заметим, что критерий W Шапиро — Уилки строится таким образом, что гипотеза Математическая статистика - примеры с решением заданий и выполнение задач принимается при Математическая статистика - примеры с решением заданий и выполнение задач в отличие от остальных критериев, для которых гипотеза Математическая статистика - примеры с решением заданий и выполнение задач принимается, если значение критерия меньше критического.

Непараметрические критерии

Применение рассмотренных в разделе 6.3 параметрических критериев было связано с целым рядом допущений. Например, сравнивая выборочные средние значения с помощью t-критерия, принимались следующие предположения: обе выборки являются случайными, т. е. каждая из них получена в результате независимых измерений; обе выборки получены из генеральных совокупностей, имеющих нормальное распределение; дисперсии генеральных совокупностей равны между собой.

На практике эти предположения строго никогда не выполняются, поэтому применение параметрических критериев всегда связано с опасностью ошибочных выводов, возникающей из-за нарушения принятых допущений. В последнее время в математической статистике по этой причине интенсивно разрабатываются непараметрические методы, которые строятся так, чтобы их применение зависело от возможно меньшего числа допущений.

Отметим в связи с этим еще одно важное обстоятельство. Параметрические критерии значимости применимы только для сравнения выборочных данных, представляющих собой результаты измерений, выраженные в единицах метрических шкал (метры, килограммы, секунды и т. п.). Но в спортивных исследованиях часто приходится иметь дело с данными, выраженными в шкалах наименований или порядка, например произвольная нумерация игроков футбольной команды, места, запятые спортсменами на соревнованиях и т. д. Такие данные нельзя сравнивать с помощью параметрических критериев, а непараметрические критерии могут быть успешно применены и к данным этого типа.

Если рассматривать только те случаи, когда выборки можно считать полученными ид нормально распределенных совокупностей, непараметрические критерии всегда проигрывают соответствующим параметрическим критериям, оптимальным в этих случаях, потому что применение непараметрических критериев обычно связано с потерей части информации об измеренных значениях признаков. Поэтому вводится показатель эффективности критерия (E). Он представляет собой отношение объема выборки параметрического критерия к объему выборки непараметрического критерия при одинаковой мощности критериев в условиях нормального распределения генеральной совокупности. Этим показателем и принято оценивать эффективность непараметрических критериев.

Важную группу непараметрических критериев составляют ранговые критерии. Они хорошо разработаны, и эффективность их оказывается очень высокой (для большинства из них при больших объемах выборки эффективность близка к единице). В то же время они очень просты в пользовании и не требуют сложных математических вычислений.

Ниже рассматриваются некоторые из ранговых критериев. Математическая статистика - примеры с решением заданий и выполнение задач предварительно следует познакомиться с понятием «р а н г», играющим здесь ключевую роль.

Ранги

Если расположить выборочные данные в порядке возрастания или убывания (точнее, в неубывающем или невозрастающем порядке, потому что некоторые данные могут совпадать), то получается ранжированная выборка. Порядковый номер выборочного значения в ней называется рангом этого значения.

Ранг однозначно определен порядковым номером, если в выборке нет совпадающих значений. Если же они есть, то их ранги определяются как среднее арифметическое порядковых номеров совпадающих значений. Пусть, например, получена выборка объема n — 10, которая после ранжирования выглядит следующим образом:

Математическая статистика - примеры с решением заданий и выполнение задач

Значения с порядковыми номерами 3, 4, 5 и 8, 9 совпали, поэтому их ранги R определяются как Математическая статистика - примеры с решением заданий и выполнение задач

Таким образом, ранг не обязательно будет целым числом.

Для остальных, не совпадающих элементов выборки их ранги равны порядковым номерам. Ранги R, представленных выборочных значений равны: Математическая статистика - примеры с решением заданий и выполнение задач

В ранговых критериях точные значения признаков заменяются их рангами, поэтому информация о них теряется.

Рангами могут быть представлены данные, выраженные в порядковой шкале, в том числе результаты наблюдения качественных признаков, когда невозможно измерить точное численное значение признака, но можно определить очередность значений по принципу «больше— меньше» (например, места в спортивных состязаниях, результаты судейства в баллах, отметки за экзамен и т. п.).

Сравнение двух независимых выборок

К сравнению двух независимых выборок сводится очень широкий круг практических задач, которые в математической статистике часто называются задачами об эффекте обработки. Под «обработкой» здесь понимается любой процесс из конкретной области исследования, например методика или программа тренировки, тактические приемы соревновательной деятельности и др. Об эффекте обработки судят по результатам выборочных исследований. Если эксперимент организован так, что экспериментальный способ обработки сравнивается со стандартным (контрольным), то сопоставляются данные, представляющие собой две независимые выборки: одна получена из контрольной генеральной совокупности (результаты контрольной группы), а вторая — из экспериментальной (результаты экспериментальной группы).

Нулевая гипотеза Математическая статистика - примеры с решением заданий и выполнение задач — это утверждение об отсутствии эффекта обработки, а цель исследования — доказать его наличие. Когда принимается предположение о нормальном распределении обеих генеральных совокупностей, для решения этой задачи применяется t-критерий Стью-дента, который был рассмотрен в разделе 6.3. Но если предварительный анализ эмпирического распределения не позволяет принять предположение о нормальности или к такому выводу приходят в результате проверки гипотезы о нормальности распределения генеральной совокупности по стандартным критериям согласия (см. раздел 6.4), то использовать t-критерий нельзя.

Для таких случаев разработано несколько параметрических критериев. Рассмотрим один из них — критерий Вилкоксона для независимых выборок (критерий иногда называют также критерием Уайта). Это самый простой ранговый критерий.

Применение критерия Вилкоксона основано на единственном предположении: выборки получены из однотипных непрерывных распределений. При этом вид распределения генеральных совокупностей X и Y никак не оговаривается. Допущение о непрерывности распределений может быть ыриннто, когда исследуемый признак имеет большое число возможных градаций.

Гипотеза Математическая статистика - примеры с решением заданий и выполнение задач — это утверждение о том, что функции распределения обеих генеральных совокупностей одинаковы. Иначе говоря, обе выборки получены из одной и той же генеральной совокупности, и эффект обработки отсутствует.

Поясним это более подробно. Поскольку функции распределения F (х) и F {у) равны, то, следовательно, равны и характеристики положения этих распределений (среднее значение и медиана). Поэтому если эффект оценивается по различию средних арифметических двух выборок, то нулевую гипотезу можно было бы записать в виде Математическая статистика - примеры с решением заданий и выполнение задач. В этом случае критерий Вилкоксона является непараметрическbм аналогом t-критерия для независимых выборок. Но, как было отмечено в гл. 3, если эмпирическое распределение получается сильно асимметричным, то среднее арифметическое теряет свою практическую ценность (оно плохо отражает среднее значение признака), и в этих случаях более подходящей характеристикой положения является медиана Математическая статистика - примеры с решением заданий и выполнение задач

Одним из ценных свойств ранговых критериев является и то, что они могут применяться к данным, выраженным в шкале порядков или в шкале наименований. Для таких данных вычисление среднего арифметического не имеет смысла, а в качестве характеристики положения также используется Математическая статистика - примеры с решением заданий и выполнение задач Поэтому гипотезу Математическая статистика - примеры с решением заданий и выполнение задач для непараметрических критериев обычно записывают в виде

Математическая статистика - примеры с решением заданий и выполнение задач

Эта запись относится к медианам генеральных совокупностей, хотя здесь используется тот же символ Me, что и для выборочной медианы. В частном случае, когда распределение симметричное (нормальное), эта запись эквивалентна Математическая статистика - примеры с решением заданий и выполнение задачтак как для симметричных распределений среднее значение и Me совпадают.

Альтернатива— Математическая статистика - примеры с решением заданий и выполнение задач(это двусторонняя альтернатива). Ее, как обычно, применяют тогда, когда нет уверенности в знаке ожидаемого различия (допускается как положительный, так и отрицательный эффект обработки). Можно сформулировать и одностороннюю альтернативу, например,Математическая статистика - примеры с решением заданий и выполнение задачесли нужно доказать, что результаты в экспериментальной группе выше, чем в контрольной.

Ниже рассматривается применение критерия Вилкок-сона на конкретном примере.

Пример 6.8

Воспользуемся данными примера 6.3, где приведены результаты в беге на 100 м контрольной и экспериментальной групп юных баскетболистов. В примере 6.3 принималось предположение о нормальном распределении совокупностей, из которых получены выборки. Здесь такого предположения не делается.

Объем выборки для контрольной группы —Математическая статистика - примеры с решением заданий и выполнение задач = 10 и для экспериментальной — Математическая статистика - примеры с решением заданий и выполнение задач = 10.

Проверим гипотезу Математическая статистика - примеры с решением заданий и выполнение задач против двусторонней альтернативы Математическая статистика - примеры с решением заданий и выполнение задач По-прежнему выбираем уровень значимости а = 0,05.

Порядок применения критерия Вилкоксона:

1. Объединяем обе выборки в одну. Объем объединенной выборки будет Математическая статистика - примеры с решением заданий и выполнение задач Ранжируем объединенную выборку, располагая данные в порядке возрастания, как показано в графе 1 табл. 6.7. При этом отмечаем данные, относящиеся к одной из выборок (все равно какой), например второй.

2. Находим ранги Математическая статистика - примеры с решением заданий и выполнение задач, объединенной выборки, как показано в разделе 6.5.1. Отмечаем ранги, относящиеся ко второй выборке. Они приведены в графе 3 табл. 6.7.

3. Суммируем по отдельности ранги, относящиеся к первой и второй выборкам, т. е. находим суммы: Математическая статистика - примеры с решением заданий и выполнение задач

Математическая статистика - примеры с решением заданий и выполнение задач

Суммы рангов: Математическая статистика - примеры с решением заданий и выполнение задач

Контроль: Математическая статистика - примеры с решением заданий и выполнение задач

Для проверки правильности этих операций можно использовать тот факт, что сумма всех рангов

Математическая статистика - примеры с решением заданий и выполнение задач

4. Меньшую из сумм рангов Математическая статистика - примеры с решением заданий и выполнение задач принимаем в качестве значения критерия W.

Для нашего примера W = Математическая статистика - примеры с решением заданий и выполнение задач — 82,5.

5. Из табл. 8 Приложения находим критическое значение Математическая статистика - примеры с решением заданий и выполнение задач критерия Вилкоксона при уровне значимости а = 0,05 и при объемах выборки Математическая статистика - примеры с решением заданий и выполнение задач = 10 и Математическая статистика - примеры с решением заданий и выполнение задач — 10 (в табл. 8 Математическая статистика - примеры с решением заданий и выполнение задач— меньший и больший объемы выборки из Математическая статистика - примеры с решением заданий и выполнение задач

Математическая статистика - примеры с решением заданий и выполнение задач

6. Вывод: если Математическая статистика - примеры с решением заданий и выполнение задач нулевая гипотеза отбрасывается, т. е. различие считается статистически значимым на уровне значимости а. В противном случае различие статистически незначимо.

Для нашего примера Математическая статистика - примеры с решением заданий и выполнение задачпоэтому на основании имеющихся данных мы не можем отклонить гипотезу Математическая статистика - примеры с решением заданий и выполнение задач об отсутствии различия двух выборок. К такому же выводу мы пришли и в примере 6.3, используя t-критерий в предположении нормальности распределений.

Математическая статистика - примеры с решением заданий и выполнение задач

Как видно из примера 6,8, применение критерия Вил-коксона основано на очень простых вычислениях сумм рангов. Это характерно для всех ранговых критериев. В то же время эффективность этого критерия довольно высока. Если он применяется для сравнения выборок из нормальных генеральных совокупностей, то при неограниченном увели-нении объема выборок эффективность его равна 0,95. Это означает, что при n = 1000 критерий Вилкоксона имеет такую же мощность (т. е. с такой же вероятностью правильно обнаруживает различие), как и оптимальный для этого случая t-критерий при пn— 950. Если же распределения несимметричны, то эффективность критерия Вилкоксона может быть и значительно больше 1.

В табл. 8 Приложения критические значения Математическая статистика - примеры с решением заданий и выполнение задачприведены только для объемов выборок Математическая статистика - примеры с решением заданий и выполнение задач. Если Математическая статистика - примеры с решением заданий и выполнение задач больше 10, можно приближенно использовать u-критерий. Для этого рассчитывается значение Математическая статистика - примеры с решением заданий и выполнение задач по следующей приближенной формуле:

Математическая статистика - примеры с решением заданий и выполнение задач

где Математическая статистика - примеры с решением заданий и выполнение задач — объем выборки с меньшей суммой рангов; Математическая статистика - примеры с решением заданий и выполнение задач — объем второй выборки; n — объем объединенной выборки; W — значение критерия Вилкоксона, определяемое по указанному выше порядку.

Удобнее пользоваться выражением

Математическая статистика - примеры с решением заданий и выполнение задач

Вычисленное по этой формуле значение w сравнивается с критическим значением Математическая статистика - примеры с решением заданий и выполнение задач приведенным в табл. 6.8. ЕслиМатематическая статистика - примеры с решением заданий и выполнение задачгипотеза Математическая статистика - примеры с решением заданий и выполнение задач отвергается, если Математическая статистика - примеры с решением заданий и выполнение задачпринимается.

Сравнение двух связанных выборок

Здесь будет рассмотрено применение непараметрических методов в тех случаях, когда требуется доказать различие двух связанных выборок, т. е. выборок, полученных при парных сравнениях (например, при повторных измерениях на одной и той же группе испытуемых спортсменов). В предположении нормальности распределения разностей результатов парных измерений используется t-критерий для связанных выборок (см. раздел G.3.4). Теперь же предположение о нормальности не делается.

Наиболее часто применяемый непараметрический критерий в таких случаях — критерий Вилкоксона для связанных выборок, являющийся непараметрическим аналогом упомянутого t-критерия.

Нулевая гипотеза Математическая статистика - примеры с решением заданий и выполнение задач в данном случае — это утверждение о том, что распределение разностей Математическая статистика - примеры с решением заданий и выполнение задачМатематическая статистика - примеры с решением заданий и выполнение задач связанных пар наблюдений Математическая статистика - примеры с решением заданий и выполнение задач является симметричным относительно нуля. Вид распределения при этом не имеет значения. Это означает, что медиана распределения разностей — Математическая статистика - примеры с решением заданий и выполнение задач и среднее значениеМатематическая статистика - примеры с решением заданий и выполнение задач (если оно может быть определено) равны нулю, т. е.Математическая статистика - примеры с решением заданий и выполнение задач

Альтернатива Математическая статистика - примеры с решением заданий и выполнение задач в двустороннем случае, когда допускается как положительный, так и отрицательный эффект обработки. Можно сформулировать и одностороннюю альтернативу, например, Математическая статистика - примеры с решением заданий и выполнение задач

Ниже приводится пример использования критерия Вилкоксона.

Пример 6.9

Воспользуемся данными примера 6.4, в котором представлены результаты измерения ЖЕЛ У школьников до и после пребывания в спортивном лагере. Применим непараметрический критерий Вилкоксона для доказательства различия связанных пар наблюдений Математическая статистика - примеры с решением заданий и выполнение задач

Зададимся уровнем значимости а = 0,05.

Исходные данные х: и У( помещены в столбцах 2 и 3 табл. 6.9.

Порядок применения:

1. Отбрасываем пары с одинаковыми значениями Математическая статистика - примеры с решением заданий и выполнение задач иМатематическая статистика - примеры с решением заданий и выполнение задач и для дальнейших расчетов объем выборки сокращаем на число отброшенных пар.

В нашем примере отбрасывается пара 3200, 3200, и объем выборки будет n = 10 — 1 Математическая статистика - примеры с решением заданий и выполнение задач 9.

2. Из оставшихся пар образуем разности Математическая статистика - примеры с решением заданий и выполнение задач Эти разности приведены в графе 4 табл. 6.9.

3. Находим рангиМатематическая статистика - примеры с решением заданий и выполнение задач абсолютных значений разностей Математическая статистика - примеры с решением заданий и выполнение задач как показано в разделе 6.5.1. Ранги записаны •в графе 5 табл. 6.9.

Математическая статистика - примеры с решением заданий и выполнение задач

4. Отмечаем ранги, относящиеся к положительным и отрицательным значениям разностей.

В графе 5 ранги обозначены (+) и (—).

5. Находим по отдельности суммы рангов отрицательных^ положительных разностей R(—) и R(+).

6. Меньшую из сумм рангов принимаем в качестве значения критерия W. Для нашего примераМатематическая статистика - примеры с решением заданий и выполнение задач 2,5.

7. Из табл. 9 Приложения находим критическое значение Математическая статистика - примеры с решением заданий и выполнение задач критерия Вилкоксоиа при уровне значимости а= 0,05 и объеме выборки n = 10:

Математическая статистика - примеры с решением заданий и выполнение задач

В табл. 9 Приложения приведены критические значения двустороннего критерия Вилкоксоиа. Если используется односторонний критерий, то значения этой таблицы соответствуют удвоенным уровням значимости, т. е.

Математическая статистика - примеры с решением заданий и выполнение задач

8. Вывод: если Математическая статистика - примеры с решением заданий и выполнение задач то нулевая гипотеза отбрасывается и наблюдаемое различие связанных выборок является статистически значимым на уровне значимости а. В противном случае различия статистически незначимы.

Для рассматриваемого примера Математическая статистика - примеры с решением заданий и выполнение задач поэтому различия статистически значимы на уровне значимости а = 0,05 (P <0,05).

К такому же выводу мы пришли и в примере 6.4 при использовании t-критерия для нормального распределения разностей Математическая статистика - примеры с решением заданий и выполнение задач

Если объем выборок достаточно великМатематическая статистика - примеры с решением заданий и выполнение задач можно использовать Математическая статистика - примеры с решением заданий и выполнение задач-критерий, основанный на следующем приближенном выражении:

Математическая статистика - примеры с решением заданий и выполнение задач

где W — значение критерия Вилкоксона, определяемое как указано выше.

Вычисленное по этой формуле значение и сравнивается с критическимМатематическая статистика - примеры с решением заданий и выполнение задачвзятым из табл. 6.2, и если оказывается, что Математическая статистика - примеры с решением заданий и выполнение задач гипотеза Математическая статистика - примеры с решением заданий и выполнение задач отбрасывается, если Математическая статистика - примеры с решением заданий и выполнение задач гипотеза Математическая статистика - примеры с решением заданий и выполнение задач принимается.

Регрессионный и корреляционный анализ

В предыдущих лекциях были рассмотрены простейшие ситуации, когда в ходе исследования измерялись значения только одного варьирующего признака генеральной совокупности. Остальные признаки либо считались постоянными для данной совокупности, либо относились к случайным факторам, определяющим варьирование исследуемого признака. Как правило, исследования в спорте значительно сложнее и носят комплексный характер. Например, при контроле за ходом тренировочного процесса измеряется спортивный результат и одновременно может оцениваться целый ряд биомеханических, физиологических, биохимических и других параметров (скорость и ускорения общего центра масс и отдельных звеньев тела, углы в суставах, сила мышц, показатели систем дыхания и кровообращения, объем физической нагрузки и энергозатраты организма на ее выполнение и т. д.).

При этом часто возникает вопрос о взаимосвязи отдельных признаков. Например, как зависит спортивный результат от некоторых элементов техники спортивных движений? как связаны энергозатраты организма с объемом физической нагрузки определенного вида? насколько точно по результатам выполнения некоторых стандартных упражнений можно судить о потенциальных возможностях человека в конкретном виде спортивной ‘ деятельности? и т. п. Во всех этих случаях внимание исследователя привлекает зависимость между различными величинами, описывающими интересующие его признаки.

Иногда значение одной величины однозначно определяет значение другой, связанной с ней величины. В этих случаях имеет место функциональная зависимость между величинами. Например, средняя скорость Математическая статистика - примеры с решением заданий и выполнение задач на отрезке L дистанции функционально связана с временем l на этом отрезке (Математическая статистика - примеры с решением заданий и выполнение задач = L/T), пульсовая стоимость (ПС) 1 м пути однозначно определяется скоростью Математическая статистика - примеры с решением заданий и выполнение задач и частотой сердечных сокращений (ЧСС) на данном участке пути (ПС = ЧСС/Математическая статистика - примеры с решением заданий и выполнение задач) и т. п.

Но чаще исследователя интересуют зависимости другого рода, когда при фиксированном значении одной величины другая величина имеет некоторую свободу и

может принимать различные значения. Так, средняя скорость на фиксированном отрезке пути будет различной для разных спортсменов, пульсовая стоимость 1 м пути при одной и той же скорости отличается для разных испытуемых.

Если в такой ситуации рассматривать одну величину как независимую (контролируемую), а вторую — как зависимую от первой, то зависимая величина ведет себя как случайная и ее можно описать некоторым вероятностным распределением. В то же время интерес вызывает то, что это распределение (или его параметры: среднее значение, стандартное отклонение) закономерно изменяется при изменении значений независимой величины. Например, среднее значение пульсовой стоимости 1 м пути для группы испытуемых будет закономерно изменяться при изменении скорости движения. В таких ситуациях говорят о стохастической (или вероятностной) зависимости между величинами.

При изучении стохастических зависимостей различают регрессию и корреляцию.

Регрессия — это зависимость среднего значения (точнее, математического ожидания) случайной величины Y от величины х. При этом принято говорить: «регрессия Y на х». Независимая величина х может быть не обязательно случайной, поэтому она обозначается здесь строчной буквой, прописные буквы используются обычно для случайных величин.

Корреляция — это зависимость между двумя случайными величинами Y и X, характеризуемая с помощью коэффициентов корреляции.

В соответствии с этим различают регрессионный и корреляционный анализы.

Регрессионный анализ устанавливает формы зависимости между случайной величиной Y и значениями одной или нескольких переменных величин, причем значения последних считаются точно заданными. Такая зависимость обычно определяется некоторой математической моделью (уравнением регрессии), содержащей несколько неизвестных параметров. Вначале на основании выборочных данных находят оценки этих параметров. Далее определяются статистические ошибки оценок или границы доверительных интервалов И проверяется соответствие (адекватность) примятой математической модели экспериментальным данным.

Корреляционный анализ состоит в определении степени связи между двумя случайными величинами X и Y. В качестве меры связи используется коэффициент корреляции. Коэффициент корреляции оценивается по выборке объема n связанных пар наблюденийМатематическая статистика - примеры с решением заданий и выполнение задач из совместной генеральной совокупности X и Y. Далее проверяются гипотезы или устанавливаются границы доверительного интервала для генерального коэффициента корреляции. Существует несколько типов коэффициентов корреляции, применение которых зависит от предположений о совместном распределении величин X и Y.

Теперь перейдем к более подробному рассмотрению методов регрессионного и корреляционного анализа.

Регрессионные модели

Самый важный этап регрессионного анализа — это выбор подходящей регрессионной модели, т. е. математического выражения, связывающего значения зависимой случайной величины Y и значения независимой величины х. Так же как и в рассмотренных выше статистических методах, мы относим эту абстрактную математическую модель к некоторой генеральной совокупности, в которой между значениями Y и х действительно существует зависимость, определенная выбранной моделью, и считаем, что экспериментальные данные получены именно из такой генеральной совокупности.

В простейшем случае предполагается линейная зависимость, выраженная уравнением:

Математическая статистика - примеры с решением заданий и выполнение задач

Запись Математическая статистика - примеры с решением заданий и выполнение задач означает, что математическое ожидание т случайной величины Y определяется при фиксированном значении величины х.

Это уравнение задает прямую линию в прямоугольной системе координат Математическая статистика - примеры с решением заданий и выполнение задачпоказанную на рис. 7.1. Регрессионная прямая пересекает ось у в точке у = а, а параметр Математическая статистика - примеры с решением заданий и выполнение задач представляет собой тангенс угла наклона (у) прямой относительно горизонтальной оси х.

Регрессия, выраженная таким уравнением, называется простой линейной регрессией, потому что она учитывает зависимость только от одной контролируемой переменной х.

Иногда не удается объяснить поведение зависимой случайной величины Y влиянием только одной независи- Математическая статистика - примеры с решением заданий и выполнение задач

мой переменной х. Тогда часто используется модель множественной линейной регрессии:

Математическая статистика - примеры с решением заданий и выполнение задач

Здесь среднее значение случайной величины У определяется уже значениями k независимых переменных:Математическая статистика - примеры с решением заданий и выполнение задачМатематическая статистика - примеры с решением заданий и выполнение задач

Величины Математическая статистика - примеры с решением заданий и выполнение задачмогут быть любыми функциями от других величин, в том числе и друг от друга. Термин «линейная регрессия» означает линейность по отношению к параметрамМатематическая статистика - примеры с решением заданий и выполнение задач а не к переменным Математическая статистика - примеры с решением заданий и выполнение задачМатематическая статистика - примеры с решением заданий и выполнение задач

Частным случаем множественной линейной регрессии является полиномиальная регрессия, выражаемая полиномом степени k:

Математическая статистика - примеры с решением заданий и выполнение задач

Рассмотренные уравнения регрессии определяют функциональную зависимость среднего значенияМатематическая статистика - примеры с решением заданий и выполнение задач зависимой случайной величины У от независимой переменной х (или переменных Математическая статистика - примеры с решением заданий и выполнение задач). Чтобы указать, как зависят отдельные значенияМатематическая статистика - примеры с решением заданий и выполнение задач случайной величины Y от значений Математическая статистика - примеры с решением заданий и выполнение задач величины х, нужно ввести в регрессионную модель случайные факторы, которые наряду с зависимостью от величины х влияют на значения Математическая статистика - примеры с решением заданий и выполнение задач Для простой линейной регрессии это записывается следующим образом:

Математическая статистика - примеры с решением заданий и выполнение задач

В этом выражении Математическая статистика - примеры с решением заданий и выполнение задач — случайные величины, определяющие для каждого значения Математическая статистика - примеры с решением заданий и выполнение задач случайный характер значенийМатематическая статистика - примеры с решением заданий и выполнение задач

Во всех регрессионных моделях на случайные величиныМатематическая статистика - примеры с решением заданий и выполнение задач накладываются определенные ограничения, которые будут подробно рассмотрены ниже на примере простой линейной регрессии.

Итак, регрессионная модель описывает зависимость случайной величины Y от независимой величины х в генеральной совокупности Y. Но поскольку вся генеральная совокупность У недоступна для наблюдений, то истинное уравнение регрессии неизвестно, и любая регрессионная модель будет лишь приближением к действительности.

Как выбрать наилучщую регрессионную модель? Математическая статистика по этому поводу говорит, что выбор модели — искусство и правильность выбора целиком зависит от опыта и интуиции исследователя. Обычно при выборе модели исходят из предметного анализа явления (какую форму связи можно ожидать?), и если имеющейся информации недостаточно, то, как правило, помогает графическое представление экспериментальных данных в виде диаграммы рассеяния (этот график называют также корреляционным полем, потому что при корреляционном анализе применяется точно такое же графическое представление данных). Для каждого значения х; независимой переменной измеренные значения Математическая статистика - примеры с решением заданий и выполнение задач наносятся на график в координатах (х, у), как показано на рис. 7.2 для некоторых гипотетических данных.

Если удается «на глазок» провести прямую линию так, что все значения Математическая статистика - примеры с решением заданий и выполнение задач будут достаточно близки к ней, то можно ожидать, что модель простой линейной регрессии окажется в данном случае адекватной (согласующейся с экспериментальными данными).

Примеры регрессионных задач в спорте

Рассмотрим несколько простых примеров, цель которых — показать, почему регрессионный анализ находит широкое применение а статистических исследованиях в области спорта.

Пример 7.1

В табл. 7.1 приведены данные о мировых рекордах в прыжках с шестом за период с 1957 по 1981 г.*. Математическая статистика - примеры с решением заданий и выполнение задач

Нанесем эти данные на график (рис. 7.3), где по оси х отложим годы, а по оси у — рекордные результаты.

График демонстрирует тенденцию к возрастанию рекордных результатов по годам. Более тонкий анализ позволяет сделать предположения, что начиная с 1965 г. наблюдалось приблизительное линейное возрастание результатов, а в более ранний период зависимость имеет, по-видимому, и более сложный характер. Для первой грубой оценки общей картины можно попытаться представить зависимость в виде прямой линии (ее примерный ход намечен на графике), и тогда имеется заманчивая возможность прогнозировать рекордные результаты на какой-то период времени вперед. (Интересно нанести на этот график более свежие данные и посмотреть, как они вписываются в наш «прямолинейный» прогноз).

Математическая статистика - примеры с решением заданий и выполнение задач

Рис. 7.3. График зависимости мировых рекордов в прыжках с шестом от времени установления

Спортивное прогнозирование — одна из важных областей применения регрессионного анализа в спортивных исследованиях*.

Пример 7.2

Другая важная область применения регрессионного анализа в спортивных исследованиях также связана с прогнозированием, но в несколько другом понимании этого термина. Очень часто предметом исследования является такой признак, который непосредственно измерить затруднительно или невозможно. Это особенно характерно для исследований в области спортивной физиологии, медицины, психологии. В то же время известно, что изучаемый признак связан с другими признаками, которые измеряются сравнительно просто. Тогда пытаются подобрать модель предполагаемой зависимости и по этой модели прогнозировать значения неизмеряемого зависимого признака, основываясь на значениях других, легко измеряемых признаков. Прогнозируемые таким образом значения неизмеряемых признаков называются в статистике предикторами. Здесь также используются регрессионные модели, потому что оцениваемая величина является случайной: помимо контролируемых факторов, влияние которых учитывается значениями измеряемых признаков, она зависит и от множества других случайных факторов, которые контролировать не удается.

Например, часто интересуются энергозатратами организма человека при выполнении той или иной фиксированной физической нагрузки. Известно (опять же на основании регрессионного анализа!), что энергозатраты закономерно связаны с потреблением кислорода Математическая статистика - примеры с решением заданий и выполнение задач и ЧСС. Но измерить эти показатели во время выполнения реальных тренировочных заданий тоже достаточно сложно, поэтому пытаются прогнозировать их на основании более простых измерений (например, измерений средней скорости при беге или ходьбе).

Предположим, что цель исследований состоит в оценке энергозатрат организма спортсмена при выполнении стандартной нагрузки: бег на тредбане в течение определенного времени с заданной скоростью.

Математическая статистика - примеры с решением заданий и выполнение задач

 Энергозатраты оцениваются по ЧСС, и далее определяется пульсовая стоимость 1 м пути (ПС — ЧСС/Математическая статистика - примеры с решением заданий и выполнение задач). В эксперименте участвует однородная по составу группа спортсменов. Средние значения ПС, вычисленные по результатам измерений для всех спортсменов группы, при различных скоростях бега в диапазоне 2,0—5,0 м/с приведены на рис. 7.4. Данные носят иллюстративный характер, но приближенно отражают истинное положение дел*.

Анализ графика (см. рис. 7.4) показывает, что в эксперименте также наблюдается некоторая закономерная связь скорости и ПС, но в этом случае зависимость является уже более сложной и не может быть описана уравнением прямой линии. Можно попытаться использовать полиномиальную модель регрессии (более подробно эти вопросы рассмотрены в специальной литературе). Если в результате регрессионного анализа окажется, что выбранная модель хорошо согласуется с экспериментальными данными, то можно использовать ее для прогнозирования энергозатрат по скорости бега, не прибегая каждый раз к достаточно сложным измерениям ЧСС.

Пример 7.3

Довольно часто интерес вызывает связь между двигательными достижениями в различных видах спортивных упражнений. Это особенно важно при подборе тестов, по результатам которых судят о возможных достижениях в том или ином виде спорта. Как правило, при этом пытаются установить просто наличие достоверной взаимосвязи между результатами теста и результатами в том упражнении, которое по общему признанию объективно отражает возможности человека в конкретном виде спорта. Это делается с помощью корреляционного анализа, но, как мы скоро увидим, чтобы корректно использовать коэффициент корреляции, также необходимо знать предполагаемую форму связи между результатами в двух видах спортивных упражнений.

Рассмотрим следующий пример. В табл. 7.2 приведены результаты, показанные группой школьников (n = 10) в беге на дистанциях 30 и 100 м. Математическая статистика - примеры с решением заданий и выполнение задач

На рис. 7.5 эти данные представлены в графической форме. Результаты в беге на 100 мМатематическая статистика - примеры с решением заданий и выполнение задач при фиксированных значениях результатов в беге на 30 мМатематическая статистика - примеры с решением заданий и выполнение задачобразовали на графике некоторое «облако» точек. Анализ графика показывает, что в качестве первого приближения здесь можно предположить, что в среднем результат в беге на 100 м для данной категории испытуемых линейно зависит от результатов, показанных на дистанции 30 м (т. е. принимаем модель простой линейной регрессии).

Отметим существенное отличие этого примера от двух предыдущих. В первых двух примерах независимая величина (время и скорость) не является случайной, а ее значения произвольно устанавливаются исследователем в определенном диапазоне. В последнем примере обе величины (и зависимая, и независимая) являются случайными, а их значения получаются по случайной выборке из генеральной совокупности. Исследователь по своему усмотрению вправе считать одну из этих величин зависимой, а другую — независимой.

Математическая статистика - примеры с решением заданий и выполнение задач

Это две различные ситуации, рассматриваемые в регрессионном анализе. Методы его одинаковы в обоих случаях, а различие состоит в том, что в ситуациях, описываемых в первых двух примерах, нельзя оценить значимость корреляции между двумя величинами методами корреляционного анализа, рассмотренными ниже (хотя формально вычислить коэффициент корреляции можно и здесь).

Простая линейная регрессия

Из-за ограниченности объема книги мы не сможем рассмотреть многие вопросы регрессионного анализа, и для углубленного знакомства с ним следует обратиться к специальной литературе. В этом разделе излагается простейший, но очень важный для практики спорта случай — простая линейная регрессия.

Предположения регрессионного анализа

Выше было показано, что модель простой линейной регрессии, отражающая зависимость значений Математическая статистика - примеры с решением заданий и выполнение задач зависимой величины У от значений Математическая статистика - примеры с решением заданий и выполнение задач независимой переменной х в генеральной совокупности, описывается уравнением:

Математическая статистика - примеры с решением заданий и выполнение задач

В этом уравнении Математическая статистика - примеры с решением заданий и выполнение задач — неизвестные параметры уравнения регрессии,Математическая статистика - примеры с решением заданий и выполнение задач— случайные ошибки, представляющие собой случайные отклонения значений Математическая статистика - примеры с решением заданий и выполнение задач от линии регрессии:

Математическая статистика - примеры с решением заданий и выполнение задач

Применение модели линейной регрессии основано на следующих предположениях:

1. В генеральной совокупности, из которой получены экспериментальные данные, действительно существует линейная регрессия, т. е. среднее значение Математическая статистика - примеры с решением заданий и выполнение задач зависимой случайной величины Y для любого значения независимой величины х является линейной функцией от х:

Математическая статистика - примеры с решением заданий и выполнение задач

2. Нет никаких факторов, существенно влияющих на

связь между величинами У и х. Это два самых важных предположения, определяющих практическую полезность линейного регрессионного анализа.

3. В генеральной совокупности все остаткиМатематическая статистика - примеры с решением заданий и выполнение задач Математическая статистика - примеры с решением заданий и выполнение задач взаимно независимы. Другими словами, требуется, чтобы все наблюдаемые (измеренные) значения Математическая статистика - примеры с решением заданий и выполнение задач случайной величины Y были статистически независимыми при всех значениях Математическая статистика - примеры с решением заданий и выполнение задач независимой переменной х.

Если это предположение не выполняется, то невозможно оценить точность приближенного описания экспериментально наблюдаемых зависимостей с помощью регрессии. Это предположение обычно справедливо в тех случаях, когда выборочные данные, по которым строится линия регрессии, представляют собой результаты измерения для разных индивидов. Поэтому эти результаты можно считать независимыми друг от друга.

4. В генеральной совокупности, из которой получены выборочные данные, при любом значении независимой переменной х случайные величины Математическая статистика - примеры с решением заданий и выполнение задач имеют нормальное распределение со средним значением Математическая статистика - примеры с решением заданий и выполнение задач и одинаковыми дисперсиями Математическая статистика - примеры с решением заданий и выполнение задач

Это предположение является необходимым при проверке значимости линейной регрессии и определении границ доверительных интервалов для параметров а и Математическая статистика - примеры с решением заданий и выполнение задач

Оценка параметров уравнения регрессии

Истинное уравнение регрессииМатематическая статистика - примеры с решением заданий и выполнение задач обычно неизвестно, потому что не имеется возможности наблюдать всю генеральную совокупность. Единственное, что можно сделать, чтобы построить линию регрессии, — это провести выборочное исследование и по экспериментальным данным оценить генеральные параметры а и Математическая статистика - примеры с решением заданий и выполнение задач Пусть получена выборка объема n наблюдений Математическая статистика - примеры с решением заданий и выполнение задач зависимой случайной величины Y, соответствующих значениям Математическая статистика - примеры с решением заданий и выполнение задачнезависимой переменной х.

Оценки параметров а и Математическая статистика - примеры с решением заданий и выполнение задач которые получаются по выборочным данным, обозначаются соответственно а и b. Для определения оценок a и b чаще всего применяется метод наименьших квадратов. Суть этого метода в том, что отыскиваются такие значения а и b, которые обеспечивают минимум суммы квадратов отклонений измеренных значений Математическая статистика - примеры с решением заданий и выполнение задач от прямой линии, задаваемой параметрами а и b, т. е.

Математическая статистика - примеры с решением заданий и выполнение задач

Таким образом, по методу наименьших квадратов получаем эмпирическое уравнение некоторой прямой: Математическая статистика - примеры с решением заданий и выполнение задач

Здесь Математическая статистика - примеры с решением заданий и выполнение задач — принятое обозначение для оценки величины Y при заданном значении х.

Оценка по методу наименьших квадратов является наилучшей в том смысле, что она дает уравнение такой прямой, для которой ошибка (сумма квадратов отклонений измеренных значений у; от этой прямой) будет наименьшей по сравнению с любой другой прямой линией (в том числе и с неизвестной истинной линией регрессии). В то же время, если каждому значениюМатематическая статистика - примеры с решением заданий и выполнение задачсоответствует несколько измеренных значений Математическая статистика - примеры с решением заданий и выполнение задач то прямая, полученная по методу наименьших квадратов, обеспечивает минимум отклонений средних арифметических Математическая статистика - примеры с решением заданий и выполнение задач при любом значении независимой переменной х, т. е. прямая наименьших квадратов является одновременно и оценкой истинной линии регрессии:

Математическая статистика - примеры с решением заданий и выполнение задач

Значения а и b по методу наименьших квадратов находятся из решения системы так называемых нормальных уравнений: Математическая статистика - примеры с решением заданий и выполнение задач

Решения этой системы уравнений можно записать в следующем, удобном для расчетов виде:

Математическая статистика - примеры с решением заданий и выполнение задач

где Математическая статистика - примеры с решением заданий и выполнение задач— выборочные средние арифметические

Математическая статистика - примеры с решением заданий и выполнение задач

Обычно b называют коэффициентом регрессии, a — свободным членом уравнения регрессии.

Пример 7.4

Найдем значения коэффициента регрессии (b) и свободного члена уравнения регрессии (а) для данных примера 7.3, т. е. построим прямую линию, устанавливающую приближенную зависимость результатов в беге на 100 м от результатов в беге на 30 м.

1. По данным табл. 7.2 находим значения промежуточных сумм, входящих в формулу (7.4):

Математическая статистика - примеры с решением заданий и выполнение задач

2. Определим значения средних арифметических:

Математическая статистика - примеры с решением заданий и выполнение задач

3. По формуле (7.4) вычисляем коэффициент регрессии: Математическая статистика - примеры с решением заданий и выполнение задач 4. По формуле (7.5) находим свободный член уравнения регрессии:

Математическая статистика - примеры с решением заданий и выполнение задач

Таким образом, уравнение регрессии имеет вид:

Математическая статистика - примеры с решением заданий и выполнение задач

Прямая, построенная по этому уравнению, показана на рис. 7.6 вместе с исходными данными. Эта прямая является наилучшей линейной оценкой уравнения регрессии, полученной по имеющимся данным. Но это не означает, что нельзя построить оценку регрессии в виде какой-то другой зависимости (нелинейной), которая будет лучше соответствовать экспериментальным данным, чем прямая линия.

Полученное эмпирическое уравнение регрессии можно использовать для прогнозирования результатов на дистанции 100 м по результатам дистанции 30 м. Например, если в группе школьников, которая участвовала в эксперименте, будет показан результат 5,2 с на дистанции 30 м, то можно ожидать, что результат на дистанции 100 м будет: Математическая статистика - примеры с решением заданий и выполнение задач

И это будет наилучшим прогнозом, который можно сделать, используя модель линейной регрессии.

Стандартная ошибка предсказания

Мерой качества приближенного описания реальной зависимости между величинами Y и х с помощью уравнения линейной регрессии является стандартное отклонение значений Математическая статистика - примеры с решением заданий и выполнение задачот регрессионной прямой, вычисляемое по формуле:

Математическая статистика - примеры с решением заданий и выполнение задач

Математическая статистика - примеры с решением заданий и выполнение задач является мерой точности предсказания значений случайной величины Y по заданным значениям величины х, поэтому Математическая статистика - примеры с решением заданий и выполнение задач называют также стандартной ошибкой предсказания.

Пример 7.4 (продолжение)

Определим стандартную ошибку предсказания для данных примера с результатами в беге на 100 и 30 м. Для этого найдем значение промежуточной суммы Математическая статистика - примеры с решением заданий и выполнение задач входящей в формулу (7.6):

Математическая статистика - примеры с решением заданий и выполнение задач

Подставив эти значения в формулу (7.6) и используя найденные ранее значения остальных составляющих формулы (7.6), получим: Математическая статистика - примеры с решением заданий и выполнение задач

Математическая статистика - примеры с решением заданий и выполнение задач

Две прямые линии, отстоящие от прямой регрессии наМатематическая статистика - примеры с решением заданий и выполнение задач ограничивают зону околорегрессионной прямой, в которую с вероятностью 0,683 попадают экспериментальные значенияМатематическая статистика - примеры с решением заданий и выполнение задач т. е. примерно 68,3 % всех значенийМатематическая статистика - примеры с решением заданий и выполнение задачоказываются в этой зоне.

Зона, определяемая стандартной ошибкой предсказания, показана на рис. 7.6 штриховыми линиями.

Проверка адекватности линейной модели

Проверка адекватности линейной модели может быть произведена с помощью стандартного F-критерия. Гипотеза Математическая статистика - примеры с решением заданий и выполнение задач в этом случае представляет собой утверждение о том, что регрессия в генеральной совокупности линейна, а альтернатива — обратное ей утверждение.Математическая статистика - примеры с решением заданий и выполнение задач F-критерий может быть применен в том случае, если каждому значению Математическая статистика - примеры с решением заданий и выполнение задач соответствует несколько измеренных значений Математическая статистика - примеры с решением заданий и выполнение задач. Порядок применения критерия описан в литературе [1, 4, 8]. Здесь не будем подробно на нем останавливаться, а рассмотрим простой и наглядный графический способ проверки адекватности.

Проверка адекватности линейной модели производится по графику остатков: Математическая статистика - примеры с решением заданий и выполнение задач где Математическая статистика - примеры с решением заданий и выполнение задач — измеренные значения величиныМатематическая статистика - примеры с решением заданий и выполнение задач, соответствующие значениям Математическая статистика - примеры с решением заданий и выполнение задач оценкаМатематическая статистика - примеры с решением заданий и выполнение задач по уравнению регрессии.

Если остатки Математическая статистика - примеры с решением заданий и выполнение задач сконцентрированы в горизонтальной полосе вдоль оси абсцисс, то линейную модель можно считать адекватной. Если зона, где расположены остатки, расширяется, это означает, что нарушено предположение 4 регрессионного анализа (см. раздел 7.4.1): дисперсии неодинаковы при различных значениях Математическая статистика - примеры с решением заданий и выполнение задач. Это требует изменения регрессионной модели. Если остатки имеют тенденцию закономерно изменяться, то нарушено предположение 2, т. е. не учтены какие-то факторы, существенно влияющие на связь между величинами Y и х. В этом случае также нужно изменить модель и ввести в нее неучтенные факторы. Предположение 4 о нормальности распределения может быть проверено с помощью стандартных критериев согласия (см. раздел 6.4), примененных к эмпирическому распределению остатковМатематическая статистика - примеры с решением заданий и выполнение задач

Математическая статистика - примеры с решением заданий и выполнение задач

Следует отметить, что регрессионный анализ в полном объеме достаточно сложен даже для простой линейной модели. Здесь не обойтись без помощи ЭВМ. Для универсальных ЭВМ существуют стандартные программы регрессионного анализа*.

Здесь нет возможности уделить этому внимание, поэтому рассматриваются лишь простейшие методы, при которых для расчетов вполне достаточно обычных микрокалькуляторов.

В заключение построим график остатков для примера 7.4. Этот график приведен на рис. 7.7.

Как следует из рис. 7.7, остатки Математическая статистика - примеры с решением заданий и выполнение задач распределились в основном в горизонтальной полосе вблизи нуля, поэтому приближенно можно считать, что в рассмотренном примере линейная модель регрессии является адекватной.

Проверка значимости коэффициента регрессии

Если в результате проведенной проверки нет оснований сомневаться в адекватности линейной модели, то необходимо проверить гипотезу о том, что в действительности в генеральной совокупности отсутствует линейная регрессия, а то, что полученный коэффициент регрессии b отличен от нуля,, объясняется только случайностью выборки.

Если данных много, то необходимость в такой проверке, как правило, отпадает, потому что зависимость явно прослеживается при графическом представлении данных (см., например, рис. 7.3). Но если выборка невелика, то такaя проверка полезна.

Гипотеза Математическая статистика - примеры с решением заданий и выполнение задач проверяется с помощью стандартного t-критерия Стьюдента, рассмотренного в гл. 6. Значение t-критерия определяется по формуле:

Математическая статистика - примеры с решением заданий и выполнение задач

где Математическая статистика - примеры с решением заданий и выполнение задач— абсолютная величина коэффициента регрессии, Математическая статистика - примеры с решением заданий и выполнение задач— стандартная ошибка предсказания, определяемая формулой (7.6).

t-критерий применяется обычным образом, как показано в гл. 6. Вычисленное по формуле (7.7) значение критерия сравнивается с критическим значением Математическая статистика - примеры с решением заданий и выполнение задач при уровне значимости а и числе степеней свободы v= n — 2. Критические значения /« приведены в табл. 4 Приложения.

Заметим, что здесь a-уровень значимости, его не следует путать со свободным членом уравнения регрессии Математическая статистика - примеры с решением заданий и выполнение задач для которого также принято обозначение а.

Если значение критерияМатематическая статистика - примеры с решением заданий и выполнение задач то нулевая гипотеза отклоняется, и можно сделать вывод, что линейная регрессия значима на уровне значимости а. В противном случае гипотеза Математическая статистика - примеры с решением заданий и выполнение задач принимается.

Пример 7.4 (продолжение)

Оценим значимость коэффициента регрессии b = 3,0, рассчитанного для данных нашего примера. Зададимся уровнем значимости а=0,05.

Подставим найденные ранее значения в формулу

(7.7) и определим значение t-критерия:

Математическая статистика - примеры с решением заданий и выполнение задач

Из табл. 4 Приложения находим при а = 0,05 и v = 10-2 = 8:

Математическая статистика - примеры с решением заданий и выполнение задач

Поскольку Математическая статистика - примеры с решением заданий и выполнение задач то на уровне значимости 0,05 отклоняем нипотезуМатематическая статистика - примеры с решением заданий и выполнение задач т. е. коэффициент регрессии b = 3,0 является статистически значимым.

Полиномиальная регрессия

Часто зависимость между двумя величинами, которую можно предположить, анализируя графическое представление экспериментальных данных или опираясь на предметный анализ явлений, оказывается достаточно сложной, и модель линейной регрессии плохо подходит. Тогда прибегают к более сложным моделям, начиная обычно с самой простой из них — полиномиальной регрессии. Эти модели описываются выражением, содержащим, кроме линейного члена (1-й степени х) более высокие степени переменной хМатематическая статистика - примеры с решением заданий и выполнение задач. Редко используется полином выше 3-й степени, поэтому модель полиномиальной регрессии можно представить в следующем виде:Математическая статистика - примеры с решением заданий и выполнение задач

Все предположения, которые принимаются при регрессионном анализе с использованием такой модели, полностью соответствуют предположениям, которые были сделаны в случае простой линейной регрессии.

Оценка параметров полиномиальной модели Математическая статистика - примеры с решением заданий и выполнение задач Математическая статистика - примеры с решением заданий и выполнение задачпо выборочным даннымМатематическая статистика - примеры с решением заданий и выполнение задач также производится по методу наименьших квадратов. Система нормальных уравнений в этом случае имеет вид:

Математическая статистика - примеры с решением заданий и выполнение задач

Решая совместно эти уравнения, находим коэффициенты Математическая статистика - примеры с решением заданий и выполнение задач.

Можно получить эти решения в готовом виде, и они приведены вМатематическая статистика - примеры с решением заданий и выполнение задач, но выражения получаются громоздкими и плохо пригодны для вычислений на калькуляторе, где приходится Применять такие сложные операции, что затраты времени становятся неоправданными. Поэтому, если возникнет необходимость использовать полиномиальную регрессию, лучше обратиться за помощью к специалисту и выполнить расчеты на ЭВМ. Можно надеяться, что в ближайшем будущем положение в корне изменится с появлением общедоступных и простых персональных ЭМ, и что не менее важно, специальных программ статистического анализа для них, по которым неискушенный в программировании человек сможет выполнить необходимые расчеты в режиме понятного диалога с ЭВМ. Тогда вычислительные трудности перестанут быть для многих определяющими при выборе статистических методов анализа.

Коэффициент корреляции

Как уже отмечалось в начале этой лекции, при исследовании корреляции двух признаков обе величины X и Y, описывающие поведение этих признаков, рассматриваются как случайные величины, которые представлены совместным вероятностным распределением. Для двух случайных величин совместное распределение называется двумерным.

Корреляция изучается на основании экспериментальных данных, представляющих собой измеренные значения (Математическая статистика - примеры с решением заданий и выполнение задач) двух признаков. Если экспериментальных данных немного, то двумерное эмпирическое распределение представляется в виде двух рядов связанных между собой значений Математическая статистика - примеры с решением заданий и выполнение задач. При большом количестве данных их запись в виде двойного ряда значений Математическая статистика - примеры с решением заданий и выполнение задач, становится трудно обозримой, и тогда, как и в случае одномерного распределения, данные группируют, а двумерное эмпирическое распределение представляют в виде корреляционной таблицы, в которой для каждой области группировки, задаваемой интервалами группировки по признакам X и Y, записывается частота совместного попадания значений х, и у, в данную область группировки. Анализ корреляции с использованием корреляционных таблиц подробно изложен в литературе [4, 7, 8, 9, 10, Математическая статистика - примеры с решением заданий и выполнение задачи здесь рассматриваться не будет.

Корреляционный анализ, как и другие статистические методы, основан на использовании вероятностных моделей, описывающих поведение исследуемых признаков в некоторой генеральной совокупности, из которой получены экспериментальные значения Математическая статистика - примеры с решением заданий и выполнение задач

Когда исследуется корреляция между количественными признаками, значение которых можно точно измерить в единицах метрических шкал (метры, секунды, килограммы и т. п.), то очень часто принимается модель двумерной нормально распределенной генеральной совокупности. Плотность вероятностей двумерного нормального распределения имеет вид Математическая статистика - примеры с решением заданий и выполнение задач

где Математическая статистика - примеры с решением заданий и выполнение задач

Математическая статистика - примеры с решением заданий и выполнение задач

Это распределение зависит от пяти параметров, четыре из которых нам уже знакомы:Математическая статистика - примеры с решением заданий и выполнение задач— средние значения (математические ожидания); Математическая статистика - примеры с решением заданий и выполнение задач— стандартные отклонения случайных величин X и У. Пятый параметр р носит название «коэффициент корреляции» и является мерой связи между случайными величинами X и У.

Модель двумерного нормального распределения позволяет дать наглядную графическую интерпретацию коэффициента корреляции.

Если р — 0, то значения Математическая статистика - примеры с решением заданий и выполнение задачполученные из двумерной нормальной совокупности, располагаются на графике в координатах х, у в пределах области, ограниченной окружностью (рис. 7.8, а). В этом случае между случайными величинами X и У отсутствует корреляция и они называются некоррелированными. Для двумерного нормального распределения некоррелированность означает одновременно и независимость случайных величин X и Y.

Если р= I или р= — 1, то между случайными величинами X и У существует линейная функциональная зависимость (У = с + dX). В этом случае говорят о полной корреляции. При р = 1 значения Математическая статистика - примеры с решением заданий и выполнение задач( определяют точки, лежащие на прямой линии, имеющей положительный наклон (с увеличением Математическая статистика - примеры с решением заданий и выполнение задач значения Математическая статистика - примеры с решением заданий и выполнение задачтакже увеличиваются), при р = — 1 прямая имеет отрицательный наклон (рис. 7.8, б).

В промежуточных случаях Математическая статистика - примеры с решением заданий и выполнение задач точки, соответствующие значениямМатематическая статистика - примеры с решением заданий и выполнение задачпопадают в область, ограниченную некоторым эллипсом (рис. 7.8, в, а), причем при р>0 имеет место положительная корреляция (с увеличением Математическая статистика - примеры с решением заданий и выполнение задачзначенияМатематическая статистика - примеры с решением заданий и выполнение задач имеют тенденцию к возрастанию), при р<0 корреляция отрицательная. Чем ближе р к ±1, тем уже эллипс и тем теснее экспериментальные значения группируются около прямой линии.

Таким образом, коэффициент корреляции является мерой линейной связи между случайными величинами.

В двумерном нормальном распределении существуют две линии регрессии: регрессия У на X и регрессия X на У (в зависимости от того, какую из величин X или У считать независимой, а какую — зависимой). Причем для нормального распределения регрессия всегда линейна, т. е. среднее значение одной случайной величины линейно зависит от значений другой случайной величины. Поэтому для двумерного нормального распределения коэффициент корреляции является мерой взаимосвязи двух случайных величин.

Это справедливо только для двумерного нормального распределения. При произвольном распределении корреляция является мерой только линейной связи. Пусть, например, две случайные величины связаны функциональной квадратичной зависимостью Математическая статистика - примеры с решением заданий и выполнение задач и случайная величина X равномерно распределена на интервале значений (—х, х), т. е. вероятности ее попадания в любой сколь угодно малый интервал внутри общего интервала (—х, х) одинаковы. В этом случае оказывается, что коэффициент корреляции равен 0, хотя имеет место функциональная зависимость. Это нужно иметь в виду при использовании коэффициента корреляции в качестве меры связи двух случайных величин. Поэтому, когда определяется коэффициент корреляции, обычно предполагается, что экспериментальные данные получены из генеральной совокупности, имеющей двумерное нормальное распределение.

Если нет оснований предполагать двумерное нормальное распределение, в качестве меры связи часто используется коэффициент ранговой корреляции Спирмена, для которого вид распределения случайных величин X и Y не имеет значения. Коэффициент ранговой корреляции является мерой любой монотонной (неубывающей или невозрастаюшей) зависимости между случайными величинами. Его применение рассмотрено в разделе 7.7

Если исследуется корреляционная зависимость между качественными признаками, которые не поддаются непосредственному измерению, то такая зависимость называется сопряженностью. В качестве меры зависимости используются коэффициенты сопряженности, рассмотренные в разделе 7.8.

Оценка коэффициента корреляции

Коэффициент корреляции р для генеральной совокупности, как правило, неизвестен, поэтому он оценивается по экспериментальным данным, представляющим собой выборку объема n пар значений Математическая статистика - примеры с решением заданий и выполнение задач полученную при совместном измерении двух признаков X и Y. Коэффициент корреляции, определяемый по выборочным данным, называется выборочным коэффициентом корреляции (или просто коэффициентом корреляции). Его принято обозначать символом r.

В качестве оценки генерального коэффициента корреляции р используется коэффициент корреляции r Бра-ве — Пирсона. Для его определения принимается предположение о двумерном нормальном распределении генеральной совокупности, из которой получены экспериментальные данные. Это предположение может быть проверено с помощью соответствующих критериев значимости. Следует отметить, что если по отдельности одномерные эмпирические распределения значений Математическая статистика - примеры с решением заданий и выполнение задач согласуются с нормальным распределением,, то из этого еще не следует, что двумерное распределение будет нормальным. Для такого заключения необходимо еще проверить предположение о линейности связи между случайными величинами X и Y. Строго говоря, для вычисления коэффициента корреляции достаточно только принять предположение о линейности связи между случайными величинами, и вычисленный коэффициент корреляции будет мерой этой линейной связи. Но тогда нельзя оценить достоверность найденного коэффициента корреляции с помощью стандартных критериев значимости, которые рассмотрены ниже. Для этого требуется принять предположение о двумерном нормальном распределении.

Коэффициент корреляции r Браве — Пирсона вычис ляется по формуле: Математическая статистика - примеры с решением заданий и выполнение задач

где Математическая статистика - примеры с решением заданий и выполнение задач— выборочные средние арифметические, n — объем выборки.

Для практических расчетов более удобна следующая формула: Математическая статистика - примеры с решением заданий и выполнение задач

В этой формуле все суммы также вычисляются для i от 1 до n. Удобство формулы (7.9) в том, что она оперирует непосредственно с исходными данными Математическая статистика - примеры с решением заданий и выполнение задачпоэтому вычисления производятся более точно, чем по формуле (7.8), в которой присутствуютМатематическая статистика - примеры с решением заданий и выполнение задач, которые всегда содержат ошибки округления.

Важным свойством коэффициента корреляции является то, что он не изменяет своего значения при любом линейном преобразовании исходных данных Математическая статистика - примеры с решением заданий и выполнение задач. Например, если заменить Математическая статистика - примеры с решением заданий и выполнение задачс помощью преобразований:Математическая статистика - примеры с решением заданий и выполнение задач

то значение Математическая статистика - примеры с решением заданий и выполнение задач, выведенное по преобразованным данным, совпадает с Математическая статистика - примеры с решением заданий и выполнение задач выведенным по исходным данным.

Это свойство позволяет существенно упростить вычисление коэффициента корреляции в тех случаях, когда значения Математическая статистика - примеры с решением заданий и выполнение задач представлены многоразрядными числами.

Между коэффициентом корреляции r и коэффициентами регрессии Математическая статистика - примеры с решением заданий и выполнение задач (коэффициенты регрессии У на X и X на У) существует простая взаимосвязь:

Математическая статистика - примеры с решением заданий и выполнение задач

Зная коэффициент корреляции, можно легко определить коэффициент регрессии: Математическая статистика - примеры с решением заданий и выполнение задач

где Математическая статистика - примеры с решением заданий и выполнение задач — выборочные стандартные отклонения.

Квадрат коэффициента корреляции называется коэффициентом детерминации (d):Математическая статистика - примеры с решением заданий и выполнение задач

Коэффициент детерминации является мерой определенности линейной регрессии. Чем больше коэффициент детерминации, тем меньше наблюдаемые значенияМатематическая статистика - примеры с решением заданий и выполнение задач при каждом значении Математическая статистика - примеры с решением заданий и выполнение задач отклоняются от линии регрессии У на X, тем точнее определена линия регрессии. Так, например, если r = 0,9, то d = 0,81 и 81 % общего рассеяния значений Математическая статистика - примеры с решением заданий и выполнение задач (характеризуемого дисперсией Математическая статистика - примеры с решением заданий и выполнение задач можно объяснить линейной связью с изменяющимися значениямиМатематическая статистика - примеры с решением заданий и выполнение задач

Пример 7.5

Определим, существует ли связь между результатами в беге на 30 и на 100 м для данных примера 7.4, полученных для группы школьников.

Исходные данные Математическая статистика - примеры с решением заданий и выполнение задач (результаты в беге на 30 м) и Математическая статистика - примеры с решением заданий и выполнение задач (результаты бега на 100 м) приведены в столбцах 2 и 3 табл. 7.3. Корреляционный анализ производится в следующем порядке:

1. Наносим исходные данныеМатематическая статистика - примеры с решением заданий и выполнение задач на график корреляционного поля, отображая каждую пару значений (Математическая статистика - примеры с решением заданий и выполнение задач) в виде точки с координатами Математическая статистика - примеры с решением заданий и выполнение задачв прямоугольной системе координат. Этот график построен на рис. 7.5.

Анализ графика позволяет сделать предположение о линейной связи между результатами в беге на 30 и 100 м для данной категории испытуемых. Силу этой связи можно оценить по коэффициенту корреляции r Браве — Пирсона.

2. Вычисляем значения промежуточных сумм, входящих в формулу (7.9), для коэффициента корреляции:

Математическая статистика - примеры с решением заданий и выполнение задач

Промежуточные расчеты приведены в столбцах 2—6 табл. 7.3.

3. По формуле (7.9) вычисляем коэффициент корреляции:

Математическая статистика - примеры с решением заданий и выполнение задач

Такое значение коэффициента корреляции свидетельствует о наличии сильной положительной корреляции между результатами в беге на 30 и 100 м. Математическая статистика - примеры с решением заданий и выполнение задач

4, Находим коэффициент детерминации

Математическая статистика - примеры с решением заданий и выполнение задач

93,5% рассеяния результатов в беге на 100 м может быть объяснено изменением результатов в беге на 30 м. Иными словами, на оба исследуемых признака (результаты в беге на 30 и 100 м) действуют общие факторы, вызывающие варьирование этих признаков, и доля общих факторов составляет 93,5 %. Остальные 6,5 % приходятся на долю факторов, действующих на исследуемые признаки избирательно.

Пример 7.6

Исследовалась группа спортсменок I разряда, специализирующихся в беге на 400 м. Цель исследования состояла в том, чтобы выявить влияние времени на первой половине дистанции на время пробегания последних 200 м. На соревнованиях для 20 спортсменок измерены результаты на обеих половинах дистанции 400 м. Эти данные приведены в столбцах 2 и 3 табл. 7.4: Математическая статистика - примеры с решением заданий и выполнение задач — результаты на первой,Математическая статистика - примеры с решением заданий и выполнение задач — на второй половине дистанции.

Проведем корреляционный анализ экспериментальных данных. Математическая статистика - примеры с решением заданий и выполнение задач

1. Построим график корреляционного поля (рис. 7.9). Анализ графика показывает, что в данном случае можно предположить существование линейной корреляции между исследуемыми признаками, причем здесь корреляция отрицательная для данной категории испытуемых, т. е. при более быстром пробегании первой половины дистанции время на последних 200 м имеет тенденцию к возрастанию.

Вычислим коэффициент корреляции Математическая статистика - примеры с решением заданий и выполнение задачБраве — Пирсона для полученных экспериментальных данных.

Как показал предыдущий пример 7.5, расчет коэффициента корреляции достаточно громоздкий. Можно ожидать, что в данном примере расчеты будут еще сложнее, потому что данных вдвое больше. Чтобы упростить вычисления, воспользуемся линейным преобразованием исходных данных (7.10). Это не изменит значения коэффициента корреляции, но позволит существенно упростить расчеты при правильном выборе линейного преобразования. Применим следующие преобразования:

Математическая статистика - примеры с решением заданий и выполнение задач

Значения Математическая статистика - примеры с решением заданий и выполнение задач = 25,8 и Математическая статистика - примеры с решением заданий и выполнение задач — 30,5 выбраны примерно в центре рядов Математическая статистика - примеры с решением заданий и выполнение задач а множитель с — 10 выбран с целью преобразовать данные в целочисленные значения.

Преобразованные данные приведены в столбцах-4 и Математическая статистика - примеры с решением заданий и выполнение задач

5 табл. 7.4. Далее порядок вычислений ничем не отличается от рассмотренного в примере 7.5.

2. Находим значения промежуточных сумм: Математическая статистика - примеры с решением заданий и выполнение задачМатематическая статистика - примеры с решением заданий и выполнение задачМатематическая статистика - примеры с решением заданий и выполнение задач

По формуле (7.9) определяем:

Математическая статистика - примеры с решением заданий и выполнение задач

Полученный результат говорит о наличии сильной отрицательной корреляции.

4. Коэффициент детерминации равен

Математическая статистика - примеры с решением заданий и выполнение задач

В данном случае 64 % рассеяния результатов на последних 200 м объясняется изменением результатов на первой половине дистанции.

Критерий значимости и доверительные интервалы для коэффициента корреляции

Основываясь только на значении выборочного коэффициента корреляции, особенно если это значение не очень близко к ±1, нельзя сделать вывод о достоверности корреляции между признаками. Этот вывод может быть сделан с помощью соответствующих критериев значимости корреляции. Такие критерии служат для проверки гипотезы Математическая статистика - примеры с решением заданий и выполнение задач о том, что в генеральной совокупности отсутствует корреляция, а отличие от нуля выборочного коэффициента корреляции объясняется только случайностью выборки. Альтернатива Математическая статистика - примеры с решением заданий и выполнение задачможет быть двустороннейМатематическая статистика - примеры с решением заданий и выполнение задач если не известен знак корреляции, или одностороннейМатематическая статистика - примеры с решением заданий и выполнение задач когда знак корреляции может быть заранее определен.

Применение стандартных критериев значимости корреляции основано на предположении о двумерном нормальном распределении генеральной совокупности, из которой получены экспериментальные данные.

Если принять предположение о наличии линейной связи между исследуемыми признаками, то гипотезу о двумерном нормальном распределении можно проверить с помощью стандартных критериев согласия (см. раздел 6.4), примененных к одномерным эмпирическим распределениям признаков X и Y.

Если предположение о двумерном нормальном распределении принимается, то могут быть использованы следующие критерии значимости корреляции:

t-критерий. При использовании t-критерия Стыодента-вычисляется значение критерия по формуле:

Математическая статистика - примеры с решением заданий и выполнение задач

где r — выборочный коэффициент корреляции; n — объем выборки.

Вычисленное по формуле (7.13) значение t-критерия сравнивается с критическим значениемМатематическая статистика - примеры с решением заданий и выполнение задач при заданном уровне значимости и числе степеней свободы Математическая статистика - примеры с решением заданий и выполнение задач = n — 2.

Чтобы упростить применение t-критерия, составлена таблица критических значений Математическая статистика - примеры с решением заданий и выполнение задач коэффициента корреляции (см. табл. 10 Приложения). При наличии этой таблицы отпадает необходимость в вычислениях по формуле (7.13). Достаточно просто сравнить выборочный

коэффициент корреляции r с критическим значением Математическая статистика - примеры с решением заданий и выполнение задач при уровне значимости а и объеме выборки n. Если окажется, чтоМатематическая статистика - примеры с решением заданий и выполнение задач то гипотеза Математическая статистика - примеры с решением заданий и выполнение задачпринимается и делается вывод об отсутствии значимой корреляции. Если Математическая статистика - примеры с решением заданий и выполнение задачгипотеза Математическая статистика - примеры с решением заданий и выполнение задач отклоняется. Для двустороннего критерия это означает, что коэффициент корреляции статистически значимо отличается от 0 на уровне значимости а, для одностороннего критерия делается вывод о наличии значимой положительной или отрицательной корреляции. Заметим, что табл. 10 Приложения содержит критические значения для двустороннего критерия, Математическая статистика - примеры с решением заданий и выполнение задачкритерий, основанный на Z-преобразовании. Другой критерий значимости корреляции основан на Z-преобра-зовании Фишера: Математическая статистика - примеры с решением заданий и выполнение задачМатематическая статистика - примеры с решением заданий и выполнение задач Перевод значений коэффициента корреляции r в значении Z может быть выполнен по табл. 11 Приложения. Эта таблица содержит только положительные значения r, но можно воспользоваться тем фактом, что Z-преобра-зование симметрично, и Z для отрицательного r равно значению Z для соответствующего положительного r, взятого со знаком минус.

Величина Z имеет приближенно нормальное распределение со средним значением

Математическая статистика - примеры с решением заданий и выполнение задач

и стандартным отклонением Математическая статистика - примеры с решением заданий и выполнение задач

Z-преобразование можно применять приМатематическая статистика - примеры с решением заданий и выполнение задач Критерий значимости применяется следующим образом:

1. Вычисляем значение Математическая статистика - примеры с решением заданий и выполнение задач 2. Сравниваем значение Математическая статистика - примеры с решением заданий и выполнение задач с критическим значениемМатематическая статистика - примеры с решением заданий и выполнение задач нормированного нормального распределения при заданном уровне значимости а. Критические значения Математическая статистика - примеры с решением заданий и выполнение задач для стандартных уровнен значимости приведены в табл. 6.2.

3. ЕслиМатематическая статистика - примеры с решением заданий и выполнение задач то гипотеза Математическая статистика - примеры с решением заданий и выполнение задач принимается, и делаем вывод об отсутствии значимой корреляции. ПриМатематическая статистика - примеры с решением заданий и выполнение задач Математическая статистика - примеры с решением заданий и выполнение задач отклоняется. Для двустороннего критерия делаем вывод о том, что коэффициент корреляции значимо (7.14)

отличается от 0. Для одностороннего критерия отклонениеМатематическая статистика - примеры с решением заданий и выполнение задач означает, что существует статистически значимая положительная или отрицательная корреляция.

Доверительный интервал для коэффициента корреляции

Z-преобразование удобно тем, что с его помощью можно определить границы доверительного интервала для генерального коэффициента корреляции p. Доверительный интервал строится следующим образом:

1. Вычисляем значение Z по формуле (7.14) или с помощью табл. 11 Приложения и стандартное отклонение Математическая статистика - примеры с решением заданий и выполнение задач по формуле Математическая статистика - примеры с решением заданий и выполнение задач

2. Задаемся доверительной вероятностью 1 — а и определяем граничные значения Математическая статистика - примеры с решением заданий и выполнение задач нормированного нормального распределения, соответствующие этой доверительной вероятности. Граничные значения равны критическим значениям Математическая статистика - примеры с решением заданий и выполнение задач двустороннего Математическая статистика - примеры с решением заданий и выполнение задач-критерия, поэтому для их определения можно пользоваться табл. 6.2.

3. Находим границы доверительного интервала для среднего значения Математическая статистика - примеры с решением заданий и выполнение задачвеличины Z:

Математическая статистика - примеры с решением заданий и выполнение задач

4. С помощью обратного преобразования Фишера переходим к доверительному интервалу для коэффициента корреляции р. Для этого по табл. 12 Приложения’ находим значения r, соответствующие значениям Z Математическая статистика - примеры с решением заданий и выполнение задач Это и будут границы доверительного интервала для р.

Пример 7.6 (продолжение)

Оценим значимость корреляции на уровне значимости a = 0,05 и границы 95 %-ного доверительного интервалу для коэффициента корреляции для данных примера 7.6, представляющих собой результаты на первой и второй половине дистанции 400 м для спортсменок I разряда.

Действуем в таком порядке:

1. Вначале проверим гипотезу о том, что экспериментальные данные получены из двумерной нормальной совокупности.

Значения критерия W Шапиро — Уилки (см. раздел 6.4.4) для рядов Математическая статистика - примеры с решением заданий и выполнение задачсоответственно равны:Математическая статистика - примеры с решением заданий и выполнение задачМатематическая статистика - примеры с решением заданий и выполнение задач Промежуточные расчеты здесь не приводятся, и предоставляется возможность выполнить их самостоятельно.

Критическое значение Математическая статистика - примеры с решением заданий и выполнение задач для уровня значимости a = 0,05 и объема выборки n= 20 находим по табл. 7 Приложения:

Математическая статистика - примеры с решением заданий и выполнение задач

Поскольку Математическая статистика - примеры с решением заданий и выполнение задач превышают Математическая статистика - примеры с решением заданий и выполнение задач то одномерные распределения значений Математическая статистика - примеры с решением заданий и выполнение задач согласуются с нормальным распределением на уровне значимости 0,05. Кроме того, принято предположение о линейной связи величин X и Y, поэтому можно считать обоснованным предположение о двумерном нормальном распределении и применить стандартные критерии значимости корреляции.

2. Оценим значимость корреляции путем сравнения с критическим значением коэффициента корреляции. Ранее вычисленный выборочный коэффициент корреляцииМатематическая статистика - примеры с решением заданий и выполнение задачМатематическая статистика - примеры с решением заданий и выполнение задач По табл. 10 Приложения находим при Математическая статистика - примеры с решением заданий и выполнение задач и n — 20 критическое значениеМатематическая статистика - примеры с решением заданий и выполнение задач = 0,468.

Поскольку Математическая статистика - примеры с решением заданий и выполнение задач, то делаем вывод о статистической значимости коэффициента корреляции на уровне значимости 0,05. Между результатами на первой и второй половине дистанции 400 м существует значимая корреляция. Вероятность ошибки такого вывода Математическая статистика - примеры с решением заданий и выполнение задач так как r превышает критическое значение Математическая статистика - примеры с решением заданий и выполнение задач

Воспользуемся Z-преобразованием для проверки значимости корреляции. Отметим, что для рассматриваемого примера данный критерий можно не применять, так как выборочный коэффициент корреляции значительно превышает критическое значение, и использование еще одного критерия вряд ли изменит в такой ситуации вывод о значимости корреляции. Но Z-преобразование потребуется нам для определения доверительного интервала для коэффициента корреляции.

По табл. 11 Приложения при r =0,802 находим Z = 1,099.

Стандартное отклонение Математическая статистика - примеры с решением заданий и выполнение задач

Значение ц-критерия по формуле (7.15) составляет:

Математическая статистика - примеры с решением заданий и выполнение задач

При уровне значимости а — 0,05 по табл. 6.2 находим критическое значение Математическая статистика - примеры с решением заданий и выполнение задачдвустороннего Математическая статистика - примеры с решением заданий и выполнение задач-критерия:

Математическая статистика - примеры с решением заданий и выполнение задач

Поскольку Математическая статистика - примеры с решением заданий и выполнение задач вывод о наличии значимой корреляции подтверждается.

4. Определим границы доверительного интервала для генерального коэффициента корреляции р.

Границы 95 %-ного доверительного интервала для Математическая статистика - примеры с решением заданий и выполнение задач по формуле (7.16) равны:

Математическая статистика - примеры с решением заданий и выполнение задач

По табл. 12 Приложения находим значения r, соответствующие границам доверительного интервала для р: 0,558 и 0,917.

Следовательно, 95 %-ный доверительный интервал для р будет: —0,917<р<—0,558.

Здесь мы учли, что выборочный коэффициент корреляции отрицательный.

Коэффициент ранговой корреляции Спирмена

Если потребуется установить связь между двумя признаками, значения которых в генеральной совокупности распределены не по нормальному закону, т. е. предположение о том, что двумерная выборкаМатематическая статистика - примеры с решением заданий и выполнение задач получена из двумерной нормальной генеральной совокупности, не принимается, то можно воспользоваться коэффициентом ранговой корреляции Спирмена Математическая статистика - примеры с решением заданий и выполнение задач Математическая статистика - примеры с решением заданий и выполнение задач В этом выражении Математическая статистика - примеры с решением заданий и выполнение задач— разность рангов Математическая статистика - примеры с решением заданий и выполнение задач пары значений Математическая статистика - примеры с решением заданий и выполнение задачОпределение рангов было дано выше в разделе 6.5.1.

Формула (7.17) получается непосредственно из формулы (7.8) для коэффициента корреляции Браве — Пирсона, если в последнюю вместоМатематическая статистика - примеры с решением заданий и выполнение задач; подставить их ранги.

Коэффициент ранговой корреляции также имеет пределы 1 и —1. Если ранги одинаковы для всех значений Математическая статистика - примеры с решением заданий и выполнение задач то все разности рангов Математическая статистика - примеры с решением заданий и выполнение задач Если ранги Математическая статистика - примеры с решением заданий и выполнение задач расположены в обратном порядке, Математическая статистика - примеры с решением заданий и выполнение задачТаким образом, коэффициент ранговой корреляции является мерой совпадения рангов значений Математическая статистика - примеры с решением заданий и выполнение задач и Математическая статистика - примеры с решением заданий и выполнение задач

Когда ранги всех значенийМатематическая статистика - примеры с решением заданий и выполнение задач строго совпадают или расположены строго в обратном порядке, между случайными величинами X и Y существует функциональная зависимость, причем эта зависимость не обязательно линейная, как в случае с коэффициентом линейной корреляции Браве — Пирсона, а может быть любой монотонной зависимостью (т. е. постоянно возрастающей

или постоянно убывающей зависимостью). Если зависимость монотонно возрастающая, то ранги значений Математическая статистика - примеры с решением заданий и выполнение задач— совпадают и Математическая статистика - примеры с решением заданий и выполнение задач = 1; если зависимость монотонно убывающая, то ранги обратны и Математическая статистика - примеры с решением заданий и выполнение задач = — 1. Следовательно, коэффициент ранговой корреляции является мерой любой монотонной зависимости между случайными величинами X и Y.

В тех случаях, когда в рядах Математическая статистика - примеры с решением заданий и выполнение задач встречаются одинаковые, совпадающие между собой значения, формула (7.17) дает несколько завышенный результат. Для более точных расчетов применяется следующая формула:Математическая статистика - примеры с решением заданий и выполнение задач

Математическая статистика - примеры с решением заданий и выполнение задач — число совпадающих значений Математическая статистика - примеры с решением заданий и выполнение задач (или рангов значений Математическая статистика - примеры с решением заданий и выполнение задач) в каждой из групп, где эти значения совпадают.

При небольшом числе совпадающих значений формула (7.17)обеспечивает практически приемлемую точность и можно не усложнять расчеты вычислениемМатематическая статистика - примеры с решением заданий и выполнение задачМатематическая статистика - примеры с решением заданий и выполнение задач

Коэффициент ранговой корреляции Спирмена вычисляется значительно проще, чем коэффициент корреляции Браве — Пирсона при одних и тех же исходных данных, поскольку при вычислении используются ранги, представляющие собой обычно целые числа.

Коэффициент ранговой корреляции целесообразно использовать в следующих случаях:

1. Если экспериментальные данные представляют собой точно измеренные значения признаков X и Y и требуется быстро найти приближенную оценку коэффициента корреляции. Тогда даже в случае двумерного нормального распределения генеральной совокупности можно воспользоваться коэффициентом ранговой корреляции вместо точного коэффициента корреляции Браве — Пирсона. Вычисления будут существенно проще, а точность оценки генерального параметра р с помощью коэффициента Математическая статистика - примеры с решением заданий и выполнение задач при больших объемах выборки составляет 91,2% по отношению к точности оценки по коэффициенту корреляции r.

2. Когда значения Математическая статистика - примеры с решением заданий и выполнение задач и (или) Математическая статистика - примеры с решением заданий и выполнение задач заданы в порядковой шкале (например, оценки судей в баллах, места на соревнованиях, количественные градации качественных признаков), т. е. когда признаки не могут быть точно измерены, но их наблюдаемые значения могут быть расставлены в определенном порядке.

Пример 7.7.

Воспользуемся данными примера 7.5 и определим коэффициент ранговой корреляции между результатами школьников в беге на 30 и 100 м. Исходные данные приведены в столбцах 2 и 3 табл. 7.5.

Расчет производится в следующем порядке:

1. Находим ранги Математическая статистика - примеры с решением заданий и выполнение задач значений Математическая статистика - примеры с решением заданий и выполнение задач как показано в разделе 6.5.1.

Ранги приведены в столбцах 4 и 5 табл. 7.5. 2 3 4Математическая статистика - примеры с решением заданий и выполнение задач

2. Вычисляем разности рангов Математическая статистика - примеры с решением заданий и выполнение задач(столбец 6). Для проверки правильности вычисления рангов можно использовать тот факт, что сумма всех разностей di должна быть равна нулю. 3. Возводим разности Математическая статистика - примеры с решением заданий и выполнение задачв квадрат и находим сумму:

Математическая статистика - примеры с решением заданий и выполнение задач 4. В рядах Математическая статистика - примеры с решением заданий и выполнение задачвстречаются совпадающие значения, поэтому для вычисления коэффициента ранговой корреляции нужно пользоваться формулой (7.18).

Предварительно найдем значения Математическая статистика - примеры с решением заданий и выполнение задач В ряду Математическая статистика - примеры с решением заданий и выполнение задач имеются 3 группы совпадающих значений: первая группа содержит два значения (4,6; 4,6), вторая и третья — по 3 значения. Поэтому

Математическая статистика - примеры с решением заданий и выполнение задач

В ряду Математическая статистика - примеры с решением заданий и выполнение задач всего одна группа из двух совпадающих значений, следовательно,

Математическая статистика - примеры с решением заданий и выполнение задач

5. По формуле (7.18) находим Математическая статистика - примеры с решением заданий и выполнение задач. Заметим, что если не учитывать наличия совпадающих значений, а воспользоваться формулой (7.17), то получим значение Математическая статистика - примеры с решением заданий и выполнение задачЭто подтверждает сделанное выше замечание о том, что при небольшом числе совпадающих значений можно не учитывать их наличия.

Как видим, коэффициент ранговой корреляцииМатематическая статистика - примеры с решением заданий и выполнение задач0,975 несущественно отличается от вычисленного ранее коэффициента корреляции Браве — Пирсона (r = 0,967), но получен путем значительно более простых расчетов.

Пример 7.8

Выясним, существует ли связь между результатами в Математическая статистика - примеры с решением заданий и выполнение задач

прыжках в длину с места и местами, занятыми на соревнованиях, для гимнастов 11—12 лет. Данные, полученные по наблюдениям за 10 гимнастами этой возрастной категории, приведены в столбцах 2 и 3 табл. 7.6.

Данный пример соответствует второму случаю применения коэффициента ранговой корреляции Спирмена. Здесь значения Математическая статистика - примеры с решением заданий и выполнение задач (места на соревнованиях) выражены в порядковой шкале. К таким данным коэффициент корреляции Браве — Пирсона не применим, а взаимосвязь может быть установлена только с помощью коэффициента ранговой корреляции.

Порядок расчета полностью соответствует рассмотренному выше в примере 7.7, за исключением того, что в данном примере отсутствуют совпадающие значения Математическая статистика - примеры с решением заданий и выполнение задач и Математическая статистика - примеры с решением заданий и выполнение задач поэтому нет необходимости вычислятьМатематическая статистика - примеры с решением заданий и выполнение задач

Коэффициент ранговой корреляции по формуле (7.17) составляет Математическая статистика - примеры с решением заданий и выполнение задач

Значимость коэффициента ранговой корреляции

Гипотеза Математическая статистика - примеры с решением заданий и выполнение задач(генеральный коэффициент ранговой корреляции равен 0) может быть проверена путем сравнения выборочного коэффициента ранговой корреляции Математическая статистика - примеры с решением заданий и выполнение задачс критическим значением Математическая статистика - примеры с решением заданий и выполнение задач. Критические значения для стандартных уровней значимости приведены в табл. 13 Приложения. Содержащиеся в этой таблице критические значения соответствуют одностороннему критерию (альтернатива Математическая статистика - примеры с решением заданий и выполнение задач т. е. при использовании этого критерия должна быть уверенность в знаке предполагаемой корреляции. Если такой уверенности нет, следует применять двусторонний критерий (альтернатива Математическая статистика - примеры с решением заданий и выполнение задач. при этом уровни значимости, приведенные в табл. 13 Приложения, следует удвоить.

Если Математическая статистика - примеры с решением заданий и выполнение задачто коэффициент ранговой корреляции статистически незначим на уровне значимости а; еслиМатематическая статистика - примеры с решением заданий и выполнение задач делаем вывод о наличии значимой корреляции.

Табл. 13 Приложения содержит критические значения для объемов выборки Математическая статистика - примеры с решением заданий и выполнение задач. Если объем выборки больше или подобной таблицы нет под рукой, то при Математическая статистика - примеры с решением заданий и выполнение задач можно

приближенно воспользоваться t-критерием, значение которого вычисляется следующим образом: Математическая статистика - примеры с решением заданий и выполнение задач

Это значение сравнивается с критическим значением Математическая статистика - примеры с решением заданий и выполнение задач t-распределения Стьюдента при числе степеней свободы v = n — 2. Критические значения Математическая статистика - примеры с решением заданий и выполнение задачприведены в табл. 4 Приложения.

Пример 7.7 (продолжение)

Выборочный коэффициент ранговой корреляции, определенный для данных примера7.7, составляет Математическая статистика - примеры с решением заданий и выполнение задач — 0,975. Для уровня значимости а = 0,05 и объема выборки n = 10 из табл. 13 Приложения находим критическое значение:

Математическая статистика - примеры с решением заданий и выполнение задач

ПосколькуМатематическая статистика - примеры с решением заданий и выполнение задач гипотеза Математическая статистика - примеры с решением заданий и выполнение задач отклоняется на уровне значимости 0,05. Между результатами школьников в беге на 30 и на 100 м существует статистически значимая положительная корреляция. (Делаем вывод именно о положительной корреляции, потому что был использован односторонний критерий.) Ошибка утверждения о значимости положительной корреляции Р<0,001, поскольку Математическая статистика - примеры с решением заданий и выполнение задач превышает и критическое значение Математическая статистика - примеры с решением заданий и выполнение задач= 0,8667).

Пример 7.8 (продолжение)

Для данных примера 7.8 выборочный коэффициент ранговой корреляции Математическая статистика - примеры с решением заданий и выполнение задач = 0, 539. Его сравнение с Математическая статистика - примеры с решением заданий и выполнение задач 0,5512 свидетельствует об отсутствии статистически значимой положительной корреляции между результатами гимнастов 11 —12 лет в прыжках в длину с места и местами, занятыми на соревнованиях, несмотря на то, что выборочный коэффициент корреляции кажется сравнительно высоким. Имеющийся у нас объем экспериментальных данных (n=10) не позволяет отклонить гипотезу Математическая статистика - примеры с решением заданий и выполнение задач об отсутствии корреляции даже при значении выборочного коэффициента ранговой корреляцииМатематическая статистика - примеры с решением заданий и выполнение задач 0,539.

Сопряженность качественных признаков

Если требуется выявить связь (сопряженность) между качественными признаками, которые не поддаются непосредственному измерению, для этого используются коэффициенты сопряженности.

Здесь рассматривается только простейший случай: связь между двумя альтернативными признаками. Мерой альтернативных признаков является наличие или отсутствие их у объектов исследования. Например, человек может заниматься или не заниматься спортом, заболеть или не заболеть простудным заболеванием, сдать или не сдать зачет по математической статистике, установить или не установить мировой рекорд в плавании, легкой атлетике и т. д.

Математическая статистика - примеры с решением заданий и выполнение задач

При исследовании сопряженности двух альтернативных признаков исходные экспериментальные данные представляют в виде четырехклеточной таблицы сопряженности признаков (табл. 7.7). В этой таблице содержатся частоты а, b, с и d, соответствующие для выборки объема n наличию (+) или отсутствию (—) каждого из признаков «1» или «2» у испытуемых.

Взаимосвязь между двумя альтернативными признаками устанавливается с помощью тетрахорического коэффициента сопряженности (или коэффициента ассоциации) Пирсона Математическая статистика - примеры с решением заданий и выполнение задач

Рассмотрим его применение на примере.

Пример 7.9

Пусть, например, было проведено исследование влияния занятий спортом на утомляемость в течение рабочего дня у молодых выпускников технического вуза. Обследование проводилось с помощью анкетного опроса, и 200 ответов на вопросы анкеты «Занимаетесь ли вы спортом систематически?», «Чувствуете ли вы состояние психического или физического утомления к концу рабочего дня?» распределились, как показано в табл. 7.8.

Математическая статистика - примеры с решением заданий и выполнение задач

Тетрахорический коэффициент сопряженности Математическая статистика - примеры с решением заданий и выполнение задач определяется по следующей формуле:

Математическая статистика - примеры с решением заданий и выполнение задач Этой формулой можно пользоваться, если все частоты а, b, с и d не меньше 5.

Для данных рассматриваемого примера Математическая статистика - примеры с решением заданий и выполнение задач Это значение дает основание предполагать, что при систематических занятиях спортом состояние утомления в течение рабочего дня наблюдается реже.

Для проверки нулевой гипотезы о независимости признаков (об отсутствии сопряженности) используется Математическая статистика - примеры с решением заданий и выполнение задач Пирсона (см. раздел 6.4). Значения критерияМатематическая статистика - примеры с решением заданий и выполнение задач определяются по формуле: Математическая статистика - примеры с решением заданий и выполнение задач Вычисленное значениеМатематическая статистика - примеры с решением заданий и выполнение задач сравнивается с критическим значением Математическая статистика - примеры с решением заданий и выполнение задачПРИ числе степеней свободы v=l. ЕслиМатематическая статистика - примеры с решением заданий и выполнение задачто гипотеза об отсутствии сопряженности между признаками принимается. ЕслиМатематическая статистика - примеры с решением заданий и выполнение задач делается вывод о наличии статистически значимой связи между признаками. В данном случае, как правило, используется двусторонний критерий, т. е. знак предполагаемой сопряженности заранее не устанавливается.

Для рассматриваемого примера значение Математическая статистика - примеры с решением заданий и выполнение задач-кРитерия составляетМатематическая статистика - примеры с решением заданий и выполнение задач

Зададимся уровнем значимости а =0,05 и по табл. 5 Приложения находим критические значения Математическая статистика - примеры с решением заданий и выполнение задач-кРитеРия с одной степенью свободы: Математическая статистика - примеры с решением заданий и выполнение задач

Поскольку Математическая статистика - примеры с решением заданий и выполнение задач можно сделать вывод о наличии статистически значимой связи между занятиями спортом и утомляемостью к концу рабочего дня для данной категории испытуемых. Ошибка такого вывода Р<0,001, посколькуМатематическая статистика - примеры с решением заданий и выполнение задач превышает и критическое значение Математическая статистика - примеры с решением заданий и выполнение задач-критерия на уровне значимости 0,001 Математическая статистика - примеры с решением заданий и выполнение задач

Приложение

Удвоенные значения функции Лапласа

Удвоенные значения функции Лапласа:

Математическая статистика - примеры с решением заданий и выполнение задач

(площадь под кривой нормального распределения между точками —u, u)

Математическая статистика - примеры с решением заданий и выполнение задач

Ординаты нормальной кривой

Ординаты нормальной кривойМатематическая статистика - примеры с решением заданий и выполнение задач

Математическая статистика - примеры с решением заданий и выполнение задач

Математическая статистика - примеры с решением заданий и выполнение задач

Критические значения одностороннего F-критерия Фишера

Критические значения одностороннего F-критерия Фишера (верхние числа в строке соответствуют уровню значимости 0,05; средние — 0,01; нижние — 0,001) Таблица 3

Математическая статистика - примеры с решением заданий и выполнение задач

Математическая статистика - примеры с решением заданий и выполнение задач

Критические значения двустороннего t-критерия Стьюдента

Критические значения двустороннего t-критерия Стьюдента

(v — число степеней свободы) Математическая статистика - примеры с решением заданий и выполнение задач

Математическая статистика - примеры с решением заданий и выполнение задач

Вспомогательные коэффициенты для проверки нормальности

Вспомогательные коэффициенты Математическая статистика - примеры с решением заданий и выполнение задач для проверки нормальности распределения по критерию W Шапиро — Уилки (n — объем совокупности, k — номер сравниваемой пары)

Математическая статистика - примеры с решением заданий и выполнение задач

Математическая статистика - примеры с решением заданий и выполнение задач

Математическая статистика - примеры с решением заданий и выполнение задач

Математическая статистика - примеры с решением заданий и выполнение задач

Математическая статистика - примеры с решением заданий и выполнение задач

Математическая статистика - примеры с решением заданий и выполнение задач

Лекции по предметам:

  1. Математика
  2. Алгебра
  3. Линейная алгебра
  4. Векторная алгебра
  5. Геометрия
  6. Аналитическая геометрия
  7. Высшая математика
  8. Дискретная математика
  9. Математический анализ
  10. Теория вероятностей
  11. Математическая логика

Учебник онлайн:

  1. Точечные оценки, свойства оценок
  2. Доверительный интервал для вероятности события
  3. Проверка гипотезы о равенстве вероятностей
  4. Доверительный интервал для математического ожидания
  5. Доверительный интервал для дисперсии
  6. Проверка статистических гипотез
  7. Регрессионный анализ
  8. Корреляционный анализ
  9. Статистические решающие функции
  10. Случайные процессы
  11. Выборочный метод
  12. Статистическая проверка гипотез
  13. Статистические оценки
  14. Теория статистической проверки гипотез
  15. Линейный регрессионный анализ
  16. Вариационный ряд
  17. Законы распределения случайных величин
  18. Дисперсионный анализ
  19. Математическая обработка динамических рядов
  20. Корреляция — определение и вычисление
  21. Элементы теории ошибок
  22. Методы математической статистики

Основы статистики: просто о сложных формулах

Время на прочтение
6 мин

Количество просмотров 270K

Статистика вокруг нас

Статистика и анализ данных пронизывают практически любую современную область знаний. Все сложнее становится провести границу между современной биологией, математикой и информатикой. Экономические исследования и регрессионный анализ уже практически неотделимы друг от друга. Один из известных методов проверки распределения на нормальность — критерий Колмогорова-Смирнова. А вы знали, что именно Колмогоров внес огромный вклад в развитие математической лингвистики?

Еще будучи студентом психологического факультета СПбГУ, я заинтересовался когнитивной психологией. Кстати, Иммануил Кант не считал психологию наукой, так как не видел возможности применять в ней математические методы. Мои текущие исследования посвящены моделированию психических процессов, и я надеюсь, что такие направления в современной когнитивной психологии, как вычислительные и коннективисткие модели, смягчили бы его отношение!

Конечно, статистика применяется далеко за пределами научных лабораторий: в рекламе, маркетинге, бизнесе, медицине, образовании и т.д. Но, что самое интересное, базовые знания анализа данных крайне полезны и в повседневной жизни. Например, думаю, все вы знакомы с понятием среднего арифметического. Среднее значение очень часто используется в СМИ при обсуждении различных социально-экономических показателей — доходов, уровня безработицы и т.д. В 2005 году британские СМИ писали о том, что средний уровень дохода населения не только не возрос, но снизился на 0,2 % по сравнению с предыдущим годом. Мелькали заголовки «Доходы населения снизились впервые с 1990 года». Некоторые политики даже использовали этот факт, критикуя действующее правительство. Однако, важно понимать, что среднее арифметическое — хороший показатель, когда наш признак имеет симметричное распределение (богатых столько же, сколько бедных). Реальное же распределение доходов имеет скорее следующий вид:

Распределение имеет явно выраженную асимметрию: очень состоятельных людей заметно меньше, чем представителей среднего класса. Это приводит к тому, что в данном случае банкротство одного из миллионеров может значительно повлиять на этот показатель. Гораздо информативнее использовать значение медианы для описания таких данных. Медиана — это значение зарплаты, которое находится в самой середине распределения доходов (50% всех наблюдений меньше медианы, 50% — больше). И, как ни удивительно, медиана дохода в 2005 году в Великобритании, в отличие от среднего значения, продолжила свой рост. Таким образом, если вы знаете о различных типах распределения и различных мерах центральной тенденции (среднее и медиана), то вас не так просто ввести в заблуждение в таких случаях, как описаны в примере.

Черный ящик статистического анализа

Как мы уже выяснили, чем бы вы ни планировали заниматься, вероятность столкнуться с курсом «математическая статистика в вашей области» постепенно приближается к единице. Однако, часто занятия по введению в статистику не вызывают восторга у студентов нетехнических факультетов. Через несколько занятий выясняется, что такие базовые понятия, как, например, корреляция представляют собой нечто следующее:

И, отчаявшись досконально разобраться с происхождением этих сумм и квадратных корней, студент может начать воспринимать статистику следующим образом: «если r > 0, то положительная связь, а если меньше 0, то отрицательная»; «если p уровень значимости меньше 0.05 — то хорошо, если от 0.05 до 0.1 — то не очень хорошо, а если больше 0.1 — то плохо». Помогая студентам готовиться к экзамену, не раз сталкивался с такими заклинаниями! Также, разумеется, никто не рассчитывает все эти показатели вручную, и используя, например, SPSS, можно за секунду загуглить пошаговую инструкцию «как сравнить два средних».

  1. Жмем сюда
  2. Снимаем/ставим галочки тут
  3. p < 0.05 —> profit

Статистический анализ начинает напоминать черный ящик: на вход подаются данные, на выход — таблица основных результатов и значение p-уровня значимости (p-value), который и расставит все точки над i.

О чем нам, собственно, говорит p-value?

Предположим, мы решили выяснить, существует ли взаимосвязь между пристрастием к кровавым компьютерным играм и агрессивностью в реальной жизни. Для этого были случайным образом сформированы две группы школьников по 100 человек в каждой (1 группа — фанаты стрелялок, вторая группа — не играющие в компьютерные игры). В качестве показателя агрессивности выступает, например, число драк со сверстниками. В нашем воображаемом исследовании оказалось, что группа школьников-игроманов действительно заметно чаще конфликтует с товарищами. Но как нам выяснить, насколько статистически достоверны полученные различия? Может быть, мы получили наблюдаемую разницу совершенно случайно? Для ответа на эти вопросы и используется значение p-уровня значимости (p-value) — это вероятность получить такие или более выраженные различия при условии, что в генеральной совокупности никаких различий на самом деле нет. Иными словами, это вероятность получить такие или еще более сильные различия между нашими группами, при условии, что, на самом деле, компьютерные игры никак не влияют на агрессивность. Звучит не так уж и сложно. Однако, именно этот статистический показатель очень часто интерпретируется неправильно.

А теперь несколько примеров про p-value

Итак, мы сравнили две группы школьников между собой по уровню агрессивности при помощи стандартного t-теста (или непараметрического критерия Хи — квадрат более уместного в данной ситуации) и получили, что заветный p-уровень значимости меньше 0.05 (например 0.04). Но о чем в действительности говорит нам полученное значение p-уровня значимости? Итак, если p-value — это вероятность получить такие или более выраженные различия при условии, что в генеральной совокупности никаких различий на самом деле нет, то какое, на ваш взгляд, верноеутверждение:

  1. Компьютерные игры — причина агрессивного поведения с вероятностью 96%.
  2. Вероятность того, что агрессивность и компьютерные игры не связаны, равна 0.04.
  3. Если бы мы получили p-уровень значимости больше, чем 0.05, это означало бы, что агрессивность и компьютерные игры никак не связаны между собой.
  4. Вероятность случайно получить такие различия равняется 0.04.
  5. Все утверждения неверны.

Если вы выбрали пятый вариант, то абсолютно правы! Но, как показывают многочисленные исследования, даже люди со значительным опытом в анализе данных часто некорректно интерпретируют значение p-value (например, можно посмотреть эту интересную статью).

Давайте разберем все ответы по порядку:

  1. Первое утверждение — пример ошибки корреляции: факт значимой взаимосвязи двух переменных ничего не говорит нам о причинах и следствиях. Может быть, это более агрессивные люди предпочитают проводить время за компьютерными играми, а вовсе не компьютерные игры делают людей агрессивнее.
  2. Это уже более интересное утверждение. Все дело в том, что мы изначально принимаем за данное, что никаких различий на самом деле нет. И, держа это в уме как факт, рассчитываем значение p-value. Поэтому правильная интерпретация: «Если предположить, что агрессивность и компьютерные игры никак не связаны, то вероятность получить такие или еще более выраженные различия составила 0.04».
  3. А что делать, если мы получили незначимые различия? Значит ли это, что никакой связи между исследуемыми переменными нет? Нет, это означает лишь то, что различия, может быть, и есть, но наши результаты не позволили их обнаружить.
  4. Это напрямую связано с самим определением p-value. 0.04 — это вероятность получить такие или еще более экстремальные различия. Оценить вероятность получить именно такие различия, как в нашем эксперименте, в принципе невозможно!

Вот такие подводные камни могут скрываться в интерпретации такого показателя, как p-value. Поэтому очень важно понимать механизмы, заложенные в основании методов анализа и расчета основных статистических показателей.

Онлайн-курс по основам статистики: сложные формулы несложным языком

Сейчас я пишу диссертацию на факультете психологии СПбГУ и преподаю статистику биологам в Институте биоинформатики. Основываясь на курсе читаемых лекций и собственного исследовательского опыта, возникла идея создать онлайн-курс по введению в статистику на русском языке для всех желающих, необязательно биоинформатиков или биологов.

Существует много хороших онлайн-курсов по анализу данных и статистике (например, такой, такой, или такой), но практически все они на английском языке. Надеюсь, что курс будет полезен для тех, кто только знакомится с основами статистики. В нем я стараюсь в максимально доступной форме разобрать основные идеи и методы анализа данных, уделяя особое внимание самой идее статистической проверки гипотез и интерпретации получаемых результатов. В качестве примеров будут задачи из различных областей: от биоинформатики до социологии. Курс бесплатный и все его материалы останутся открытыми после окончания, начинается 15 февраля.

Полезные материалы

Если вы знаете какие-либо полезные курсы или материалы по введению в статистику — делитесь в комментариях!

Понравилась статья? Поделить с друзьями:
  • Как найти сантехника по адресу
  • Как найти обстоятельство вопросы
  • Google как можно найти свой телефон
  • Как исправить осанку позвоночник
  • Как найти относительное удлинение в процентах