Методы прикладной математической статистики активно применяются в технических исследованиях, экономике, теории и практике управления (менеджмента), социологии, медицине, геологии, истории и т. д. С результатами наблюдений, измерений, испытаний, опытов, с их анализом имеют дело специалисты во всех отраслях практической деятельности, почти во всех областях теоретических исследований.
Прикладная математическая статистика нацелена на решение реальных задач. Поэтому в ней возникают новые постановки математических задач анализа статистических данных, развиваются и обосновываются новые методы. Обоснование часто проводится математическими методами, то есть путем доказательства теорем. Большую роль играет методологическая составляющая — как именно ставить задачи, какие предположения принять с целью дальнейшего математического изучения. Велика роль современных информационных технологий, в частности, компьютерного эксперимента.
Здравствуйте на этой странице я собрала примеры решения задач по предмету статистика с решением по каждой теме, чтобы вы смогли освежить знания!
Если что-то непонятно — вы всегда можете написать мне в WhatsApp и я вам помогу!
Статистика
Статистика изучает массовые общественно-экономические явления в конкретных обстоятельствах места и времени.
Предметом статистики выступают размеры и количественные соотношения массовых общественных явлений в неразрывной связи с их качественной стороной с целью выявления закономерностей их развития.
Статистика является важным элементом плана подготовки специалистов высшей экономической квалификации. Знание статистики необходимо современному специалисту для принятия решений в условиях, когда анализируемые явления подвержены влиянию случайностей, для анализа элементов рыночной экономики, прогнозирования и разработки сценариев поведения экономических систем при изменении условий их функционирования
Основные понятия и формы статистического наблюдения
Всякое статистическое исследование делится на три последовательных этапа: статистическое наблюдение, сводка и группировка материалов, полученных в результате наблюдения; вычисление обобщающих показателей, всесторонне характеризующих изучаемое явление и их анализ.
Таким образом, статистическое наблюдение (СН) является исходным этапом статистического исследования и состоит в планомерном, научно-организованном собирании массовых данных о явлениях и процессах общественной жизни. Целью СН является регистрация элементов, составляющих изучаемое массовое явление, по заранее установленным наиболее существенным признакам. Это означает, что СН должно быть организовано как планомерное, массовое и систематическое.
Планомерность статистического наблюдения заключается в том, что оно подготавливается и осуществляется по заранее подробно разработанному плану и программе, которые охватывают все вопросы методологии, организации и техники сбора информации. В программно-методологическую часть плана статистического наблюдения включаются вопросы определения цели, объекта наблюдения, единицы наблюдения и единицы совокупности.
Объектом статистического наблюдения называется совокупность единиц изучаемого явления, подлежащих статистическому изучению (совокупность предприятий, лиц, магазинов, фермерских хозяйств и др.).
Единицей наблюдения называется первичная ячейка совокупности, которая является источником информации.
Единицей совокупности называется элемент единицы наблюдения, служащий основой счета и обладающий признаками, подлежащими регистрации.
Каждая единица наблюдения и единица совокупности должны характеризоваться совокупностью признаков, которые по форме и содержанию делятся на количественные, т. е. выражающиеся числом (возраст, заработная плата и т. д.) и атрибутивные, характеризующие качественное состояние данного явления и не имеющие количественного выражения (пол, специальность, образование и пр.). В свою очередь и те и другие могут быть факторными, т. е. характеризующими условия, определяющие размер того или иного явления, и результативными, являющимися результатом действия факторных признаков (например, стаж работы факторный признак, производительность труда результативный признак).
Массовый характер статистического наблюдения означает, что оно организовано и направлено на охват возможно большего, массового числа случаев проявления данного явления или процесса
Систематичность статистического наблюдения определяется тем, что оно производится не стихийно, а регулярно или непрерывно.
Статистическое наблюдение осуществляется в двух формах: путем представления отчетности и проведения специально организованного статистического наблюдения, причем основной формой СН является представление отчетности.
Возможно эта страница вам будет полезна:
Виды и способы статистического наблюдения
Статистическое наблюдение различается по видам и способам проведения. Их можно классифицировать следующим способом:
I. По степени охвата единиц исследуемой совокупности.
По этому классификационному признаку СН подразделяется на два способа:
1. Сплошное наблюдение, т.е. когда охватываются все единицы совокупности (например, перепись населения, текущая отчетность предприятии).
2. Несплошное (частичное) наблюдение — обследованием охватывается определенная часть изучаемой совокупности. Несплошное наблюдение занимает очень важное место в статистике и подразделяется на следующие виды:
а) метод основного массива (наблюдение наиболее важных объектов) заключается в том, что обследованию подвергается та часть совокупности, у которой величина изучаемого признака является определяющей во всем объеме. Например, отслеживания объема реализации и динамики цен на колхозных рынках в России проводились в 264 крупных городах, составляющих менее 5% всех городов, но в которых проживало более 50% всего городского населения.
б) монографическое наблюдение состоит в подробном описании небольшого числа или отдельных единиц совокупности (описание работы передового или отстающего предприятия и т. д.);
в) суть анкетного вида несплошного наблюдения заключается в рассылке и сборе анкет;
г) случайный отбор определенного количества единиц из совокупности (выборочный метод).
В свою очередь он может выполняться следующими способами:
— при собственно-случайном отборе, отбор единиц для выборочной совокупности осуществляется случайным образом по жребию;
— сущность механического отбора состоит в том, что единицы изучаемой совокупности предварительно располагают в определенном порядке (например, по возрастанию или убыванию), а потом механическим путем выбирают необходимое количество единиц (например, берут каждую 4-ю, каждую 10-ю единицу и пр.);
— типологическому отбору предшествует распределение единиц изучаемой совокупности на группы по типичному признаку, затем внутри каждой группы проводится тот или иной отбор (собственно-случайный, механический или любой другой);
— серийный отбор предполагает образование выборочной совокупности не из отдельных единиц, а из целых серий, причем серии выбираются путем механического или собственно-случайного отбора, а внутри каждой серии проводится сплошное наблюдение.
Все способы случайного отбора могут выполняться по двум схемам:
— повторный отбор (схема возвращенного шара) — после выбора какой-либо единицы она вновь возвращается в исходную совокупность и может быть выбрана снова;
— бесповторный отбор (схема невозвращенного шара) — отобранная единица обратно в совокупность не возвращается и не может быть выбрана снова.
II. В зависимости от времени статистическое наблюдение может быть непрерывным (текущим), периодическим и единовременным.
1. Непрерывным или текущим наблюдением называется такое, которое проводится непрерывно, по мере возникновения явлений, например, учет выпуска продукции на предприятии;
2. Если наблюдение проводится через определенные промежутки времени, то оно называется периодическим (сессия в вузах);
3. Единовременное наблюдение проводится по мере необходимости, например, перепись населения.
Установление времени наблюдения является очень важным, и в статистике различают, объективное и субъективное время и критический момент.
Объективным временем называется время, к которому относятся данные наблюдения. Оно характеризует тот момент или период времени, по состоянию на который были собраны и зарегистрированы данные. Например, данные о выпуске продукции, размерах потребления и т.д. можно получить только за определенный период. Сведения же о численности населения, числе больничных коек и т. д. можно собрать только по состоянию на определенную дату.
Если наблюдение приурочено к определенному моменту, то этот момент называется критическим.
Субъективное время наблюдения — это время производства наблюдения, т.е. период, в течение которого проводится регистрация единиц совокупности. В целях обеспечения точности наблюдения субъективное время должно измеряться возможно более коротким периодом. Когда наблюдение основано на документальных данных, длительность субъективного времени не имеет значения.
III. В зависимости от источников собираемых данных различают:
4) Непосредственное наблюдение, т.е. наблюдение лично регистратором — снятие товарных остатков, изучение и замер норм времени и т. д.;
5) Документальное наблюдение, когда используются различного рода документы;
6) Наблюдение базируется на опросе заинтересованных лиц и получение данных в форме ответов.
IV. По способу организации наблюдения различают:
1) Наблюдение, заключающееся в обработке отчетных данных — отчетность, наиболее распространен в практике работы.
2) Экспедиционный способ — к каждой единице совокупности посылается специальное лицо, которое в соответствующих формулярах фиксирует необходимые сведения;
3) Саморегистрация — заполнение специально выданных бланков;
4) Анкетный способ — рассылка анкет и их обработка.
Наиболее распространенной формой статистического наблюдения является представление отчетности. Виды статистической отчетности делятся на типовую и специализированную; по периодичности различают недельную, двухнедельную, месячную, квартальную и годовую отчетность; в зависимости от установленного порядка прохождения отчетность делится на централизованную (наиболее распространенную) и децентрализованную.
Пример №1.
На заводе ведется учет выполнения норм выработки. Укажите виды наблюдения по времени проведения, охвату единиц совокупности и источника данных.
Так как наблюдению подвергаются все, без исключения, рабочие, то по степени охвата единиц наблюдение сплошное; наблюдение непрерывное, так как проводится по мере возникновения явления; источником данных служат документы.
Пример №2.
Проведено обследование части школьных буфетов в городе. Укажите вид наблюдения по степени охвата единиц и способу проведения.
Так как наблюдалась только часть буфетов, то наблюдение несплошное и, повидимому, был применен экспедиционный способ, т.е. в каждый проверяемый буфет посылался специальный человек, который и фиксировал необходимую информацию.
Пример №3.
Первая Всесоюзная перепись населения 1926 г. проводилась по состоянию на 12 ч. ночи с 16 на 17 декабря и продолжалась в городах 7 дней, а в сельской местности — 14 дней. Укажите объективное и субъективное время и критический момент наблюдения.
Объективное время — 12 ч. ночи с 16 на 17 декабря. Этот же момент является критическим. Субъективное время: в городах — 7 дней; в сельской местности — 14 дней.
Пример №4.
Срок представления годовых отчетов за 1995 год — 1-25 января 1996 г. Укажите объективное и субъективное время и критический момент наблюдения.
Объективное время — 1995 год, т.к. данные наблюдения относятся именно к этому периоду; субъективное время — 1-25 января 1996 г., так как в это время составляется отчет, собираются данные; критический момент отсутствует.
Пример №5.
Проводится перепись художественной литературы в библиотеках области. Укажите объект, единицу наблюдения и единицу совокупности.
Объектом наблюдения являются библиотеки области, единицей наблюдения здесь будет фонд художественной литературы, так как другие ее виды не учитываются, а единицей наблюдения является каждая конкретная книга, так как она обладает признаками, подлежащими регистрации.
Ошибки наблюдения и их контроль
Ошибкой называется расхождение между результатом наблюдения и истинным значением исследуемой величины.
Все ошибки статистического наблюдения можно классифицировать:
1. По характеру ошибок:
а) случайные ошибки, которые вызываются самыми разными причинами. Так как искажение может быть как в ту, так и в другую сторону, то случайные ошибки могут не очень влиять на общий результат;
б) систематические ошибки, которые искажают явление только в одну сторону более опасны и, как правило, вызываются действием систематического фактора (например, тяготение к круглым цифрам вносит большие осложнения при собирании сведений о возрасте населения).
2. По стадии возникновения:
а) ошибки регистрации;
б) ошибки при подготовке данных к обработке;
в) ошибки при обработке.
3. По причинам возникновения:
а) свойственные только выборочному методу и связанные с неправильным выбором части совокупности ошибки репрезентативности (представительности);
б) непреднамеренные ошибки, совершаются неумышленно, непреднамеренно, т. е. не имеют целью исказить результаты наблюдения;
в) преднамеренные ошибки возникают в результате умышленного искажения фактов. Все преднамеренные ошибки являются систематическими.
Для исключения ошибок статистические данные проверяются арифметическим и логическим контролем.
Логический контроль состоит в сопоставлении ответов на взаимосвязанные между собой вопросы программы наблюдения.
Счетный и арифметический контроль сводится к проверке общих и групповых цифровых итогов и сопоставлений; задача его обнаружить и исправить неверные итоги числовых показателей.
Пример №6.
В сводку завода о выпуске продукции за февраль была включена и продукция, выпущенная 1 и 2 марта. Укажите характер допущенной ошибки и причины возникновения.
Ошибка систематическая и преднамеренная, так как были сознательно искажены действительные результаты для получения определенных материальных выгод.
Пример №7.
В переписном листе записано: «лет-, месяцев — 11» вместо «лет — 11, месяцев-». Укажите характер и причину ошибки.
Ошибка случайная (описка) и непреднамеренная.
Пример №8.
Проведите логический контроль правильности заполнения переписного листа Всесоюзной переписи населения 1970 г. В ответах на какие вопросы допущены ошибки?
Переписной лист № 4
1. Фамилия имя и отчество — Антонова Мария Павловна.
2. Пол -женский.
3. Отношение к главе семьи -внучка.
4. Возраст (число исполнившихся лет) -4.
5. Состоит ли в браке в настоящее время -да.
6. Образование -не имеет начального.
Логика ответов подсказывает, что ошибка в 5 вопросе. Должно быть — «нет».
Сводка и группировка статистических данных. Сводка и группировка. Виды группировок
В результате статистического наблюдения получают сведения о каждой единице совокупности в отдельности. Чтобы на основе этих данных сделать определенные выводы, необходимо провести сводку полученных материалов, т.е. в узком смысле сводка -это подсчет или подведение итогов.
Однако в более широком смысле под статистической сводкой понимают сложную операцию научной обработки первичных статистических данных, которая включает группировку материала, разработку системы показателей для характеристики типичных групп и подгрупп, подсчет (подведение) итогов по группам и по совокупности в целом и изображение сгруппированных данных в виде статистических таблиц.
Статистическая группировка — расчленение общей совокупности единиц по одному или нескольким существенным признакам на однородные группы, различающиеся между собой в качественном и количественном отношении и позволяющие выделить социальноэкономические типы, изучить структуру совокупности или проанализировать связи между отдельными признаками. Группировка проводится только для целей конкретного исследования.
В соответствии с решаемыми задачами все группировки подразделяются на типологические, структурные и аналитические.
1.Расчленение разнородной совокупности на качественные однородные группы, выделение качественно однородных экономических групп или типов общественных явлений осуществляется при помощи типологических группировок.
Таблица 2.1
Распределение промышленной продукции, произведенной в различных формах хозяйствования за отчетный период
Приведенные данные характеризуют социально-экономический состав промышленной продукции (выделены типы явления), а также свидетельствуют о возникших в последнее время новых формах хозяйствования.
2. Группировка, цель которой расчленение совокупности единиц на группы, характеризующие структуру по определенным признакам, называется структурной группировкой.
Приведенная в табл. 2.2 группировка, содержит систему показателей, характеризующих структуру изучаемой совокупности по ряду признаков, а также концентрацию торгово-закупочного процесса, нашедшего свое выражение в укрупнении магазинов по величине товарооборота.
Таблица 2.2
Группировка торговых предприятий района по объему товарооборота (в процентах к итогу)
3. Группировка, целью которой является установление взаимосвязей между изучаемыми явлениями, называется аналитической. Примером аналитической группировки могут служить данные табл.2.3.
Таблица 2.3
Зависимость урожайности зерновых культур от количества внесенных удобрений по группе совхозов
Данные показывают, что увеличение количества внесенных удобрений (факторный признак) приводит при прочих равных условиях к повышению урожайности (результативный признак).
Возможно эта страница вам будет полезна:
Группировочные признаки
Признаки в статистике — это свойства, характерные черты или особенности явлений, которые можно выразить рядом статистических величин. Признаки, положенные в основание группировки, называются группировочными.
Группировки по одному признаку называются простыми. Когда же для выделения групп берутся два более признака, т. е. группы, образованные по одному признаку, подразделяются на подгруппы по другому, а полученные в результате этого подгруппы подразделяются (каждая в отдельности) еще на подгруппы и т. д., то такие группировки называются комбинационными.
Различают четыре вида группировочных признаков: атрибутивные, количественные, признаки пространства и признаки времени.
2. Атрибутивным называется признак, который характеризует свойство, качество данного явления и не имеет количественного выражения. При группировке по атрибутивным (качественным) признакам статистическая совокупность разбивается на столько групп, сколько разновидностей имеет признак (по полу — на две группы, по национальному составу — на столько групп, сколько имеется национальностей и т.д.).
Разновидностью атрибутивных признаков являются альтернативные, т.е. такие признаки, которыми одни единицы совокупности обладают, а другие -нет. Например, одни работники имеют высшее образование, а другие не имеют и т. д.
3. Количественным называется признак, характеризующий размеры, величину изучаемой совокупности и дающий возможность расчленить её на группы по величине индивидуальных значений группировочного признака.
4. Признак пространства -это адресный признак (адрес предприятия и пр.). Группировки по признаку пространства применяются для изучения пространственных (географических) закономерностей.
5. Признак времени позволяет установить хронологию событий, и его применяют для изучения изменений явлений во времени.
Признаки бывают первичные и вторичные. Первичные признаки характеризуют абсолютные размеры изучаемых явлений (например, численность рабочих), вторичные являются производными от первичных и показывают структуру группируемых явлений (фондовооруженность, себестоимость и т. д.).
Предварительные сведения о рядах распределения
Ряд цифровых показателей, представляющий распределение единиц совокупности по одному признаку, разновидности которого расположены в определенной последовательности, называется рядом распределения.
Ряд распределения -это первичная характеристика массовой статистической совокупности, в которой находят количественное выражение закономерности массовых явлений и процессов.
Ряды распределения могут быть построены как по атрибутивному признаку — атрибутивные ряды распределения, так и по количественному — вариационные ряды распределения.
Числовые значения количественного признака в вариационном ряду называются вариантами и располагаются в определенном порядке; численность единиц в каждой группе называется частотой, а если частоты выражены в процентах, то они называются частостями. Рассмотрим табл.2.4.
Таблица 2.4
Распределение рабочих завода по уровню месячной заработной платы
В данной таблице уровень заработной платы является вариантой, а число рабочих — частотой, показывающей, сколько раз повторяется данная варианта (т.е. сколько рабочих получают заработную плату, лежащую в пределах от 350 до 450 тыс. руб.). Частота, выраженная в процентах (в данном примере — 48,0) — это частость. Сумма всех частот называется объемом ряда распределения или его численностью (в данном случае было обследовано 180 рабочих).
Вариация признака может быть дискретной (прерывной) или непрерывной. При дискретной вариации признака значение вариантов отличается друг от друга на вполне определенную величину, и варианты обычно выражаются целыми числами (например, число членов семьи — 1, 2, 3, 4 и т. д.). Такие ряды называются вариационными дискретными рядами.
При непрерывной вариации признака его величина может принимать любые значения в определенном интервале (интервальные ряды распределения), например, рост человека, урожайность, заработная плата и т.д. Построение интервального ряда основано на принципах статистической группировки.
Интервалы могут быть неравными, поэтому сравнивать частоты и судить о степени заполнения разных интервалов нельзя. В целях сравнения заполненности интервалов рассчитывается показатель, называемый плотностью распределения, — т.е. число единиц совокупности, приходящееся в среднем на одну единицу ширины интервала (ширина интервала — разность между его границами). Если плотность определяется с помощью частот, она называется абсолютной, если с помощью частостей — относительной.
Для облегчения анализа рядов распределения их изображают при помощи графиков.
При дискретной вариации анализа признака графиком вариационного ряда служит полигон распределения. Он представляет собой замкнутый многоугольник, абсциссами вершин которого являются значения варьирующего признака, а ординатами — соответствующие им частоты или частости. Для примера рассмотрим построение полигона распределения по следующим данным (таблица 2.5). Полигон распределения приведен на рис.2.1.
Таблица 2.5
Распределение квартир жилого дома по числу проживающих в них лиц
Для иллюстрации рядов распределения часто используется кумулятивная кривая или кумулята, построенная по накопленным частотам. Накопленная частота показывает, какое число единиц имеет величину варианта не большую данной и находится путем последовательного суммирования частот (строка 3 в табл.2.5), например из табл.2.5 видно, что в 10 квартирах проживают семьи, состав которых не превышает 2 человек, в 78 квартирах проживают семьи, состав которых не превышает 4 человек и т. д. Кумулята приведена на рис.2.2.
Если при построении кумуляты поменять местами значения признака и частоты (т.е. на оси ординат отложить значения признака, а на оси абсцисс — частоты) то получим кривую, называемую огивой.
Для иллюстрации интервального ряда распределения применяют график, называемый гистограммой распределения. Гистограмма представляет собой ряд смежных столбиков, основание каждого равно величине соответствующего интервала, а высота — частоте (правильнее — пропорциональна частоте). Пример гистограммы приведен на рис.2.3.
Разновидностью кумулятивной кривой является график Лоренца или кривая концентрации. Например, необходимо дать характеристику уровня концентрации производства в промышленности России по числу рабочих (см. табл. 2.6). График приведен на рис. 2.4. Если бы численность рабочих распределялась равномерно по числу предприятий, т.е. процесс концентрации отсутствовал полностью, график представлял бы собой прямую линию. При неравномерном распределении линия концентрации отходит от прямой, причем, чем выше уровень концентрации, тем больше ее кривизна.
Таблица 2.6
Группировка промышленных предприятий по численности рабочих за 19__г.
Возможно эта страница вам будет полезна:
Абсолютные и относительные величины
Абсолютные величины
Абсолютной величиной называется статистический показатель, выражающий абсолютные размеры изучаемого явления.
По способу выражения размеров изучаемых явлений абсолютные величины подразделяются на индивидуальные, которые отражают абсолютные размеры каждой отдельной единицы совокупности, и суммарные (групповые), которые получаются суммированием индивидуальных абсолютных величин.
Абсолютные величины — всегда числа именованные, имеющие определенную размерность, единицу измерения. В зависимости от различных причин и целей анализа применяют натуральные, условно-натуральные, трудовые и стоимостные единицы измерения.
Натуральные измерители в большинстве своем соответствуют природным или потребительским свойствам предмета изучения и выражаются в физических мерах веса, длины и т. д. Учет в натуральных единицах измерения называется натуральным учетом. Иногда применяется составная единица измерения (например, тоннокилометры — ткм и т. д.).
Однородная, но неодинаковая продукция измеряется в условно-натуральных единицах измерения. Такие единицы получают, приводя различные натуральные единицы к одной, принятой за базу, например, в консервной продукции емкость банки в 354,4 см3 принята за условную и вся продукция пересчитывается в этих условных банках. Аналогично производится пересчет в условно-натуральные измерители и в других отраслях (топливной, текстильной и пр.).
Показатели, отражающие результаты труда, измеряются в трудовых единицах измерения, а наиболее распространенные – в стоимостных (или денежных) единицах измерения.
Относительные величины: сущность, виды, единицы измерения
Статистические показатели, выражающие относительные размеры изучаемого явления, называются относительными величинами.
Относительные величины получаются в результате деления одной величины на другую, принимаемую за базу сравнения (или основание относительной величины). Причем следует иметь в виду, что в числителе всегда находится показатель, отражающий то явление, которое изучает, т.е. сравнимый показатель, а в знаменателе — показатель, с которым производится сравнение.
База сравнения выступает в качестве своеобразного измерителя. Если значение базы принимается за единицу (производится простое деление двух величин), то относительная величина выражается в коэффициенте (например, темпы роста), если основание (база) — 100%, то относительная величина выражается в процентах.
Иногда за базу принимают 1000 (при расчете коэффициентов рождаемости или смертности, естественного или механического прироста показателя, в фармации и т. д.). Такие единицы измерения называются промилле и обозначаются %0.
Все относительные величины делятся на относительные величины выполнения плана и планового задания (в настоящее время лучше говорить о выполнении договорных обязательств), динамики, структуры, координации, интенсивности, сравнения, уровня экономического развития.
Относительная величина выполнения плана (ОВВП) — соотношение величины показателя, достигнутое за какое-то время или какому-либо моменту, и величины его, установленной по плану за это же время:
ОВВП = Факт(95)/План(95)
— факт (95) — фактическое выполнение за 1995 г.;
— план (95) — плановое значение за 1995 г.
Относительная величина планового задания (ОВПЗ) — соотношение плановой величины показателя к его фактически достигнутому уровню в предыдущем периоде (или в периоде, принятом за базу):
ОВПЗ = Факт(94)/План(95)
— факт (94) — фактическое выполнение за 1994 г.
Произведение этих двух величин дает относительную величину динамики (см. ниже): ОВД = ОВВП — ОВПЗ;
Относительная величина динамики (ОВД) — соотношение величины показателя за данное время и величины его за какое-либо аналогичное предшествующее время, принятое за базу сравнения. Относительная величина динамики характеризует степень, скорость изменения показателя во времени, в частности, темпы роста. Она выражается в виде краткого отношения (коэффициента) или в процентах. Если имеется ряд динамики (ряд во времени) абсолютных величин, то ОВД может исчисляться как отношение величины показателя за каждое последующее время к величине его за непосредственно предшествующее ему время или как отношение к величине его за одно и то же время, принятое за базу сравнения. В первом случае относительная величина динамики называется ОВД с переменной базой или цепная, во втором — с постоянной базой сравнения или базисная.
Если уровни ряда обозначить через , то ОВД вида:
называются цепными, а вида:
базисными (более подробно эта тема раскрывается в разделе рядов динамики).
Относительная величина структуры характеризует состав изучаемой совокупности и показывает какой удельный вес (какую долю) в общем итоге составляет каждая ее часть. Она получается в результате деления значения каждой части совокупности на их общий итог, принятой за базу.
Относительная величина координации характеризует соотношение отдельных частей целого, одна из которых принимается за базу сравнения и является дополнением к относительной величине структуры. Например, число сельских жителей, приходящихся на 100 городских и т. д.
Относительная величина интенсивности (степени) показывает степень распространенности данного явления в определенной среде. Обычно это отношение двух разноименных абсолютных величин (плотность населения на квадратный километр; производство сельскохозяйственной продукции на 1 га сельхозугодий и пр.).
Относительная величина сравнения характеризуют соотношение одноименных показателей, относящихся к различным объектам или территориям, но за один и тот же период времени.
Относительная величина уровня экономического развития – обычно соотношение величины важнейших экономических показателей (страны, региона, отрасли) и численности населения (так называемые показатели на душу населения).
Возможно эта страница вам будет полезна:
Пример №9.
Мыловаренный завод произвел за отчетный период следующее количество продукции, т.:
мыло хозяйственное 40%-ное – 25,0;
мыло туалетное – 20,0;
мыло хозяйственное 60%-ное – 22,0; порошок стиральный – 55,0.
Определите общий выпуск продукции в пересчете на условное 40%-ное мыло по следующим переводным коэффициентам: мыло 60%-ное и туалетное – 1,75, порошок стиральный – 0,5.
Решение:
Перемножив фактический выпуск продукции на коэффициенты пересчета в условное 40%-ное мыло, получим:
25·1.0 + 22.0·1.75 + 20.0·1.75 + 55.0·0.5 = 126 тыс. т условного 40%-ного мыла.
Пример №10.
По плану предусматривалось собрать по 30 ц пшеницы с гектара, а собрано по 33 ц. Определить выполнение плана по урожайности.
Решение:
Поделим фактическую урожайность на плановую и получим:
(33·100)/30 = 110%
План по урожайности выполнен на 110%, или перевыполнен на 10%.
Пример №11.
Планом предприятия предусматривалось повысить производительность труда на 5% и снизить затраты на 2%. Фактически производительность труда возросла на 6%, затраты были снижены на 4%. Определите выполнение плана по росту производительности труда и снижению затрат.
Решение:
Степень выполнения плана по повышению производительности труда равна отношению достигнутого уровня — 106% (100% + 6%) к показателю плана — 105% (100% +5%) в процентах:
(106 ·100)/105 = 101%
Аналогично, фактическое снижение затрат — 96% (100% — 4%), а плановое — 98% (100% — 2%) их отношение дает 98%, т.е. план по снижению затрат перевыполнен на 2%.
Пример №12.
Плановое задание по выпуску продукции на 1995 г. составило 04%, а выполнено на 105%. Определить относительную величину динамики.
Решение:
Здесь 104% — это относительная величина планового задания, а 105%- это относительная величина выполнения плана, а так как ОВД = ОВВП · ОВПЗ, то (104 ·105)/100 = 109,2%, т.е. выпуск продукции в 1995 г. составил по сравнению с 1994 годом 109,2% или увеличился на 9,2%.
Пример №13.
По данным переписи населения 1970 г. в СССР проживало в возрасте 100 лет и старше 19304 чел., из них мужчин — 4252 чел., женщин — 15052. Определите структуру долгожителей по полу и относительную величину координации, приняв число мужчин за базу, равную 100.
Решение:
Для вычисления относительных величин структуры нужно разделить значение каждой части на общий итог, принимаемый за целое (100%). Количество мужчин и 18 женщин в возрасте 100 лет и старше надо поделить на общее их число или исчислить удельный вес мужчин, а затем отнять его от 100%:
(4250 ·100)/19304 = 22% мужчин
женщин — 78% (100%-22%).
Относительные величины координации характеризуют соотношение отдельных частей совокупности. В задаче требуется вычислить соотношение между численностью мужчин и женщин в возрасте 100 лет и старше. Для этого, приняв число мужчин за базу сравнения, равную 100, поделим численность женщин на численность мужчин и получим
(15052·100)/4252 = 354
Это значит, что на каждые 100 мужчин в возрасте 100 лет и старше приходится 354 женщины в том же возрасте.
Средние величины
Средней величиной называется показатель, который дает обобщенную характеристику варьирующего признака единиц однородной совокупности.
Средняя отражает то общее, что скрывается в каждой единице совокупности, улавливает общие черты, общую тенденцию, закономерность, присущую данному распределению, она является равнодействующей, потому что в ней находит свое отражение, суммируется и синтезируется влияние всей совокупности факторов, под воздействием которых формируется ряд распределения. Средняя дает также характеристику центра распределения.
Средняя арифметическая
Обозначив индивидуальные значения признака через
их количество — через n, можно записать:
Исчисленная таким образом средняя называется средней арифметической простой, т.е. она равна частному от деления суммы индивидуальных значений признака на их количество.
Средняя арифметическая простая применяется в тех случаях, когда каждое индивидуальное значение признака встречается один, или одинаковое количество раз, т. е. когда средняя рассчитывается по не сгруппированным данным.
В том случае, когда мы имеем дискретный ряд распределения, т. е. когда значение признака встречается несколько раз, применяют среднюю арифметическую взвешенную, рассчитываемую по формуле:
Таблица 4.1
По данным таблицы средняя заработная плата рассчитывается:
(1002+2005+30020+40030+50015+60010+7005) / 87 = 36200 / 87 = 416 тыс.руб.
Таким образом, средняя арифметическая взвешенная равна сумме произведений индивидуальных значений признака x на их частоты или веса f, поделенной на сумму частот ∑f.
Довольно часто в статистике приходится вычислять среднюю арифметическую в интервальном ряду, среднюю из групповых средних и среднюю из относительных величин.
При вычислении средней интервального ряда необходимо найти середину каждого интервала, и, взяв ее за значение признака использовать формулу средней арифметической взвешенной.
При вычислении средней из групповых (или частных) средних (например, при вычислении средней заработной платы по отрасли, когда имеется средняя заработная плата по предприятиям этой отрасли), в качестве индивидуальных значений признака берется соответствующая групповая средняя и рассчитывается по формуле средней арифметической взвешенной.
При вычислении средней из относительных величин в качестве весов (или частот) берут основание относительной величины, а в качестве значения признака — соответствующую этому основанию относительную величину.
Свойства средней арифметической
1) Средняя арифметическая суммы варьирующих величин равна сумме средних арифметических этих величин.
2) Алгебраическая сумма отклонений индивидуальных значений признака от средней равно нулю.
3) Если все варианты ряда (значения признака) изменить на одно и то же число a или изменить в A раз, то и средняя изменится на a или в A раз соответственно.
4) Если все частоты ряда изменить в A раз, то средняя не изменится.
Средняя гармоническая
Во многих статистических исследованиях приходится сталкиваться с таким положением, когда известны значения индивидуального признака — x и произведения x · f, т.е. действительные значения весов (частот) неизвестны. В этом случае расчет средней производится с использованием средней гармонической взвешенной, которая определяется по формуле: ,
где Z=x·f, т.е. произведению значения признака на частоту.
В тех случаях, когда произведения x·f одинаковы или равны единице
применяется средняя гармоническая простая, определяемая по формуле:
где x — отдельные варианты (значения признака);
n— число наблюдений (общее число признаков или вариант).
Таким образом, средняя гармоническая представляет собой особый вид средней, которая применяется в тех случаях, когда известны варианты x и произведения вариантов на частоты — x·f , при отсутствии действительных весов.
Средняя геометрическая
В некоторых случаях приходится вычислять средний коэффициент роста в единицу времени. Коэффициент роста характеризует скорость изменения статистических показателей и представляет собой отношение величины показателя за два периода времени, как правило, за ряд смежных лет (табл. 4.2).
Таблица 4.2
Средняя, которая отражает средний коэффициент роста показателя за определенный период называется средней геометрической, которая равна корню степени m из произведений коэффициентов роста (m — число коэффициентов роста),
Средний коэффициент роста (среднюю геометрическую) можно определить и по значениям первого и последнего членов динамического ряда. Если первый уровень ряда обозначить , а последний — , то , где n — число членов ряда (число лет).
Средняя квадратическая
В тех случаях, когда осреднению подлежат величины, выраженные в виде квадратных функций, применяется средняя квадратическая. Средние диаметры колес, труб, стволов, средние стороны квадратов и т.д. определяются при помощи средней квадратической.
Средняя квадратическая простая вычисляется путем извлечения квадратного корня из частного от деления суммы квадратов отдельных значений признака на их число:
Соотношение между различными видами средних (мажорантность средних)
Все выше рассмотренные виды средних величин можно получить из формулы степенной средней вида
При различных значениях показателя получаются различные средние, средняя арифметическая, гармоническая, геометрическая и квадратическая.
Мажорантность средних состоит в том, что средняя некоторого вида всегда больше средней некоторого другого вида (для признака, не могущего иметь отрицательных значений). В частности, если для одной совокупности вычислить средние гармоническую, геометрическую, арифметическую и квадратическую, то по численному значению они расположатся в возрастающем порядке. Порядок возрастания этих средних определяет показатель степени k в формуле степенной средней, т.е. чем больше k, тем больше средняя (табл.4.3).
Таблица 4.3
Подробно общее условие мажорантности т.е. соотношения между различными видами средних было сформулировано А. Я. Боярским. Проиллюстрируем правило мажорантности геометрически (см. рисунок).
Опишем на отрезке c = a + b, как на диаметре, полукруг и восстановим из общей точки отрезка a и b перпендикуляр, длина которого будет равна. . Восстановим также перпендикуляр из центра полукруга, длина которого будет равна (a + b)/2. Из рисунка видно, что средняя геометрическая меньше средней арифметической. При этом, чем меньше отличаются отрезки а и b друг от друга, тем меньше разница между средними.
Возможно эта страница вам будет полезна:
Мода и медиана
Кроме средних в статистике для описательной характеристики величины варьирующего признака пользуются показателями моды и медианы.
Мода — это наиболее часто встречающийся вариант ряда. Мода применяется, например при определении размера одежды, обуви, пользующейся наибольшим спросом у покупателей, наиболее распространенной цены на тот или иной товар и пр.
Модой в дискретном ряду называется варианта (значение признака), имеющая наибольшую частоту (повторяющаяся самое большое количество раз), например: имеем данные о продаже магазином обуви по размерам (табл.4.4):
В этом примере модой является 35-й размер, так как обуви такого размера продано больше всего — 187 пар.
Если мы имеем интервальный ряд, то для определения моды необходимо сначала определить модальный интервал, причем, если интервалы равны, то модальный интервал определяется по наибольшей частоте, а если неравны, то по наибольшей плотности. При равных интервалах мода внутри модального интервала может определяться по формуле:
где — нижняя граница модального интервала;
h — величина (ширина) интервала;
— частота модального интервала;
— частота интервала, предшествующего модальному;
— частота интервала, следующего за модальным.
Мода является наиболее распространенной и в этом смысле типичной величиной в распределении. Но мода и средняя величина по разному характеризуют совокупность. Мода определяет непосредственно размер признака, свойственный хотя и значительной части, но все же не всей совокупности. Поэтому мода по своему обобщающему значению уступает средней, которая характеризует совокупность в целом, так как складывается под воздействием всех без исключения элементов совокупности.
При наличии одной моды распределение называют унимодальным, при двух модах — бимодальным, при трех и более модах — мультимодальным.
Медианой называется варианта, которая приходится на середину ряда, расположенного в порядке возрастания или убывания численных значений признака. Медиана делит ряд на две равные части.
Если в совокупности нечетное число единиц, т. е. 2m+1, то значение признака у (m+1)-ой единицы будет медианным. Если в совокупности четное число, т.е. 2∙m единиц, то медиана равна средней арифметической из двух серединных значений вариантов.
Для определения медианы в дискретном ряду при наличии частот сначала вычисляют полусумму частот, а затем определяют, какое значение признака приходится на нее. В примере с размером обуви (см. табл.4.4) медианой является 35-й размер, так как именно он приходится на полусумму частот (500:2=250). Это значит, что 35-й размер делит ряд на две равные части.
При вычислении медианы для интервального вариационного ряда вначале определяют медианный интервал, т.е. первый интервал, накопленная частота которого принимает полусумму частот, а затем приближенное значение медианы по формуле:
где — сумма частот;
— нижняя граница медианного интервала;
h — ширина интервала;
— сумма накопленных частот интервалов, предшествующих медианному;
— частота медианного интервала.
Главное свойство медианы состоит в том, что сумма абсолютных отклонений вариантов от медианы меньше, чем от любой другой величины (в том числе и от средней арифметической):
∑|x-Ме|= min.
Медиану, являющуюся описательной характеристикой вариационного ряда, иногда называют непараметрической средней. Медиана меньше, чем средняя арифметическая, зависит от формы распределения признака. Она не зависит ни от амплитуды колебаний ряда, ни от распределения частот в пределах двух равных частей ряда. Вот почему в медиане не находят отражения важные свойства совокупности и она используется обычно для решения некоторых частных задач, связанных с определением оптимума, совпадающего с вариантой, приходящейся на середину ряда.
Мода и медиана являются описательными характеристиками совокупностей с количественно варьирующими признаками и не могут заменить среднюю обобщающую величину. Величина моды и медианы, как правило, отличается от величины средней, совпадая с ней только в случае симметрии вариационного ряда.
Пример №14.
По следующим данным определите средний стаж рабочего (табл.4.5):
Решение:
Признаком в данной задаче является общий стаж рабочего, а частотами соответственно количество рабочих, имеющих тот или иной стаж. Ряд распределения — интервальный, причем первый и последний интервал — открытые.
Если интервалы открыты, то по правилам принимаем величину первого интервала равной второму, а последнего предпоследнему. Так как имеются и значения признака и частоты, то средний стаж находим по формуле средней арифметической взвешенной. А так как ряд интервальный, то в качестве значения признака в каждой группе берём середины интервала
Пример №15.
Все частоты уменьшились в два раза, а все варианты увеличились на две единицы. Что произойдет со средней?
Решение:
Согласно свойствам средней арифметической, если все частоты ряда уменьшить или увеличить в одинаковое количество раз, то средняя не изменится, т.е. с точки зрения частот средняя не изменится. Если все варианты увеличить или уменьшить на одно и то же число, то и средняя изменится на это же число. В нашем случае средняя увеличится на две единицы.
Пример №16.
Двое рабочих в течение 8-часового рабочего дня изготовляют одни и те же детали. Первый из них тратит на изготовление детали 30 мин., второй — 40 мин. Вычислите среднюю затрату времени на изготовление одной детали.
Решение:
В этой задаче явно даны только значения признака затраты времени, а частоты, которыми является количество изготовленных каждым рабочим деталей, в явном виде не присутствуют. Однако произведения значений признака на частоты дает количество проработанного времени — 8 час. Так как произведения признака на частоту равны, то средняя определяется по формуле средней гармонической простой:
Пример №17.
Автомобиль проехал 1000 км, из них 480 км он прошел со скоростью 60 км/час, 320 — со скоростью 80 км/час и 200 км — со скоростью 50 км/час. Определите среднюю скорость, с которой совершался рейс.
Решение:
В этой задаче опять известны только значения признака, а значения частот (время) не даны, однако имеются данные о пройденном расстоянии, которое является произведением признака на частоту. В этом случае средняя рассчитывается по формуле средней гармонической взвешенной:
Пример №18.
Определите среднегодовой темп роста выпуска продукции на заводе, если в 1990 г. было произведено продукции на 21,15 у.д.е., а в 1995 г. было запланировано произвести продукции на 35 у.д.е.
Решение:
Для определения средних темпов роста применяется средняя геометрическая. Когда имеются данные о первом периоде (в нашем случае — выпуск продукции в 1990 г. на сумму 21,15 у.д.е.) и в последнем периоде (в задаче — выпуск продукции по плану в 1995 г. на сумму 35 у.д.е.), среднегодовой темп роста определяется по формуле:
Пример №19.
Определить моду и медиану по следующим данным (табл. 4.6):
Решение:
Для определения моды определяем модальный интервал. Им является интервал 25-30 лет, так как его частота наибольшая (1054), тогда
Для определения медианы тоже необходимо определить медианный интервал. Медианным интервалом является интервал 25-30, так как он является первым интервалом, накопленная частота которого превышает полусумму частот (3462:2=1731). Тогда медиана определится как:
Показатели вариации и другие характеристики рядов распределения. Понятие о вариации
При изучении процессов и явлений общественной жизни статистика встречается с разнообразной вариацией признаков, характеризующей отдельные единицы совокупности. Величина признака изменяется, колеблется под влиянием различных причин и условий. Чем разнообразнее условия, влияющие на размер данного признака, тем больше его вариация.
Одна и та же средняя может характеризовать совокупность, в которой размеры вариации признака существенно отличаются друг от друга (табл.5.1). Как видно, средняя дневная выработка в обеих бригадах одинакова, хотя в первой бригаде средняя значительно меньше отличается от индивидуальных значений признака, чем во второй.
Следовательно, для всесторонней характеристики рядов распределения необходимы показатели, определяющие меру, степень колеблемости отдельных значений признака от средней, т.е. степень вариации, а также форму (тип) распределения, характеризующую ее закономерности.
Показатели вариации и способы их расчета
а) Размах вариации является наиболее простой мерой колеблемости значений признака и представляет собой разность между максимальным и минимальным значением признака: R = Хmax — Хmin.
Размах вариации имеет недостаток, проявляющийся в том, что при вычислении R используется только крайние значения ряда распределения, и он не всегда правильно характеризует колеблемость признака.
В связи с тем, что каждое индивидуальное значение признака отклоняется от средней на определенную величину, мерой вариации может служить средняя из отклонений каждой отдельной варианты от их средней.
Такими показателями являются среднее линейное отклонение, дисперсия, среднее квадратическое отклонение.
б) Среднее линейное отклонение представляет собой среднюю из абсолютных значений отклонений индивидуальных значений признаков от их средней:
Недостаток среднего линейного отклонения в том, что оно берется без учета знака. Поэтому в статистике чаще используют дисперсию и среднее квадратическое отклонение.
в) Дисперсия и среднее квадратическое отклонение. Дисперсией называется средний квадрат отклонений индивидуальных значений признака от их средней величины
Дисперсия имеет очень большое значение в анализе. Однако ее применение как меры вариации в ряде случаев бывает не совсем удобным, потому что размерность дисперсии равна квадрату размерности изучаемого признака. Поэтому вычисляют среднее квадратическое отклонение, равное корню квадратному из суммы квадратов отклонений индивидуальных значений признака от их средней, т.е. из дисперсии
Сопоставление линейных или средних квадратических отклонений по нескольким совокупностям дает возможность определять степень их однородности в отношении того или иного признака. Чем меньше: тем совокупность более однородна, тем более типичной будет средняя величина.
г) Коэффициент вариации. Так как дисперсия и среднее квадратическое отклонение характеризуют абсолютный размер отклонений, то представляет интерес сопоставить среднее квадратическое отклонение с его средней величиной. Такой показатель называется коэффициентом вариации
Если взять отношение среднего линейного отклонения к средней арифметической, то получим линейный коэффициент вариации
Отношение размаха вариации к средней арифметической называется коэффициентом осцилляции:
Взаимосвязь показателей вариации
В нормальном ряду распределения между показателями вариации имеются следующие примерные соотношения:
Основные свойства дисперсии
1. Если все значения признака уменьшить или увеличить на какое-то постоянное число а, то дисперсия не изменится.
2. Если все значения признака уменьшить или увеличить в К раз, то дисперсия изменится в К 2 раз.
3. Сумма квадратов отклонений индивидуальных значений признака x от их средней x меньше суммы квадратов отклонений индивидуальных значений признака от любого числа а, при условии, что
4. Дисперсия признака равна разности между средним квадратом значения признака и квадратом их средней:
Дисперсия альтернативного признака
В ряде случаев возникает необходимость измерить вариацию альтернативного признака, то есть такого, который может принимать только два значения. Обозначив отсутствие интересующего нас признака через 0, его наличие через 1, долю единиц, обладающих данным признаком — через р, не обладающих — через q, дисперсию этого признака можно определить как
Например, если 64% работников предприятия имеют высшее образование р, то дисперсия будет равна:
Правило сложения дисперсий
На вариацию признака влияют различные причины и факторы, которые делятся на случайные и систематические. Поэтому и вариация может быть случайной, вызванной действием случайных причин и систематической, обусловленной воздействием постоянных причин и факторов. В связи с этим возникает необходимость в определении случайной систематической составляющей и её роли в общей вариации. Общую дисперсию мы уже рассматривали. Она характеризует общую вариацию признака под влиянием всех условий, всех причин, вызывающих эту вариацию и исчисляется по формуле:
Для определения влияния постоянного фактора на величину вариации пользуются аналитической группировкой. Вариация, обусловленная фактором, положенным в основание группировки, называется межгрупповой вариацией. Размеры ее определяются при помощи дисперсии групповых средних или межгрупповой дисперсии, которая характеризует колеблемость групповых или частных средних около их общей средней:
где — средняя по каждой отдельной группе;
— средняя по всей совокупности;
n — число единиц совокупности;
f — частоты или веса.
Таким образом, межгрупповая дисперсия (дисперсия групповых средних) равна средней арифметической из квадратов отклонений частных средних от общей средней. Она характеризует систематическую вариацию, которая возникает под влиянием фактора, признака, положенного в основание группировки.
Для определения влияния случайных факторов и их роли в общей вариации определяют дисперсию в пределах каждой группы, т.е. внутригрупповую дисперсию, а затем и среднюю из внутригрупповых дисперсий:
где x — индивидуальные значения признака; — групповые или частные средние:
В математической статистике доказано, что общая дисперсия признака равна сумме межгрупповой дисперсии и средней из внутригрупповых дисперсий.
Это правило называется правилом сложения дисперсий.
Ряды распределения и их моделирование
а) Моменты распределения
Одной из важных задач анализов рядов распределения является выявление закономерности распределения, определение ее характера и количественного выражения. Эта задача решается при помощи показателей, характеризующих форму, тип распределения.
Кроме рассмотренных выше важной характеристикой рядов распределения являются моменты распределения.
Моментом распределения называется средняя арифметическая из отклонений значений признака x от некоторой постоянной величины а в степени к:
Величина к определяет порядок момента. В зависимости от величины а различают начальные, центральные и условные моменты (табл. 5.2).
Условные моменты используются для определения дисперсий высоких степеней. Практически используются моменты первых четырех порядков. Если в качестве весов взять не частоты, а вероятности, то получим теоретические моменты распределения.
б) Кривые распределения
Для обобщенной характеристики особенностей формы распределения применяются кривые распределения, которые выражают закономерность распределения единиц совокупности по величине варьирующего признака.
Эмпирическая кривая — это фактическая кривая, полученная по данным наблюдения, в которой отражаются как общие, так и случайные условия, определяющие распределение (кривая 1, рис.5.3)
Теоретическая кривая распределения — это кривая, выражающая функциональную связь между изменением варьирующего признака и изменением частот и характеризующая определенный тип распределения (кривая 2, рис.5.3).
По форме кривые распределения бывают симметричными и асимметричными. В зависимости от того, какая ветвь кривой вытянута, различают правостороннюю асимметрию и левостороннюю асимметрию (рис.5.1). Кривые распределения также могут иметь различную островершинность (рис.5.2).
Для характеристики степени асимметрии кривой используют коэффициент асимметрии, который представляет собой отношение центрального момента третьего порядка к среднему квадратическому отклонению в кубе
Если А > 0, то асимметрия правосторонняя, а если А < 0, то асимметрия левосторонняя, в симметричном распределении — А=0. Кроме этого коэффициента для характеристики асимметрии применяют и соотношение между и модой или медианой по отношению к среднеквадратическому отклонению.
Он менее точен по сравнению с коэффициентом асимметрии и применяется реже.
Для характеристики островершинности кривой распределения применяют коэффициент эксцесса, который равен отношению центрального момента четвертого порядка к дисперсии в квадрате
В нормальном распределении Е=3, поэтому, если Е>3, то эксцесс выше нормального (островершинная кривая), Е<3, эксцесс ниже нормального (плосковершинная кривая).
в) Моделирование рядов распределения
Все рассмотренные выше показатели характеризуют отдельные свойства совокупности. Общую характеристику ряда распределения можно представить аналитически, в виде функции, характеризующей зависимость между изменениями признака и частотами. Если имеется эмпирический ряд распределения, то необходимо найти функцию распределения, т. е. подобрать такую теоретическую кривую, которая наиболее полно бы раскрывала закономерность распределения.
Нахождение функции кривой распределения называется моделированием.
Для аппроксимации (выравнивания) эмпирических кривых распределения в статистике часто пользуются нормальным распределением, функция которого
где F(x) — интегральная функция распределения;
t — нормированное отклонение;
e — основание натуральных логарифмов.
Эмпирическое и теоретическое распределение рабочих по степени выполнения норм приведено в табл.5.3 и на рис.5.3.
г) критерии согласия
Для оценки близости эмпирического и теоретического распределения используются специальные показатели, которые называются критериями согласия. Критерии согласия как правило тем или иным способом оценивают степень расхождения между эмпирическими и теоретическими частотами.
Наиболее часто используется критерий, который называется хи-квадрат Пирсона и рассчитывается
где f’ — теоретические частоты, f — эмпирические частоты.
Чем меньше значение , тем лучше теоретическое распределение отражает реальное положение в совокупности и наоборот. Если то расхождение между f и f’ отсутствует.
Для проверки согласия с помощью рассчитанное значение сравнивают с табличным и при условииможно с определенной вероятностью сказать, что расхождение теоретического и эмпирического распределения случайно, и наоборот.
Также применяется и критерий согласия Колмогорова , который равен , где D — максимальная разность накопленных частот (без учета знака), n — объем совокупности.
Вычислив фактический критерий , по специальной таблице находят вероятность достижения критерием этого значения. Если вероятность значительна, то расхождение между эмпирическим и теоретическим распределением можно считать случайным.
В явлениях общественной жизни асимметричные распределения встречаются гораздо чаще, чем симметричные. Некоторые асимметричные распределения могут быть приведены к симметричному путем преобразования признака Х, например логарифмированием. В этом случае распределение называется логарифмически нормальным. Такое преобразование производится, как правило, для сильно асимметричных распределений.
Пример №20.
Проверка пряжи на крепость в лаборатории дала следующие результаты (табл. 5.4):
Вычислить все показатели вариации.
Решение:
В задаче значения признака имеют различную численность, поэтому значения, должны вычисляться как средние взвешенные величины. Для вычисления показателей вариации проводим дополнительные расчеты (табл. 5.5)
Средняя крепость пряжи определяется по формуле
Размах вариации
Среднее линейное отклонение вычисляется по формуле
Дисперсия, взвешенная по частоте вариантов, равна
Среднее квадратичное отклонение равно:
коэффициент вариации составляет
Пример №21.
На предприятии 64% работников имеют среднее и высшее образование. Определить дисперсию доли рабочих, имеющих среднее и высшее образование.
Решение:
Дисперсия альтернативного признака определяется как где p – доля единиц совокупности, обладающих данным признаком, а q=1-p – доля единиц совокупности, не обладающих данным признаком, следовательно:
Пример №22.
Имеются следующие данные (табл.5.6):
Вычислить: среднюю месячную заработную плату для каждой группы и для всех рабочих; групповые дисперсии; среднюю из внутригрупповых дисперсий; межгрупповую дисперсию; общую дисперсию; проверить правило сложения дисперсий и сделать выводы.
Решение:
В задаче требуется определить, как влияют на изменение заработной платы рабочих постоянные причины, положенные в основание группировки (в данном случае различия в профессии), и случайные причины. Для этого необходимо определить систематическую и случайную вариации и их роль в общей вариации. Для решения задачи и вычисления заданных показателей, построим вспомогательную таблицу (табл.5.7).
Среднюю заработную плату по каждой группе и для всех рабочих определяем по формуле средней арифметической простой:
Внутригрупповые дисперсии вычисляем по формуле:
Средняя из внутригрупповых дисперсий равна:
Межгрупповая дисперсия определяется как:
Общая дисперсия равна:
По правилу сложения дисперсий общая дисперсия равна сумме средней внутригрупповых и межгрупповой дисперсии:
Пример №23.
Средняя успеваемость студентов экономического факультета =4 балла, Мо=4,8 балла, Ме=4,2 балла. Указать, симметричным или асимметричным является распределение студентов по успеваемости. Если асимметричным, то с какой асимметрией (левосторонней или правосторонней).
Решение:
В симметричном распределении =Мо=Ме. В нашей задаче такого равенства нет. Следовательно, распределение асимметрично, а так как <Ме<Мо, то разности между –Ме и –Мо отрицательные и асимметрия левосторонняя.
Пример №24.
Урожайность сахарной свеклы в сельхозпредприятиях области характеризуется следующими показателями: =300 ц/га, =120 ц/га, Мо=240 ц/га, а урожайность зерновых — =30ц/га; =10 ц/га, Мо=27 ц/га. Вычислить показатели асимметрии и указать где она больше. Каково направление асимметрии?
Решение:
Асимметрия правосторонняя, так как и больше в первом случае.
Пример №25.
Центральный момент третьего порядка =34,56 при =12. Вычислить коэффициент асимметрии и сделать выводы; центральный момент четвертого порядка =64,32 при =2 . Вычислить коэффициент эксцесса и сделать выводы.
Решение:
Асимметрия правосторонняя, так как A>0 , и незначительная
Эксцесс выше нормального, потому что E>3.
Выборочное наблюдение
Общие сведения о выборочном наблюдении
В связи с тем, что статистика имеет дело с массовыми совокупностями статистические исследования весьма трудоемки. Поэтому давно возникла мысль о замене сплошного наблюдения выборочным.
Выборочное наблюдение — это наиболее совершенный способ несплошного наблюдения, при котором обследуется не вся совокупность, а лишь ее часть, отобранная по определенным правилам выборки и обеспечивающая получение данных, характеризующих всю совокупность в целом.
При проведении выборочного наблюдения нельзя получить абсолютно точные данные. Как при сплошном, так как при выборочном наблюдении неизбежны ошибки, которые делятся на ошибки регистрации и ошибки репрезентативности. В свою очередь, ошибки репрезентативности бывают случайные и систематические.
Важнейшим условием применения выборочного метода является правильный отбор единиц совокупности, а именно:
а) строго объективный отбор единиц совокупности, при котором каждая из них получала бы абсолютно одинаковую возможность попасть в выборку;
б) достаточное количество отобранных единиц совокупности. При соблюдении этих условий выборка будет репрезентативной или представительной.
Вся совокупность единиц, из которой производится отбор, называется генеральной совокупностью и обозначается буквой N. Часть генеральной совокупности, попавшая в выборку, называется выборочной совокупностью и обозначается n.
Обобщающие показатели генеральной совокупности — средняя, дисперсная и доля — называются генеральными и соответственно обозначается где p — доля или отношение числа единиц совокупности М, обладающих данным признаком ко всей численно- 36 сти генеральной совокупности, т.е. Те же обобщающие характеристики в выборочной совокупности обозначаются соответственно
Теоретической основой выборочного метода является теорема П.Л.Чебышева, которая формулируется следующим образом: с вероятностью, сколь угодно близкой к единице (достоверности), можно утверждать, что при достаточно большом объеме выборки и ограниченной дисперсии генеральной совокупности разность между выборочной средней и генеральной средней будет сколь угодно мала:
При практическом использовании теоремы Чебышева генеральную дисперсию , которая неизвестна, заменяют выборочной дисперсией.
Виды и схемы отбора
Формирование выборочной совокупности из генеральной может осуществляться по-разному. Различают следующие виды отбора: собственно-случайный; механический; типический; серийный; комбинированный.
5. Собственно-случайный отбор. Он ориентирован на выборку единиц из генеральной совокупности без всякого расчленения ее на части или группы. Либо применяется жеребьевка, либо используются таблицы случайных чисел.
6. Механический отбор. Он состоит в том, что отбор единиц в выборочную совокупность производится из генеральной совокупности, разбитой на равные интервалы (группы), причем все единицы генеральной совокупности должны располагаться в определенном порядке. Размер интервала или группы равен обратной величине доли выборки (или количеству отбираемых единиц). Из каждой группы (интервала) берется только одна единица. Так, при 2%-ной выборке отбирается каждая 50-ая единица (1:0,02; или формируется 50 групп или интервалов), при 20%-ной выборке — каждая 5-я единица (1:0,2) и т. д.
7. Типический отбор. При его осуществлении вся генеральная совокупность делится на группы по типическому признаку, а затем в каждой группе проводится тот или иной отбор. Наиболее часто из каждой группы выбирается количество единиц, пропорциональное удельному весу группы в общей совокупности и как правило — механическим отбором. Такой отбор часто называют пропорциональным типическим отбором с механической выборкой.
8. Серийный отбор с равновеликими сериями состоит в выборке не отдельных единиц генеральной совокупности, а целых серий (гнезд). Попавшие в выборку серии подвергаются сплошному наблюдению. Сами серии могут формироваться различными методами и способами.
9. Комбинированный отбор. Все вышеперечисленные виды отбора комбинируются между собой.
Используя различные виды отбора, можно применить и различные схемы отбора: бесповторный отбор (схема невозвращенного шара) — после выбора какой-либо единицы она обратно в генеральную совокупность не попадает и не может быть выбрана снова; повторный отбор (схема возвращенного шара) — после выбора какой-либо единицы она вновь возвращается в генеральную совокупность и может быть выбрана снова.
Определение средних и предельных ошибок при различных видах отбора
Ошибка выборки — разность между характеристиками выборочной и генеральной совокупности.
Если представляет собой предел, которого не превосходит абсолютная величина то
Ошибка выборки зависит от многих факторов, и, если из одной и той же генеральной совокупности можно сформировать бесконечное множество выборочных совокупностей, каждая из них даст и свою ошибку. Поэтому при выборочном наблюдении говорят о средней из возможных ошибок (средняя или стандартная ошибка выборки), которую обозначают как .
Величина прямо пропорциональна корню квадратному из дисперсии и обратно пропорциональна квадратному корню из объема выборочной совокупности; , для доли, соответственно .
Эти формулы справедливы для повторной схемы отбора. При бесповторном отборе вводится поправочный коэффициент, равный
В тех случаях, когда выборка небольшая этим множителем можно пренебречь, так как его значение близко к единице (обычно при).
Для решения практических задач важна не средняя ошибка выборки, а пределы, за которые она не выйдет, т.е. говорят о предельной ошибке выборки.
Предельная ошибка выборки связана со средней ошибкой соотношением где t— коэффициент доверия, или t— статистика; t принимает значения 1, 2 или 3 и связан с вероятностью достижения заданного предела. Если t=1 это значит, что вероятность того, что ошибка выборки не превысит заданного значения, равна 0,683 или 68,3%. При t=2 — P=0,954 или 95,4%; t=3 — P=0,997 или 99,7%.
Таким образом, предельная ошибка выборки зависит от трех факторов: дисперсии , объема выборки n, и коэффициента доверия t. Формулы для определения предельных ошибок при различных видах и схемах отбора приведены в табл. 6.1.
Таблица 6.1
Возможно эта страница вам будет полезна:
Определение необходимой численности выборки
При разработке выборочного наблюдения предполагают заранее заданными величину допустимой ошибки выборки и вероятность ответа (и t). Неизвестным, следовательно, остается тот минимальный объем выборки, который должен обеспечить требуемую точность. Из формулы и формул предельных ошибок выборки устанавливаем необходимую численность выборки. Формулы для определения численности выборки n зависят от способа отбора (табл.6.2).
Таблица 6.2
Численность выборки можно выразить через отношение , т.е. предельную ошибку выборки выражают в единицах среднего квадратичного отклонения. Так, например, формула численности бесповторной собственно-случайной выборки для средней при t=3 примет вид
Для типического и серийного отбора объем выборки определяется по специальным формулам.
Пример №26.
Методом случайной повторной выборки было взято для проверки на вес 200 шт. деталей. В результате был установлен средний вес детали — 30 г при среднеквадратическом отклонении равном 4 г. С вероятностью 0,954 требуется определить предел, в котором находится средний вес детали в генеральной совокупности.
Решение:
Предельная ошибка средней при собственно-случайном отборе (повторная выборка) определится по формуле
Нам известно, что t=2 (т.к. P=0.954); n=200, тогда
Следовательно, с вероятностью 0,954 можно утверждать, что средний вес детали в генеральной совокупности будет находиться в пределах
Пример №27.
Был проведен учет городского населения города А методом случайного бесповторного отбора. Из общей численности населения 500 тыс. человек было отобрано 500 тыс. и установлено, что 15% имеют возраст старше 60 лет. С вероятностью 0,683 определить предел, в котором находится доля жителей города А в возрасте старше 60 лет.
Решение:
Предельная ошибка доли при собственно-случайном бесповторном отборе определится как
Здесь тогда подставляя эти данные в формулу получим:
Следовательно, с вероятностью 0,683 можно утверждать, что доля жителей старше 60 лет находится в пределах:
Пример №28.
Проведена 10%-ная типическая выборка пропорциональна численности отобранных групп (табл. 6.3).
Таблица 6.3
Требуется с вероятностью 0,954 определить пределы, в которых находится средний процент выполнения норм рабочими завода в целом. Выборка бесповторная.
Решение:
Вычислим общий средний процент выполнения норм выработки:
Далее определим среднюю из групповых дисперсий
Рассчитаем предельную ошибку выработки для типического отбора
Таким образом, с вероятностью 0,954 можно утверждать, что средний процент выполнения норм рабочими завода в целом находится в пределах
т.е. он не меньше 103,82% и не больше 104,18%.
Пример №29.
Для определения средней урожайности сахарной свеклы в области проведена 20%-ная серийная бесповторная выборка, в которую вошло 5 районов из 25. Средняя урожайность по каждому отобранному району составила: 250, 260, 275, 280, 300 ц/га. Определить с вероятностью 0,954 пределы, в которых будет находиться средняя урожайность сахарной свеклы по области.
Решение:
Найдем общую среднюю
Определим межсерийную дисперсию по формуле
Рассчитаем предельную ошибку выборки при серийном бесповторном отборе
Следовательно, с вероятностью 0,954 можно утверждать, что средняя урожайность сахарной свеклы в области будет находиться в пределах от 272,66 до 287,34 ц/га.
Пример №30.
Предполагается, что партия деталей содержит 8 % брака. Определить необходимый объем выборки, чтобы с вероятностью 0,954 можно было установить долю брака с погрешностью не более 2% . Исследуемая партия содержит 5000 деталей.
Решение:
По условию задачи t=2 , доля бракованных деталей Предельная ошибка доли по условию равна а N=5000. Подставляем эти данные в формулу и получим
Чтобы с вероятностью 0,954 можно было утверждать, что предельная ошибка доли брака не превысит 2% , необходимо из 5000 деталей отобрать 642.
Пример №31.
Что произойдет с предельной ошибкой выборки, если:
а) дисперсия уменьшится в 4 раза;
б) численность выборки увеличить в 9 раз;
в) вероятность исчисления изменится с 0,683 до 0,997.
Решение:
Из формулы для расчета предельной ошибки выборки видно, что она:
а) прямо пропорциональна корню квадратному из дисперсии. Следовательно, если дисперсия уменьшится в 4 раза, то предельная ошибка уменьшится в 2 раза;
б) обратно пропорциональна корню квадратному из численности выборки. Следовательно, если объем выборки увеличится в 9 раз, то предельная ошибка уменьшится в 3 раза;
в) прямо пропорциональна вероятности исчисления, т.е. при увеличении Р с 0,683 (t=1) до 0,997 (t=3) ошибка увеличится в 3 раза.
Статистическое изучение связи, виды и формы взаимосвязи между явлениями
Одной из важнейших задач статистики является изучение, измерение и количественное выражение взаимосвязи между явлениями общественной жизни, установленной на основе качественного анализа.
Различают два вида связей: функциональную и корреляционную, обусловленные двумя типами закономерностей: динамическими и статистическими.
Для явлений, в которых проявляются динамические закономерности, характерна жесткая, механическая причинность, которая может быть выражена в виде уравнения, четкой зависимости и т.д. Такая зависимость называется функциональной. При функциональной связи каждому значению одной величины (аргумента) соответствует одно или несколько вполне определенных значений другой величины (функции).
В общественных процессах, в которых проявляются статистические закономерности, нет строгой зависимости между причиной и результатом и обычно не представляется возможным выявить строгую зависимость.
Связь, при которой каждому значению аргумента соответствует не одно, а несколько значений функции и между аргументом и функциями нельзя установить строгой зависимости называется корреляционной. Корреляционная зависимость проявляется только в средних величинах и выражает числовое соотношение между ними в виде тенденции к возрастанию или убыванию одной переменной величины при возрастании или убывании другой.
По направлению различают прямую и обратную связи.
По аналитическому выражению корреляционная связь может быть прямолинейной и криволинейной.
Основные приемы изучения взаимосвязей
а) Метод параллельных рядов. Чтобы установить связь между явлениями достаточно расположить полученные в результате сводки и обработки материалы в виде параллельных рядов и сопоставить их между собой.
б) Балансовый метод. Для характеристики взаимосвязи между явлениями в статистике широко применяется балансовый метод. Сущность его заключается в том, что данные взаимосвязанных показателей изображаются в виде таблицы и располагаются таким образом, чтобы итоги между отдельными частями были равны, т.е. чтобы был баланс. Балансовый метод используется для характеристики взаимосвязи между производством и распределением продуктов, денежными доходами и расходами населения и т.д.
в) Метод аналитических группировок. При наличии массовых статистических данных для изучения и измерения взаимосвязей социально-экономических явлений широко пользуются методом аналитических группировок. Аналитические группировки позволяют установить наличие связи между двумя и более признаками и ее направление. Метод группировок сочетается с методом средних и относительных величин.
г) Дисперсионный анализ. Аналитические группировки при всей своей значимости не дают количественного выражения тесноты связи между признаками. Эта задача решается при помощи дисперсионного и корреляционного анализов.
Дисперсионный анализ дает, прежде всего, возможность определить роль систематической и случайной вариаций в общей вариации и, следовательно, установить роль изучаемого фактора в изменении результативного признака. Для этого пользуются правилом сложения дисперсий.
Корреляционный анализ. Определение формы связи
Изучение взаимосвязей между признаками статистической совокупности заключается в определении формы и количественной характеристики связи, а также степени тесноты связи. Корреляционный анализ и решает эти две основные задачи.
Первая задача заключается в определении формы связи, т.е. в установлении математической формы, в которой выражается данная связь.
Предварительный этап при установлении формы связи заключается в теоретическом анализе изучаемого явления, а также в представлении искомой связи графически. График, построенный по исходным данным, позволяет приблизительно определить: есть ли какая-то связь между явлениями; ее направление (прямая или обратная); примерную тесноту связи (естественно, что при графическом анализе используются только две переменные).
Применение методов корреляционного анализа дает возможность выражать связь между признаками аналитически — в виде уравнения — и придавать ей количественное выражение.
Другими словами необходимо найти зависимость вида y=f(x), причем в качестве функции f(x) могут быть
полином 1-го порядка —
полином 2-го порядка —
степенная функция —
гиперболическая функция —
(могут быть использованы и другие виды функций).
Неизвестные параметры функций (аналитических уравнений связи) находятся методом наименьших квадратов, сущность которого в следующем: сумма квадратов отклонений фактических данных от выровненных должна быть наименьшей (см. рисунок):
или
Отклонение фактических уровней от выровненных
Измерение тесноты связи
При изучении корреляционной связи важно выяснить не только форму, но и тесноту связи между факторным и результативным признаком. Для этого (при прямолинейной связи) рассчитывается показатель, называемый парным линейным коэффициентом корреляции , вычисляемый по формуле
Коэффициент корреляции принимает значение от -1 до +1, причем если то корреляция прямая, если то корреляция обратная, а если то корреляция отсутствует полностью. В зависимости от того, насколько приближается к единице, различают связь слабую, умеренную, заметную, высокую, тесную и весьма тесную. Коэффициент корреляции может быть исчислен и по следующей формуле
где — среднее квадратическое отклонение результативного признака;
— среднее квадратическое отклонение факторного признака.
Зная линейный коэффициент корреляции, можно определить и параметры уравнения регрессии вида потому что:
Коэффициент корреляции применяется только в тех случаях, когда между явлениями существует прямолинейная связь. Если же связь криволинейная, то пользуются коэффициентом корреляции, вычисляемым по формуле
где y— исходные значения результативного показателя;
-теоретические значения;
— среднее значение y.
Имея среднее значение дисперсий, коэффициент корреляции можно вычислить как
где факторная (межгрупповая) дисперсия или дисперсия воспроизводимости;
— случайная (средняя из внутригрупповых) дисперсия или остаточная дисперсия;
— общая дисперсия.
Коэффициент корреляции по своему абсолютному значению находится в пределах от 0 до 1.
Если коэффициент корреляции возвести в квадрат и выразить в процентах, получим показатель, называемый коэффициентом детерминации
Он показывает, на сколько процентов изменение результативного фактора зависит от изменения факторного признака. Коэффициент детерминации является наиболее конкретным показателем, так как он отвечает на вопрос о том, какая доля в общем результате зависит от фактора, положенного в основании группировки.
Множественная корреляция
Определение формы и тесноты связи между тремя и более параметрами называется множественной корреляцией. При множественной корреляции определение формы связи аналогично определению формы связи при парной корреляции, а само уравнение регрессии ищется в виде (как правило)
При определении тесноты связи есть свои особенности. Теснота связи измеряется множественным коэффициентом корреляции, вид которого аналогичен коэффициенту корреляции при парной связи
Если изучается взаимодействие только трех факторов y=f(x,z), то коэффициент множественной корреляции можно определить по формуле
где — парные коэффициенты корреляции.
Множественный коэффициент корреляции находится в пределах от 0 до 1.
Множественный коэффициент детерминации, равный квадрату R, выраженному в процентах, характеризует долю вариации результативного признака Y под воздействием всех изучаемых факторных признаков.
Поскольку факторные признаки действуют не изолировано, а по взаимосвязи, то может возникнуть задача определения тесноты связи между результативным признаком и одним из факторных при постоянных значениях прочих факторов. Она решается при помощи частных коэффициентов корреляции. Например, при линейной связи y=f(x,z) частный коэффициент корреляции между x и y при постоянном z вычисляется по следующей формуле
Частный коэффициент корреляции при изучении зависимости Y от Z при постоянном Х определяется по формуле
Парные коэффициенты корреляции, как правило, выше частных. Это объясняется тем, что факторы взаимно коррелируют между собой.
При значительном количестве факторов частный коэффициент корреляции можно получить по формуле
где — коэффициент множественной корреляции;
— коэффициент множественной корреляции результативного фактора (y) со всеми за исключением исследуемого.
Простейшие методы измерения тесноты связи
Измерение тесноты связи между факторами с помощью корреляционно-регрессионного и дисперсионного анализов сопряжено с большими вычислительными трудностями. Для ориентировочной оценки степени тесноты связи существуют приближённые методы, не требующие трудоемких расчетов. К ним относятся: коэффициент корреляции знаков Фехнера, коэффициент корреляции рангов, коэффициент ассоциации и коэффициент взаимной сопряженности.
Коэффициент корреляции знаков
Основан на сопоставлении знаков отклонений от средней и подсчете числа случаев совпадения и несовпадения знаков Коэффициент корреляции знаков определяется по формуле
где U — число пар с одинаковыми знаками отклонений x и y от и ; V- число пар с разными знаками отклонений x и y от и .
Коэффициент корреляции знаков колеблется от -1 до +1. Этот показатель исчисляется очень просто, но именно в силу этого он не очень точен.
Коэффициент корреляции рангов
Этот показатель вычисляется не по первичным данным, а по рангам (порядковым номерам ), которые присваиваются всем значениям изучаемых признаков,расположенным в порядке их возрастания. Если значения признака совпадают, то определяется средний ранг путем деления суммы рангов на число совпадающих значений.Коэффициент корреляции рангов определяется по формуле
где — квадрат разности рангов для каждой единицы d=x-y. Коэффициент корреляции рангов также колеблется в пределах от -1 до +1.
Коэффициент ассоциации
Коэффициент ассоциации применяется для установления меры связи между двумя качественными альтернативными признаками. Для его вычисления строится комбинационная 4-клеточная таблица:
которая выражает связь между двумя альтернативными явлениями. Коэффициент ассоциации рассчитывается по формуле
Коэффициент ассоциации тоже колеблется в пределах от -1 до +1.
Коэффициент взаимной сопряженности
В тех случаях, когда требуется установить связь между качественными признаками, каждый из которых состоит из трех и более групп, применяется коэффициент взаимной сопряженности. Для определения степени тесноты связи вычисляется специальный показатель, который называется коэффициентом взаимной сопряженности. Он определяется по формуле:
где n — число единиц совокупности;
— число групп по первому и второму признаку;
— показатель абсолютной квадратичной сопряженности Пирсона.
Методика применения всех четырех коэффициентов показана при решении типовых задач.
Пример №32.
По данным о месячной заработной плате 10 рабочих трех разных профессий (токарь, слесарь и кузнец) вычислены: общая дисперсия заработной платы и средняя из внутригрупповых дисперсий Вычислить корреляционное отношение.
Решение:
Корреляционное отношение вычисляется по формуле
Следовательно, сначала необходимо найти межгрупповую дисперсию
Подставляя это значение в вышеприведенную формулу, получим:
Пример №33.
Вычислено следующее уравнение множественной регрессии по сельскохозяйственным предприятиям области, характеризующее связь между размерами предприятия по посевной площади х га, числу коров z шт., доходами предприятия y млн. руб.: y=290+3,12x+0,65z. Требуется проанализировать параметры уравнения регрессии.
Решение:
Увеличение посевной площади на один гектар приводит к повышению доходов в среднем на 3,12 млн руб.; увеличение числа коров на 1 голову приводит к повышению доходов на 0,65 млн руб.
Пример №34.
По данным задачи №2 получены следующие парные коэффициенты корреляции
Вычислить коэффициент множественной корреляции и детерминации.
Решение:
Таким образом, между доходами, посевной площадью и числом коров существует тесная связь. Коэффициент детерминации в нашем случае равен
Это значит, что 70% всей вариации денежных доходов предприятий объясняется действием рассматриваемых факторов.
Пример №35.
По данным задачи №3 вычислите коэффициент корреляции между y и x и сделайте выводы.
Решение:
Частный коэффициент корреляции характеризует тесноту связи между результативным признаком и одним из факторных при постоянных значениях прочих факторов, т. е.
где — парные коэффициенты корреляции.
Подставляя в формулу их значения, получим:
Следовательно, связь между денежными доходами и посевной площадью при исключении влияния других факторов заметная.
Этот же результат можно получить, используя общую формулу коэффициента частной корреляции
Подставляя имеющиеся значения, получим:
Пример №36.
По 10 предприятиям имеются следующие данные, млн руб. (табл.7.1).
Определите коэффициент корреляции знаков и сделайте выводы о тесноте связи.
Решение:
Для вычисления коэффициента корреляции знаков составим вспомогательную таблицу (табл. 7.2), из которой получим число совпадений знаков от средней. В нашем случае оно равно 8, число несовпадений знаков отклонений от средней — 2.
Подставляя эти значения в формулу коэффициента корреляции, получим:
Связь между выпуском продукции и фондом заработной платы прямая и заметная.
Пример №37.
По 10 предприятиям имеются следующие данные (табл 7.3):
Решение:
Коэффициент корреляции рангов вычисляется по рангам (порядковым номерам), которые присваиваются всем единицам совокупности, расположенным в порядке возрастания признака. Для его вычисления составим вспомогательную таблицу (табл 7.4).
Подставляя соответствующие данные в формулу коэффициента, получим:
то есть связь между выпуском продукции и среднесписочной численностью работников весьма тесная.
Пример №38.
По данным табл. 7.5 вычислить коэффициент ассоциации.
Таблица 7.5
Решение:
Коэффициент ассоциации используется для установления степени тесноты связи между двумя качественными альтернативными признаками, состоящими из двух групп, и определяется по следующей формуле
Подставим соответствующие данные из табл. 7.5 в формулу и получим:
Как видно, между выполнением плана и наличием специальной подготовки существует прямая и заметная связь.
Ряды динамики, понятие о динамических рядах и их видах
Процессы и явления общественной жизни, которые изучаются статистикой, находятся в постоянном движении и изменении. В процессе развития меняются размеры, состав, объем, структура конкретных общественных явлений. Эти изменения статистика выражает при помощи различных статистических показателей.
Статистические данные, характеризующие изменения явлений во времени, называются динамическими (хронологическими или временными) рядами. Такие ряды имеют огромное значение для выявления и изучения складывающихся закономерностей в явлениях общественной жизни.
Довольно часто имеющиеся динамические ряды несопоставимы в силу изменения круга объектов учета, территориальных границ, изменения масштаба единиц измерения и т.д. В этом случае для преобразования несопоставимых динамических рядов в сопоставимые используют различные приемы, основные из которых следующие: прямой пересчет данных, пересчеты при помощи ключей и смыкание рядов.
В зависимости от характера изучаемых величин различают три вида динамических рядов: моментные, интервальные и ряды средних.
Моментными рядами называются ряды статистических величин, характеризующие размеры изучаемого явления на определенные даты или моменты времени. Примером могут служить данные о среднесписочной численности работающих по состоянию на первое число каждого месяца.
Отличительной особенностью моментных рядов является то, что они не подлежат суммированию.
Интервальными рядами называются ряды статистических показателей, характеризующих размеры изучаемого явления за определенные промежутки (периоды, интервалы) времени. Интервальные ряды можно суммировать.
Ряды средних величин — это ряды, характеризующие изменения средних уровней изучаемого явления во времени. Как и моментные, ряды средних величин не подлежат суммированию.
Вычисление средней динамического ряда
Средняя, вычисленная из уровней динамического ряда, называется хронологической средней. Способы ее расчета зависят от вида динамического ряда.
a) для интервальных рядов средняя исчисляется по формуле средней арифметической, причем при равных интервалах применяется средняя арифметическая простая, а при неравных — средняя арифметическая взвешенная.
б) для моментных рядов средняя рассчитывается по формуле
т.е. средняя хронологическая моментного ряда равна сумме всех уровней ряда, поделенной на число членов ряда без одного, причем первый и последний члены ряда берутся в половинном размере.
Если интервалы между периодами неравные, то применяется средняя арифметическая взвешенная, а в качестве весов берутся отрезки времени между датами, к которым относятся парные средние смежных значений уровня.
Основные показатели, используемые при анализе динамических рядов
Динамические ряды анализируются при помощи ряда показателей, определяющих характер, направление, интенсивность количественных изменений во времени. К ним относятся: уровень ряда, средний уровень, абсолютный прирост, темп роста, коэффициент роста, темп прироста, коэффициент опережения, абсолютное значение одного процента прироста.
Уровнем ряда называется абсолютная величина каждого члена динамического ряда. Различают начальный (величина первого члена ряда), конечный (последнего), средний уровень ряда.
Средний уровень определяется в зависимости от вида динамического ряда.
Абсолютный прирост характеризует размер увеличения или уменьшения изучаемого явления за определенный период времени. Он определяется как разность между данным уровнем и предыдущим или начальным. Уровень, который сравнивается, называется текущим, а уровень с которым производится сравнение, называется базисным. Если каждый уровень ряда сравнивается с предыдущим, то получаются цепные показатели. Если же все уровни ряда сравниваются с одним и тем же, первоначальным уровнем, то полученные показатели называются базисными.
Абсолютный прирост определяется по формулам;
цепной: базисный:
где — текущий уровень ряда; — уровень предшествующий; — начальный уровень ряда.
Темпом роста называется отношение данного уровня к предыдущему или начальному, выраженному в процентах. Темпы роста бывают цепными и базисными и вычисляются по формулам
цепной:базисный: —
Если темпы роста выражены в виде простых отношений (база-1), то полученные показатели называются коэффициентами роста.
Темпом прироста называется отношение абсолютного прироста к предыдущему или начальному членам ряда, выраженным в процентах;
цепной: базисный
Темп прироста также может быть рассчитан как:
цепной: базисный
Для характеристики темпов роста и прироста в среднем за весь период вычисляют средний темп роста и прироста. Средний темп, коэффициент роста и прироста определяются по формулам средней геометрической.
Для определения средней из средних коэффициентов или темпов роста за неодинаковые промежутки времени применяется средняя геометрическая взвешенная
где m — продолжительность отрезков времени.
Коэффициентом опережения называется отношение базисных темпов роста двух динамических рядов за одинаковые отрезки времени
где -базисные темпы роста первого ряда; — базисные темпы роста второго ряда.
В тех случаях, когда темпы роста по двум сравниваемым рядам динамики неизвестны, а имеются средние темпы роста за одинаковый период времени, коэффициент опережения рассчитывается по формуле
где — средний темп роста первого ряда динамики, — второго, а n — число лет в периоде.
Отношение абсолютного прироста к темпу прироста представляет собой абсолютное значение одного процента прироста и определяется по формуле
где A % — абсолютный прирост; — цепной темп прироста; — уровень, предшествующий .
Из формулы видно, что абсолютное значение одного процента прироста равно одной сотой части предшествующего уровня.
Важнейшие приемы обработки и анализа динамических рядов
Существуют различные приемы обработки динамических рядов:
а) Приведение рядов к одному основанию.
Для выявления связи или различия в динамике двух или нескольких рядов их можно привести к одному основанию. Для этого показатели каждого ряда выражаются в процентах к первому или любому другому члену ряда.
б) Разбивка ряда на короткие периоды.
Для выявления тенденции данных колеблющихся рядов их разбивают на более короткие периоды, а затем определяют средний уровень по каждому периоду.
в) Сглаживание способом скользящих (подвижных) средних.
Сущность его заключается в том, что по конкретным уровням ряда рассчитываются сглаженные, скользящие средние, которые получаются из подвижных сумм путем последовательного сдвига на одну дату суммируемых показателей. Затем подвижные суммы делят на число дат, получая, таким образом, скользящие или подвижные средние. Например, складывают три первых члена ряда, а их среднюю относят ко второму периоду, затем складывают 2-й, 3-й и 4-й члены ряда, а их среднюю относят к третьему периоду и т.д.
г) Метод аналитического выравнивания динамических рядов.
Сущность метода состоит в том, что основная тенденция выражается в виде функции y=f(x), где за параметр х принимается время t .
Кстати готовые на продажу задачи тут, и там же теория из учебников может быть вам поможет она.
Корреляционный анализ и сезонные колебания в рядах динамики
Для изучения связи в рядах динамики применяется и корреляционный анализ. Однако его применение связано с определенными трудностями, потому что в динамических рядах уровни независимы друг от друга.
Зависимость между каждым предыдущим и последующим членами динамического ряда называется автокорреляцией. Корреляция между уровнями динамических рядов будет правильно отражать связь между явлениями только при условии устранения автокорреляции. Для этого существует ряд способов.
Первый способ состоит в том, что ищется связь не между уровнями рядов, а между первыми, вторыми и т. д. разностями (т. е. из каждого последующего уровня ряда вычитается значение предыдущего — первые разности и т. д.). В этом случае коэффициент корреляции вычисляется по формуле
Второй способ исключения автокорреляции состоит в том, что сопоставляются отклонения от тренда (основной тенденции) по изучаемым рядам: для каждого динамического ряда проводится аналитическое выравнивание, затем находятся отклонения от найденной основной тенденции и уже потом, используя эти отклонения в качестве искомых переменных, определяют связь.
Для многих явлений общественной жизни характерны внутригодичные повторяющиеся колебания, которые называются сезонными. Они наблюдаются в различных отраслях народного хозяйства: при производстве большинства видов сельхозпродуктов, их переработки, в строительстве, транспорте, торговле и т. д.
Для выявления и измерения интенсивности сезонных колебаний пользуются индексами сезонности, причем индексы сезонности могут вычисляться по-разному.
14.Если средний годовой уровень сезонного явления остается от года к году относительно неизменным, применяется метод простых средних. Он состоит в определении простой средней за одни и те же месяцы всего изучаемого периода и в сопоставлении их со средней за весь изучаемый период.
15.Когда уровень явления проявляет тенденцию к росту или снижению, применяют метод помесячных отношений. Он заключается в том, что в начале вычисляются по каждому году процентные отношения между показателями за каждый данный и предшествующий месяцы, а затем из полученных отношений определяется среднеарифметическое.
Пример №39.
По следующим данным вычислить среднемесячные остатки материалов за полугодие (табл 8.1):
Решение:
В нашей задаче даны остатки материалов на определенные моменты в ремени (1/1, 1/2, и т.д.), промежутки между которыми равны. В этом случае средняя исчисляется по формуле средней хронологического ряда:
Пример №40.
По следующим данным определите среднее поголовье коров по совхозу за год (табл 8.2):
Решение:
В задаче дано поголовье коров за определенный момент, даты, причем интервалы между датами не равны (6, 4 и 2 месяца). В таких случаях средняя хронологическая моментного ряда рассчитывается как средняя арифметическая взвешенная, где в качестве весов применяются отрезки времени между датами, к которым относятся парные средние смежные значения уровня. Определим прежде всего средние смежные значения уровней.
Взвесим их теперь на отрезке времени между датами
Пример №41.
Производство продукции по предприятию за 1990 1994 гг. характеризуется следующими данными (табл. 8.3):
Определить:
16.начальный, конечный и средний уровни ряда;
17.абсолютные приросты по годам, к 1990 г. и среднегодовой абсолютный прирост;
18.темп роста и прироста по годам и к 1990 г.;
19.абсолютное значение одного процента прироста;
20.среднегодовой темп роста и прироста за период 1990 1994 гг.
Решение:
1. Начальный уровень (величина первого члена ряда) — 4140, конечный — 5426. Средний уровень ряда определяется по формуле простой средней арифметической, так как ряд периодический
Вычисленные основные показатели данного динамического ряда сводим в таблицу 8.4.
2. Абсолютный прирост показывает, насколько изменился текущий уровень по сравнению с предыдущим или базисным и определяется как разность двух уровней
Среднегодовой абсолютный прирост исчисляется по формуле средней арифметической простой и равен
Среднегодовой абсолютный прирост можно вычислить и таким образом:
3. Темп роста показывает, во сколько раз текущий уровень больше предыдущего или базисного, и определяется как отношение двух уровней, выраженное в процентах:
Темп прироста показывает, на сколько процентов увеличился текущий уровень по сравнению с текущим или базисным и определяется как разность соответствующего темпа роста и 100%:
Абсолютное значение 1% прироста определяется как отношение абсолютного прироста к темпу прироста:
Среднегодовой темп роста рассчитывается по формуле средней геометрической
Среднегодовой темп прироста равен среднегодовому темпу роста минус 100%, т. е. 107% — 100% = 7%
Пример №42.
Среднегодовой темп роста заработной платы рабочих завода за 1990-91 гг. составил 104%, а за 1992-1994 гг. -106%. Определить среднегодовой темп роста заработной платы на заводе за 1990 — 1994 гг.
Решение:
Средняя из средних темпов роста за неодинаковые промежутки времени рассчитывается по формуле средней геометрической взвешенной, причем весами являются сами промежутки времени, следовательно:
Задачи с решением по всем темам статистики
Статистика — отрасль общественных наук, имеющая целью сбор, упорядочение, анализ и сопоставление фактов, относящихся к самым разнообразным массовым явлениям.
Под предметом статистики понимается количественная сторона массовых общественных явлений в постоянной связи с их содержанием или количественной стороной, а также количественное выражение закономерностей общественного развития в конкретных условиях места и времени. Каждая отрасль имеет свою статистику. Статистика развивается как отдельная наука. Отраслевая статистика дополняет теорию статистики.
Теория статистики является основополагающей дисциплиной и служит фундаментом для применения статистического метода анализа для хозяйственных субъектов. На любом уровне и в любой сфере эффективность использования статистики во многом определяется качеством исходной информации.
Демографическая статистика, показатели численности и состава населения
Для развития национальной экономики в целом и для развития ее основных отраслей необходима статистическая информация о населении. Как статистическая категория население представляет собой совокупность людей, проживающих на данной территории. Оно непрерывно изменяется за счет рождения и смертей, а также миграции.
Информация о населении включает его естественный прирост, естественное движение, его профессиональный состав, возрастной состав, численность трудоспособного населения. Единицей наблюдения или единицей учета в статистике населения может быть как отдельный человек, так и семья, а также домохозяйство и населенный пункт.
Основным источником информации о населении является перепись. Она даёт наиболее подробные сведения о населении страны, включая его экономическую активность, жилищные условия, владение языками и т.д.
Главные принципы переписей населения, которые фактически действуют уже более полутора веков:
- периодичность (переписи проводятся в строгой периодичности, чтобы было возможно выявить тенденции в народонаселении страны и мира);
- сплошной характер (переписи подлежат все лица, независимо от гражданства находящиеся на территории данной страны, а также граждане данной страны, временно проживающие за рубежом. Исключение составляют иностранные дипломаты, сотрудники международных миссий и т.д.);
- индивидуальность регистрации (наблюдению подвергается каждый человек);
- одновременность (синхронность получения информации обо всех единицах наблюдения, что достигается введением критического момента переписи – такого момента времени, по состоянию на который регистрируются сведения).
Достоинством переписей является полнота информации о населении страны, однако такая форма наблюдения весьма затратная (по финансам и по времени), а также сложно организуемая. Поэтому переписи проводятся с 10-летней периодичностью. Сроки переписей в разных странах координирует ООН, чтобы обеспечить сопоставимость статических данных о демографических процессах в мире.
Альтернативой классическим переписям являются выборочные обследования. Они охватывают малую часть жителей, проводятся в более сжатые сроки, но они не могут дать полную картину о численности и составе населения всей страны.
При переписи населения учитываются две основные категории населения:
1) постоянное население (ПН) — лица, для которых данный населённый пункт является местом постоянного проживания, включая временно отсутствующих (ВО);
2) наличное население (НН) — лица, фактически находящиеся на момент переписи в данном населенном пункте, включая временно проживающих (ВП).
Рассмотрим более подробно две дополнительные категории населения – временно отсутствующие и временно проживающие. Временно отсутствующие (ВО) — это лица, имеющие постоянное место жительства в данном населённом пункте, которые на момент учёта отсутствуют. Их отсутствие не должно превышать 6 месяцев.
Временно проживающие (ВП) — это лица, находящиеся на момент учёта в данном населённом пункте, но имеющие постоянное место жительства в другом населённом пункте.
Взаимосвязь данных категорий населения:
ПН = НН – ВП + ВО, (1.1)
НН = ПН – ВО + ВП. (1.2)
В ходе статистического обследования населения определяется численность населения на момент проведения переписи. Сведения о наличном населении очень важны для населенных пунктов, где наблюдается сильное влияние сезонного фактора (курортные районы) или где используется рабочая сила вахтовым методом.
Указанные категории населения не связаны с временной или постоянной регистрацией (с пропиской) граждан РФ по месту пребывания и по месту жительства.
Численность населения – это моментный показатель, так как он рассчитывается на определённую дату. Для того чтобы охарактеризовать демографическую ситуацию за период (год, месяц и т.д.), необходим интервальный показатель – средняя численность населения .
Формула расчёта зависит от исходных данных. Обычно Росстат публикует данные о населении на начало и конец периода. Следовательно, расчёт производится по средней арифметической простой формуле:
где — численность населения на начало периода;
— численность населения на конец периода.
В других случаях необходимо обратиться к рассмотренному ранее материалу темы «Ряды динамики» в курсе «Теория статистики» [1, c. 18-23], где изучаются методы расчёта среднего уровня ряда динамики. Рассмотрим пример расчёта средней численности населения.
Задача с решением №1.1
Данные по трём городам о численности наличного населения (тыс. чел.):
ГОРОД «А»
1 января 2015 г. – 230; 1 января 2016 г. – 242.
ГОРОД «Б»
1 января 2015 г. – 148; 1 февраля – 147; 1 марта – 146; 1 апреля – 142; 1 мая – 145; 1 июня – 150; 1 июля – 155; 1 августа – 162; 1 сентября – 160; 1 октября – 153; 1 ноября – 155; 1 декабря – 154; 1 января 2016 г. – 150.
ГОРОД «В»
1 января 2015 г. – 87; 1 апреля – 93; 1 сентября – 95; 1 октября – 100. Рассчитать среднюю численность населения каждого города в 2015 году.
Решение
ГОРОД «А»
Есть данные на начало и конец периода. Расчёт производится по средней арифметической простой формуле:
ГОРОД «Б»
Моментный ряд динамики с равными промежутками между датами. Расчёт ведётся по формуле средней хронологической:
ГОРОД «В»
Моментный ряд динамики с неравными промежутками между датами. Расчёт ведётся по формуле средней арифметической взвешенной:
Напомним, что в числителе каждый уровень ряда (численность населения на определённую дату – Н) умножается на число месяцев, в течение которого он не менялся (t). В знаменателе — число месяцев в году.
Показатели движения населения
Движение населения – это изменение численности населения. В статистике различают:
1) естественное движение (рождаемость и смертность);
2) механическое движение (миграция).
Выделяют две группы показателей движения населения.
К первой группе относятся абсолютные показатели (единица измерения — чел.):
— число родившихся (Р), число умерших (У);
— естественный прирост (Δе) = Р – У;
— число прибывших (П), число выбывших (В);
— механический (миграционный) прирост, называемый также сальдо миграции (Δм) = П – В;
— общий прирост (Δобщ) = Δе + Δм.
Кроме того, общий прирост можно также вычислить как разность численности населения на конец и на начало периода. Показатели естественного, механического и общего прироста (Δе, Δм, Δобщ) могут иметь отрицательное значение, что говорит об уменьшении численности населения под влиянием тех или иных причин.
Задача с решением №1.2
Данные о численности населения региона, тыс. чел.:
НА 1 ЯНВАРЯ
Численность наличного населения – 2050,
из них — временно проживающих 113.
Численность временно отсутствующих 125.
В ТЕЧЕНИЕ ГОДА Родилось 27; умерло 36; прибыло на постоянное жительство из других городов 15; выехало на постоянное жительство из числа постоянного населения 11.
Рассчитать:
1) численность постоянного населения на начало и конец года;
2) естественный, механический и общий прирост населения.
Решение
1) Численность постоянного населения на начало года:
Численность постоянного населения на конец года определяется, исходя из численности на начало года, а также с учётом демографических процессов в течение года:
2) Естественный прирост (Δе) = Р – У = 27-36 = — 9 тыс. чел; Механический прирост (Δм) = П – В = 15 – 11 = 4 тыс. чел.;
Общий прирост (Δобщ) = Δе + Δм = -9 + 4 = -5 тыс. чел.
Проверка:
Вторая группа – относительные показатели (демографические коэффициенты). Традиционно большинство из них измеряется в промилле (‰). Эти показатели удобны при сравнении демографических процессов в регионах с разным числом жителей.
Общий коэффициент рождаемости (Кр) характеризует интенсивность деторождения по отношению к населению в целом (всех возрастов) и вычисляется как отношение числа родившихся живыми в течение года (Р) к среднегодовой численности населения :
Коэффициент рождаемости показывает число родившихся в расчёте на 1000 жителей (измеряется в ‰).
Общий коэффициент смертности (Кс) представляет собой отношение общего числа умерших в течение года (У) к среднегодовой численности населения:
Коэффициент смертности показывает число умерших в расчёте на 1000 жителей (измеряется в ‰).
Коэффициент естественного прироста представляет собой разность между коэффициентом рождаемости и коэффициентом смертности и измеряется в ‰:
Коэффициент жизненности, или Индекс Покровского (Кж) показывает, сколько родившихся приходится на 1 умершего за период:
Если данный коэффициент более 1, это говорит о положительной демографической тенденции – превышении числа родившихся над числом умерших. Специальный коэффициент рождаемости рассчитывается не по отношению ко всему населению, а к численности женщин репродуктивного (фертильного, детородного) возраста (15-49 лет):
где — среднегодовая численность женщин репродуктивного возраста. Этот показатель также измеряется в ‰.
Коэффициент прибытия (Кп) представляет собой соотношение общего числа прибывших в течение года (П) к среднегодовой численности населения:
Коэффициент прибытия показывает число прибывших в расчёте на 1000 жителей (измеряется в ‰).
Коэффициент выбытия (Кв) есть соотношение общего числа выбывших в течение года (В) к среднегодовой численности населения:
Коэффициент выбытия показывает число выбывших в расчёте на 1000 жителей (измеряется в ‰).
Коэффициент механического прироста – это разность между коэффициентами прибытия и выбытия. Он измеряется в ‰:
Коэффициент общего прироста – итоговый показатель, представляющий собой сумму коэффициентов естественного и механического приростов (и измеряется в ‰):
Относительные показатели естественного, механического и общего прироста могут иметь отрицательное значение.
Задача с решением №1.3
Данные о населении Самарской области (тыс. чел.) за 2014 год: численность на начало года – 3211,2, на конец года – 3212,7; родилось 40,3, умерло 45,9.
Рассчитать относительные показатели естественного движения населения Самарской области в 2014 году.
Решение
Проведём предварительный расчёт, необходимый для вычисления демографических коэффициентов – рассчитаем среднюю численность населения за год. Так как имеются данные на начало и конец года, то применяем среднюю арифметическую простую формулу:
Далее рассчитаем показатели в соответствии с заданием.
Общий коэффициент рождаемости
, то есть в расчёте на 1000 жителей в среднем рождалось 12,5 чел.
Общий коэффициент смертности
, то есть из каждой 1000 жителей в среднем умирает 14,3 чел.
Коэффициент естественного прироста
Коэффициент жизненности
то есть на одного умершего в среднем приходится 0,88 родившихся (на 100 умерших – 88 родившихся, и т.д.).
В отдельную группу можно выделить показатели, которые дают косвенную или дополнительную характеристику движения населения.
Средний возраст населения — примерная характеристика возрастной структуры населения. Его величина во многом является следствием таких демографических явлений, как смертность и миграция населения. Средний возраст вычисляется как средняя арифметическая путем деления общего числа человеко–лет (сумма произведений значений возраста на численность населения в этом возрасте) на общую численность населения.
Расчет можно производить также исходя из данных о численности населения по возрастным группам; тогда значением возраста считается середина интервала. Средний возраст населения рассчитывается по формуле:
где Н – общая численность населения;
– численность лиц в возрасте «Х» лет;
Х – число исполнившихся лет в годах, от 0 до 168;
0,5 – const;
– численность лиц, не указавших возраст.
Задача с решением №1.4
Численность населения Самарской области в возрасте 25 лет – 50474 чел., в возрасте 26 лет – 49910 чел., 27 лет – 49636 чел. Определить средний возраст населения в возрастной группе 25 – 27 лет.
Решение
1) Определим число человеко-лет в каждом из данных возрастов:
(25+0,5) х 50474 = 1287087,
(26+0,5) х 49910 = 1322615,
(27+0,5) х 49636 = 1364990.
2) Определим общее число человеко-лет в данной возрастной группе:
1287087 + 1322615 + 1364990 = 3974692.
3) Определим численность населения в возрастной группе 25-27 лет:
50474 + 49910 + 49636 = 150020 чел.
4) Определим средний возраст в возрастной группе 25-27 лет — число человеко-лет данной возрастной группы разделим на численность населения в этой же возрастной группе:
3974692 : 150020 = 26,49 лет.
На основе распределений родившихся по очередности рождения можно, прежде всего, определить относительные показатели структуры (долю рождений у матерей разного возраста в общей численности родившихся, долю первых, вторых и более рождений в общей численности рождений) и средние величины (средняя очередность рождения ребенка у матери).
Средняя очерёдность рождения (l) ребенка у матери характеризует интенсивность рождаемости и определяется по формуле:
l – порядковый номер родов (1, 2, 3 и более);
V – число живорожденных у матери с данным порядковым номером родов.
Задача с решением №1.5
Число родившихся у женщин, не состоящих в зарегистрированном браке, по очередности рождения первыми составляет 5701 чел., вторыми – 2026 чел., третьими – 537 чел., четвертыми – 156 чел., пятыми – 63 чел. Определить среднюю очередность рождения.
Решение
1) Найдем сумму произведений числа родившихся на очередность их рождения:
1 * 5701 + 2 * 2026 + 3 * 537 + 4 * 156 +5 * 63 = 12303.
2) Определим число родившихся всех очередностей рождения:
5701 + 2026 + 537 + 156 + 63 = 8483.
3) Определим среднюю очередность рождения – сумму произведений числа родившихся на очередность их рождения разделим на число родившихся всех очередностей рождения:
12303 : 8483 = 1,45.
Возрастные коэффициенты смертностиявляются частными показателями по отношению к рассмотренному ранее общему коэффициенту смертности. Они характеризуют уровень 16 смертности населения определённой возрастной группы (например, 70-летних жителей или населения в возрасте 50-59 лет).
Эти коэффициенты рассчитываются как отношение числа умерших в данном возрасте в течение календарного года к среднегодовой численности лиц данного возраста :
Младенческая смертность – это смертность детей на первом году жизни (0-12 мес.), важный статистический показатель состояния здравоохранения в стране (регионе). Расчет коэффициента младенческой смертности за год проводится по формуле:
– число умерших в возрасте до 1 года из родившихся в том году, для которого вычисляется коэффициент;
– число умерших в возрасте до 1 года из родившихся в предыдущем году;
– число родившихся в том году, для которого вычисляется коэффициент;
– число родившихся в предыдущем году.
Коэффициент перинатальной смертности рассчитывается как отношение суммы мертворожденных и умерших в возрасте 0-6 дней в данном году к числу родившихся живыми и мертвыми в этом же году, или как сумма коэффициентов мертворождаемости и ранней неонатальной смертности.
Коэффициент мертворождаемости рассчитывается как отношение числа мертворожденных в данном году к числу родившихся живыми и мертвыми в том же году.
Коэффициент ранней неонатальной смертности рассчитывается как отношение числа умерших в возрасте 0-6 дней к числу родившихся живыми и мертвыми в том же году.
Коэффициенты смертности по причинам смерти рассчитываются как отношения чисел умерших от указанных причин смерти к среднегодовой численности населения;
Коэффициент младенческой смертности по основным классам причин смерти рассчитывается для групп причин смерти, (инфекционные и паразитарные болезни, болезни органов дыхания, болезни органов пищеварения, врожденные аномалии, состояния, возникающие в перинатальном периоде, другие причины) как произведение доли умерших от данной причины среди всех умерших в возрасте до 1 года на коэффициент младенческой смертности;
Коэффициенты смертности рассчитывают на 1000 населения, коэффициенты смертности по причинам — на 100000 населения; коэффициенты младенческой смертности рассчитываются на 1000 родившихся, по причинам смерти — на 10000 родившихся.
Для оценки эффективности миграции определяется отношение механического прироста к объёму миграции, то есть к сумме прибывших (П) и выбывших (В):
Отрицательное значение говорит о том, сколько выбывших приходится на 1000 общей численности мигрантов; положительное значение — о том, сколько прибывших приходится на 1000 общей численности мигрантов.
Показатели брачности и разводимости
Семейная организация общества статистически может быть исследована показателями брачности и разводимости.
Брачность — это процесс образования супружеских пар населения. В ходе опросов и переписей состояние в браке учитывается не только на основании соотвествующего свидетельства, выданного органом ЗАГС, но и на основании собственного представления о своём брачном статусе (например, люди, совместно проживающие, но не зарегистрировавшие свои отношения официально, так же могут признать себя состоящими в браке).
Разводимость – процесс распада супружеских пар вследствие официального или неофициального расторжения брака. Прекращение брака, вызванное овдовением, не относится к понятию «разводимость», так как в данном случае причиной является смерть одного из супругов.
Брачность и разводимость являются факторами естественного движения населения (прежде всего, рождаемости).
Показатели брачности и разводимости также делятся на два вида:
1) абсолютные (измеряемые в единицах) – число браков (Бр) и число разводов (Рв);
2) относительные (измеряемые в коэффициентах или в промилле). Рассмотрим их более подробно.
Общий коэффициент брачности (Кбр) — отношение числа заключённых браков на определённой территории (Бр) за некоторый период к среднегодовой численности населения этой территории:
Общий коэффициент брачности показывает число зарегистрированных браков в расчёте на 1000 жителей (измеряется в ‰).
Общий коэффициент разводимости (Кразв) — отношение числа разводов (Рв) за данный период к средней численности населения за этот же период:
Общий коэффициент разводимости показывает число разводов в расчёте на 1000 жителей (измеряется в ‰).
Коэффициент соотношения браков и разводов (Кб/р) определяется по следующей формуле:
Этот показатель отражает число браков в расчёте на 1000 разводов. Если данный коэффициент более 1000, это говорит о превышении числа браков над числом разводов.
Обратная величина коэффициента соотношения браков и разводов — коэффициент неустойчивости браков (Кр/б). Он может быть определен на основе соотношения числа разводов и браков (или коэффициентов разводимости и брачности) и рассчитывается по формуле:
В данном случае определяется число разводов в расчёте на 1000 браков. Рост этого показателя говорит о нарастающей дезорганизации института семьи.
Задача с решением №1.6
Данные по Российской Федерации за 2014 год: среднегодовая численность населения 144 967 100 чел.; зарегистрировано браков 1225985, разводов 693730.
Рассчитать относительные показатели брачности и разводимости в РФ в 2014 году.
Решение
Общий коэффициент брачности
, то есть в расчёте на 1000 жителей в среднем заключалось 8,5 браков.
Общий коэффициент разводимости
, то есть в расчёте на 1000 жителей в среднем регистрировалось 4,8 разводов.
Коэффициент соотношения браков и разводов:
На 1000 разводов в среднем приходится 1767 браков.
Коэффициент неустойчивости браков:
На 1000 браков в среднем приходится 570 разводов.
Коэффициенты брачности и разводимости зависят от возрастной и брачной структуры населения, так как число браков и разводов сопоставляется со всем населением, включая не состоящих в браке людей (в том числе детей). Это облегчает их расчёт и интерпретацию, однако при этом не всегда понятен экономический смысл результатов. Данный недостаток можно устранить расчётом частных коэффициентов (по отношению не к населению в целом, а к его определённой части).
Специальные коэффициенты брачности и разводимости определяются для населения брачного возраста – от 15 лет (Н15+) — независимо от его брачного состояния:
Эти коэффициенты отражают, соответственно, число браков и разводов в расчёте на 1000 жителей в возрасте от 15 лет (измеряются в ‰). Несмотря на то, что Семейный кодекс РФ (ст. 13) устанавливает наступление брачного возраста с 18 лет, тот же нормативный акт позволяет региональным властям разрешать снижение брачного возраста (до 16 лет) при наличии исключительных обстоятельств. Часть субъектов Федерации этим правом уже воспользовалась.
Демографические прогнозы
Для прогнозирования численности населения используются как стандартные статистические и эконометрические методы (например, прогнозирование на основе трендовых моделей), так и специфические, присущие только демографическим расчётам.
Рассмотрим два подобных метода:
1) прогнозирование на основе общего прироста;
2) возрастная передвижка (передвижка возрастов).
Прогнозирование на основе общего прироста
В основе прогнозирования лежит формула:
– численность населения на начало прогнозного периода;
– коэффициент общего прироста населения;
L – срок прогноза.
Эта формула представляет собой модификацию формулы прогнозирования на основе среднего темпа роста (см. тему «Ряды динамики» в курсе «Теория статистики») [1, c. 18-23]. Роль среднего темпа роста выполняет коэффициент общего прироста населения.
Задача с решением №1.7
Данные по региону:
Среднегодовая численность населения в 2015 году составила 2500 тыс. чел.
В последние годы в регионе смертность всего населения составила в среднем 19 ‰, рождаемость 12 ‰, прибытие 10 ‰, выбытие 8 ‰.
Вычислить перспективную численность населения региона в 2017 году.
Решение
Сделаем предварительный расчёт коэффициента общего прироста:
Нам известны: численность населения на начало прогнозного периода (2500 тыс. чел.), срок прогноза (2 года = 2017 – 2015). Рассчитаем перспективную численность населения региона в 2017 году:
Возрастная передвижка
Метод основан на данных о вероятности людей возраста i дожить до возраста i+1. Для реализации метода требуется следующая информация по каждой возрастной группе населения:
1) возрастные коэффициенты смертности;
2) возрастные коэффициент дожития .
Эти показатели взаимодополняют друг друга до 1, то есть до 1000 ‰.
Задача с решением №1.7.1
Смертность 70-летних жителей региона составляет 35 ‰ (то есть вероятность умереть равна 0,035). Значит, коэффициент дожития будет равен 1000 ‰ — Таким образом, из каждой тысячи 70-летних жителей до возраста 71 год в среднем доживают 965 чел. (вероятность дожития составляет 0,965).
Общая формула для передвижки возрастов:
, где:
– численность населения в следующем году (в возрасте i+1).
Данные о возрастной смертности содержатся в таблицах смертности, формируемых на основе многолетних наблюдений за уровнем смертности каждой возрастной группы на конкретной территории.
При прогнозировании населения важно знать, что коэффициенты смертности различаются не только по территориям и возрастам, но и по полу (у мужчин они значительно выше, чем у женщин).
Таблицы смертности – это таблица, содержащая информацию о смертности в определённой совокупности населения, точнее, порядок вымирания поколений людей при тех или иных заданных вероятностях умереть.
Для построения таблиц смертности необходимы сведения о численности возрастно-половых групп населения, количестве умерших по возрастным группам.
Задача с решением №1.8
Данные по городу: На 1 января 2016 года проживало 1700 чел. в возрасте 44 года. Известны данные о смертности:
Определить вероятную численность 47-летних жителей на 1 января 2019 года.
Решение
Сделаем «передвижку» на один год вперёд, когда 44-летним жителям исполнится 45 лет. Для удобства и корректности расчётов коэффициенты выразим не в промилле, разделив их на 1000.
Рассчитаем численность 45-летних жителей на 1 января 2017 года:
Сделаем ещё одну «передвижку» на один год вперёд, когда 45- летним жителям исполнится 46 лет.
Рассчитаем численность 46-летних жителей на 1 января 2018 года:
В итоге делаем ещё одну «передвижку» на один год вперёд, когда 46-летним жителям исполнится 47 лет.
Рассчитаем численность 47-летних жителей на 1 января 2018 года:
Все расчёты можно свести к следующей формуле:
Информация о вероятности дожития имеет важное применение в таких сферах деятельности, как: пенсионная система, страхование жизни, оценка демографической ситуации и т.д.
Статистика рынка труда, показатели численности и состава трудовых ресурсов
Термин «трудовые ресурсы» появился в 1920-х годах в работах академика С.Г. Струмилина. Наибольшее распространение он получил именно в отечественной статистике.
Трудовые ресурсы — это часть населения, которая по возрасту и состоянию здоровья способна производить материальные и духовные блага, а также оказывать услуги [4, c. 101-102]. Трудовые ресурсы включают как занятых, так и незанятых, но способных работать. Таким образом, трудовые ресурсы состоят из населения, занятого фактически, а также потенциально занятого.
Основой для расчёта трудовых ресурсов является группировка населения по возрасту. Выделяют 3 возрастных группы населения.
1) Трудоспособный (рабочий) возраст – это женщины 16-54 лет (включительно), мужчины 16-59 лет (включительно).
2) Моложе трудоспособного возраста – лица обоего пола 0 – 15 лет.
3) Старше трудоспособного возраста (лица пенсионного возраста) — это женщины 55 лет и старше, мужчины 60 лет и старше.
Примечания:
— в зависимости от законодательно изменённых возрастных границ выхода на пенсию могут измениться и границы трудоспособного возраста;
— нижняя граница трудоспособного возраста (16 лет) не связана с законодательно разрешённым в РФ возрастом, когда подростки могут вступать в трудовые отношения (только по достижению 14 лет).
Среди лиц трудоспособного возраста по признаку состояния здоровья различают две группы населения – трудоспособные и нетрудоспособные.
В группу нетрудоспособных включаются: неработающие инвалиды I и II групп рабочего возраста, неработающие пенсионеры трудоспособного возраста, получающие пенсию на льготных условиях.
Для того чтобы рассчитать численность трудовых ресурсов, можно взять за основу общую численность населения трудоспособного возраста, к которой прибавляется число работающих пенсионеров и работающих подростков (моложе 16 лет) и исключается количество неработающих инвалидов I и II групп (рабочего возраста), а также численность пенсионеров трудоспособного возраста, получающих пенсию на льготных условиях.
Рис. 2.1. Состав трудовых ресурсов
Задача с решением №2.1
Имеются следующие данные по региону на конец года, тыс. чел.:
Трудоспособные наёмные работники рабочего возраста 2040;
Трудоспособные лица рабочего возраста, занятые собственным делом 175;
Занятые инвалиды рабочего возраста 4;
Незанятые инвалиды рабочего возраста 36;
Занятые льготные пенсионеры рабочего возраста 17;
Незанятые льготные пенсионеры рабочего возраста 98;
Незанятые трудоспособные лица рабочего возраста 604;
Занятые подростки и пенсионеры 233.
Рассчитать (на конец года):
1. численность лиц рабочего возраста;
2. численность трудоспособных лиц рабочего возраста;
3. численность трудовых ресурсов.
Решение
1) Численность лиц рабочего возраста =
2040+175+4+36+17+98+604=2974 тыс. чел.
2) Численность трудоспособных лиц рабочего возраста =
2040+175+604=2819 тыс. чел.
3) Численность трудовых ресурсов =
2040+175+4+17+604+233=2840 тыс. чел.
Средняя численность трудовых ресурсов рассчитывается теми же методами, что и средняя численность населения (см. тему 1). Так, по данным на начало и конец года определяется по формуле средней арифметической простой:
— численность трудовых ресурсов на начало периода;
— численность трудовых ресурсов на конец периода;
по данным на определённые даты через равные промежутки времени между ними по формуле средней хронологической простой:
n – число уровней ряда динамики (дат).
Соотношение между отельными возрастными группами в структуре трудовых ресурсов дают показатели демографической нагрузки. Они характеризуют соотношение лиц того или иного возраста и лиц трудоспособного возраста.
Коэффициент пенсионной нагрузки (нагрузки пожилыми людьми) рассчитывается как отношение числа лиц старше трудоспособного возраста к численности лиц трудоспособного возраста :
Он показывает, сколько лиц пенсионного возраста приходится в среднем на 1000 лиц трудоспособного возраста.
Коэффициент замещения трудовых ресурсов (нагрузки детьми) рассчитывается как отношение числа лиц моложе трудоспособного возраста к численности лиц трудоспособного возраста :
Он показывает, сколько лиц в возрасте моложе 16 лет приходится в среднем на 1000 лиц трудоспособного возраста.
Коэффициент общей (демографической) нагрузки можно рассчитать суммированием двух предыдущих коэффициентов или соотношением числа лиц нетрудоспособных возрастов к численности лиц трудоспособного возраста:
Результат показывает, сколько лиц нетрудоспособных возрастов приходится в среднем на 1000 лиц трудоспособного возраста.
Задача с решением №2.2
Данные о распределении населения Российской Федерации (на начало 2015 года), тыс. чел.:
Исчислить:
1) удельный вес отдельных возрастных групп в общей численности населения;
2) коэффициенты нагрузки детьми, пожилыми людьми;
3) общий коэффициент демографической нагрузки.
Решение
Сделаем предварительный расчёт – вычислим общую численность населения (Н) страны на начало 2015 года:
25689+85415+35163=146267 тыс. чел.
1) Удельный вес (доля) отдельных возрастных групп в общей численности населения – это относительная величина структуры (см. тему «Относительные величины» в курсе «Теории статистики»). Она представляет собой соотношение части и целого. При этом вся совокупность принимается равной 100 %.
Удельный вес населения моложе трудоспособного возраста = 17,6 %
Удельный вес населения трудоспособного возраста = 58,4 %
Удельный вес населения старше трудоспособного возраста = 24,0 %
Проверить правильность расчётов можно суммированием всех трёх полученных чисел. Сумма должна составить 100 %:
17,6 + 58,4 + 24 = 100 %.
2) Коэффициент нагрузки детьми = 301 ‰
На 1000 чел. трудоспособного возраста в среднем приходится 301 чел. моложе трудоспособного возраста.
Коэффициент нагрузки пожилыми людьми = 412 ‰
На 1000 чел. трудоспособного возраста в среднем приходится 412 чел. старше трудоспособного возраста.
3) Коэффициент общей нагрузки = 713 ‰
На 1000 чел. трудоспособного возраста в среднем приходится 713 чел. нетрудоспособных возрастов.
Показатели движения трудовых ресурсов
Движение трудовых ресурсов – это изменение численности трудовых ресурсов. По аналогии с демографической статистикой, различают 2 формы движения:
1) естественное (не связанное с процессом миграции);
2) механическое (миграция).
Выделяют две группы показателей движения трудовых ресурсов.
К первой группе относятся абсолютные показатели (единица измерения — чел.).
— естественное пополнение (Пе) – это пополнение численности трудовых ресурсов по следующим причинам: вступление в 30 трудоспособный возраст подростков; привлечение к занятости пенсионеров, инвалидов, а также лиц моложе 16 лет;
— естественное выбытие (Ве) – это выход из числа трудовых ресурсов по следующим причинам: смертность и переход на инвалидность трудовых ресурсов, выход на пенсию; прекращение занятости лиц моложе 16 лет.
— естественный прирост (Δе) = Пе – Ве;
— механическое пополнение (Пм) – это пополнение численности трудовых ресурсов по причине миграции (приезда из других регионов);
— механическое выбытие (Вм) – это выбытие из числа трудовых ресурсов по причине миграции (отъезда в другие регионы);
— механический (миграционный) прирост (Δм) = Пм – Вм;
— общий прирост (Δобщ) = Δе + Δм.
Кроме того, общий прирост можно также вычислить как разность численности трудовых ресурсов на конец и на начало периода.
Показатели естественного, механического и общего прироста (Δе, Δм, Δобщ) могут иметь отрицательное значение, что говорит об уменьшении численности трудовых ресурсов под влиянием тех или иных причин.
Для того чтобы рассчитать интенсивность изменения численности трудовых ресурсов, используются относительные показатели (коэффициенты), измеряемые в промилле (‰).
Коэффициент естественного пополнения трудовых ресурсов рассчитывается как отношение числа вступивших в трудоспособный возраст и привлеченных к общественному труду пенсионеров и подростков к среднему количеству трудовых ресурсов за определённый период:
Коэффициент естественного выбытия рассчитывается как отношение количества выбывших из состава трудовых ресурсов (по причине смертности, инвалидности, выхода на пенсию) к средней величине трудовых ресурсов:
Коэффициент естественного прироста рассчитывается как разность между коэффициентами пополнения и выбытия трудовых ресурсов:
Коэффициент механического пополнения показывает число прибывших трудовых ресурсов в расчёте на 1000 человек трудовых ресурсов:
Коэффициент механического выбытия рассчитывается как отношение количества выбывших из состава трудовых ресурсов по причине миграции к средней величине трудовых ресурсов:
Коэффициент механического прироста трудовых ресурсов рассчитывается как отношение миграционного прироста к средней величине трудовых ресурсов:
Коэффициент общего прироста трудовых ресурсов рассчитывается как сумма коэффициентов естественного и механического прироста:
Относительные показатели естественного, механического и общего приростамогут иметь отрицательное значение.
Задача с решением №2.3
Данные по региону, тыс. чел.:
Рассчитать:
1. численность трудовых ресурсов на начало и конец года;
2. среднегодовую численность трудовых ресурсов;
3. абсолютные показатели движения трудовых ресурсов;
4. относительные показатели движения трудовых ресурсов.
Решение
1) численность трудовых ресурсов на начало года (ТРнач):
ТРнач = 2800-480+215 = 2535 тыс. чел.
численность трудовых ресурсов на начало года (ТРкон):
ТРкон = 2535+198-252+20-16+67-47=2505 тыс. чел.
2) среднегодовая численность трудовых ресурсов
3) абсолютные показатели движения трудовых ресурсов
Естественное пополнение:
Пе = 198+20 = 218 тыс. чел.
Естественное выбытие:
Ве = 252 +16 = 268 тыс. чел.
Естественный прирост:
Δе = Пе — Ве = 218-268 = — 50 тыс. чел;
Механическое пополнение:
Пм = 67 тыс. чел.
Механическое выбытие:
Вм = 47 тыс. чел.
Механический прирост:
Δм = Пм – Вм = 67 – 47 = 20 тыс. чел.;
Общий прирост:
Δобщ = Δе + Δм = -50 + 20 = -30 тыс. чел.
Проверка:
4) относительные показатели движения трудовых ресурсов
Коэффициент естественного пополнения:
,то есть на каждую 1000 человек трудовых ресурсов естественное пополнение составляет в среднем 86,5 чел.
Коэффициент естественного выбытия:
, то есть на каждую 1000 человек трудовых ресурсов естественное выбытие составляет в среднем 106,3 чел.
Коэффициент естественного прироста:
Коэффициент механического пополнения:
, то есть на каждую 1000 человек трудовых ресурсов механическое пополнение составляет в среднем 26,6 чел.
Коэффициент механического выбытия:
, то есть на каждую 1000 человек трудовых ресурсов механическое выбытие составляет в среднем 18,7 чел.
Коэффициент механического прироста:
Коэффициент общего прироста:
Показатели экономической активности населения
При изучении экономической активности населения статистика использует следующие источники информации:
— отчётность предприятий (о численности занятых);
— отчётность служб занятости (о численности зарегистрированных безработных);
— переписи населения;
— периодические выборочные обследования.
Отечественная статистическая методология исследования рынка труда во многом базируется на рекомендациях МОТ (Международной организации труда).
При исследовании рынка труда выделяют четыре основные категории населения: «занятые», «безработные», «экономически активное население» (ЭАН), «экономически неактивное население» (ЭНН). При этом объектом статистического наблюдения является население только в возрасте 15 – 72 лет.
С 2017 года Росстат заменяет две последние категории новыми, принятыми в международных стандартах – «рабочая сила» и «лица, не входящие в состав рабочей силы», а также планирует отменить верхнюю границу обследуемого возраста.
Занятые – это лица, которые в рассматриваемый период:
1) выполняли работу по найму за вознаграждение на условиях полного или неполного рабочего времени* (при этом не важно, присутствовал ли человек фактически на рабочем месте или находился, например, в отпуске); (*Неполное рабочее время – как минимум, один час в неделю)
2) самостоятельно обеспечивали себя работой (с использованием или без использования наёмной рабочей силы);
3) выполняли работу без оплаты на семейном предприятии.
Однако отметим, что в нашей стране не существует такой юридической формы предпринимательства, как «семейный бизнес».
К занятым также относятся:
— служители религиозных культов (духовенство),
— военнослужащие (в том числе срочной службы),
— лица, которые временно отсутствовали на работе (из-за болезни, ухода за больными, ежегодного отпуска и т.д.),
— лица, занятые в домашнем хозяйстве производством товаров и услуг для продажи или обмена.
К занятым не относятся учащиеся очных отделений трудоспособного возраста (школьники, студенты). Если данные категории населения вышли на работу, то они включаются в состав занятых.
В статистике выделяют несколько группировок занятого населения. Во-первых, оно группируется по основным социальнодемографическим характеристикам (по полу, возрасту, уровню образования и т.д.); во-вторых, по статусу занятости.
Различают два статуса занятости: наёмные работники и лица, работающие не по найму.
К наёмным работникам относятся:
а) лица, заключившие договор, контракт или устное соглашение с работодателем об условиях трудовой деятельности;
б) лица, избранные или назначенные на оплачиваемую должность.
Лица, работающие не по найму, включают следующие категории:
а) самозанятые – лица, работающие на индивидуальной основе (не использующие наёмный труд или использующие его нерегулярно);
б) работодатели (занятые на собственном предприятии и использующие труд наёмных работников на постоянной основе);
в) члены производственных кооперативов;
г) неоплачиваемые работники семейных предприятий.
В развитых странах с рыночной экономикой наёмные работники составляют в среднем более 90% всей рабочей силы.
Согласно методологии МОТ, к безработным относятся лица 15- 72 лет, которые в рассматриваемый период соответствовали трём критериям (одновременно):
а) не имели работы (доходного занятия);
б) занимались поиском работы (обращались в службу занятости, использовали или помещали объявления в печати, непосредственно обращались к работодателю, использовали личные связи, предпринимали шаги к организации собственного дела);
в) были готовы приступить к работе в настоящий момент (если появится возможность трудоустройства).
Обратим ваше внимание на то, что признание человека безработным может произойти и в случае, если он не обращался в службу занятости (государственную или коммерческую), а искал работу своими силами.
Учащиеся, студенты, пенсионеры и инвалиды учитываются в качестве безработных, если они занимались поиском работы и были готовы приступить к ней.
Таким образом, понятие «безработный» не тождественно понятию «незанятый». Первая категория является частью второй, так как не каждый незанятый человек ищет работу или готов к ней приступить.
Согласно Федеральному Закону (ФЗ) «О занятости населения РФ» (ст. 3) [2] безработными признаются трудоспособные граждане старше 15 лет, которые не имеют работы и заработка, зарегистрированы в органах службы занятости в целях поиска подходящей работы, ищут работу и готовы приступить к ней.
В отличие от методологии МОТ, Федеральный Закон позволяет признать человека безработным только после регистрации в службе занятости («зарегистрированная безработица»).
Экономически активное население (ЭАН) (Рабочая сила) – это лица, обеспечивающие предложение рабочей силы. В количественном отношении ЭАН равно сумме занятых и безработных. В ЭАН входит население, которое ведёт себя активно на рынке труда.
С 2017 года в практику статистики вводится показатель «потенциальная рабочая сила», который включает лиц, частично удовлетворяющих критериям безработных, но формально не относящимся к ним: 1) искали работу, но не были готовы приступить к ней; 2) не искали работу, однако хотели работать и были готовы приступить к работе.
Экономически неактивное население (ЭНН) (Лица, не входящие в состав рабочей силы) – это часть трудоспособного населения и лиц старших возрастов, которые в рассматриваемый период не работали по найму, не имели занятия, приносящего доход, и не были заняты поиском работы:
— учащиеся и студенты очной формы обучения;
— лица, занятые ведением домашнего хозяйства, уходом за детьми, больными и т.д.;
— лица, у которых нет необходимости работать;
— отчаявшиеся найти работу и т.д.
Рынок труда характеризуется следующими статистическими показателями.
Уровень занятости (Уз) – соотношение численности занятого населения (Зан) с той или иной численностью населения. Он может быть вычислен как на определённую дату, так и в среднем за период. Уровень занятости рассчитывается в процентах (%) и определяется в нескольких вариантах:
а) в расчёте на общую численность трудовых ресурсов:
б) в расчёте на трудоспособное население :
в) в расчёте на экономически активное население:
Уровень безработицы (Уб) показывает процент безработного населения в общей численности экономически активного населения. В то же время надо различать уровень безработицы по методологии МОТ и по методологии ФЗ «О занятости населения в Российской Федерации»:
А) по методологии МОТ:
Б) по методологии ФЗ «О занятости населения в Российской Федерации» рассчитывается уровень зарегистрированной безработицы (Уб’):
Б’ — численность безработных, зарегистрированных в государственных учреждениях службы занятости.
По своей величине уровень безработицы (МОТ) больше, чем уровень зарегистрированной безработицы, так как числитель его формулы больше числителя в формуле Уб’.
Уровень занятости (в расчёте на экономически активное население) и уровень безработицы взаимодополняют друг друга до 100 %.
Уровень экономической активности населения (Уэан) – это удельный вес (доля) численности экономически активного населения в общей численности населения (Н):
Он также может быть вычислен как на определённую дату, так и в среднем за период.
Коэффициент напряжённости на рынке труда характеризует численность незанятых граждан, зарегистрированных в государственных учреждениях службы занятости населения, в расчёте на одну заявленную вакансию:
– численность безработных, обратившихся в службу занятости;
В – число вакантных должностей и свободных рабочих мест.
Этот коэффициент показывает, какое число не занятых трудовой деятельностью лиц, состоящих на учёте в службе занятости, приходится на одно свободное рабочее место.
Продолжительность безработицы, или Среднее время поиска работы безработными характеризует длительность поиска работы лицами, имеющими статус безработного на конец рассматриваемого периода, а также теми безработными, которые были в этом периоде трудоустроены. Это отрезок времени (измеряемый в месяцах) от момента начала поиска работы до момента трудоустройства. Если безработный ещё не нашёл работу, то срок поиска рассчитывается до начала данного периода.
Безработица продолжительностью 6 – 12 месяцев называется застойной, а 12 и более месяцев – хронической. Соответственно, рассчитывается показатель «Удельный вес безработных, ищущих работу 12 месяцев и более» (соотношение хронических безработных и всей численности безработных).
Задача с решением №2.4
Результаты выборочного обследования о численности населения региона в среднем за период, тыс. чел.:
Вычислить:
1) в каждом периоде – численность занятых, безработных, экономически активного населения, уровень занятости (в расчёте на экономически активное население) и безработицы (по методологии МОТ);
2) абсолютные приросты и темпы прироста численности экономически активного населения и безработных.
Решение
1) БАЗИСНЫЙ ГОД
Численность занятых:
Зан = 354+26= 380 тыс. чел.;
Численность безработных: Б = 19 тыс. чел. (так как только эти лица соответствовали всем критериям безработного по методологии МОТ);
Численность экономически активного населения:
ЭАН = Зан + Б = 380+19 = 399 тыс. чел.
Уровень занятости (Уз):
Уровень безработицы (Уб) по методологии МОТ:
ОТЧЁТНЫЙ ГОД
Численность занятых:
Зан = 268+28= 396 тыс.чел.;
Численность безработных:
41 Б = 22тыс. чел.;
Численность экономически активного населения:
ЭАН = Зан + Б = 396+22 = 418 тыс.чел.
Уровень занятости (Уз):
Уровень безработицы (Уб) по методологии МОТ:
2) Абсолютные приросты и темпы прироста экономически активного населения и безработных (см. тему «Ряды динамики» в курсе «Теории статистики»).
Абсолютный прирост (Δ) — это разность уровней ряда динамики (в абсолютных единицах измерения). Темп прироста (Тп) показывает процентное изменение уровней ряда динамики. Он представляет собой величину, полученную соотношением абсолютного прироста и уровня базисного периода .
Абсолютный прирост численности экономически активного населения:
Δ = 417 – 399 = 18 тыс. чел.
Темп прироста численности экономически активного населения:
4,5 %.
Вывод: численность ЭАН в отчётном периоде возросла на 18 тыс. чел., то есть на 4,5 %.
Абсолютный прирост численности безработных:
Δ = 22 – 19 = 3 тыс. чел.
Темп прироста численности безработных:
15,8 %.
Вывод: численность безработных в отчётном периоде возросла на 3 тыс. чел., то есть на 15,8 %.
Статистика национального богатства, понятие и состав национального богатства
Национальное богатство (НБ) — это совокупность накопленных материальных и нематериальных активов (благ), которыми располагает общество в данный момент времени, создающих необходимые условия производства товаров, оказания услуг и обеспечения жизни людей.
Экономические активы — это находящиеся в собственности объекты, владельцы и пользователи которых могут извлекать экономические выгоды в результате их хранения или использования. Все экономические активы, включаемые в состав НБ, по рекомендации ООН подразделяются на две основные группы: нефинансовые и финансовые активы.
В свою очередь, в группе нефинансовых активов выделяют произведённые и непроизведённые активы, материальные и нематериальные активы.
Произведённые активы созданы в результате производственной деятельности; непроизведённые активы не являются результатом производственной деятельности.
Материальные активы имеют натурально-вещественную форму, соответственно, нематериальные активы её не имеют.
Финансовые активы представляют собой средства осуществления финансовых расчетов между институциональными единицами, связанными финансовыми обязательствами и финансовыми требованиями.
По источникам происхождения в составе национального богатства выделяют две основные части: природные ресурсы и национальное имущество.
Природные ресурсы (природные богатства) составляют первую важнейшую группу ресурсов, куда включаются учтенные и вовлеченные в экономический оборот как невозобновляемые природные ресурсы (земля, полезные ископаемые), так и возобновляемые природные ресурсы (вода, воздух, растительные и животные ресурсы).
Вторую важнейшую группу ресурсов составляет национальное имущество — совокупность накопленных материальных благ, созданных в ходе трудовой деятельности людей. Сюда относят материальные, нематериальные, финансовые, нефинансовые активы регионов, отраслей, секторов экономики, а также юридических и физических лиц. В отдельную группу выделяют потребительские товары длительного пользования, прямые иностранные инвестиции и золотой запас. В состав национального имущества включается и личное имущество граждан.
Рис. 3.1. Состав национального богатства
Рассмотрим отдельные элементы национального богатства.
Материальные произведённые нефинансовые активы включают в себя:
— основные фонды (более подробно будут рассмотрены в п. 3.2);
— запасы материальных оборотных средств (более подробно будут рассмотрены в п. 3.3);
— ценности (дорогостоящие предметы длительного пользования, которые приобретаются в расчёте на увеличение их реальной стоимости
— драгоценные металлы и камни, произведения искусства, антиквариат и т.д.).
Нематериальные произведённые нефинансовые активы включают в себя:
— компьютерное программное обеспечение;
— затраты на геологоразведочные работы;
— оригинальные литературные и художественные произведения (в том числе концерты, спектакли) и т. д.
Материальные непроизведённые нефинансовые активы включают в себя природные ресурсы (невыращиваемые биоресурсы). Они делятся на следующие группы: земельные ресурсы; водные ресурсы; лесные ресурсы; запасы полезных ископаемых и т.д. Важно понимать, что не все богатства природы можно отнести к национальному богатству. Как уже отмечалось выше, критерием является наличие права собственности. Исходя из этого, в состав НБ нельзя включить атмосферный воздух, нейтральные воды Мирового океана, естественные космические объекты (планеты и т.д.).
Нематериальные непроизведённые нефинансовые активы включают в себя:
— торговые марки и товарные знаки;
— авторские права;
— патенты;
— гудвилл (деловая репутация) и т.д.
Финансовые активы включают в себя:
— наличные деньги;
— депозиты (денежные средства, размещенные в банках на хранение);
— ценные бумаги (кроме акций);
— акции и прочие виды акционерного капитала;
— займы;
— страховые технические резервы (формируются страховыми организациями в ходе проведения страховых операций как обязательные накопительные суммы, выполняющие функцию финансовых гарантий);
— дебиторская и кредиторская задолженности (торговые кредиты, авансы в счет оплаты незавершенных работ и др.);
— специальные права заимствования (международные резервные и платежные средства, которые используются для безналичных международных расчетов как форма мировых денег);
— монетарное золото (золотой запас страны, хранящийся в государственных денежно-кредитных учреждениях).
Объём НБ предполагает его стоимостную оценку, однако полную стоимость НБ страны крайне сложно достоверно рассчитать, так как по многим элементам НБ нет проработанной методики их денежной оценки (например, по оценке стоимости водных и лесных ресурсов, гудвиллу и т.д.).
Статистика основных фондов
Основные фонды (основные средства) – это активы, которые длительное время (более одного года) многократно используются в экономике в неизменной натурально-вещественной форме, постепенно перенося свою стоимость на вновь создаваемые продукты или услуги в виде амортизационных отчислений [5].
Рассмотрим классификации основных фондов.
1) По видам (здания, сооружения, машины и оборудование, транспортные средства, производственный и хозяйственный инвентарь, многолетние насаждения, продуктивный и рабочий скот, передаточные устройства и т.д.);
2) По назначению:
— производственные (обеспечивающие производственный процесс);
— непроизводственные (объекты культурно-бытового назначения).
3) По степени участия в производственном процессе (классифицируются только основные производственные фонды):
— активные (непосредственное участие в производстве – станки, инструмент);
— пассивные (косвенное участие в производстве – здания, сооружения).
4) Другие классификации (по степени износа, по формам собственности, по возрасту и т.д.).
Так как основные фонды функционируют длительное время, их стоимость подвержена изменению. Исходя из этого, различают несколько видов их стоимостной оценки.
Полная первоначальная стоимость (ПС) – это стоимость основных фондов в фактических ценах на момент ввода их в эксплуатацию, включая не только цену конкретного объекта, но и затраты на его доставку и установку.
Первоначальная стоимость за вычетом износа (остаточная первоначальная стоимость, ОС) — это стоимость основных фондов за вычетом накопленного за время их функционирования износа (И) в виде амортизационных отчислений:
ОС = ПС – И. (3.1)
Полная восстановительная стоимость (ПВС) — стоимость их воспроизводства в современных ценовых условиях. Она учитывает те же самые затраты, что и первоначальная стоимость, но в современных ценах.
Восстановительная стоимость с учётом износа (остаточная восстановительная стоимость, ОВС) — стоимость, характеризующая фактическую степень изношенности объекта в новых условиях воспроизводства:
ОВС = ПВС – И. (3.2)
Восстановительная стоимость рассчитывается после проведения переоценки основных фондов.
Таким образом, полная стоимость больше остаточной стоимости на величину износа.
Для более полного отражения состояния и движения основных фондов используют балансы основных фондов. Они бывают двух видов: по полной стоимости и по остаточной стоимости – и представляют собой таблицы с информацией об изменении стоимости основных фондов за период. Сокращённые формы обоих балансов приводятся на рис. 3.2 и 3.3.
Используя введённые условные обозначения, выразим балансовое равенство:
Балансовое равенство будет иметь следующий вид:
Сумма ежегодных амортизационных отчислений (А) включается в себестоимость изготовленной продукции и определяется по формуле:
– норма амортизации (%);
— среднегодовая полная первоначальная (восстановительная) стоимость основных фондов.
Задача с решением №3.1
Имеются следующие данные по производственному объединению за год, млн. руб.:
Основные фонды по полной стоимости на начало года 7000.
Сумма износа основных фондов на начало года 2400.
Введено в действие новых основных фондов за год 1100.
Приобретено у других предприятий основных фондов (по полной стоимости) 2300, их износ 600.
Выбыло основных фондов в течение года по полной стоимости 800.
Остаточная стоимость выбывших основных фондов 80.
Годовая сумма амортизационных отчислений 715.
Построить балансы основных фондов.
Решение
Баланс по полной стоимости
Баланс по остаточной стоимости
Баланс по полной стоимости
Балансы дают необходимую информацию для анализа основных фондов, который проводится по трём направлениям:
1) анализ состояния основных фондов;
2) анализ движения основных фондов;
3) анализ эффективности использования основных фондов.
По каждому направлению анализа вычисляется своя система показателей (коэффициентов).
К показателям состояния основных фондов относятся коэффициент годности и коэффициент (степень) износа. Они рассчитываются на начало и на конец периода и взаимно дополняют друг друга до 100 %:
Коэффициент годности рассчитывается как соотношение основных фондов по остаточной (ОС) и полной стоимости (ПС) — на начало и на конец периода:
Он показывает, какую часть своей полной стоимости основные фонды сохранили на определённый момент времени.
Коэффициент износа рассчитывается как соотношение суммы износа (И) и полной стоимости основных фондов (ПС) — на начало и на конец периода:
Он показывает, какую часть своей полной стоимости основные фонды уже утратили в результате их использования.
После расчётов делается вывод об изменении состояния основных фондов в конце периода по сравнению с началом.
Здесь возможны 3 ситуации:
1) улучшение состояния (рост коэффициента годности, снижение коэффициента износа);
2) ухудшение состояния (снижение коэффициента годности, рост коэффициента износа);
3) стабильное состояние (оба коэффициента не изменились).
Задача с решением №3.1 (продолжение)
Рассчитать показатели состояния основных фондов.
Решение
Коэффициент годности на начало года:
Коэффициент износа на начало года:
Коэффициент годности на конец года:
Коэффициент износа на конец года:
ВЫВОД: Состояние основных фондов к концу года улучшилось (так как коэффициент годности возрос, а коэффициент износа снизился).
К показателям движения основных фондов относятся: коэффициент поступления, коэффициент обновления и коэффициент выбытия. Они рассчитываются только по полной стоимости.
Коэффициент поступления представляет собой отношение поступивших в данном периоде основных фондов (по полной стоимости) к их полной стоимости на конец года:
Он показывает долю поступивших объектов (%) в общей стоимости на конец периода.
Коэффициент обновления представляет собой отношение вновь введённых в действие в данном периоде основных фондов (по полной стоимости) к полной стоимости на конец года:
Он показывает долю новых объектов (%) в общей стоимости на конец периода. Если введены только новые основные фонды, то коэффициенты поступления и обновления равны друг другу.
Коэффициент выбытия равен отношению полной стоимости выбывших в данном периоде основных фондов к полной стоимости на начало года:
Он показывает долю выбывших объектов (%) в общей стоимости на начало периода.
Задача с решением №3.1 (продолжение)
Рассчитать показатели движения основных фондов.
Решение
Коэффициент поступления :
Коэффициент обновления :
Коэффициент выбытия :
К показателям эффективности использования основных фондов относятся: фондоотдача, фондоёмкость и фондовооружённость.
Фондоотдача – прямой показатель, характеризующий эффективность использования основных фондов. Его можно рассчитать соотношением стоимости продукции (Q) и среднегодовой стоимости ОФ :
Уровень фондоотдачи показывает, сколько рублей продукции приходится на каждый рубль, вложенный в основные фонды. Рост данного показателя свидетельствует о повышении эффективности использования основных фондов.
Дополнительным показателем выступает фондоотдача активной части основных фондов . В этом случае в знаменателе будет использоваться среднегодовая стоимость машин, оборудования, инструмента :
Между двумя показателями существует взаимосвязь: общую фондоотдачу получают как произведение отдачи активных фондов на их долю в общей стоимости основных фондов :
Фондоёмкость – показатель, обратный фондоотдаче. Уровень фондоёмкости можно определить по формуле:
Уровень фондоёмкости характеризует размер основных фондов, затраченных предприятием для производства 1 руб. продукции. Предприятие должно стремиться к снижению данного показателя.
Фондовооружённость представляет собой соотношение средней стоимости основных фондов и средней численности работников:
В знаменателе можно рассматривать как среднесписочную численность персонала в целом, так и численность только одной категории работников.
Результат показывает, сколько рублей основных фондов приходится на одного среднесписочного работника предприятия.
Рост или снижение данного показателя нельзя интерпретировать однозначно. Например, повышение фондовооружённости может происходить как по причине покупки дорогого современного оборудования, так и по причине сокращения персонала. Выводы можно делать только на основании ознакомления с ситуацией на конкретном предприятии.
Задача с решением №3.1 (окончание)
Дополним условие задачи: объём произведённой продукции за год 33200 млн. руб., средняя численность работников 1580 чел.
Рассчитать показатели эффективности использования основных фондов.
Решение
Сделаем предварительный расчёт – вычислим среднюю полную стоимость основных фондов за год:
Далее рассчитаем требуемые показатели.
Фондоотдача :
ВЫВОД: каждый рубль, вложенный в основные фонды, принёс 4 руб. продукции.
Фондоёмкость :
ВЫВОД: для производства 1 руб. продукции затрачено 0,25 руб. (25 коп.) основных фондов.
Фондовооружённость :
ВЫВОД: на одного работника в среднем приходится основных фондов на сумму 5,3 млн. руб.
Статистика оборотных фондов
Оборотные фонды (оборотные средства) — это наиболее мобильная и постоянно возобновляемая часть национального богатства.
В их состав входят: денежные средства, средства в расчётах, материальные оборотные средства, расходы будущих периодов и т.д.
В производственной деятельности предприятий особую роль играют материальные оборотные средства (МОС). Их основные признаки:
— участвуют в одном производственном цикле (однократно);
— сразу и полностью переносят свою стоимость на вновь созданный продукт или услугу;
— видоизменяют свою натурально-вещественную форму в процессе производства.
Состав МОС:
— производственные запасы (запасы у предприятия-производителя для обеспечения процесса производства
— сырьё, материалы и т.д.);
— незавершённое производство (продукция, производство которой начато, но не завершено к концу отчётного периода);
— готовая продукция (запасы у предприятия-производителя для реализации на сторону);
— товары для перепродажи (запасы на складах торговых организаций);
— животные на выращивании (молодняк) и на откорме;
— государственные материальные резервы (запасы, создаваемые государством на случай чрезвычайных ситуаций – вода, продовольствие, топливо и т.д.).
Показатель размера оборотных средств характеризует их состояние на определённый момент времени. Однако для проведения ряда экономических расчетов нужны, как правило, средние показатели за период времени (месяц, квартал, год). Вычисляют средний остаток оборотных средств , а формула зависит от исходных данных:
а) по данным об остатке оборотных средств на начало и конец периода определяется по формуле средней арифметической простой:
б) по данным на определённые даты через равные промежутки времени между ними по формуле средней хронологической простой:
n – число уровней (дат);
– остаток оборотных средств на определённую дату.
Если же дан моментный ряд динамики с неравными промежутками между датами, то расчёт ведётся по формуле средней арифметической взвешенной (см. тему «Ряды динамики» в курсе «Теория статистики») [1, c. 18-23].
Задача с решением №3.2
Данные по предприятию об остатках оборотных средств (тыс. руб.):
на 1 января – 300, на 1 февраля – 290, на 1 марта – 350, на 1 апреля – 400.
Рассчитать средний остаток оборотных средств за первый квартал.
Решение
Первый квартал – это период времени с 1 января по 1 апреля. Дан моментный ряд динамики с равными промежутками между датами. Расчёт ведётся по формуле средней хронологической:
Исходя из их названия, оборотные средства должны оборачиваться, то есть совершать обороты. Схематично оборот оборотных средств производственного предприятия представлен на рисунке 3.4.
Рис. 3.4. Схема оборота оборотных средств производственного предприятия
В других отраслях экономики схема может видоизменяться; например, у торгового предприятия оборот происходит по схеме «денежные средства – товары для перепродажи – денежные средства».
Важной задачей статистики в управлении предприятием является изучение оборачиваемости оборотных средств. Для этого вычисляются 2 вида показателей:
1) обобщающие (их можно рассчитать в целом по совокупности оборотных фондов предприятия);
2) частные (рассчитываются по отдельным видам оборотных фондов).
К обобщающим показателям оборачиваемости относятся следующие:
1) Коэффициент оборачиваемости – характеристика скорости оборота:
Q – объём продукции;
— средний остаток оборотных средств. Показывает число оборотов оборотных средств за период.
2) Коэффициент закрепления, или Коэффициент загрузки – величина, обратная коэффициенту оборачиваемости:
Показывает средний размер оборотных средств, приходящихся на 1 руб. продукции.
3) Длительность (продолжительность, время) оборота (t) — соотношение длительности календарного периода и количества оборотов:
Показывает, за сколько дней в среднем совершается один оборот оборотных средств.
Длительность календарного периода может быть взята как по фактическому числу дней в периоде (май – 31 день, 2015 год – 365 дней и т.д.), так и по так называемому коммерческому (финансовому) календарю (любой месяц – 30 дней, квартал – 90, год – 360).
Задача с решением №3.3
Данные по предприятию за апрель (тыс. руб.):
остатки оборотных средств на 1 апреля – 1700, на 1 мая – 1500; стоимость реализованной продукции 8000.
Рассчитать показатели оборачиваемости оборотных средств за апрель.
Решение
Сделаем предварительный расчёт – вычислим средний остаток оборотных средств в апреле. Остатки оборотных средств даны на начало и конец периода, применяем среднюю арифметическую простую формулу:
Коэффициент оборачиваемости :
ВЫВОД: оборотные средства в апреле совершили 5 оборотов. Коэффициент закрепления:
ВЫВОД: для получения 1 руб. продукции было затрачено 0,2 руб. (20 коп.) оборотных средств.
3) Длительность оборота (t):
ВЫВОД: средняя продолжительность одного оборота 6 дней.
Изменение этих трёх показателей во времени даёт информацию об изменении эффективности использования оборотных средств. Так как они взаимосвязаны арифметически, то можно выделить 2 ситуации.
1) Снижение коэффициента оборачиваемости, рост коэффициента закрепления и длительности оборота. Такая ситуация называется замедлением оборачиваемости и приводит к тому, что в каждый оборот вовлекается большее количество оборотных средств, то есть каждый оборот становится более затратным. Такое дополнительное привлечение оборотных средств называется мобилизацией оборотных средств.
2) Рост коэффициента оборачиваемости, снижение коэффициента закрепления и длительности оборота. Такая ситуация называется ускорением оборачиваемости и приводит к тому, что каждый оборот требует меньшее количество вовлечённых оборотных средств, то есть становится более экономным. Такое высвобождение оборотных средств из оборота (точнее говоря, их экономия) называется иммобилизацией оборотных средств.
Сумма средств, высвобожденных или дополнительно вовлечённых в оборот в результате изменения скорости оборачиваемости оборотных средств (±Э) рассчитывается по формуле:
где — остаток оборотных средств отчётного периода;
— это сумма оборотных средств, которая потребовалась бы для реализации объёма продукции на уровне отчётного периода при сохранении скорости оборота базисного периода.
Эту формулу можно адаптировать под каждый из известных нам показателей оборачиваемости:
а)
б)
в) .
Подстрочный индекс «0» говорит о том, что показатель представляет базисный период, а «1» — отчётный период.
Если в результате расчётов полученный результат является отрицательным числом, это свидетельствует об иммобилизации (экономии) оборотных средств из-за ускорения оборачиваемости; если получено положительное число – это мобилизация оборотных средств из-за замедления оборачиваемости.
Задача с решением №3.4
Данные по предприятию:
Рассчитать сумма средств, высвобожденных или дополнительно вовлечённых в результате изменения скорости оборачиваемости оборотных средств.
Решение
Исходя из имеющихся данных, выберем следующую формулу:
ВЫВОД: произошло замедление оборачиваемости оборотных средств; дополнительно вовлечено в оборот 480 тыс. руб. (мобилизация).
К частным показателям оборачиваемости относятся следующие.
1) Материалоотдача – определяется как отношение объема продукции (Q) к затратам материальных ресурсов на ее производство:
где МЗ – материальные затраты (сырьё, материалы, топливо, энергия и т.д.).
Материалоотдача показывает, сколько рублей продукции принёс каждый рубль материальных затрат.
2) Материалоёмкость –величина, обратная материалоотдаче:
Материалоёмкость показывает стоимость материальных затрат для производства одного рубля продукции.
3) Удельный расход материала (M) — средний расход конкретного вида сырья, материалов, топлива или энергии на единицу произведенной годной продукции:
где q– физический объём продукции.
В данной формуле сумма всех затраченных материалов (топлива и т.д.) в натуральном выражении (∑ М) делится на натуральное (физическое) количество произведённой продукции (q). Этот показатель должен соответствовать утверждённым нормам, стандартам или техническим условиям для данного вида продукции.
Система частных показателей не ограничивается рассмотренными коэффициентами. В анализе деятельности предприятия могут использоваться такие показатели, как энергоёмкость, коэффициент оборачиваемости товарных запасов, обеспеченность производства запасами и т.д.
Статистика результатов экономической деятельности, понятие результатов экономической деятельности
Результатами экономической деятельности являются продукты (товары) и услуги.
Продукты – результаты труда, которые имеют материальновещественную форму.
Услуги — результаты труда, которые не воплощаются в материальной форме. Принципиальные отличия услуг от продуктов:
а) на услуги не распространяется право собственности (в Гражданском кодексе РФ услуга считается обязательством);
б) момент производства и потребления услуги совпадают;
в) услугу нельзя хранить, оставить в залог, завещать и т.д. (то есть выполнить те действия, которые возможны с продуктом).
Услуги делятся:
— на материальные и нематериальные;
— на индивидуальные и коллективные.
Материальные услуги удовлетворяют материально-бытовые потребности и связаны с изготовлением, восстановлением (ремонтом), перемещением материальных объектов. Сюда относятся коммунальные, транспортные, бытовые услуги.
Нематериальные услуги связаны с удовлетворением социальнокультурных и духовных потребностей (медицинские, туристические, образовательные услуги).
Индивидуальные услуги носят адресный платный характер: у них есть конкретный заказчик и тариф (ремонт обуви, фотоуслуги, платное образование, проезд в транспорте, кабельное телевидение).
Коллективные услуги (общественные блага) предполагают формально бесплатный характер, а в качестве потребителя выступает всё общество. Примерами являются услуги государственного управления, обеспечения обороны, охраны окружающей среды и т.д.
Снс: сущность и исходные категории
Система национальных счетов (СНС) – система взаимосвязанных показателей и таблиц, комплексно характеризующих состояние экономики страны.
Она была создана в 1950-е годы по заказу ООН и в настоящее время применяется более чем в 150 странах мира с рыночной экономикой (в том числе в России с 1992 г.). Её создание было вызвано потребностями органов государственного управления в информации, необходимой для регулирования экономики, а также для координации потоков экономической информации, которые международные организации получают из разных стран. Поэтому СНС базируется на общих методологических принципах расчёта показателей, хотя допускаются некоторые национальные особенности.
В настоящее время происходит переход от стандарта СНС 1993 года к стандарту 2008 г.
Исходные категории СНС: экономическая территория, институциональная единица, резидент, внутренняя экономика, национальная экономика.
Экономическая территория страны состоит из трёх частей:
1) территория, административно управляемая правительством данной страны, в пределах которой граждане, товары и капиталы могут свободно перемещаться;
2) воздушное пространство, территориальные воды данной страны и континентальный шельф в нейтральных водах, на котором данная страна имеет исключительное право на добычу топлива, сырья и т.д.;
3) территории в других странах (территориальные анклавы), используемые правительством данной страны для дипломатических, военных, научных или других целей (например, посольства).
Из определения следует, что, во-первых, экономическая и административная территории страны пусть незначительно, но не совпадают; во-вторых, территориальные анклавы зарубежных государств в данной стране не включаются в её общую экономическую территорию.
Институциональная единица — хозяйствующие единицы, которые могут от своего имени владеть активами, принимать обязательства, осуществлять экономическую деятельность и операции с другими единицами (юридические лица и домашние хозяйства).
Резидент – институциональная единица, имеющая центр экономических интересов на экономической территории данной страны 1 год и более.
Некоторые категории людей остаются резидентами своих стран, хотя длительное время находятся на территории других стран: дипломатические работники, студенты, лица на отдыхе и лечении и т.д.
Понятие «резидент» не совпадает с понятием гражданства, подданства, национальности.
Резиденты других стран, вступающие в экономические отношения с резидентами данной страны, относятся к экономическому сектору «остальной мир» («нерезиденты»).
Внутренняя экономика охватывает деятельность на территории данной страны как резидентов, так и нерезидентов. Главный показатель внутренней экономики – ВВП (валовой внутренний продукт).
Национальная экономика охватывает деятельность только резидентов данной страны, независимо от их местонахождения. Главный показатель национальной экономики – ВНД (валовой национальный доход). До 1993 г. он носил название «валовой национальный продукт» (ВНП).
Важным методологическим аспектом СНС является концепция границ экономического производства. Она определяет те сферы экономики, в которых создаётся ВВП. В СНС допускается, что в создании ВВП участвуют все виды экономической деятельности (в том числе теневые*), за исключением нижеследующих:
— деятельность, направленная против личности и имущества (грабеж, воровство, терроризм), так как в данном случае один из контрагентов не имеет свободы выбора, а сама экономическая операция не является равноценной для каждой из сторон;
— деятельность, результаты которой не являются её целью (загрязнение окружающей среды, образование мусора и т.д.), так как они являются побочными продуктами производственной деятельности;
— домашние услуги, оказываемые домашними хозяйствами для собственного жилья (приготовление пищи, уборка, ремонт и т.д.), так как крайне сложно вести их статистический учёт и оценивать их в стоимостных единицах.
*(расчёты показателей теневой экономики ведутся на основании косвенной информации, применения балансовых и других специфических методов и экспертных оценок)
Основные макроэкономические показатели
К основным показателям результатов экономической деятельности на макроуровне относятся валовой внутренний продукт (ВВП) и валовой национальный доход (ВНД).
Валовой внутренний продукт (Gross Domestic Product, GDP) — показатель, характеризующий конечный результат производственной деятельности экономических единиц. Он отражает стоимость всех продуктов и услуг, созданных на территории данной страны в течение определённого срока, за вычетом промежуточного потребления.
ВВП имеет 3 метода расчёта, которые в общих чертах соответствуют стадиям воспроизводственного процесса.
Первый метод – производственный. Он позволяет охарактеризовать структуру ВВП с точки зрения результатов деятельности отраслей (секторов) экономики и оценить их вклад в производство. Именно производство является начальной стадией в схеме воспроизводственного процесса, так как на этом этапе создаются продукты и услуги, которые в дальнейшем будут обмениваться и потребляться.
Формула ВВП производственным методом (в рыночных ценах):
где: ВДС – сумма валовой добавленной стоимости (ВДС) по отраслям (секторам) экономики;
ЧНП — чистые налоги на продукты.
Валовая добавленная стоимость (ВДС) определятся по формуле:
где: ВВ — валовой выпуск;
ПП – промежуточное потребление.
Валовой выпуск (Выпуск) – это стоимость всех произведённых за период материальных благ и оказанных услуг. Оценивается в текущих, т.е. рыночных ценах, действующих на момент производства товаров и оказания услуг.
Валовой выпуск (и, соответственно, валовую добавленную стоимость) чаще всего оценивают в основных ценах. Основная цена включает субсидии на продукты и не включает налоги на продукты.
Промежуточное потребление – это стоимость потреблённых в процессе производства товаров и услуг (за исключением потребления основного капитала), которые трансформируются или полностью потребляются в процессе производства в отчётном периоде.
В состав промежуточного потребления входят:
— материальные затраты (затраты сырья, материалов, топлива, энергии и т. п.);
— оплата нематериальных услуг (юридические, страховые, финансовые и т.д.);
— командировочные расходы (оплата проезда и услуг гостиниц).
Чистые налоги на продукты (ЧНП) рассчитываются по формуле:
где: НП – налоги на продукты (НДС, акцизы);
СП – субсидии на продукты.
Распределительный метод ВВП (по источникам дохода) характеризует сумму первичных доходов, распределённых между участниками производства (производителями товаров и услуг). Главными участниками производства являются: предприниматели, наёмные работники, предприятия (организации). Каждый из них получает свой вид доходов:
— оплату труда наёмных работников (ОТНР);
— валовую прибыль экономики (ВПЭ);
— валовые смешанные доходы (ВСД).
Однако в рамках выполнения своих социальных функций государство должно обеспечивать доходами (трансфертами) ту часть населения, которая не участвовала в производстве (инвалидов, пенсионеров, детей, безработных). Для этого участники производства облагаются соответствующими налогами, и рассчитывается показатель ЧНПИ – чистые налоги на производство и импорт:
где: НПИ — налоги на производство и импорт;
СПИ — субсидии на производство и импорт.
Формула ВВП распределительным методом:
Валовая прибыль экономики представляет собой ту часть добавленной стоимости, которая остаётся у производителя после вычета расходов, связанных с оплатой труда наёмных работников и чистых налогов на производство и импорт.
Валовые смешанные доходы – это доходы, в которых сложно или невозможно отделить доходы от предпринимательской деятельности, от собственности и от оплаты труда (например, доходы фермеров).
Метод конечного использования ВВП (по расходам) характеризует сумму расходов институциональных единиц на приобретение предназначенных для конечного использования товаров и услуг в ценах потребления и чистого экспорта товаров и услуг.
Формула ВВП методом конечного использования:
где: КП — конечное потребление;
ВН – валовое накопление;
ЧЭ – чистый экспорт.
Конечное потребление складывается из расходов на конечное потребление:
— домашних хозяйств;
— государственных учреждений;
— некоммерческих организаций, обслуживающих домашние хозяйства.
Валовое накопление – это вложение средств хозяйственной единицей для создания в будущем дохода в результате их использования в производстве. Оно включает в себя чистое приобретение (то есть за вычетом выбытия) объектов основного капитала, материальных оборотных средств и ценностей.
Чистый экспорт (экспортно-импортное сальдо) есть разница между экспортом (Э) и импортом (И):
Его величина может быть отрицательной в случае превышения величины импорта над величиной экспорта.
Теоретически все три метода ВВП должны дать одинаковый результат. Однако на практике между ними есть так называемое «статистическое расхождение», вызванное различными причинами: использованием различных источников информации, наличием теневой экономики, недостоверностью информации и т.д. Такие расхождения обычно не превышают 1-2 %.
Задача с решением №4.1
Имеются следующие данные по стране (тыс. усл. ед.):
Исчислить ВВП всеми методами.
Решение
ВВП производственным методом:
Сделаем предварительные расчёты – рассчитаем валовую добавленную стоимость (ВДС) и чистые налоги на продукты (ЧНП). Валовая добавленная стоимость:
ВДС = ВВ — ПП = 14800-9340=5460 тыс. усл. ед.;
Чистые налоги на продукты (ЧНП) рассчитываются по формуле:
ЧНП = НП — СП = 920-180=740 тыс. усл. ед.
Таким образом, ВВП будет равен:
ВВП = ВДС + ЧНП= 5460+740=6200 тыс. усл. ед.
ВВП распределительным методом:
Сделаем предварительный расчёт – рассчитаем чистые налоги на производство и импорт (ЧНПИ).
ЧНПИ = НПИ — СПИ = 230-60=170 тыс. усл. ед.
Таким образом, ВВП будет равен:
ВВП = ОТНР + ВПЭ + ВСД + ЧНПИ =2250+3780+170=6200 тыс. усл. ед.
ВВП методом конечного использования:
Сделаем предварительный расчёт – рассчитаем чистый экспорт:
ЧЭ = Э — И =2780-2830=-50 тыс. усл. ед.
Таким образом, ВВП будет равен:
ВВП = КП + ВН + ЧЭ =4110+2140+(-50)=6200 тыс. усл. ед.
Валовой национальный доход (Gross National Income, GNI) — сумма первичных доходов (в рыночных ценах), полученных резидентами данной страны в связи с их участием в производстве ВВП своей страны и ВВП других стран.
К первичным доходам относятся доходы, прямо или косвенно связанные с производством продуктов или услуг: оплата труда, прибыль, налоги на производство, предпринимательский доход, доходы от собственности (проценты, дивиденды, рента и т.п.).
Валовой национальный доход определяется по формуле:
где ΔД — сальдо первичных доходов, полученных от «остального мира» и выплаченных «остальному миру»:
– первичные доходы, полученные от «остального мира»;
– первичные доходы, выплаченных «остальному миру».
Например, если резиденты России получили за рубежом доходов меньше, чем резиденты других стран получили доходов в России, то сальдо ΔД будет отрицательным, а величина ВВП РФ будет меньше величины ВНД РФ. На региональном уровне в Российской Федерации вычисляют показатель «валовой региональный продукт» (ВРП) — обобщающий показатель экономической деятельности региона, характеризующий процесс производства товаров и услуг для конечного использования.
ВРП по своей сути является аналогом ВВП, рассчитанным на региональном уровне. Каждый регион представляет собой самостоятельную внутреннюю экономику (см. тему 4.2). В то же время сумма валовых региональных продуктов по всем субъектам Федерации не совпадает с объёмом
ВВП больше суммарного ВРП на величину добавленной стоимости по коллективным услугам (государственное управление, оборона и т.д.), которые оказываются всему обществу в целом.
Многие макроэкономические показатели в СНС рассчитываются в двух вариантах:
1) валовые;
2) чистые.
Они отличаются между собой на величину потребления основного капитала (ПОК):
Чистый показатель = Валовой показатель – ПОК.
Потребление основного капитала представляет собой уменьшение стоимости основного капитала в течение отчётного периода в результате его морального и физического износа.
Оно включает:
— сумму амортизации основных фондов за год;
— недоамортизированную стоимость выбывших основных фондов.
Таким образом, можно рассчитать следующие макроэкономические показатели:
— чистый внутренний продукт (ЧВП):
— чистый национальный доход (ЧНД):
— чистый региональный продукт (ЧРП):
и ряд других показателей.
Задача с решением №4.2
Имеются следующие данные по стране (тыс. усл. ед.):
Валовая добавленная стоимость в основных ценах в сфере производства товаров 3050, а в сфере услуг 2360.
Потребление основного капитала в обеих сферах 1680.
Чистые налоги на продукты 450.
Сальдо доходов от экономической деятельности, полученных от «остального мира» и выплаченных «остальному миру» 170.
Рассчитать:
1) валовой и чистый внутренний продукт;
2) валовой и чистый национальный доход.
Решение
1) Исходя из исходных данных, мы рассчитаем ВВП производственным методом:
ВВП = ВДС + ЧНП= (3050+2360) + 450=5860 тыс. усл. ед.
Чистый внутренний продукт (ЧВП):
ЧВП = ВВП — ПОК = 5860-1680= 4180 тыс. усл. ед.
2) Валовой национальный доход:
ВНД = ВВП + ΔД = 5860+170= 6030 тыс. усл. ед.
Чистый национальный доход (ЧНД):
ЧНД = ВНД — ПОК = ЧВП + ΔД =6030-1680=4180+170=4350 тыс. усл. ед.
Статистика труда, понятие, состав и показатели численности персонала предприятия
Персонал предприятия – это совокупность физических лиц, которые состоят с предприятием в отношениях найма.
Персонал в зависимости от выполняемых работниками функций распределяется по категориям:
— руководители – работники, выполняющие управленческие функции;
— специалисты – работники, выполняющие технические и технологические функции (например, инженерно-технические работники);
— служащие – работники, выполняющие кадровые, учётные, аналитические и иные функции, хозяйственное обслуживание производства;
— рабочие – лица, непосредственно занятые в процессе создания материальных ценностей, оказанием услуг, а также ремонтом, перемещением грузов и т. п.;
— другие категории (младший обслуживающий персонал, охрана, ученики на производстве) [6].
Показатели численности персонала предприятия представлены в таблице 5.1.
Списочная численность – это работники, заключившие договор найма на срок не менее одного дня. Формальным основанием включения в списки (и исключения из списков) служит соответствующий приказ. Исходя из этого, списочная численность в выходной день равна списочной численности в последний рабочий день, так как в выходные дни делопроизводство на предприятии не ведётся.
В списочном составе предприятия не учитываются внешние совместители, так как они должны быть учтены по месту основной работы.
Явочная численность – это работники, явившиеся на работу. Их учёт ведётся только по рабочим дням.
Фактическая численность (Численность фактически работавших) – это работники, фактически приступившие к работе. Они также учитываются только по рабочим дням.
Нормальной считается ситуация, когда явочная и фактическая численности совпадают. Однако расхождения между ними возможны.
Такая ситуация происходит в случае целодневного простоя по объективным причинам:
где: – численность работников, находившихся в целодневных простоях (по объективным причинам).
Целодневный простой (по объективным причинам) – ситуация, когда работник явился на работу, но по независящим от него причинам к ней не приступил в течение дня (отсутствие материалов, электроэнергии и т.д.). Так как вины работника здесь нет, то работодатель должен оплатить ему этот простой.
Показатели средней численности персонала рассчитываются теми же методами, что и средняя численность населения или трудовых ресурсов (см. темы 1 и 2).
Однако, учитывая тот факт, что предприятие обычно располагает ежедневными данными о количестве сотрудников, применяются нижеследующие формулы.
Среднесписочная численность :
где: — длительность календарного периода.
Результат показывает, сколько человек в среднем состояли в списках каждый календарный день.
Среднеявочная численность :
где: — длительность рабочего периода.
Результат показывает, сколько человек в среднем являлись на работу каждый рабочий день.
Среднефактическая численность :
Результат показывает, сколько человек в среднем приступали к работе каждый рабочий день.
Коэффициент использования среднесписочной численности определяется отношением средней фактической численности к среднесписочной численности:
Аналогично рассчитывается коэффициент использования среднеявочной численности :
Задача с решением №5.1
По организации имеются следующие данные о численности работающих за неделю, чел.:
Рассчитать:
1)среднюю численность персонала за неделю;
2)коэффициенты использования среднесписочной и среднеявочной численности за неделю.
Решение
1) Среднесписочная численность :
Среднеявочная численность:
Для вычисления среднефактической численности сделаем предварительный расчёт – рассчитаем фактическую численность за каждый рабочий день, применив формулу:
где: – численность работников, находившихся в целодневных простоях (по объективным причинам):
Среднефактическая численность :
2) Коэффициент использования среднесписочной численности :
Вывод: из общего списочного состава фактически приступали к работе в среднем 80,9 % работников.
Коэффициент использования среднеявочной численности :
Вывод: из общего числа явившихся фактически приступали к работе в среднем 96,6 % работников.
Рассмотрим статистические особенности расчёта среднесписочной численности:
1) в среднесписочной численности не учитываются работники, которые находятся в списках, но фактически длительное время не работают на данном предприятии и не получают там заработную плату (женщины в отпуске по беременности и родам; лица в отпуске по уходу за ребёнком; работники, обучающиеся в образовательных учреждениях и находившиеся в дополнительном отпуске без сохранения заработной платы);
2) если предприятие работало неполный календарный период (например, закрылось в середине отчётного периода), расчёт средней списочной численности производится так же, то есть путём деления на полный календарный период. Данное правило не распространяется на среднеявочную и среднефактическую численность.
Задача с решением №5.2
Данные по предприятию о численности работников, чел.:
Примечание: предприятие открылось 27 октября.
Рассчитать среднесписочную и среднеявочная численность работников за октябрь.
Решение
Среднесписочная численность :
Среднеявочная численность :
Показатели движения персонала
Движение персонала – это изменение численности персонала предприятия (как в целом, так и по отдельным структурным элементам).
В статистике различают:
1) внутреннее движение (перевод работника в другую категорию, в другой отдел и т.д.);
2) внешнее движение (приём и увольнение).
На общую среднесписочную численность оказывает влияние только внешнее движение персонала.
Выделяют две группы показателей движения персонала.
К первой группе относятся абсолютные показатели (единица измерения — чел.):
— оборот по приёму (ОП) – число принятых на работу за период;
— оборот по увольнению (ОУ) – число уволенных с работы за период;
— общий оборот (ОО) = ОП + ОУ.
Оборот по увольнению делится на два вида:
1) необходимый оборот по увольнению – включает в себя уволенных по причинам естественного, государственного, производственного характера: призыв в армию, выход на пенсию, поступление в учебное заведение на дневную форму обучения, окончание срока действия контракта, сокращение штатов, смерть, переход на инвалидность;
2) излишний оборот по увольнению – включает в себя уволенных по субъективным причинам: по собственному жеванию, за прогулы и иные нарушения дисциплины, по приговору суда.
Излишний оборот называется также текучестью кадров. Высокий уровень текучести кадров – отрицательное явление для предприятия, так как это говорит о неудовлетворительной организации производства, вызывает экономические, психологические, кадровые трудности.
Вторая группа – относительные показатели (коэффициенты). Они измеряются в процентах (%). Эти показатели можно применять для характеристики интенсивности движения кадров нескольких предприятий с разной среднесписочной численностью.
Коэффициент оборота по приёму рассчитывается как отношение числа принятых на работу (ОП) к среднесписочной численности работников за отчётный период :
Коэффициент оборота по увольнению рассчитывается как отношение общего числа уволенных (ОУ) к среднесписочной численности работников за отчётный период :
Коэффициент текучести кадров рассчитывается как отношение излишнего оборота по увольнению (ИОУ) к среднесписочной численности работников за отчётный период :
Коэффициент постоянства кадров рассчитывается как отношение численности работников, проработавших на предприятии весь период к среднесписочной численности работников за период :
Числитель можно рассчитать как разность между списочной численностью на начало периода и числом уволенных за период (ОУ):
Задача с решением №5.3
Динамика численности персонала предприятия (чел.):
Найти в каждом году (2013, 2014, 2015) относительные показатели движения персонала.
Решение
Сделаем предварительный расчёт – рассчитаем среднесписочную численность. Так как нам известны только данные о списочном составе на начало каждого года, расчёт производится по средней арифметической простой формуле:
– списочная численность персонала на начало периода; — списочная численность персонала на конец периода.
2013 год:
2014 год:
2015 год:
Коэффициент оборота по приёму
2013 год:
2014 год:
2015 год:
Коэффициент оборота по увольнению
2013 год:
2014 год:
2015 год:
Коэффициент текучести кадров
В данном случае к текучести кадров можно отнести уволенных по собственному желанию.
2013 год:
2014 год:
2015 год:
Таким образом, несмотря на нестабильность числа уволенных по собственному желанию по годам, коэффициент текучести кадров неуклонно стремится к снижению, что свидетельствует об улучшении ситуации в системе управления персоналом.
Коэффициент постоянства кадров
2013 год:
2014 год:
2015 год:
Таким образом, рост коэффициента в 2015 году говорит о стабилизации трудового коллектива предприятия.
Статистика рабочего времени
Рабочее время – это часть календарного времени, затрачиваемого на производство продукции или выполнение работ определённого вида. Оно учитывается как в стандартных единицах (часы, дни и т.д.), так и в специфических единицах: «человеко-час» (чел-ч) и «человекодень» (чел-дн). Человеко-часом отработанного или неотработанного времени считается один час пребывания работника на предприятии, а человеко-днем – один день пребывания работника на предприятии.
2 основные задачи статистического анализа рабочего времени:
1) анализ ресурсов рабочего времени;
2) анализ использования рабочего времени.
Показатели ресурсов рабочего времени обычно измеряются в человеко-днях. К ним относятся фонды рабочего времени.
Календарный фонд (КФ) — всё рабочее время предприятия за период. Он рассчитывается двумя способами: как сумма списочной численности работников за все календарные дни периода; как сумма явок (Я) и неявок (Н) на работу:
КФ = Я + Н. (5.18)
Табельный фонд (ТФ):
где: – неявки по выходным и праздничным (нерабочим) дням.
Максимально возможный фонд (МВФ):
где: – неявки по очередным отпускам.
Максимально возможный фонд характеризует время, которое работники предприятия должны отработать в соответствии с трудовым законодательством, так как положенное им по закону неотработанное время уже вычтено из общего календарного фонда. Соответственно, все три рассмотренных фонда (календарный, табельный и максимально возможный) можно запланировать.
В связи с тем, что существуют внеплановые неявки (по болезни, прогулам, внеочередным отпускам и т.д.), возникает необходимость рассчитывать следующие показатели:
— явочный фонд (ЯФ) = Явки (Я);
— фактический фонд (ФФ) = Фактически отработанное время, т.е. явки минус целодневные простои (ЦДП) по объективным причинам:
ФФ = Я – ЦДП. (5.21)
Соответственно, явочный фонд можно вычислить как сумму фактического фонда и целодневных простоев:
ЯФ = ФФ + ЦДП. (5.22)
Коэффициенты использования фондов рабочего времени характеризуют удельный вес фактически отработанного времени в 83 календарном, табельном или максимально возможном фонде рабочего времени. Чем ближе эти показатели к 100 %, тем полнее используется рабочее время.
Например, коэффициент использования максимально возможного фонда определяется отношением фактического и максимально возможного фондов рабочего времени:
Фонды рабочего времени можно использовать для расчёта средней численности персонала. В этом случае формулы будут иметь следующий вид:
— среднесписочная численность :
— среднеявочная численность :
— среднефактическая численность :
Задача с решением №5.4
Данные по предприятию за квартал (63 рабочих дня), чел-дн:
Рассчитать за квартал:
1) фонды рабочего времени;
2) среднюю численность персонала.
Решение
1) Календарный фонд (КФ):
КФ = Я + Н = 44783+13554+ 4510 + 2466 + 294 + 1977 = 67584 чел-дн.
Табельный фонд (ТФ):
ТФ = КФ – Нвп = 67584 – 13554 = 54030 чел-дн.
где: – неявки по выходным и праздничным (нерабочим) дням.
Максимально возможный фонд (МВФ):
МВФ = ТФ – Нотп = 54030 – 4510 = 49520 чел-дн.
Явочный фонд (ЯФ) = Явки (Я) = 44783 чел-дн.
Фактический фонд (ФФ):
ФФ = Я – ЦДП = 44783 – 67 = 44716 чел-дн.
2) Среднесписочная численность :
Примечание: календарная длительность квартала возьмём 90 дней.
Среднеявочная численность :
Среднефактическая численность :
Анализ использования рабочего времени проводится на основе расчёта следующих показателей.
Коэффициент использования установленной продолжительности рабочего дня определяется отношением средней фактической продолжительности рабочего дня к средней установленной продолжительности рабочего дня
Результат показывает, на сколько процентов в среднем используется рабочий день и сколько процентов занимают внутридневные потери рабочего времени.
Коэффициент использования установленной продолжительности рабочего периода определяется отношением средней фактической продолжительности рабочего периодак средней установленной продолжительности рабочего периода :
Результат показывает, на сколько процентов в среднем используется рабочий период (неделя, месяц, квартал, полугодие, год) и сколько процентов занимают целодневные потери рабочего времени.
Интегральный коэффициент использования установленной продолжительности рабочего времени – это произведение двух предыдущих коэффициентов:
Результат показывает, на сколько процентов в среднем используется рабочее время и сколько процентов занимают его внутридневные и целодневные потери.
Для расчёта этих показателей необходимо вычислить ряд других, которые встречаются в их формулах.
Средняя фактическая продолжительность рабочего дня измеряется в часах и рассчитывается соотношением фактически отработанных человеко-часов и человеко-дней
Средняя установленная продолжительность рабочего дня определяется как средняя арифметическая из установленной продолжительности рабочего дня отдельных групп работников, взвешенная по числу работников, имеющих данную продолжительность рабочего дня.
Средняя фактическая продолжительность рабочего периода измеряется в днях и рассчитывается делением фактически отработанных человеко-дней на среднесписочную численность работников
Средняя установленная продолжительности рабочего периода приравнивается к числу рабочих дней в периоде
Задача с решением №5.5
Данные по предприятию за апрель:
средняя списочная численность рабочих составляет 500 человек, в том числе работников с продолжительностью рабочего дня 6 часов – 50 человек, с продолжительностью рабочего дня 7 часов – 40 человек. Остальные рабочие имели установленную продолжительность рабочего дня 8 часов. Рабочие предприятия отработали за период 10500 человеко-дней и 79800 человеко-часов. В отчётном месяце было 22 рабочих дня.
Рассчитать показатели использования рабочего времени.
Решение
Сделаем предварительные расчёты:
Средняя фактическая продолжительность рабочего дня :
Средняя установленная продолжительность рабочего дня вычисляется по формуле средней арифметической взвешенной (см. тему «Относительные величины» в курсе «Теории статистики»):
Средняя фактическая продолжительность рабочего периода :
Рассчитаем показатели использования рабочего времени.
Коэффициент использования установленной продолжительности рабочего дня :
Вывод: рабочий день используется на 98,4 %, т.е. внутридневные потери времени составляют 1,6 % (100 % — 98,4%).
Коэффициент использования установленной продолжительности рабочего периода :
Вывод: рабочий период используется на 95,5 %, т.е. целодневные потери времени составляют 4,5 % (100 % — 95,5%).
Интегральный коэффициент использования установленной продолжительности рабочего времени :
Вывод: в целом рабочее время используется на 94 %, т.е. потери времени составляют 6 % (100 % — 94%).
Таким образом, табельный фонд времени недоиспользован на 6%, в том числе за счет сокращения продолжительности рабочего дня на 1,6% и за счет недоиспользования рабочего периода на 4,5%, т. е. каждым рабочим в отчетном периоде в среднем отработано меньше на один день (22 – 21) и ежедневно на 0,12 часа (7,72 – 7,6).
Статистика производительности труда
Производительность труда — это эффективность труда, то есть его способность производить то или иное количество благ в расчёте на единицу затрат труда.
Уровень производительности труда характеризуется двумя показателями:
1) выработка (прямой показатель);
2) трудоёмкость (обратный показатель).
Выработка (w) рассчитывается соотношением объёма продукции (Q) и затрат труда (T):
Выработка показывает, сколько продукции произведено в среднем за 1 единицу трудовых затрат. В экономике считается положительным явлением рост данного показателя.
Трудоёмкость (t) рассчитывается обратным соотношением:
Трудоёмкость показывает, сколько затрат труда потребовалось в среднем для производства 1 единицы продукции. Предприятие должно стремиться к снижению данного индикатора.
Объём продукции может быть выражен как натуральными, так и стоимостными единицами. Исходя из этого, различают натуральную и стоимостную выработку.
В зависимости от того, чем измеряются затраты труда (затратами рабочей силы или рабочего времени), различают следующие виды показателей производительности труда, выраженных средней выработкой.
Средняя часовая выработка представляет собой соотношение объёма продукции (Q) и фактически отработанных человеко-часов :
Результат показывает, сколько продукции в среднем произвёл один рабочий за 1 час.
Средняя дневная выработкапредставляет собой соотношение объёма продукции (Q) и фактически отработанных человеко-дней
Результат показывает, сколько продукции в среднем произвёл один рабочий за 1 день.
Средняя выработка одного рабочего за период представляет собой соотношение объёма продукции (Q) и среднесписочной численности рабочих
Результат показывает, сколько продукции в среднем произвёл один рабочий за период (месяц, квартал и т.п.).
Средняя выработка одного работника персонала за период представляет собой соотношение объёма продукции (Q) и среднесписочной численности персонала
Результат показывает, сколько продукции в среднем произвёл один работник персонала за период (месяц, квартал и т.п.).
Между данными показателями существует следующая взаимосвязь:
где — доля рабочих в среднесписочной численности персонала (рассчитывается как относительная величина структуры – см. тему «Относительные величины» в курсе «Теории статистики»).
Для анализа динамики производительности труда применяется индексный метод. Применение того или иного индекса обусловлено как масштабом исследования, так и спецификой анализируемого показателя (см. тему «Индексы» в курсе «Теории статистики»).
Для измерения динамики производительности труда по одной изучаемой единице (например, одному виду продукции) используют индивидуальный индекс, причём он может рассчитываться как по выработке, так и по трудоёмкости.
Индивидуальный индекс производительности труда (по выработке):
где «0» и «1» обозначают, соответственно, базисный и отчётный периоды.
Индивидуальный индекс производительности труда (по трудоёмкости) является обратным предыдущему индексу:
Для измерения динамики производительности труда по совокупности объектов применяют систему общих индексов – индексы переменного состава, постоянного состава и структурных сдвигов. Так как производительность труда характеризуется разными показателями и имеет разные измерители, то используют 3 метода анализа её динамики:
1) натуральный метод (анализируется динамика средней натуральной выработки);
2) стоимостной метод (анализируется динамика средней стоимостной выработки, выраженной в сопоставимых ценах);
3) трудовой метод (анализируется динамика средней трудоемкости).
Рассмотрим натуральный метод анализа.
На динамику средней выработки влияют два фактора:
1. изменение производительности труда по отдельным предприятиям (рабочим, бригадам и т.д.);
2. изменение структуры производства (изменение доли предприятий с той или иной производительностью труда).
Для анализа динамики используется система трёх индексов — переменного, постоянного состава и структурных сдвигов.
Индекс переменного состава показывает общее изменение производительности труда в отчётном периодепо сравнению с базисным
Индекс постоянного (фиксированного) состава характеризует влияние первого фактора на динамику средней выработки:
где — средняя условная выработка.
Индекс структурных сдвигов характеризует влияние второго фактора:
Все три индекса взаимосвязаны — индекс переменного состава равен произведению двух других индексов:
Задача с решением №5.6
Данные по совокупности предприятий: средняя выработка базисного периода 620 шт./чел., средняя выработка отчётного периода 600 шт./чел., средняя условная выработка 630 шт./чел.
Рассчитать индексы производительности труда натуральным методом.
Решение
Индекс переменного состава :
Средняя выработка снизилась на 3,2 %.
Индекс постоянного (фиксированного) состава :
За счёт изменения производительности труда по отдельным предприятиям средняя выработка снизилась на 4,8 %.
Индекс структурных сдвигов:
За счёт изменения структуры производства средняя выработка возросла на 1,6 %. Так как данный индекс больше 1, можно сделать вывод, что возросла доля предприятий с более высокой производительностью труда.
Соответственно, индекс структурных сдвигов, по величине меньше 1, свидетельствует о возрастании доли предприятий с более низкой производительностью труда.
Статистика оплаты труда
Оплата труда (заработная плата) – это материальное и натуральное вознаграждение наёмным работникам в соответствии с количеством и качеством их труда, а также с уровнем их квалификации.
Различают две основные формы оплаты труда: сдельную и повременную. При сдельной форме заработок зависит от количества произведённой продукции и сдельной расценки (размера оплаты за единицу продукции), а при повременной – от количества затраченного времени и тарифной ставки (размера оплаты за единицу продукции). В рамках этих форм различают системы (модификации) оплаты труда: сдельно-премиальную и повременно-премиальную (премии за качественную работу), сдельно-прогрессивную (дифференцированная шкала сдельных расценок), аккордную (оплата за весь комплекс работ) и т.д. К повременной форме относят также «должностной оклад» — фиксированный размер оплаты труда административно-управленческого персонала за исполнение трудовых обязанностей определённой сложности за календарный месяц.
Фонд оплаты труда (ФОТ) включает в себя сумму начисленной заработной платы всех работников предприятия. Это интервальный показатель, и он рассчитывается обычно за месяц или за год.
В состав фонда оплаты труда (ФОТ) входят следующие элементы:
1. оплата за отработанное время (зарплата, начисленная в соответствии с тарифными ставками, должностными окладами, сдельными расценками, в процентах от прибыли и т.д.);
2. стимулирующие надбавки и доплаты (за учёную степень, за длительный стаж на данном предприятии, за допуск к государственной тайне и т.д.);
3. компенсационные выплаты, связанные с режимом работы и условиями труда (за работу во вредных или опасных условиях, оплата работы в выходные и праздничные дни, за работу в пустынных, безводных местностях и в высокогорных районах и т.д.);
4. единовременные поощрительные выплаты;
5. регулярные выплаты на питание, жильё, топливо;
6. оплата за неотработанное время (оплата ежегодных и дополнительных отпусков, оплата простоев не по вине работника и т.д.).
Уровень заработной платы характеризуется средней заработной платой одного работника.
Средняя заработная плата рассчитывается как частное от деления фонда заработной платы (L) на среднесписочную численность работников
Динамика средней заработной платы изучается с помощью системы индексов.
По отдельным единицам наблюдения (одному участку, предприятию и т.д.) применяют индивидуальный индекс заработной платы, представляющий собой соотношение уровня заработной платы отчётного и базисного периодов:
На динамику средней заработной платы влияют два фактора:
1. изменение уровня заработной платы по отдельным предприятиям (рабочим, бригадам и т.д.);
2. изменение структуры работников (изменение доли работников с той или иной заработной платой).
2. стимулирующие надбавки и доплаты (за учёную степень, за длительный стаж на данном предприятии, за допуск к государственной тайне и т.д.);
3. компенсационные выплаты, связанные с режимом работы и условиями труда (за работу во вредных или опасных условиях, оплата работы в выходные и праздничные дни, за работу в пустынных, безводных местностях и в высокогорных районах и т.д.);
4. единовременные поощрительные выплаты;
5. регулярные выплаты на питание, жильё, топливо;
6. оплата за неотработанное время (оплата ежегодных и дополнительных отпусков, оплата простоев не по вине работника и т.д.).
Уровень заработной платы характеризуется средней заработной платой одного работника.
Средняя заработная плата рассчитывается как частное от деления фонда заработной платы (L) на среднесписочную численность работников
Динамика средней заработной платы изучается с помощью системы индексов.
По отдельным единицам наблюдения (одному участку, предприятию и т.д.) применяют индивидуальный индекс заработной платы , представляющий собой соотношение уровня заработной платы отчётного и базисного периодов:
На динамику средней заработной платы влияют два фактора:
1. изменение уровня заработной платы по отдельным предприятиям (рабочим, бригадам и т.д.);
2. изменение структуры работников (изменение доли работников с той или иной заработной платой).
Для анализа динамики используется система трёх индексов — переменного, постоянного состава и структурных сдвигов (см. тему «Индексы» в курсе «Теории статистики») [1, c. 24-34].
Индекс переменного состава показывает общее изменение средней заработной платы в отчётном периоде по сравнению с базисным :
Индекс постоянного (фиксированного) состава характеризует влияние первого фактора:
где — средняя условная зарплата.
Индекс структурных сдвигов характеризует влияние второго фактора:
Все три индекса взаимосвязаны — индекс переменного состава равен произведению двух других индексов:
Задача с решением №5.7
Имеются следующие данные по двум предприятиям о заработной плате работников:
Определите индексы заработной платы:
1) индивидуальные;
2) по двум участкам вместе (переменного, постоянного состава и структурных сдвигов). Проверить взаимосвязь индексов.
Решение
1) индивидуальный индекс заработной платы рассчитывается по каждому предприятию в отдельности:
— по предприятию 1:
— по предприятию 2:
Вывод: уровень заработной платы на предприятии 1 возрос на 8 %, а на предприятии 2 возрос на 5,3 %.
2) сделаем предварительные расчёты – рассчитаем среднюю зарплату по совокупности предприятий:
Индекс переменного состава :
Средняя заработная плата возросла на 8,6 %.
Индекс постоянного (фиксированного) состава :
За счёт изменения уровня заработной платы по отдельным предприятиям средняя заработная плата возросла на 7,7 %.
Индекс структурных сдвигов :
За счёт изменения структуры работников средняя заработная плата возросла на 0,9 %. Так как данный индекс больше 1, можно сделать вывод, что возросла доля предприятий с более высокой заработной платой.
Соответственно, индекс структурных сдвигов, по величине меньше 1, свидетельствует о возрастании доли предприятий с более низкой заработной платой.
Взаимосвязь индексов:
Статистика уровня жизни, понятие уровня жизни
Уровень жизни – это комплексная социально-экономическая категория, включающая в себя различные стороны жизнедеятельности населения.
Современная наука рассматривает категорию «уровень жизни» как сочетание трёх компонентов:
1) благосостояние населения;
2) накопление человеческого капитала;
3) уровень человеческого развития.
Благосостояние населения можно рассматривать с двух сторон – как абсолютное и относительное.
Абсолютное благосостояние характеризуется размером полученных доходов (заработной платы, пенсий, пособий и других), потреблением благ, услуг и продуктов питания, наличием жилья и предметов длительного пользования (телефонов, бытовой техники, автомобилей). Относительное благосостояние предполагает сравнение абсолютных показателей со средними, с нормативными или с показателями прошлых периодов. Например, размер дохода, наличия тех или иных благ, потребления продуктов питания может сравниваться со стандартами данной социальной группы, с физиологическим минимумом, со среднедушевыми показателями данного региона или Российской Федерации в целом.
Накопление человеческого капитала характеризует экономическую сторону воспроизводства рабочей силы. Оно тесно связано с экономическим определением капитала как совокупности активов, приносящих (в данный момент или в перспективе) определённые экономические выгоды. В этом компоненте уровня жизни можно выделить макро- и микроуровень.
На макроуровне предполагается расчёт таких показателей, как «доля расходов государственного бюджета на образование, здравоохранение, культуру и т.д.», в том числе в процентах к ВВП.
На микроуровне накопление человеческого капитала учитывает затраты работодателя и самого человека на повышение образовательного, профессионального, культурного уровня, сохранение и приумножение здоровья. Эти затраты рассматриваются с точки зрения сохранения работоспособности индивида, его конкурентоспособности на рынке труда, что в конечном итоге отражается на его уровне жизни.
Уровень человеческого развития характеризует не столько материальные, сколько духовные, гражданские, правовые и прочие нематериальные аспекты жизнедеятельности людей. Одним из ключевых понятий в оценке уровня человеческого развития является «качество жизни», которое учитывает экологические, демографические, криминогенные, природно-климатические и другие условия жизни. Термин «качество жизни» имеет вполне определённые количественные характеристики, например, уровень преступности, продолжительность жизни, объём выбросов вредных веществ в атмосферу и т.д., которые можно использовать в анализе уровня жизни населения.
Ещё одним аспектом уровня человеческого развития выступает «интеграция человека в общество», которая учитывает наличие демократических прав и свобод, отсутствие дискриминации по различным признакам (расовым, национальным, гендерным и т.д.), наличие доступа к общественным благам. В этом аспекте человек рассматривается не просто как член общества, а как гражданин, обладающий полным комплексом прав и обязанностей.
В статистической практике выделяют следующие виды уровня жизни:
— достаток (пользование благами и услугами, которые обеспечивают всестороннее развитие человека);
— нормальный уровень (потребление благ и услуг по научно обоснованным нормам, которые достаточны для полноценного восстановления физических и интеллектуальных сил человека);
— бедность (потребление благ и услуг на уровне возможности сохранения работоспособности человека);
— нищета (минимальное потребление благ и услуг на уровне биологического выживания человека).
Система показателей уровня жизни
Учитывая сложность и многоплановость понятия «уровень жизни», для его измерения не существует единого показателя, а используется система статистических показателей.
Первый блок – это обобщающие показатели. Они комплексно характеризуют уровень жизни населения, ориентируясь на основные макроэкономические индикаторы. С их помощью международные организации проводят межстрановые сопоставления. К ним относятся:
1) ВВП (или национальный доход) на душу населения (руб./чел) – соотношение величины ВВП и среднегодовой численности населения;
2) индекс стоимости жизни — соотношение величин прожиточного минимума (ПМ) двух периодов:
где «0» — базисный период, «1» — отчётный период;
3) индекс развития человеческого потенциала ИРЧП (с 2013 года «Индекс человеческого развития» ИЧР — «Human Development Index») — это комбинированный показатель, разработанный ООН. Он включает в себя три компонента.
1) Индекс ожидаемой продолжительности жизни: здоровье и долголетие, измеряемые показателем средней ожидаемой продолжительности жизни при рождении.
2) Индекс образования: доступ к образованию, измеряемый средней ожидаемой продолжительностью обучения детей школьного возраста и средней продолжительностью обучения взрослого населения.
3) Индекс валового национального дохода: достойный уровень жизни, измеряемый величиной валового национального дохода (ВНД) на душу населения в долларах США по паритету покупательной способности (ППС).
Эти три измерения стандартизируются в виде числовых значений от 0 до 1, среднее геометрическое которых представляет собой совокупный показатель ИЧР в диапазоне от 0 до 1.
Второй блок – показатели доходов населения. Это базовая группа, так как именно величина доходов обуславливает уровень потребления и обеспеченности благами (услугами), формирует образ и уклад жизни. Так, рост доходов способствует расширению структуры расходов, в которой доля продуктов питания будет неуклонно уменьшаться за счёт включения таких статей, как приобретение одежды, предметов роскоши, затраты на отдых, культурные мероприятия и т.д.
Доходы структурируются по группам: «Оплата труда», «Доходы от предпринимательской деятельности», «Социальные выплаты», «Доходы от собственности», «Другие доходы».
В СНС существует следующая трактовка понятия «доход», которая базируется на общей концепции английского экономиста Дж. Хикса.
Доход – это максимальная сумма денег, которую субъект может потратить за период, не становясь при этом беднее (то есть, не принимая на себя финансовых обязательств и не уменьшая своего накопленного богатства).
Из данного определения следует, что доходом не считается, например, получение кредита в банке.
Доходы классифицируются по следующим признакам:
— с учётом инфляции (номинальные, реальные);
— по стадии воспроизводства (первичные, располагаемые).
Первичные доходы (ПД) – это доходы, получаемые в результате первичного распределения добавленной стоимости (оплата труда, предпринимательские доходы, доходы от собственности).
Располагаемые доходы (РД) включают в себя первичные доходы и сальдо текущих трансфертов (ΔТТ):
РД = ПД + ΔТТ. (6.2)
Трансфертом называется безвозмездный платёж (то есть поток денег, товаров и услуг, который не вызывает встречный поток денег, товаров и услуг). Сальдо рассчитывается как разность полученных трансфертов (например, пенсий, стипендий, пособий) и выплаченных трансфертов (например, налогов). Его величина может быть отрицательной.
Номинальные доходы (НД) – это первичные и располагаемые доходы, которые рассчитываются в ценах текущего периода.
Реальные доходы (РеалД) – это номинальные доходы, скорректированные на изменение цен, то есть рассчитанные в сопоставимых (постоянных) ценах:
где – индекс потребительских цен; – индекс покупательной способности денег (величина, обратная индексу цен).
Сопоставляя реальные доходы отчётного периода с номинальными доходами базисного периода, можно сделать вывод об изменении физического объёма потребления благ населением.
Например, если величина данного индекса больше 1, значит, в натуральном выражении потребление благ возросло по сравнению с базисным периодом.
Расчёт реальных доходов имеет смысл только в динамике. Любой доход, полученный за год, является номинальным. Реальным он станет только после корректировки на индекс цен и сравнения с доходом прошлого периода.
Задача с решением №6.1
Данные по области на душу населения в текущих ценах (руб.):
Рассчитать:
1) номинальные располагаемые доходы населения в каждом году;
2) индекс номинальных располагаемых доходов населения;
3) реальные располагаемые доходы населения в 2015 году.
Решение
1) Номинальные располагаемые доходы населения в 2014 году:
14157+6657+16079-1271=35622 руб.
Номинальные располагаемые доходы населения в 2015 году:
15092+7226+19126-1675=39769 руб.
2) Индекс номинальных располагаемых доходов населения:
Вывод: номинальные располагаемые доходы населения в 2015 году возросли на 11,6 % (по сравнению с 2014 годом).
3) Реальные располагаемые доходы населения в 2015 году:
Вывод: реальные располагаемые доходы населения в 2015 году снизились по сравнению с номинальными доходами 2014 года, значит, физический объём потребления благ населением области сократился.
Блок показателей доходов населения дополняется показателями дифференциации доходов. Наибольшее распространение имеют следующие:
1) децильный коэффициент дифференциации доходов – отношение совокупного дохода 10% богатейшего населения к совокупному доходу 10 % беднейшего населения;
2) коэффициент фондов, с помощью которого измеряют различие между суммарными (средними) значениями доходов 10% наиболее обеспеченной и 10% наименее обеспеченной части населения;
3) коэффициент Джини – показатель отклонения фактических доходов населения от абсолютного равенства в распределении доходов. Чем выше его значение, тем выше степень неравенства.
Третий блок – показатели расходов населения. В практической деятельности имеет значение не столько абсолютная величина расходов, сколько их структура, то есть направления затрат. Росстат выделяет следующие градации расходов: «Покупка товаров и оплата услуг», «Обязательные платежи и разнообразные взносы», «Сбережения во вкладах и ценных бумагах», «Расходы на покупку недвижимости», «Приобретение иностранной валюты» и другие расходы.
Четвёртый блок – показатели потребления продуктов питания и обеспеченности благами. В основе расчётов лежит набор из 10 групп продуктов питания продовольственной корзины (см. п. 13.3). Рассчитываются показатели:
— уровень потребления мяса и мясопродуктов (кг на 1 человека в год); — уровень потребления молока и молочных продуктов (кг на 1 человека в год);
— уровень потребления картофеля (кг на 1 человека в год) и т.д.
В качестве наиболее важных благ для населения Росстат рассматривает жильё, автомобили, потребительские товары длительного пользования (телевизоры, персональные компьютеры, стиральные машины и т.д.). Обеспеченность этими благами вычисляется соотношением их общего объёма и численности населения (или домашних хозяйств).
Рассчитываются показатели:
— число собственных легковых автомобилей (штук на 1000 человек населения);
— общая площадь жилых помещений, приходящаяся в среднем на одного жителя (м2 /чел.);
— число телевизоров (штук на 100 домохозяйств) и т.д.
Обобщающую оценку изменения потребления благ дают следующие показатели.
Индивидуальный индекс физического объёма потребления благ характеризует динамику объёма потребления отдельных видов товаров и услуг:
где и , соответственно, физический объём потребления товара (услуги) в отчётном и базисном периодах.
Общий индекс физического объёма потребления благ характеризует динамику объёма потребления по совокупности товаров и услуг в сопоставимых ценах:
где стоимость потреблённых товаров и услуг, соответственно, в отчётном и базисном периодах в сопоставимых ценах.
Индивидуальный индекс уровня потребления благ характеризует динамику среднедушевого потребления отдельных видов товаров и услуг:
где и , соответственно, среднегодовая численность населения в отчётном и базисном периодах.
Общий индекс уровня потребления благ характеризует динамику среднедушевого потребления по совокупности товаров и услуг в сопоставимых ценах:
Задача с решением №6.2
Данные по региону:
Определите:
1) общий индекс физического объема потребления товаров и услуг;
2) общий индекс уровня потребления товаров и услуг.
Решение
1) сделаем предварительный расчёт – переведём объём потребления благ 2016 года в сопоставимые цены, то есть в данном случае в цены базисного, 2015 года (аналогично задаче 13.1):
Таким образом, объём потребления благ 2015 года можно обозначить как
Общий индекс физического объёма потребления благ
Вывод: физический объём потребления благ в отчётном периоде повысился на 1,2 % (по сравнению с базисным периодом).
2) Общий индекс уровня потребления благ
Вывод: уровень потребления благ в отчётном периоде повысился на 3,1 % (по сравнению с базисным периодом).
Таким образом, за счёт роста численности населения региона потребление благ в расчёте на одного человека возросло больше, чем в целом по населению.
В системе показателей уровня жизни можно выделить ещё ряд блоков (демографические, социальные, экологические и другие показатели), однако они традиционно рассматриваются как косвенные по отношению к характеристике уровня жизни населения.
Прожиточный минимум
Прожиточный минимум представляет собой стоимостную оценку потребительской корзины, а также включает в себя обязательные платежи и сборы [3].
Он состоит из потребительской корзины и обязательных платежей и сборов.
Величина прожиточного минимума — это стоимостная оценка потребительской корзины, включающей минимальные наборы продуктов питания, непродовольственных товаров и услуг, необходимых для сохранения здоровья человека и обеспечения его жизнедеятельности, а также обязательные платежи и сборы (в этот пункт включается НДФЛ – налог на доходы физических лиц).
Потребительская корзина в субъектах Российской Федерации устанавливается законодательными органами субъектов Федерации. Её размер – это эталон для мониторинга уровня бедности и решения макроэкономических задач.
Так, прожиточный минимум в целом по Российской Федерации предназначается для решения следующих управленческих задач на государственном уровне:
— оценка уровня жизни населения страны при разработке и реализации социальной политики и федеральных социальных программ;
— обоснование устанавливаемых на федеральном уровне минимального размера оплаты труда, а также для определения устанавливаемых на федеральном уровне размеров стипендий, пособий и других социальных выплат;
-формирование федерального бюджета. Прожиточный минимум в субъектах Российской Федерации предназначается для решения следующих управленческих задач на региональном уровне:
— оценка уровня жизни населения соответствующего субъекта Российской Федерации при разработке и реализации региональных социальных программ;
— оказание необходимой государственной социальной помощи малоимущим гражданам;
— формирование бюджетов субъектов Российской Федерации.
Величина прожиточного минимума на душу населения в целом по Российской Федерации и в субъектах Федерации определяется ежеквартально на основании потребительской корзины и данных об уровне потребительских цен на продукты питания, непродовольственные товары и услуги и расходов по обязательным платежам и сборам. Кроме того, она дифференцирована по возрасту – прожиточный минимум устанавливается не только в среднем на душу населения, но и отдельно для трудоспособного населения, для пенсионеров и для детей.
Величина прожиточного минимума используется в следующих статистических показателях.
Доля населения с доходами ниже прожиточного минимума
где – численность населения с доходами ниже прожиточного минимума (чел.), Н – общая численность населения (чел.).
Соотношение среднедушевых денежных доходов с величиной прожиточного минимума
где НД – среднедушевые номинальные доходы населения (руб.), ПМ – величина прожиточного минимума (руб.).
Аналогичным образом с величиной прожиточного минимума сопоставляются среднемесячная начисленная заработная плата и средний размер назначенных пенсий.
Задача с решением №6.3
Величина прожиточного минимума в регионе в базисном периоде составляла 8500 руб., из них 60 % приходилось на приобретение продуктов питания, 8 % — на оплату услуг, 6 % — на оплату налогов. В отчётном периоде цены на продовольственные товары возросли на 12 %, на непродовольственные товары — на 15 %, на услуги – на 10 %. Величина налогов и сборов осталась на уровне базисного периода.
Рассчитать:
1) стоимость каждого элемента прожиточного минимума в базисном периоде;
2) величину прожиточного минимума в отчётном периоде;
3) индекс стоимости жизни.
Решение
1) стоимость каждого элемента прожиточного минимума в базисном периоде.
Приобретение продуктов питания
60 % * 8500 = 0,60 * 8500 = 5100 руб.;
оплата услуг
8 % * 8500 = 0,08 * 8500 = 680 руб.;
обязательные платежи и сборы
6 % * 8500 = 0,06 * 8500 = 510 руб.;
приобретение непродовольственных товаров
8500 – 5100 – 680 – 510 = 2210 руб.
2) величина прожиточного минимума в отчётном периоде Сделаем предварительные расчёты – рассчитаем стоимость каждого элемента прожиточного минимума в отчётном периоде. Известно, что по трём элементам произошёл рост цен, значит, их стоимость повысилась:
Приобретение продуктов питания:
5100 руб. + 12 % = 5100 * 1,12 = 5712 руб.;
оплата услуг:
680 руб. + 10 % = 680 * 1,10 = 748 руб.;
обязательные платежи и сборы – стоимость не изменилась (510 руб.);
приобретение непродовольственных товаров:
2210 руб. + 15 % = 2210 * 1,15 = 2541,5 руб.
Итого:
3) индекс стоимости жизни
Вывод: стоимость жизни в отчётном периоде повысилась на 11,9 % (по сравнению с базисным периодом).
C 1 января 2013 года в потребительскую корзину России включены следующие продукты и услуги:
Деятельность людей во множестве случаев предполагает работу с данными, а она в свою очередь может подразумевать не только оперирование ими, но и их изучение, обработку и анализ. Например, когда нужно уплотнить информацию, найти какие-то взаимосвязи или определить структуры. И как раз для аналитики в этом случае очень удобно пользоваться не только разными техниками мышления, но и применять статистические методы.
Особенностью методов статистического анализа является их комплексность, обусловленная многообразием форм статистических закономерностей, а также сложностью процесса статистических исследований. Однако мы хотим поговорить именно о таких методах, которые может применять каждый, причем делать это эффективно и с удовольствием.
Статистическое исследование может проводиться посредством следующих методик:
- Статистическое наблюдение;
- Сводка и группировка материалов статистического наблюдения;
- Абсолютные и относительные статистические величины;
- Вариационные ряды;
- Выборка;
- Корреляционный и регрессионный анализ;
- Ряды динамики.
Далее мы рассмотрим каждый из них более подробно. Но отметим, что представим лишь основные характеристики без подробного описания алгоритмов действий. Впрочем, понять их не составит никакого труда.
Статистическое наблюдение
Статистическое наблюдение является планомерным, организованным и в большинстве случаев систематическим сбором информации, направленным, главным образом, на явления социальной жизни. Реализуется данный метод через регистрацию предварительно определенных наиболее ярких признаков, цель которой состоит в последующем получении характеристик изучаемых явлений.
Статистическое наблюдение должно выполняться с учетом некоторых важных требований:
- Оно должно полностью охватывать изучаемые явления;
- Получаемые данные должны быть точными и достоверными;
- Получаемые данные должны быть однообразными и легкосопоставимыми.
Также статистическое наблюдение может иметь две формы:
- Отчетность – это такая форма статистического наблюдения, где информация поступает в конкретные статистические подразделения организаций, учреждений или предприятий. В этом случае данные вносятся в специальные отчеты.
- Специально организованное наблюдение – наблюдение, которое организуется с определенной целью, чтобы получить сведения, которых не имеется в отчетах, или же для уточнения и установления достоверности информации отчетов. К этой форме относятся опросы (например, опросы мнений людей), перепись населения и т.п.
Кроме того, статистическое наблюдение может быть категоризировано на основе двух признаков: либо на основе характера регистрации данных, либо на основе охвата единиц наблюдения. К первой категории относятся опросы, документирование и прямое наблюдение, а ко второй – наблюдение сплошное и несплошное, т.е. выборочное.
Для получения данных при помощи статистического наблюдения можно применять такие способы как анкетирование, корреспондентская деятельность, самоисчисление (когда наблюдаемые, например, сами заполняют соответствующие документы), экспедиции и составление отчетов.
Сводка и группировка материалов статистического наблюдения
Говоря о втором методе, в первую очередь следует сказать о сводке. Сводка представляет собой процесс обработки определенных единичных фактов, которые образуют общую совокупность данных, собранных при наблюдении. Если сводка проводится грамотно, огромное количество единичных данных об отдельных объектах наблюдения может превратиться в целый комплекс статистических таблиц и результатов. Также такое исследование способствует определению общих черт и закономерностей исследуемых явлений.
С учетом показателей точности и глубины изучения можно выделить простую и сложную сводку, но любая из них должна основываться на конкретных этапах:
- Выбирается группировочный признак;
- Определяется порядок формирования групп;
- Разрабатывается система показателей, позволяющих охарактеризовать группу и объект или явление в целом;
- Разрабатываются макеты таблиц, где будут представлены результаты сводки.
Важно заметить, что есть и разные формы сводки:
- Централизованная сводка, требующая передачи полученного первичного материала в вышестоящий центр для последующей обработки;
- Децентрализованная сводка, где изучение данных происходит на нескольких ступенях по восходящей.
Выполняться же сводка может при помощи специализированного оборудования, например, с использованием компьютерного ПО или вручную.
Что же касается группировки, то этот процесс отличается разделением исследуемых данных на группы по признакам. Особенности поставленных статистическим анализом задач влияют на то, какой именно будет группировка: типологической, структурной или аналитической. Именно поэтому для сводки и группировки либо прибегают к услугам узкопрофильных специалистов, либо применяют конкретные техники мышления.
Абсолютные и относительные статистические величины
Абсолютные величина считаются самой первой формой представления статистических данных. С ее помощью удается придать явлениям размерные характеристики, например, по времени, по протяженности, по объему, по площади, по массе и т.д.
Если требуется узнать об индивидуальных абсолютных статистических величинах, можно прибегнуть к замерам, оценке, подсчету или взвешиванию. А если нужно получить итоговые объемные показатели, следует использовать сводку и группировку. Нужно иметь в виду, что абсолютные статистические величины отличаются наличием единиц измерения. К таким единицам относят стоимостные, трудовые и натуральные.
А относительные величины выражают количественные соотношения, касающиеся явлений социальной жизни. Чтобы их получить, одни величины всегда делятся на другие. Показатель, с которым сравнивают (это знаменатель), называют основанием сравнения, а показатель, которой сравнивают (это числитель), называют отчетной величиной.
Относительные величины могут быть разными, что зависит от их содержательной части. Например, существуют величины сравнения, величины уровня развития, величины интенсивности конкретного процесса, величины координации, структуры, динамики и т.д. и т.п.
Чтобы изучить какую-то совокупность по дифференцирующимся признакам, в статистическом анализе применяются средние величины – обобщающие качественные характеристики совокупности однородных явлений по какому-либо дифференцирующемуся признаку.
Крайне важным свойством средних величин является то, что они говорят о значениях конкретных признаков во всем их комплексе единым числом. Невзирая на то, что у отдельных единиц может наблюдаться количественная разница, средние величины выражают общие значения, свойственные всем единицам исследуемого комплекса. Получается, что при помощи характеристики чего-то одного можно получить характеристику целого.
Следует иметь в виду, что одним из самых важных условий применения средних величин, если проводится статистический анализ социальных явлений, считается однородность их комплекса, для которого и нужно узнать среднюю величину. А от такого, как именно будут представлены начальные данные для исчисления средней величины, будет зависеть и формула ее определения.
Вариационные ряды
В некоторых случаях данных о средних показателях тех или иных изучаемых величин может быть недостаточно, чтобы провести обработку, оценку и глубокий анализ какого-то явления или процесса. Тогда во внимание следует брать вариацию или разброс показателей отдельных единиц, который тоже представляет собой важную характеристику исследуемой совокупности.
На индивидуальные значения величин могут воздействовать многие факторы, а сами изучаемые явления или процессы могут быть очень многообразны, т.е. обладать вариацией (это многообразие и есть вариационные ряды), причины которой следует искать в сущности того, что изучается.
Вышеназванные абсолютные величины находятся в непосредственной зависимости от единиц измерения признаков, а значит, делают процесс изучения, оценки и сравнения двух и более вариационных рядов более сложным. А относительные показатели нужно вычислять в качестве соотношения абсолютных и средних показателей.
Выборка
Смысл выборочного метода (или проще – выборки) состоит в том, что по свойствам одной части определяются численные характеристики целого (это называется генеральной совокупностью). Основной выборочного метода является внутренняя связь, объединяющая части и целое, единичное и общее.
Метод выборки отличается рядом существенных преимуществ перед остальными, т.к. благодаря уменьшению количества наблюдений позволяет сократить объемы работы, затрачиваемые средства и усилия, а также успешно получать данные о таких процессах и явлениях, где либо нецелесообразно, либо просто невозможно исследовать их полностью.
Соответствие характеристик выборки характеристикам изучаемого явления или процесса будет зависеть от комплекса условий, и в первую очередь от того, как вообще будет реализовываться выборочный метод на практике. Это может быть как планомерный отбор, идущий по подготовленной схеме, так и непланомерный, когда выборка производится из генеральной совокупности.
Но во всех случаях выборочный метод должен быть типичным и соответствовать критериям объективности. Данные требования нужно выполнять всегда, т.к. именно от них будет зависеть соответствие характеристик метода и характеристик того, что подвергается статистическому анализу.
Таким образом, перед обработкой выборочного материала необходимо провести его тщательную проверку, избавившись тем самым от всего ненужного и второстепенного. Одновременно с этим, составляя выборку, в обязательном порядке нужно обходить стороной любую самодеятельность. Это означает, что ни в коем случае не следует делать выборку только из вариантов, кажущихся типичными, а все другие – отбрасывать.
Эффективная и качественная выборка должна составляться объективно, т.е. производить ее нужно так, чтобы были исключены любые субъективные влияния и предвзятые побуждения. И чтобы это условие было соблюдено должным образом, требуется прибегнуть к принципу рандомизации или, проще говоря, к принципу случайного отбора вариантов из всей их генеральной совокупности.
Представленный принцип служит основой теории выборочного метода, и следовать ему нужно всегда, когда требуется создать эффективную выборочную совокупность, причем случаи планомерного отбора исключением здесь не являются.
Корреляционный и регрессионный анализ
Корреляционный анализ и регрессионный анализ – это два высокоэффективных метода, позволяющие проводить анализ больших объемов данных для изучения возможной взаимосвязи двух или большего количества показателей.
В случае с корреляционным анализом задачами являются:
- Измерить тесноту имеющейся связи дифференцирующихся признаков;
- Определить неизвестные причинные связи;
- Оценить факторы, в наибольшей степени воздействующие на окончательный признак.
А в случае с регрессионным анализом задачи следующие:
- Определить форму связи;
- Установить степень воздействия независимых показателей на зависимый;
- Определить расчетные значения зависимого показателя.
Чтобы решить все вышеназванные задачи, практически всегда нужно применять и корреляционный и регрессионный анализ в комплексе.
Ряды динамики
Посредством этого метода статистического анализа очень удобно определять интенсивность или скорость, с которой развиваются явления, находить тенденцию их развития, выделять колебания, сравнивать динамику развития, находить взаимосвязь развивающихся во времени явлений.
Ряд динамики – это такой ряд, в котором во времени последовательно расположены статистические показатели, изменения которых характеризуют процесс развития исследуемого объекта или явления.
Ряд динамики включает в себя два компонента:
- Период или момент времени, связанный с имеющимися данными;
- Уровень или статистический показатель.
В совокупности эти компоненты представляют собой два члена ряда динамики, где первый член (временной период) обозначается буквой «t», а второй (уровень) – буквой «y».
Исходя из длительности временных промежутков, с которыми взаимосвязаны уровни, ряды динамики могут быть моментными и интервальными. Интервальные ряды позволяют складывать уровни для получения общей величины периодов, следующих один за другим, а в моментных такой возможности нет, но этого там и не требуется.
Ряды динамики также существуют с равными и разными интервалами. Суть же интервалов в моментных и интервальных рядах всегда разная. В первом случае интервалом является временной промежуток между датами, к которым привязаны данные для анализа (удобно использовать такой ряд, например, для определения количества действий за месяц, год и т.д.). А во втором случае – временной промежуток, к которому привязана совокупность обобщенных данных (такой ряд можно использовать для определения качества тех же самых действий за месяц, год и т.п.). Интервалы могут быть равными и разными, независимо от типа ряда.
Естественно, чтобы научиться грамотно применять каждый из методов статистического анализа, недостаточно просто знать о них, ведь, по сути, статистика – это целая наука, требующая еще и определенных навыков и умений. Но чтобы она давалась проще, можно и нужно тренировать свое мышление и улучшать когнитивные способности.
В остальном же исследование, оценка, обработка и анализ информации – очень интересные процессы. И даже в тех случаях, когда это не приводит к какому-то конкретному результату, за время исследования можно узнать множество интересных вещей. Статистический анализ нашел свое применение в огромном количестве сфер деятельности человека, а вы можете использовать его в учебе, работе, бизнесе и других областях, включая развитие детей и самообразование.
До сих пор мы исходили из того, что наши данные, например, о росте тысячи мужчин-респондентов в России полностью отражают реальные показатели роста всех россиян. На самом деле мы не знаем, так это или нет.
Мы сможем об этом говорить только, если получим измерения каждого человека. Эта задача представляется нереализуемой.
Те же, кого нам всё-таки удалось измерить, называются выборкой (sample). А вот все мужчины в России — это генеральная совокупность (population).
Существует ли вообще возможность сказать что-либо определенное про генеральную совокупность по ограниченному набору данных?
На самом деле существует. Теоретическое обоснование этой возможности называется Центральной предельной теоремой.
Центральная предельная теорема (Central Limit Theorem) гласит, что если мы будем много раз выборочно собирать данные, то среднее средних всех выборок (распределение средних) будет стремится к среднему генеральной совокупности. Рассмотрим этот процесс подробнее.
Для начала возьмем несколько выборок из одной генеральной совокупности и выясним среднее каждой выборки.
Затем посчитаем среднее арифметическое средних этих выборок. Это новое среднее будет стремиться к среднему генеральной совокупности (обозначается греческой буквой μ, мю).
Этот вывод чрезвычайно важен, потому что мы наконец-то получаем инструменты, позволяющие сказать что-то определенное про величину, которую мы в принципе не можем охватить измерением.
Теперь рассмотрим статистический вывод на практике. Центральная предельная теорема является обоснованием для двух важных инструментов изучения генеральной совокупности.
С одной стороны, даже предполагая, что выборочное среднее стремится к истинному среднему, мы не можем быть на 100 процентов уверены, что знаем этот параметр генеральной совокупности. С другой, теорема позволяет задать доверительный интервал (Confidence Interval) для среднего (и на самом деле любого другого параметра, например, пропорции).
Другими словами, мы можем утверждать, что, например, в 90 процентах случаев, наш доверительный интервал будет включать истинный параметр генеральной совокупности.
На графике греческой буквой μ (мю) как раз обозначено среднее генеральной совокупности, которое попадает в наш доверительный интервал только в 9 случаях из 10 (то есть в 90 процентах случаев).
Например, мы можем найти доверительный интервал для среднего роста всех мужчин в России. Сделаем это с помощью Питона.
# вначале вновь подгрузим данные [185.0, 179.0, 186.0, 195.0, 178.0, 178.0, 196.0, 188.0, 175.0, 185.0, 175.0, 175.0, 182.0, 161.0, 163.0, 174.0, 170.0, 183.0, 171.0, 166.0, 195.0, 178.0, 181.0, 166.0, 175.0, 181.0, 168.0, 184.0, 174.0, 177.0, 174.0, 199.0, 180.0, 169.0, 188.0, 168.0, 182.0, 160.0, 167.0, 182.0, 187.0, 182.0, 179.0, 177.0, 165.0, 173.0, 175.0, 191.0, 183.0, 162.0, 183.0, 176.0, 173.0, 186.0, 190.0, 189.0, 172.0, 177.0, 183.0, 190.0, 175.0, 178.0, 169.0, 168.0, 188.0, 194.0, 179.0, 190.0, 184.0, 174.0, 184.0, 195.0, 180.0, 196.0, 154.0, 188.0, 181.0, 177.0, 181.0, 160.0, 178.0, 184.0, 195.0, 175.0, 172.0, 175.0, 189.0, 183.0, 175.0, 185.0, 181.0, 190.0, 173.0, 177.0, 176.0, 165.0, 183.0, 183.0, 180.0, 178.0, 166.0, 176.0, 177.0, 172.0, 178.0, 184.0, 199.0, 182.0, 183.0, 179.0, 161.0, 180.0, 181.0, 205.0, 178.0, 183.0, 180.0, 168.0, 191.0, 188.0, 188.0, 171.0, 194.0, 166.0, 186.0, 202.0, 170.0, 174.0, 181.0, 175.0, 164.0, 181.0, 169.0, 185.0, 171.0, 195.0, 172.0, 177.0, 188.0, 168.0, 182.0, 193.0, 164.0, 182.0, 183.0, 188.0, 168.0, 167.0, 185.0, 183.0, 183.0, 183.0, 173.0, 182.0, 183.0, 173.0, 199.0, 185.0, 168.0, 187.0, 170.0, 188.0, 192.0, 172.0, 190.0, 184.0, 188.0, 199.0, 178.0, 172.0, 171.0, 172.0, 179.0, 183.0, 183.0, 188.0, 180.0, 195.0, 177.0, 207.0, 186.0, 171.0, 169.0, 185.0, 178.0, 187.0, 185.0, 179.0, 172.0, 165.0, 176.0, 189.0, 182.0, 168.0, 182.0, 184.0, 171.0, 182.0, 181.0, 169.0, 184.0, 186.0, 191.0, 191.0, 166.0, 171.0, 185.0, 185.0, 185.0, 219.0, 186.0, 191.0, 190.0, 187.0, 177.0, 188.0, 172.0, 178.0, 175.0, 181.0, 203.0, 161.0, 187.0, 164.0, 175.0, 191.0, 181.0, 169.0, 173.0, 187.0, 173.0, 182.0, 180.0, 173.0, 201.0, 186.0, 160.0, 182.0, 173.0, 189.0, 172.0, 179.0, 185.0, 189.0, 168.0, 177.0, 175.0, 173.0, 198.0, 184.0, 167.0, 189.0, 201.0, 190.0, 165.0, 175.0, 193.0, 173.0, 184.0, 188.0, 171.0, 179.0, 148.0, 170.0, 177.0, 168.0, 196.0, 166.0, 176.0, 181.0, 194.0, 166.0, 192.0, 180.0, 170.0, 185.0, 182.0, 174.0, 181.0, 176.0, 181.0, 187.0, 196.0, 168.0, 201.0, 160.0, 178.0, 186.0, 183.0, 174.0, 178.0, 175.0, 174.0, 188.0, 184.0, 173.0, 189.0, 183.0, 188.0, 186.0, 172.0, 174.0, 187.0, 186.0, 180.0, 181.0, 193.0, 174.0, 185.0, 178.0, 178.0, 191.0, 188.0, 188.0, 193.0, 180.0, 187.0, 177.0, 183.0, 179.0, 181.0, 186.0, 172.0, 201.0, 170.0, 168.0, 192.0, 188.0, 186.0, 186.0, 180.0, 171.0, 181.0, 173.0, 190.0, 179.0, 172.0, 177.0, 184.0, 174.0, 172.0, 182.0, 182.0, 175.0, 175.0, 182.0, 166.0, 166.0, 173.0, 178.0, 183.0, 195.0, 189.0, 178.0, 180.0, 170.0, 180.0, 177.0, 183.0, 172.0, 185.0, 195.0, 179.0, 184.0, 187.0, 176.0, 182.0, 180.0, 181.0, 172.0, 180.0, 185.0, 195.0, 190.0, 202.0, 172.0, 189.0, 182.0, 202.0, 172.0, 172.0, 174.0, 159.0, 175.0, 172.0, 182.0, 183.0, 199.0, 190.0, 174.0, 171.0, 185.0, 167.0, 198.0, 192.0, 175.0, 163.0, 194.0, 179.0, 192.0, 164.0, 174.0, 180.0, 180.0, 175.0, 186.0, 169.0, 179.0, 181.0, 185.0, 187.0, 169.0, 165.0, 193.0, 183.0, 173.0, 196.0, 181.0, 192.0, 181.0, 201.0, 198.0, 178.0, 190.0, 186.0, 194.0, 170.0, 187.0, 191.0, 162.0, 168.0, 160.0, 177.0, 187.0, 195.0, 181.0, 196.0, 166.0, 163.0, 179.0, 184.0, 180.0, 159.0, 179.0, 167.0, 187.0, 184.0, 171.0, 175.0, 169.0, 179.0, 190.0, 170.0, 185.0, 175.0, 172.0, 179.0, 170.0, 174.0, 168.0, 200.0, 180.0, 173.0, 182.0, 179.0, 178.0, 186.0, 188.0, 175.0, 174.0, 177.0, 157.0, 165.0, 194.0, 196.0, 178.0, 186.0, 183.0, 211.0, 191.0, 179.0, 170.0, 164.0, 182.0, 172.0, 166.0, 174.0, 169.0, 197.0, 189.0, 180.0, 195.0, 181.0, 171.0, 195.0, 185.0, 170.0, 178.0, 171.0, 166.0, 189.0, 199.0, 166.0, 186.0, 173.0, 175.0, 174.0, 171.0, 180.0, 172.0, 183.0, 179.0, 178.0, 171.0, 174.0, 188.0, 185.0, 170.0, 181.0, 188.0, 163.0, 185.0, 173.0, 186.0, 172.0, 162.0, 164.0, 180.0, 183.0, 171.0, 186.0, 163.0, 179.0, 168.0, 173.0, 180.0, 171.0, 176.0, 190.0, 174.0, 188.0, 169.0, 185.0, 194.0, 155.0, 172.0, 186.0, 178.0, 184.0, 174.0, 181.0, 178.0, 192.0, 183.0, 183.0, 176.0, 175.0, 176.0, 184.0, 176.0, 183.0, 201.0, 189.0, 177.0, 192.0, 176.0, 160.0, 170.0, 161.0, 176.0, 180.0, 197.0, 183.0, 178.0, 188.0, 158.0, 182.0, 188.0, 165.0, 191.0, 183.0, 176.0, 186.0, 203.0, 182.0, 182.0, 175.0, 172.0, 188.0, 171.0, 181.0, 175.0, 185.0, 183.0, 190.0, 175.0, 177.0, 170.0, 176.0, 184.0, 188.0, 171.0, 189.0, 194.0, 184.0, 199.0, 172.0, 168.0, 162.0, 195.0, 187.0, 179.0, 183.0, 169.0, 204.0, 181.0, 181.0, 187.0, 185.0, 182.0, 172.0, 185.0, 199.0, 193.0, 196.0, 175.0, 170.0, 179.0, 181.0, 191.0, 163.0, 195.0, 178.0, 176.0, 170.0, 163.0, 188.0, 181.0, 167.0, 167.0, 177.0, 197.0, 177.0, 165.0, 178.0, 177.0, 153.0, 179.0, 178.0, 187.0, 198.0, 191.0, 177.0, 169.0, 206.0, 181.0, 180.0, 180.0, 182.0, 179.0, 174.0, 175.0, 180.0, 175.0, 173.0, 181.0, 177.0, 195.0, 153.0, 191.0, 192.0, 159.0, 177.0, 176.0, 166.0, 172.0, 169.0, 198.0, 189.0, 193.0, 187.0, 169.0, 175.0, 185.0, 168.0, 187.0, 178.0, 176.0, 187.0, 184.0, 176.0, 192.0, 169.0, 186.0, 186.0, 177.0, 183.0, 167.0, 189.0, 178.0, 175.0, 190.0, 173.0, 166.0, 164.0, 186.0, 167.0, 198.0, 159.0, 197.0, 182.0, 179.0, 175.0, 184.0, 180.0, 191.0, 181.0, 182.0, 176.0, 179.0, 183.0, 163.0, 167.0, 187.0, 182.0, 178.0, 180.0, 183.0, 175.0, 172.0, 182.0, 170.0, 184.0, 163.0, 190.0, 185.0, 183.0, 190.0, 197.0, 190.0, 162.0, 167.0, 174.0, 180.0, 185.0, 173.0, 182.0, 172.0, 174.0, 166.0, 171.0, 166.0, 170.0, 191.0, 171.0, 206.0, 185.0, 182.0, 171.0, 187.0, 174.0, 181.0, 206.0, 179.0, 191.0, 173.0, 180.0, 198.0, 174.0, 198.0, 187.0, 174.0, 186.0, 190.0, 186.0, 164.0, 173.0, 178.0, 179.0, 186.0, 182.0, 167.0, 184.0, 186.0, 186.0, 191.0, 188.0, 185.0, 179.0, 163.0, 184.0, 182.0, 183.0, 167.0, 169.0, 191.0, 180.0, 187.0, 180.0, 180.0, 189.0, 175.0, 181.0, 175.0, 176.0, 177.0, 182.0, 175.0, 193.0, 171.0, 178.0, 176.0, 194.0, 182.0, 190.0, 165.0, 183.0, 189.0, 181.0, 191.0, 175.0, 194.0, 203.0, 176.0, 176.0, 195.0, 196.0, 175.0, 176.0, 177.0, 167.0, 171.0, 170.0, 172.0, 180.0, 182.0, 196.0, 170.0, 190.0, 178.0, 180.0, 187.0, 169.0, 184.0, 182.0, 185.0, 183.0, 205.0, 174.0, 175.0, 174.0, 174.0, 174.0, 192.0, 194.0, 174.0, 172.0, 185.0, 174.0, 186.0, 182.0, 165.0, 195.0, 198.0, 174.0, 176.0, 183.0, 183.0, 187.0, 200.0, 178.0, 172.0, 166.0, 173.0, 180.0, 198.0, 175.0, 182.0, 180.0, 192.0, 205.0, 175.0, 175.0, 190.0, 187.0, 198.0, 186.0, 176.0, 186.0, 191.0, 188.0, 185.0, 191.0, 192.0, 194.0, 186.0, 178.0, 181.0, 192.0, 172.0, 184.0, 176.0, 180.0, 193.0, 182.0, 180.0, 166.0, 187.0, 186.0, 202.0, 177.0, 182.0, 182.0, 196.0, 179.0, 183.0, 186.0, 182.0, 176.0, 182.0, 191.0, 170.0, 181.0, 173.0, 192.0, 165.0, 174.0, 184.0, 196.0, 179.0, 174.0, 199.0, 166.0, 158.0, 184.0, 175.0, 170.0, 187.0, 182.0, 174.0, 167.0, 189.0, 187.0, 179.0, 198.0, 169.0, 165.0, 173.0, 180.0, 182.0, 178.0, 184.0, 167.0, 194.0, 179.0, 191.0, 183.0, 185.0, 186.0, 184.0, 186.0, 193.0, 182.0, 187.0, 179.0, 194.0, 173.0, 198.0, 180.0, 166.0, 181.0, 173.0, 188.0, 173.0, 176.0, 161.0, 175.0, 156.0, 164.0, 188.0, 188.0, 184.0, 170.0, 180.0, 180.0, 168.0, 195.0, 189.0, 178.0, 180.0, 182.0, 160.0, 178.0, 173.0, 170.0, 177.0, 198.0, 186.0, 174.0, 186.0] |
Теперь импортируем новый для нас модуль stats библиотеки SciPy (Scientific Python) и построим доверительный интервал.
В данном случае мы передаем функции interval три параметра: уровень точности alpha, среднее выборки mean (используем библиотеку numpy для расчета) и стандартную ошибку среднего (пока отложим объяснение этого параметра).
Уже не так плохо, мы стали хоть что-то знать про реальную картину мира. Но какие еще применения можно найти для Центральной предельной теоремы?
Вторым применением статистического вывода является построение гипотез и их проверка.
Например, мы можем попытаться понять на основе выборки, правда ли, что средний рост всех мужчин в России составляет 182 см (предположим, так утверждает Минздрав).
По сути нам нужно ответить на вопрос, какова вероятность получить среднее выборки 180.2 см (мы его рассчитали на прошлом занятии), если истинное среднее генеральной совокупности действительно равно 182 см.
Если вероятность (probability value или p-value) окажется ниже определенного порога, мы отвергнем нашу нулевую гипотезу и скажем, что для альтернативной гипотезы есть основания. Если выше, мы будем считать нулевую гипотезу обоснованной.
Пороговое значение часто выбирают на уровне одного, пяти или десяти процентов.
Проверим наше гипотезу с помощью Питона. Для этого снова воспользуемся библиотекой SciPy.
Получилась крошечная вероятность. Около 0.000000009. Она гораздо меньше порога в пять и даже один процент, поэтому мы можем отвергнуть нашу нулевую гипотезу о том, что истинное среднее равно 182 сантиметрам.
Может показаться, что достижения не слишком велики. Мы ведь так и не выяснили, каким является среднее генеральной совокупности. Но взгляните на это иначе. Что если речь идет о невиновности человека или безвредности медицинского препарата? Проверка нулевой гипотезы уже будет иметь важные последствия.
Вы собрали данные по 1000 пациентов для того, чтобы оценить эффективность нового лекарства. Это выборка или генеральная совокупность?
Посмотреть правильный ответ
Ответ: выборка
Посмотреть правильный ответ
Ответ: доверительный интервал и проверка гипотезы
Итак, мы изучили описательную статистику и познакомились со статистическим выводом. На следующем занятии, вооружившись этими знаниями, мы перейдем к вопросу взаимосвязи переменных и построению первой модели.
Вопрос. Никак не могу понять разницу между правильной и неправильной интерпретацией:
Буду благодарен, если поясните этот момент.
Ответ. Начну немного издалека. Смотрите, когда мы не можем (но очень хотим) измерить какой-либо истинный параметр генеральной совокупности, то возникает неопределенность.
Для оценки истинного параметра и степени неопределенности можно использовать два подхода:
На занятии в примере с ростом мужчин в России мы использовали первый, частотный подход. Давайте еще раз повторим его основные тезисы.
У нас есть генеральная совокупность — все мужчины в России. У этой генеральной совокупности есть неизвестный нам параметр — средний рост (истинное среднее). Провести измерения этого параметра не представляется возможным.
При этом мы можем делать выборки из генеральной совокупности (например, опрашивать людей на улице) и без особых усилий вычислять средний рост внутри каждой выборки (выборочное среднее).
К сожалению, мы не можем быть уверены, что выборочное среднее адекватно отражает истинное среднее. Однако, полагаясь на Центральную предельную теорему, для каждой выборки мы можем построить доверительный интервал (confidence interval), который очень важно правильно интерпретировать.
Предположим, мы провели десять опросов, собрали десять выборок и для каждой выборки мы рассчитали 90-процентные интервалы. У нас получилось десять доверительных интервалов.
Так вот, следуя частотному подходу, девять из этих десяти интервалов будут включать истинное среднее, а один — нет. Приведу картинку с занятия еще раз.
Каждая черная горизонтальная черта — это выборка, кружок — выборочное среднее, а вертикальная пунктирная линия — истинное среднее. Третья сверху (и одна из 10) выборка не включает истинное значение генеральной совокупности.
Повторю сделанный вывод, но немного другими словами. Мы по-прежнему ничего не знаем о значении истинного среднего, однако в 90% случаев наш доверительный интервал его «захватит».
Это та самая «правильная» интерпретация, о которой я говорил.
Байесовский метод в корне отличается от частотного. В не слишком формальном ключе его можно выразить следующим образом.
У нас есть некоторое изначальное представление о мире и его свойствах. Например, о среднем росте мужчин в России, мы можем достаточно уверенно сказать, что человека с ростом 180 см встретить довольно легко, а человека с ростом 210 см — гораздо сложнее.
Предположим, что 180 см и есть наш изначальный средний рост.
Далее, получая данные (опрашивая людей на улице), мы будем модифицировать наше изначальное представление, исходя из того, кто нам встретится. Если вдруг окажется, что людей с ростом 210 см очень много, мы скорректируем наше изначальное представление о среднем росте в сторону повышения. Например, со 180 до 190 см.
При этом, мы разумеется понимаем, что в таких расчетах также присутствует неопределенность, поэтому мы не будем говорить, что средний рост мужчин в России составляет ровно 190 см. Мы скажем, например, что с вероятностью 90% он находится в диапазоне от 187 до 193 см (цифры, конечно, приведены для примера).
Такой интервал по-английски называется credible interval. По-русски его называют байесовским доверительным интервалом, хотя, наверное, credible можно перевести как достоверный интервал, что лучше отразит его суть.
Это та «неправильная интерпретация», про которую я говорил. Конечно, неправильной я назвал ее только потому, что она относится к байесовскому методу, который на занятии рассмотрен не был.
Еще одна причина, почему я решил заострить на этом внимание, байесовской интерпретацией интервала часто подменяют частотную.
Это связано с тем, что интерпретация байесовского доверительного интервала (credible interval) более интуитивно понятна, здесь мы напрямую делаем предположение о значении истинного параметра.
Интерпретация частотного доверительного интервала (confidence interval) лишь указывает, как часто мы «захватим» истинный параметр, но ничего не говорит о его значении.
Вопрос.
(1) Поясните пожалуйста, как из вот этой цифры 9.035492171563733e−09 получилась вот такая вероятность 0.000000009?
(2) В строчке кода
t_statistic, p_value = st.ttest_1samp(height, 182). Что это за переменная t_statistic? Хотелось бы понять откуда она взялась. Я прорешал в Google Colab, t_statistic равен -5.797229652505048. Но что это за цифра и откуда берется абсолютно не ясно.
(3) И еще одно. Загнал данные в словарь, просто посчитать количество разных значений.
Получил, что 182 встречается аж 50 раз, в то время как 180 только 45 раз. Я правильно понял, что чем объем выборки больше, тем пиковые значения в выборке меньше влияют на все средние величины?
Ответ.
1) 9.035492171563733e-09 — это так называемая экспоненциальная запись (scientific notation). С ее помощью удобно записывать очень большие и очень малые числа. Для того чтобы преобразовать экспоненциальную запись в обычную, вы умножаете число до буквы e на 10 в степени числа после буквы e.
В данном случае $9.035492171563733 times 10^{-9}$. Так как число и так чрезвычайно мало, цифры после девяти можно отбросить. Получается 0.000000009.
2) Про t-statistic я планировал подробно рассказать на курсе по статистике вывода, так как тема довольно обширная, но попробую в общих чертах объяснить суть этого показателя.
Когда мы проводим статистический тест, нам нужно выбрать критерий (распределение), относительно которого мы будем тестировать нашу гипотезу. Опуская некоторые детали, скажу, что в данном случае мы выбрали распределение Стьюдента (его еще называют t-распределением). Это распределение в целом похоже на нормальное распределение Гаусса. Ниже привожу график функции плотности (probability density function) этого распределения. Обратите внимание, оно стандартизировано, чтобы иметь среднее арифметическое 0 и СКО 1.
Значения по оси x — t-критерий (t-statistic), площадь под кривой слева (или справа) от t-statistic — вероятность (p-value).
Так вот, проводя тест (в данном случае с помощью функции ttest_1samp()), мы получаем два значения, t-statistic и p-value, которые и показывают насколько на стандартизированном t-распределении встретившееся нам среднее значение выборки 180,2 см отличается от предполагаемого истинного среднего в 182 см.
Получившийся t-критерий равен −5.797229652505048. Отложите его по оси x. Как вы видите, показатель находится очень далеко от среднего и площадь под кривой слева от этого значения чрезвычайно мала. Отсюда и такое крошечное значение p-value.
Дополню, что так как в данном случае нулевая гипотеза утверждает, что рост составляет именно 182 см (а не меньше или больше 182 см), то нам нужно посчитать площадь слева от −5.797229652505048 и справа от 5.797229652505048 (то есть как бы два хвоста по краям симметричного распределения). Такой тест называется двусторонним (two-sided).
Для наглядности можно взять функцию распределения cdf() объекта t (t-распределение) библиотеки scipy (см. в конце ноутбука), которой мы передадим наше значение t-statistic и степени свободы (рассчитываются как количество наблюдений − 1). Эта функция посчитает площадь слева от −5.797229652505048. Умножив на два (чтобы учесть оба хвоста), мы как раз получим площадь (p-value) 9.035492171563733e-09.
Возможно, если вы в первый раз сталкиваетесь с частотной статистикой вывода (frequentist inferencial statistics), тема может показаться сложной. На самом деле все довольно интуитивно и логично. Опять же постараюсь пошагово разобрать это на курсе по статистике вывода.
3) Не уверен, что до конца понял ваши вопросы. Отвечу на них в соответствии со своим пониманием того, что вы спрашиваете.
Когда вы считаете количество каждого из значений распределения, то по большому счету ищете моду (наиболее часто встречающееся значение). И мода в выборке действительно равна 182 см. Она отличается от среднего арифметического (180,2 см), потому что распределение сгенерировано псевдослучайным образом, и это расхождение — элемент случайности. В теоретическом нормальном несмещенном распределении мода, медиана и среднее арифметическое конечно совпадают.
В том что касается размера выборки и выбросов, если вы спрашиваете в целом, то конечно, по мере того как размер выборки стремится к размеру генсовокупности, показатели выборки стремятся к истинным показателям. Сложность в том, что в большинстве случаев собрать выборку больше определенного размера не представляется возможным, и насколько репрезентативны имеющиеся данные наверняка мы не знаем.
Для того чтобы преодолеть это ограничение и нужна Центральная предельная теорема. Она утверждает, что если брать выборки из одной и той же генеральной совокупности, то показатели этих выборок (например, выборочные средние) будут нормально распределены и их среднее (то есть среднее средних) будет приближаться к истинному среднему показателю генеральной совокупности. В этом смысле, действительно, мы будем получать все менее смещенную оценку истинного показателя.
При этом опять же, и это важно, мы продолжаем оставаться в неведении относительно истинного распределения (то есть генеральной совокупности).
P.S. Помимо метода .get() для подсчета частоты элементов может быть удобно использовать модуль collections, привел пример в конце ноутбука.
Математическая статистика — это раздел математики, посвященный методам сбора, анализа и обработки статистических данных для научных и практических целей.
Статистические данные представляют собой данные, полученные в результате обследования большого числа объектов или явлений; следовательно, математическая статистика имеет дело с массовыми явлениями.
Методы анализа массовых явлений — предмет многих научных дисциплин; но только в том случае, когда для анализа привлекаются формальные (абстрактные) математические модели, эти методы становятся статистическими.
Современная математическая статистика подразделяется на две обширные области: описательную и аналитическую статистику. Описательная статистика охватывает методы описания статистических данных, представления их в форме таблиц, распределений и пр.
Аналитическая статистика называется также теорией статистических выводов. Ее предметом является обработка данных, полученных в ходе эксперимента, и формулировка выводов, имеющих прикладное значение для самых различных областей человеческой деятельности. Теория статистических выводов тесно связана с другой математической наукой — теорией вероятностей и базируется на ее математическом аппарату.
Содержание:
Введение в математическую статистику
Трудно найти современную область научных исследований, где бы не использовались методы математической статистики. В последнее время они нашли широкое применение в медицине, биологии, социологии, и спорте, т. е. в областях, сравнительно недавно считавшихся далекими от математики.
Чтобы понять роль математической статистики, достаточно рассмотреть типичную схему эксперимента. Специалист, занимающийся исследованиями в конкретной области (воспользуемся здесь термином «исследователь», обращаясь к деятельности научного работника), который предложил новый подход к решению определенной задачи, например новую методику, должен доказать справедливость своей рабочей гипотезы. Чаще всего единственное, что он может сделать для этой цели, — провести хорошо организованный эксперимент, результаты которого убедительно доказывают его предположения.
Традиционная схема эксперимента заключается в том, что набираются две группы испытуемых: контрольная и экспериментальная, примерно одинаковые по всем факторам, имеющим важное значение для цели исследования (пол, возраст, квалификация и т. п.). Контрольная группа подготавливается по традиционной методике, а экспериментальная — с применением предлагаемых нововведений. После определенного этапа подготовки проводится контрольное обследование и по его результатам судят об эффективности предлагаемой методики.
Конечно, на этапе формирования конкретных целей и задач эксперимента исследователь не нуждается в методах математической статистики. Здесь он является специалистом в своей области и оперирует принятыми там понятиями. Но уже на этапе отбора в контрольную и экспериментальную группы ему приходится сталкиваться с целым рядом новых для него вопросов. Какова должна быть численность групп и как должны отбираться кандидаты в эти группы? Можно ли утверждать, что по уровню подготовленности спортсмены в обеих группах одинаковы или уже на этапе отбора одна из групп существенно отличается от другой?
Дело в том, что исследователь обычно хочет знать, насколько достоверно результаты эксперимента, полученные им на группах ограниченного объема, можно обобщить для всех спортсменов данной квалификации. Интуитивно он понимает, что чем больше численность групп, тем убедительнее должны быть результаты эксперимента. Но увеличение численности групп связано с возрастанием организационных, материальных, временных и других затрат, поэтому понятно стремление уменьшить эти затраты. В общем виде ответить на вопрос о достаточности групп нельзя без анализа целей эксперимента, но, как правило, в каждом конкретном случае найти решение этой задачи можно с помощью формальных методов математической статистики. При отборе претендентов в контрольную и экспериментальную группы также применяются статистические методы, позволяющие исключить предвзятость и произвол и тем самым повысить достоверность результатов.
После проведения контрольных наблюдений исследователь получает фактический материал, представляющий собой, как правило, большой объем чистовых данных. Массив этих чисел трудно обозрим, и сделать какие-то конкретные выводы непосредственно по ним невозможно. Здесь используются методы описательной статистики, позволяющие провести классификацию первичных данных, представить их в наиболее наглядной форме и получить некоторые обобщающие показатели, которые дают возможность сравнивать между собой различные данные и делать определенные выводы.
В качестве обобщающих числовых показателей используются средние значения и характеристики варьирования (рассеяния) экспериментальных данных. Получив эти показатели для контрольной и экспериментальной групп, исследователь видит, что они различаются. Но возникает следующий вопрос: насколько достоверны эти различия? Можно ли объяснить наблюдаемое различие действием предложенных нововведений или это различие — случайность, обусловленная малым объемом фактических данных и сильной вариативностью испытуемых? Здесь не обойтись без применения математических методов проверки статистических гипотез..
Перечисленными вопросами не исчерпывается круг задач, решаемых при конкретных исследованиях с использованием методов математической статистики. Очень часто целью исследования является установление наличия и степени связи между спортивным результатом и определенными показателями тренированности, между силой мышц и скоростью их сокращения, между спортивным достижением в одном и другом видах спорта и т. п. Подобные задачи решаются методами корреляционного и регрессионного анализа.
Генеральная совокупность и выборка
Экспериментальные данные обычно представляют собой результаты измерения некоторых признаков (спортивный результат. и пр.) объектов, выбранных из большой совокупности объектов.
Часть объектов исследования, определенным образом выбранная из более обширной совокупности, называется выборкой, а исходная совокупность, из которой взята выборка, — генеральной (основной) совокупностью.
Всегда необходимо четко определять, что понимается под генеральной совокупностью. Ее состав и численность зависят от объектов и целей проводимого исследования. Объектами исследования, составляющими генеральную совокупность, являются в спорте обычно отдельные спортсмены. Если, например, самостоятельной задачей является обследование лиц, поступающих в данный институт в текущем году, то генеральная совокупность — все абитуриенты института этого года. Если мы хотим получить подобные данные для всех институтов страны, то абитуриенты данного института — уже выборка из более широкой генеральной совокупности — всех абитуриентов физкультурных вузов этого года.
Исследования, в которых участвуют все без исключения объекты, составляющие генеральную совокупность, называются сплошными исследованиями. Такие исследования нетипичны для спорта, где обычно используется выборочный метод. Суть его в том, что для обследования привлекается лишь выборка из генеральной совокупности, но по результатам этого обследования судят о свойствах всей генеральной совокупности. Конечно, для этого к выборке должны предъявляться определенные требования. Эти требования, а также правила отбора объектов генеральной совокупности в выборку обсуждаются в гл. 5.
Статистическая совокупность и статистические признаки
Все объекты (элементы), составляющие генеральную совокупность, должны иметь хотя бы один общий признак, позволяющий классифицировать объекты, сравнивать их друг с другом (пол, возраст, спортивная квалификация и т. п.). Наличие общего признака является основой для образования статистической совокупности. Таким образом, статистическая совокупность представляет собой результаты описания или измерения общих признаков объектов исследования.
Если статистическая совокупность получена в результате выборочного исследования, то она называется выборочной совокупностью, или просто выборкой. Под генеральной (статистической) совокупностью тогда подразумевается совокупность всех возможных значений признака в данном исследовании.
Важнейшая характеристика выборки — объем выборки, т. е. число элементов в ней. Объем выборки принято обозначать символом n. Относительно объема генеральной совокупности, обозначаемого N, как правило, делается предположение, что он бесконечно велик, т. е. выборка получается из бесконечной генеральной совокупности.
По одним признакам элементы генеральной совокупности могут полностью совпадать, значения же других признаков изменяются от одного элемента к другому. Например, объектами исследования могут быть представители одного вида спорта, одинаковой квалификации, одного пола и возраста, но различающиеся по силе мышц, быстроте реакции, показателям систем дыхания и кровообращения и т. д. Предметом изучения в статистике являются именно изменяющиеся (варьирующие) признаки, которые иногда называют статистическими признаками. Они делятся на качественные и количественные.
Качественные признаки — это признаки, которыми объект обладает либо не обладает. Они не поддаются непосредственному измерению (например, спортивная специализация, квалификация, национальность, территориальная принадлежность и т. п.).
Количественные признаки представляют собой результаты подсчета или измерения. В соответствии с этим они делятся на дискретные и непрерывные.
Дискретные признаки могут принимать лишь отдельные значения из некоторого ряда чисел, например число подтягиваний на перекладине, число попаданий и промахов при серии выстрелов и т. п.
Непрерывные признаки могут принимать любые значения в определенном интервале. Например, время прохождения дистанции, скорость движения, угол в суставе.
Отдельные числовые значения варьирующего признака называются вариантами. Варианты принято обозначать строчными латинскими буквами из конца алфавита: х, у, z.
Причины варьирования признаков
Признаки варьируют под воздействием большого числа различных факторов. Лишь небольшую часть этих факторов удается контролировать в процессе исследования. Пусть, например, изучаемым признаком в нашем исследовании является спортивный результат в каком-либо виде спорта. Основные факторы, определяющие спортивный результат испытуемых, нам известны (контролируются), в противном случае наше исследование лишено смысла. К числу контролируемых факторов относятся пол, возраст, спортивная квалификация, программа специальной подготовки и ряд других. Но всегда остается большое число факторов, не поддающихся контролю (влияние погодных условий, эмоциональное состояние испытуемых, мотивация и т. п.). Предсказать влияние таких неучтенных факторов на спортивный результат невозможно, поэтому наблюдаемые значения результатов оказываются случайными, а факторы, обусловливающие случайное поведение изучаемого признака, называются случайными факторами. Все перечисленные факторы (контролируемые и случайные) естественным образом определяют значение спортивного результата, поэтому их можно назвать естественными причинами варьирования результатов.
Помимо естественных причин варьирования результатов на их значения оказывают влияние ошибки измерения, которые складываются из систематических погрешностей измерительных приборов, личных ошибок исследователя (описки, пропуски и т. п.) и случайных ошибок измерения. Природа и величина случайных ошибок могут быть различными в зависимости от физических принципов, используемых в измерительных приборах. Систематические приборные погрешности могут быть в принципе уменьшены до пренебрежимо малого уровня с помощью совершенных измерительных средств. Личные ошибки исследователя зависят от его опыта и внимания и принципиально также могут быть исключены.
Случайные ошибки остаются и вместе с естественными факторами варьирования сказываются на значениях признака.
Однако, как правило, в практике спортивных измерений случайные ошибки измерения существенно меньше величины естественного варьирования признака, поэтому будем считать, что варьирование результатов измерения признака обусловлено только естественным варьированием изучаемого признака.
Эмпирические распределения
В этой лекции рассматриваются методы построения эмпирических распределений, т. е. распределений элементов выборки по значениям изучаемого признака. Построение эмпирических распределений — необходимый этап применения статистических методов.
Здесь и далее выборочные исследования будем называть «эксперимент». При рассмотрении конкретных примеров суть эксперимента будет поясняться. Выборочные данные, полученные в ходе эксперимента, будут соответственно экспериментальными (эмпирическими) данными.
По эмпирическим данным, представляющим собой выборку из некоторой генеральной совокупности, оцениваются параметры, позволяющие описать всю генеральную совокупность, определяется интервал, в котором с заданным уровнем доверия находится истинное значение оцениваемого параметра, а затем проверяются те или иные утверждения и делаются выводы о свойствах всей генеральной совокупности.
Эти методы будут рассмотрены в последующих лекциях, и, как мы увидим, их применение всегда связано с выбором подходящей математической модели для описания свойств генеральной совокупности. Правомерность использования любого статистического метода основана на предположении, что генеральная совокупность соответствует выбранной математической модели. Это предположение должно быть сделано до проведения эксперимента, однако, как правило, для обоснованного предположения не хватает информации, и тогда выбор математической модели производится на основе построения и анализа эмпирических распределений. Поэтому необходимо прежде всего уметь строить эмпирические распределения, чтобы правильно применять методы математической статистики.
Табличное представление экспериментальных данных. Вариационные ряды
Как правило, необработанные (первичные) экспериментальные данные представлены в виде неупорядоченного набора чисел, записанных исследователем в порядке их поступления. Этот набор данных трудно обозрим, и сделать по ним какие-то выводы невозможно. Поэтому первичные данные нуждаются в обработке, которая всегда начинается с их группировки.
Группировка представляет собой процесс систематизации, или упорядочения, первичных данных с целью извлечения содержащейся в них информации. Группировка выполняется различными методами в зависимости от целей исследования, вида изучаемого признака и количества экспериментальных данных (объема выборки), но наиболее часто группировка сводится к представлению данных в виде статистических таблиц.
Рассмотрим группировку на конкретном примере.
В табл. 2.1 приведены экспериментальные данные, представляющие собой результаты в беге на 100 м, показанные группой школьников — юношей IX классов (50 человек).
В этом примере выборка представляет собой 50 измеренных значений признака (результатов в беге на 100 м), т.е. объем выборки n =50. Как видим, уже при таком сравнительно небольшом объеме выборки таблица исходных данных становится трудно обозримой, поэтому и используется группировка как прием систематизации экспериментальных данных.
Группировка заключается в распределении вариант выборки по группам, или интервалам группировки, каждый из которых содержит некоторый диапазон значений изучаемого признака.
Первая задача, которую необходимо решить при группировке, состоит в том, чтобы разбить весь диапазон варьирования признака в выборке (между минимальной й максимальной вариантами выборки) на интервалы группировки. Эта задача требует определения числа интервалов группировки и ширины каждого из них. Обычно предпочтительны интервалы одинаковой ширины, а при выборе числа интервалов исходят из следующих соображений.
Группировка производится для того, чтобы построить эмпирическое распределение и сформировать с его помощью предположения о форме распределения изучаемого признака в генеральной совокупности, из которой взята выборка.
При увеличении числа интервалов группировки и, следовательно, при сужении каждого из них уменьшается число экспериментальных данных, попадающих в каждый интервал. Поскольку выборочные значения случайны, они случайным образом распределяются по интервалам группировки, поэтому картина эмпирического распределения будет содержать много случайных деталей, что мешает установить общие закономерности варьирования признака.
И наоборот, при чрезмерно широких интервалах группировки нельзя получить детальной картины распределения, поэтому возникает опасность упустить важные закономерные подробности формы распределения.
Поэтому вопрос о выборе числа и ширины интервалов группировки приходится решать в каждом конкретном случае исходя из целей исследования, объема выборки и степени варьирования признака в выборке. Однако приближенно число интервалов k можно оценить исходя только из объема выборки n. Делается это одним из следующих способов:
1) по формуле Стерджеса:
2) с помощью табл. 2.2.
Вернемся к нашему примеру и воспользуемся рекомендациями табл. 2.2 для выбора числа интервалов группировки. Для объема выборки n = 50 принимаем k — 7. Заметим, что расчет по формуле Стерджеса дает k = 6,6.
Если число интервалов выбрано, то ширина каждого из них определяется по следующей формуле:
где h — ширина интервалов; — максимальная и минимальная варианты выборки.
находятся непосредственно по таблице исходных данных (табл. 2.1.).
Для рассматриваемого примера
Поскольку исходные данные определены с точностью 0,1 с, то нет никакого смысла в более точном вычислении h, поэтому округлим найденное значение ширины интервалов с учетом требуемой точности. Обычно округление производится в сторону увеличения, чтобы не уменьшать общий диапазон варьирования признака. С учетом этих замечаний принимаем h = 0,8 с.
Теперь остается наметить границы интервалов группировки. Нижняя граница первого интервала выбирается так, чтобы минимальная варианта выборки попадала примерно в середину этого интервала. Отсюда нижняя граница первого интервала определяется как
О 8
Для нашего примера
Прибавив к этой величине ширину интервала, найдем нижнюю границу второго интервала Это будет одновременно и верхняя граница предыдущего (первого) интервала.
Аналогично находим и т. д. для всех семи интервалов.
После того как намечены границы всех интервалов, остается распределить по этим интервалам выборочные варианты. Однако при этом возникает следующий вопрос: как поступать в тех случаях, если какая-либо из вариант попадает точно на границу соседних интервалов группировки, т. е. варианта совпадает с нижней границей одного и верхней границей соседнего с ним интервала? Такие варианты могут быть с одинаковыми основаниями отнесены к любому из соседних интервалов, и, чтобы исключить неопределенность такой ситуации, уменьшим верхние границы всех интервалов на величину, равную точности измерения признака (в нашем примере на 0,1 с).
Для удобства последующей обработки сгруппированных данных вычислим срединные значения интервалов группировки , которые отстоят от нижних границ на величину, равную половине ширины интервалов, т. е.
где — нижняя граница -го интервала.
Теперь можно приступать к заполнению статистической таблицы. Для этого заготовим таблицу, состоящую из 8 столбцов, назначение которых поясним по ходу изложения (табл. 2.3).
Заполняем вначале 3 первых столбца таблицы. В первом столбце содержится номер интервала группировки, во втором —.границы, а в третьем — срединные значения интервалов.
Далее на основании таблицы первичных данных (см. табл. 2.1) заполняем четвертый столбец. Этот столбец необязателен, но он обеспечивает удобство составления статистической таблицы и позволяет избежать возникающих при этом ошибок. Его назначение в том, чтобы упростить распределение вариант выборки по интервалам группировки. Имея перед собой таблицу исходных данных (табл. 2.1), условными значками, например черточками, отмечаем повторяемость вариант в каждом интервале, т. е. по порядку для каждого из чисел, представленных в таблице исходных данных, ставим условный значок в строке табл. 2.3, соответствующей интервалу группировки, в который это число попадает. Для удобства последующего подсчета условные значки по мере накопления объединяем в группы (в табл. 2.3 принято объединение в группы по 5).
После того как исходные данные будут исчерпаны, остается подсчитать число условных значков в каждой строке табл. 2.3. Получившиеся числа записываем в пятый столбец таблицы. Они имеют в статистике определенное название. Числа, показывающие, сколько раз варианты, относящиеся к каждому интервалу группировки, встречаются в выборке, называются частотами интервалов.
Обозначим частоты символом . Общая сумма всех частот всегда равна объему выборки п, что можно использовать для проверки правильности составления статистической таблицы.
Прежде чем продолжить заполнение статистической таблицы, дадим ряд определений.
Накопленная частота интервала — это число, полученное последовательным суммированием частот в направлении от первого интервала к последнему, до того интервала включительно, для которого определяется накопленная частота. Накопленные частоты обозначим
Частостью (относительной частотой) называется отношение частоты к объему выборки. Обозначим частости символом
Накопленной частостью называется отношение накопленной частоты к объему выборки.
Обозначив накопленную частность как -, получаем:
Сумма всех частостей всегда равна 1.
Накопленные частоты для рассматриваемого примера приведены в столбце 6 табл. 2.3, частости — в столбце 7, а накопленные частости — в столбце 8.
Следует отметить, что в таком полном виде статистическая таблица необходима далеко не всегда. Часто бывает достаточным ограничиться подсчетом частот. Но остальные данные бывают полезны при последующем анализе результатов эксперимента, о чем речь пойдет ниже.
Табличное представление данных о результатах в беге на 100 м
В заключение этого раздела дадим очень важное определение вариационного ряда.
Вариационным рядом называется двойной числовой ряд, показывающий, каким образом численные значения изучаемого признака связаны с их повторяемостью в выборке. Вариационные ряды имеют большое значение при статистической обработке экспериментальных данных, поскольку дают наглядное представление о характерных особенностях варьирования признака.
Вариационные ряды бывают интервальными и безынтервальными.
В интервальном вариационном ряду частоты (или частости), характеризующие повторяемость вариант в выборке, распределяются по интервалам группировки. В рассмотренном выше примере интервальный вариационный ряд представлен столбцами 3 и 5 (или 3 и 7) табл. 2.3. Интервальный вариационный ряд строится, если изучаемый признак варьирует непрерывно, но используется и для дискретно варьирующих признаков в тех случаях, когда признак варьирует в широких пределах.
В безынтервальном вариационном ряду частоты (или частости) распределяются непосредственно по значениям варьирующего признака. Для построения безынтервального вариационного ряда необходимо варианты выборки расположить в порядке возрастания или убывания (проранжировать) и затем подсчитать, сколько раз каждая из них встречается в выборке. Безынтервальный вариационный ряд применяется в тех случаях, когда исследуемый признак варьирует дискретно и слабо.
Пусть, например, при подсчете количества подтягиваний на перекладине для группы испытуемых получены данные, значения которых лежат в диапазоне от 10 до 15. Таким образом, данная выборка содержит всего шесть вариант: 10, 11, 12, 13, 14, 15. В этом случае сами варианты играют роль интервалов группировки и остается только подсчитать, сколько раз каждая из них встречается в выборке.
Графическое представление экспериментальных данных
Для повышения наглядности эмпирических распределений используется их графическое представление. Наиболее распространенными способами графического представления являются гистограмма, полигон частот и полигон накопленных частот (кумулята).
Гистограмма
Гистограмма используется для графического представления распределений непрерывно варьирующих признаков и состоит из примыкающих друг к другу прямоугольников, как показано на рис. 2.1. Основание каждого прямоугольника равно ширине интервала группировки, а высота его такова, что площадь прямоугольника пропорциональна частоте (или частости) попадания в данный интервал. Таким образом, высоты прямоугольников должны быть пропорциональны величинам
где ,-—частота -го интервала группировки; hi — ширина -ro интервала группировки.
На графике гистограммы основание прямоугольников откладывается по оси абсцисс (х), а высота — по оси ординат (у) прямоугольной системы координат.
Однако в тех случаях, когда ширина всех интервалов группировки одинакова, вид гистограммы не изменится, если по оси ординат откладывать не величины , а частоты интервалов
На рис. 2.1, а представлена гистограмма распределения результатов в беге на 100 м, построенная по данным табл. 2.3. При группировке в табл. 2.3 были приняты интервалы одинаковой ширины, поэтому на гистограмме по оси ординат отложены частоты интервалов Заметим, что в табл. 2.3 мы искусственно уменьшили верхние границы всех интервалов группировки на 0,1 с единственной целью — исключить неоднозначность в распределении вариант, попадающих точно на границы соседних интервалов. При графическом представлении распределений в таком уменьшении верхних границ уже нет никакого смысла, поэтому на гистограмме рис. 2.1, а верхние границы интервалов совпадают с нижними границами соседних интервалов.
Продемонстрируем построение гистограммы для случаев, когда ширина некоторых интервалов группировки неодинакова. Объединим в табл. 2.3 два интервала, имеющих границы (14,8—15,6) и (15,6—16,4). Ширина такого объединенного интервала будет вдвое больше ширины остальных интервалов. Поэтому, чтобы не нарушить принцип построения гистограммы (площади прямоугольников пропорциональны частотам интервалов), по оси ординат уже нельзя откладывать частоты, а высоты прямоугольников должны быть пропорциональны отношениям . Гистограмма, полученная в результате такого объединения интервалов, приведена на рис. 2.1, б.
Полигон частот
Другим распространенным способом графического представления является полигон частот.
Полигон частот образуется ломаной линией, соединяющей точки, соответствующие срединным значениям интервалов группировки и частотам этих интервалов,
Срединные значения откладываются по оси х, а частоты — по оси у.
Из сравнения двух рассмотренных способов графического представления эмпирических распределений следует, что для получения полигона частот из построенной гистограммы нужно середины вершин прямоугольников, образующих гистограмму, соединить отрезками прямых. Полигон частот для рассмотренного выше примера с результатами в беге на 100 м (данные табл. 2.3) представлен на рис. 2.2.
Полигон частот используется для представления распределений как непрерывных, так и дискретных признаков. В случае непрерывного распределения полигон частот является более предпочтительным способом графического представления, чем гистограмма, если график эмпирического распределения описывается плавной зависимостью.
Полигон накопленных частот
Полигон накопленных частот (к у м у-л я т а) получается при соединении отрезками прямых точек, координаты которых соответствуют верхним границам интервалов группировки и накопленным частотам. Если по оси ординат откладывать накопленные частости, то полученный график называется полигоном на. полигон накопленных частот результатов в беге на 100 м (данные табл. 2.3) приведен на рис. 2.3.
На практике полигон накопленных частот используется в основном для представления дискретных данных. Ему свойственна более плавная форма, чем у гистограммы или полигона частот.
Данное свойство и позволяет иногда отдавать предпочтение этому способу графического представления эмпирических распределений.
Числовые характеристики выборки
Вариационные ряды и графики эмпирических распределений дают наглядное представление о том, как варьирует признак в выборочной совокупности. Но они недостаточны для полной характеристики выборки, поскольку содержат много деталей, охватить которые невозможно без применения обобщающих числовых характеристик.
Числовые характеристики выборки дают количественное представление об эмпирических данных и позволяют сравнивать их между собой. Наибольшее практическое значение имеют характеристики положения, рассеяния и асимметрии эмпирических распределений.
В этой лекции рассматриваются характеристики положения и рассеяния, а также практические методы их вычисления. Характеристики асимметрии будут рассмотрены в гл. 6 применительно к проверке гипотез о виде распределения генеральной совокупности.
Характеристики положения
В этом разделе рассмотрены характеристики положения, определяющие положение центра эмпирического распределения. Чаще всего употребляются такие характеристики положения, как среднее арифметическое, медиана и мода.
Среднее арифметическое
Среднее арифметическое, или просто среднее, — одна из основных характеристик выборки. Оно представляет собой такое значение признака, сумма отклонений от которого выборочных значений признака равна нулю (с учетом знака отклонения).
Если воспользоваться геометрической интерпретацией, то среднее арифметическое можно определить как точку на оси х, которая является абсциссой центра масс гистограммы.
Среднее принято обозначать той же буквой, что и варианты выборки, с той лишь разницей, что над буквой ставится символ усреднения — черта. Например, если обозначить исследуемый признак через X, а его числовые значения — через то среднее арифметическое имеет обозначение х.
Среднее арифметическое, как и другие числовые характеристики выборки, может вычисляться как по необработанным первичным данным, так и по результатам группировки этих данных. Точность вычисления по необработанным данным всегда выше, но процесс вычисления оказывается трудоемким при большом объеме выборки.
Для несгруппированных данных среднее арифметическое определяется по следующей формуле:
где n — объем выборки; — варианты выборки; обозначение суммы n чисел , где индекс i (порядковый номер) суммируемых чисел пробегает значения от 1 до п (1, 2, …, n).
Если данные сгруппированы, то
где n — объем выборки; k — число интервалов группировки; — частоты интервалов; — срединные значения интервалов.
Среднее арифметическое, вычисленное по формуле (3.2), называют также взвешенным средним, подчеркивая этим, что в формуле (3.2) суммируются с коэффициентами (весами), равными частотам попадания в интервалы группировки.
Пример 3.1.
В качестве одного из тестов для оценки уровня физической подготовленности студентов 1-го курса технического вуза были выбраны прыжки в длину с места. Результаты контрольной группы студентов в количестве 15 человек оказались следующими (в см):
- 212 223 225 208 230 216 241 202
- 235 225 228 252 237 246 219
Требуется определить средний результат в контрольной группе.
По формуле (3.1) находим
В приведенном примере значение среднего арифметического вычислено приближенно, с округлением до значащей цифры, соответствующей точности измерения признака. Вопрос о том, с какой же точностью необходимо вычислять среднее, здесь подробно рассматривать не будем.).
Пример 3.2.
Вычислим среднее арифметическое результатов в беге на 100 м для экспериментальных данных, сгруппированных в табл. 2.3. Для наглядности промежуточные результаты расчетов приведены в табл. 3.1.
Среднее, рассчитанное по формуле (3.2), оказывается равным
Медиана
Медианой (Me) называется такое значение признака X, когда одна половина значений экспериментальных данных меньше ее, а вторая половина — больше.
Собственно, этим и ограничивается смысловое значение медианы. Широкое использование этой характеристики на практике объясняется простотой ее вычисления и независимостью от формы распределения эмпирических данных.
Если данных немного (объем выборки невелик), медиана вычисляется очень просто. Для этого выборку ранжируют, т. е. располагают данные в порядке возрастания или убывания, и в ранжированной выборке, содержащей n членов, ранг R (порядковый номер) медианы определяется как
Пусть, например, имеется ранжированная выборка, содержащая нечетное число членов n = 9: 12 14 14 18 20 22 22 26 28. Тогда ранг медианы и медиана, обозначаемая символом Me, совпадает с пятым членом ряда: Me = 20.
Если выборка содержит четное число членов, то медиана не может быть определена столь однозначно. Например, получен ряд из 10 членов: 6 8 10 12 14 16 18 20 22 24.
Ранг медианы оказывается равным
Медианой в этом случае может быть любое число между 14 и 16 (5-м и 6-м членами ряда). Для определенности принято считать в качестве медианы среднее арифметическое этих значений, т. е.
Если необходимо найти медиану для сгруппированных данных, то поступают следующим образом.
Вначале находят интервал группировки, в котором содержится медиана, путем подсчета накопленных частот или накопленных частостей. Медианным будет тот интервал, в котором накопленная частота впервые окажется больше n/2 (n — объем выборки) или накопленная частость — больше 0,5. Внутри медианного интервала медиана определяется по следующей формуле:
где — нижняя граница медианного интервала; — половина объема выборки; h — ширина интервалов группировки; — накопленная частота интервала, предшествующего медианному; — частота медианного интервала.
В качестве примера найдем медиану для экспериментальных данных, представленных в табл. 2.3. Медиана содержится в интервале (14,8; 15,6), которому соответствует накопленная частота 27 n/2 = 25. По формуле (3.3) находим
Определив медиану, мы тем самым нашли, что в группе испытуемых одна половина бегунов показала результат лучше 15,5 с, а другая — хуже.
Как видим, медиана несколько отличается от ранее найденного среднего арифметического. Так бывает всегда, когда имеет место несимметричная форма эмпирического распределения.
Для тех случаев, когда эмпирическое распределение оказывается сильно асимметричным, среднее арифметическое теряет свою практическую ценность, поскольку при этом значительно большая часть значений признака оказывается выше или ниже среднего арифметического. В этой ситуации медиана представляет собой лучшую характеристику центра распределения.
Мода
Мода (Мо) представляет собой значение признака, встречающееся в выборке наиболее часто.
Интервал группировки с наибольшей частотой называется модальным.
Для определения моды используется следующая формула:
где — нижняя граница модального интервала; h — ширина интервала группировки; — частота модального интервала; —частота интервала, предшествующего модальному;—частота интервала, следующего за модальным.
Для данных табл. 2.3 имеем:
с, т. е. наибольшее число бегунов в исследуемой группе показали результат, близкий к 15,7 с.
На рис. 3.1 представлена гистограмма распределения результатов в беге на 100 м с нанесенными на нее средним арифметическим, медианой и модой. Из приведенного графика видно, что указанные характеристики положения отличаются друг от друга. Это свидетельствует об асимметрии эмпирического распределения. Вообще, среднее, медиана и мода совпадают только в том случае, если распределение унимодальное (с одним максимумом) и симметричное. Чем больше распределение отличается от симметричного, тем сильнее различие между этими характеристиками.
Характеристики рассеяния
Средние значения не дают полной информации о варьирующем признаке. Нетрудно представить себе два эмпирических распределения, у которых средние одинаковы, но при этом у одного из них значения признака рассеяны в узком диапазоне вокруг среднего, а у другого — в широком. Поэтому наряду со средними значениями вычисляют и характеристики рассеяния выборки. Рассмотрим наиболее употребительные из них.
Размах вариации
Размах вариации вычисляется как разность между максимальной и минимальной вариантами выборки:
Как видим, размах вычисляется очень просто, и в этом его главное и единственное достоинство. Информативность этого показателя невелика. Можно привести очень много распределений, сильно отличающихся по форме, но имеющих одинаковый размах. Не будем здесь подробно останавливаться на особенностях применения данного показателя, укажем лишь, что размах вариации используется иногда в практических исследованиях при малых (не более 10) объемах выборки. Например, по размаху вариации легко оценить, насколько различаются лучший и худший результаты в группе спортсменов. При больших объемах выборки к его использованию надо относиться с осторожностью.
Дисперсия и стандартное отклонение
Дисперсия и стандартное отклонение являются важнейшими характеристиками рассеяния.
Дисперсией называется средний квадрат отклонения значений признака от среднего арифметического. Дисперсия, вычисляемая по выборочным данным, называется выборочной дисперсией и обознача-ется
Выборочную дисперсию вычисляют по приведенным ниже формулам:
Для несгруппированных даных:
В этой формуле — сумма квадратов отклонений значений признака Х{ от среднего арифметического х. Для получения среднего квадрата отклонений эта сумма поделена на объем выборки n.
Для сгруппированных в интервальный вариационный ряд данных:
Здесь ~ срединные значения интервалов группировки;
а
—взвешенная сумма квадратов отклонений.
На практике выборочная дисперсия в виде (3.5) или (3.6) вычисляется редко, а вместо этих формул используются следующие.
Для несгруппированных данных:
Для данных, сгруппированных в интервалы:
Различие этих формул лишь в том, что в последних деление сумм квадратов отклонений производится не на объем выборки п, как того требует вычисление среднего квадрата, а на n — 1. Смысл этого уточнения будет ясен из гл. 5 (см. замечание 1 к гл. 5).
Стандартным отклонением (или средним квадратическим отклонением) называется положительный корень квадратный из дисперсии:
Размерность стандартного отклонения в отличие от размерности дисперсии совпадает с единицами измерения варьирующего признака, поэтому в практической статистике для характеристики рассеяния используют обычно стандартное отклонение, а не дисперсию.
Вычисление дисперсии и стандартного отклонения непосредственно по формулам (3.7) — (3.9) неудобно по следующим причинам:
- При вычислении суммы квадратов отклонений приходится каждый раз вычитать из значений признака (или срединных значений интервалов) предварительно вычисленное х, а затем возводить полученные разности в квадрат. При ручных методах вычислений это вызывает трудности, особенно в случаях многоразрядных значений xi.
- Среднее арифметическое , входящее в эти формулы, обычно вычисляется с некоторой погрешностью округления. Она приводит к накоплению ошибки округления результатов (дисперсии и стандартного отклонения). Опасность существенных ошибок округления увеличивается с увеличением объема выборки.
Поэтому на практике используют другие расчетные формулы, более удобные как для ручных расчетов, так и для вычислений на ЭВМ.
Для несгруппированных данных
или
Соответственно, если данные сгруппированы
Приведенные формулы легко получаются из исходных выражений (3.7), (3.8), если в последних раскрыть квадрат разности под знаком суммы. Читателю предлагается проверить справедливость формул (3.10) — (3.13) самостоятельно.
Формулы (3.10) и (3.12) применяются для определения дисперсии, если среднее арифметическое уже вычислено. При этом следует иметь в виду, что при подстановке х в эти формулы его значение не следует округлять, иначе результат может получиться с большой ошибкой.
Формулы (3.11) и (3.13) используются в тех случаях, когда среднее и дисперсия вычисляются одновременно.
Пример 3.3.
Рассмотрим вначале пример вычисления характеристик рассеяния по несгруппированным первичным данным. Воспользуемся данными примера 3.1 и найдем дисперсию и стандартное отклонение результатов в прыжках в длину с места для контрольной группы студентов.
Таблица 3.3
По формуле (3.11) получаем:
Стандартное отклонение составит:
Промежуточные расчеты приведены в табл. 3.3.
Пример3.4
В качестве примера расчета для сгруппированных данных найдем дисперсию и стандартное отклонение результатов в беге на 100 м по данным табл. 2.3.
Взвешенная сумма квадратов срединных значений интервалов группировки на основании расчетов в табл. 3.4 составит:
Взвешенная сумма срединных значений По формуле (3.13) Отсюда стандартное отклонение
Коэффициент вариации
Стандартное отклонение выражается в тех же единицах измерения, что и характеризуемый им признак. Если требуется сравнить между собой степень варьирования признаков, выраженных в разных единицах измерения, возникают определенные неудобства. Пусть, например, результаты в беге на 100 м, показанные группой IX классов, имеют стандартное отклонение 0,9 с (данные примера 3.4), а исследование роста тех же учащихся показывает, что его стандартное отклонение составляет 6 см (при среднем росте 168 см). Какой из признаков варьирует сильнее? Очевидно, что только на основании сравнения стандартных отклонений на этот вопрос ответить нельзя. Требуется сопоставить стандартные отклонении со средними арифметическими этих признаков. Поэтому вводится относительный показатель называемый коэффициентом вариации.
Обычно он выражается в процентном отношении:
Коэффициент вариации является относительной мерой рассеяния признака.
Для рассматриваемых примеров:
Как видим, результаты в беге на основании полученных выборочных данных варьируют сильнее, чем рост учащихся.
Коэффициент вариации используется и как показатель однородности выборочных наблюдений. По данным 18], считается, что если коэффициент вариации не превышает 10%, то выборку можно считать однородной, т. е. полученной из одной генеральной совокупности.
Однако к использованию коэффициента вариации нужно подходить с осторожностью. Продемонстрируем возможные ошибки на следующем примере. Если на основании многолетних наблюдений среднее арифметическое среднесуточных температур 8 марта составляет в какой-либо местности 0°С, то по формуле (3.14) получим бесконечный коэффициент вариации независимо от разброса температур. Поэтому в данном случае коэффициент вариации не применим в качестве показателя рассеяния температур, а специфику явления более объективно оценивает стандартное отклонение S.
Коэффициент вариации можно использовать как относительную меру рассеяния только в тех случаях, когда значения признака измерены в шкале с абсолютным нулем.
Практически коэффициент вариации применяется в основном для сравнения выборок из однотипных генеральных совокупностей.
Упрощенные методы вычисления среднего арифметического, дисперсии и стандартного отклонения
В тех случаях, когда экспериментальные данные х, представлены большим числом значащих цифр, вычисление среднего арифметического, и особенно дисперсии и стандартного отклонения, усложняется наличием громоздких операций над многоразрядными числами (см. примеры 3.3 и 3.4). Конечно, эти трудности становятся несущественными, если для статистических расчетов применяются ЭВМ. Но в тех случаях, когда возникает необходимость в ручных вычислениях, полезно помнить элементарные правила, позволяющие существенно упростить расчеты. Кроме того, рассмотренные ниже методы позволяют упростить обработку данных и при использовании вычислительных средств за счет упрощения процедуры ввода данных с клавиатуры ЭВМ или калькулятора. Это уменьшает затраты времени и число допускаемых при вводе ошибок.
Эти методы основаны на следующих математических свойствах среднего арифметического и дисперсии.
1. Если вычесть из всех выборочных значений любое постоянное число хо, т. е. заменить исходные данные на новые значения путем преобразования
и найти среднее арифметическое и дисперсию для преобразованных данных то эти характеристики будут связаны со средним арифметическим х и дисперсией для исходных данных следующим образом:
Следовательно, можно вместо непосредственного определения выборочных характеристик х и вначале вычесть из выборочных данных некоторое постоянное число а затем найти среднее арифметическое и дисперсию по преобразованным таким образом данным. При этом, как следует из формул (3.15) и (3.16), чтобы найти среднее арифметическое нужно добавить к среднему арифметическому определенному по преобразованным данным, а дисперсии для исходных и преобразованных данных будут равны между собой.
Смысл предварительного преобразования исходных данныхсостоит в том, чтобы упростить расчеты, заменив исходные данные более простыми числами Обычно в качестве выбирается варианта, находящаяся примерно в середине ранжированного ряда выборочных значений , поэтому рассматриваемый метод называется в литературе методом условного среднего.
2. Если разделить выборочные значения х-, на постоянный коэффициент С, т. е. использовать преобразование
числовые характеристики вычисленные по преобразованным данным, будут связаны с искомыми следующим образом:
Этот прием во многих случаях позволяет упростить вычисления, если удается путем деления на постоянный коэффициент преобразовать исходные данные в целые числа или уменьшить разрядность исходных данных. Пусть, например, исходные данные измерены с точностью 0,5 единицы (…11,5, 12,0, 12,5 13,5…). Тогда естественным упрощением будет деление этих значений на С = = 0,5, в результате чего получим преобразованные данные (… 23 24 25 27…), оперировать которыми проще.
3. Иногда полезным оказывается совместное использование двух рассмотренных выше приемов, например, преобразование вида: В этом случае
Такое преобразование исходных данных всегда позволяет достичь существенного упрощения, если выборочные среднее арифметическое и дисперсия вычисляются по сгруппированным в интервальный вариационный ряд данным. В качестве условного среднего выбирается срединное значение примерно в центре вариационного ряда, а постоянный коэффициент С берется равным ширине интервалов группировки h. При этом любые исходные данные всегда преобразуются в натуральные числа 1, 2, 3, 4…, и вычисление выборочных характеристик для преобразованных данных сводится к элементарным операциям. Искомые характеристики в соответствии с (3.19) и (3.20) вычисляются по следующим формулам:
где преобразованные срединные значения:
— частоты интервалов группировки.
Пример 3.5.
Определим методом условного среднего среднее арифметическое и стандартное отклонение результатов в прыжках в длину с места, показанных контрольной группой студентов I курса (данные примера 3.1). Для этого ранжируем исходные данные, располагая их в порядке возрастания (столбец 2 табл. 3.5).
Та6лица 3.5 Вычисление среднего арифметического и дисперсии результатов в прыжках в длину с места методом условного среднего
Расчет среднего арифметического и дисперсии результатов в беге на 100 м методом условного среднего
В качестве условного среднего выбираем значение 225, находящееся примерно в середине ранжированного ряда.
По формулам (3.15) и (3.16) находим:
Отсюда стандартное отклонение
Промежуточные расчеты приведены в табл. 3.5. Разумеется, получены те же значения выборочных характеристик, что и в примерах 3.1 и 3.3 при вычислении прямым методом, но сравнение табл. 3.5 с табл. 3.3 показывает, что промежуточные вычисления упростились.
Пример 3.6.
Продемонстрируем применение упрощенных методов для сгруппированных в интервальный вариационный ряд данных. Воспользуемся приведенными выше в примерах 3.2 и 3.4 данными о результатах в беге на 100 м группы школьников.
На основании приведенных в п. 3 настоящего раздела рекомендаций выбираем условное среднее =16,0 и коэффициент С = 0,8.
По формулам (3.21) и (3.22) находим:
Промежуточные расчеты приведены в табл. 3.6 и наглядно демонстрируют упрощение, достигаемое при использовании метода условного среднего (сравните с табл. 3.2 и 3.4).
Задачи к гл. 2.3
1. Ниже приведены результаты (в см), показанные группой школьников (70 человек) в тесте «Прыжок в высоту с места».
A. Выполните группировку данных при числе интервалов группировки к = 8, используя рекомендации гл. 2; для исключения неопределенности при распределении вариант, приходящихся на границы интервалов группировки, верхние границы интервалов уменьшаются на величину, равную точности измерения признака.
Б. Сгруппируйте данные, увеличив для исключения указанной неопределенности нижние границы интервалов группировки на величину, равную точности измерения.
B. Постройте для обоих методов группировки гистограмму, полигон частот и полигон накопленных частот. Наблюдается ли различие в форме распределений?
Г. Определите для двух случаев группировки среднее арифметическое и стандартное отклонение. Прокомментируйте результаты, полученные в п.п. «А», и «Г».
2. Ниже приведены результаты (в см) измерения длины бегового шага для 43 спринтеров в зоне 20 м от линии финиша на дистанции 100 м:
А. Составьте интервальный вариационный ряд, постройте гистограмму, полигон частот и полигон накопленных частот.
Б. Найдите среднее арифметическое и стандартное отклонение прямым методом и методом условного среднего с помощью преобразования исходных данных: .
3. Группа юных спортсменов в количестве 50 человек для оценки уровня общефизической подготовки тестировалась но числу подтягиваний на перекладине. Результаты распределились следующим образом:
А. Постройте полигон частот и полигон накопленных частот.
Б. Определите среднее арифметическое и стандартное отклонение прямым методом и методом условного среднего с помощью преобразования:
4. Ниже приведены результаты (в мл) исследования жизненной емкости легких (ЖЕЛ) 20 школьников:
Определите среднее арифметическое и стандартное отклонение результатов прямым методом и методом условного среднего.
5. Найдите Me и Мо по данным задач 2 и 3.
6. Ниже приведены результаты (в кГ), показанные группой студентов (65 человек), динамометрии правой руки.
А. Найдите среднее арифметическое и медиану для представленных данных. Какие выводы о форме распределения можно сделать из сопоставления среднего и медианы?
Б. Постройте гистограмму распределения. Рассчитайте коэффициент вариации. Какие предположения можно сделать относительно однородности выборки (однородности состава обследуемой группы студентов)?
Элементы теории вероятностей
В предыдущих двух лекциях были рассмотрены эмпирические распределения и методы вычисления их числовых характеристик. Но обработка экспериментальных данных не ограничивается рассмотренными методами. Обычно исследователь, получив данные эксперимента на одной или нескольких группах испытуемых и определив по ним некоторые обобщающие числовые характеристики (среднее, стандартное отклонение и др.), пытается найти ответ на следующие вопросы: насколько точно полученные результаты можно обобщить для более широкой совокупности (например, на всех спортсменов данного возраста и квалификации)? Как хорошо его данные согласуются с данными других исследователей? Насколько достоверно различие экспериментальных данных, полученных в разных группах испытуемых или в одной и той же группе, но в разные промежутки времени? Существует ли связь между различными признаками, изучаемыми в проводимом исследовании, и если да, то насколько она сильна?
В ряде случаев исследователь пытается установить некую экспериментальную зависимость между изучаемыми признаками, чтобы по значениям одного из них, легко поддающегося измерению, установить значение другого, измерить который трудно или невозможно.
Конечно, в зависимости от целей конкретного исследования задачи могут быть различными и не ограничиваются приведенным перечнем.
Методы математической статистики, с помощью которых можно получить ответы на поставленные выше вопросы, рассматриваются в гл. 5—7. Чаще всего эти методы основаны на использовании тех или иных согласующихся с условиями проводимого эксперимента математических моделей, разработанных теорией вероятностей.
В данной лекции рассматриваются некоторые ее элементарные. положения в том минимальном объеме, который необходим для дальнейшего изложения.
Статистический подход к определению вероятности
Испытание, событие, случайная величина
Под испытанием (случайным испытанием) в теории вероятностей принято понимать наблюдение какого-либо явления при соблюдении определенного комплекса условий, который должен каждый раз строго выполняться при повторении данного испытания. Если то же самое явление наблюдается при другом комплексе условий, то это уже другое испытание.
Результаты испытаний можно охарактеризовать качественно и количественно.
Качественная характеристика заключается в регистрации какого-либо явления, которое может наблюдаться или не наблюдаться при данном испытании. Любое из этих явлений называется в теории вероятностей событием.
Когда речь идет о соблюдении комплекса условий данного испытания, имеется в виду постоянство значений всех факторов, контролируемых в данном испытании. Но при этом, как правило, имеет место большое число неконтролируемых факторов, которые трудно или невозможно учесть. Значения неконтролируемых факторов могут быть различными при каждом повторении испытания, поэтому результаты испытания оказываются случайными. Событие может произойти или не произойти.
Теория вероятностей рассматривает именно такие случайные события. При этом предполагается, что испытание может быть повторено неограниченное (по крайней мере, теоретически) число раз. Например, выполнение штрафного броска в баскетболе есть испытание, а попадание в кольцо — событие.
Другим примером события, часто приводимым в учебниках по теории вероятностей, является выпадение определенного числа очков (от 1 до 6) при бросании игральной кости.
События в теории вероятностей принято обозначать начальными прописными латинскими буквами А, В, С, …
Количественная характеристика испытания состоит в определении значений некоторых величин, которыми интересуются при данном испытании (например, число подтягиваний на перекладине или время на беговой дистанции). В силу действия большого числа неконтролируемых факторов эти величины могут принимать различные значения в результате испытания. Причем до испытания невозможно предсказать значение величины, поэтому она называется случайной величиной.
Вероятность событий
Будем фиксировать число испытаний, в результате которых появилось некоторое событие А. Пусть было проведено N испытаний, в результате которых событие А появилось ровно раз. Тогда число называется частотой события, а отношение — частостью (относительной частотой) события.
Замечательным экспериментальным фактом является то, что частость события при большом числе повторений испытания начинает мало изменяться и стабилизируется около некоторого определенного значения, в то время как при малом числе повторений она принимает различные, совершенно случайные значения. Поэтому интуитивно ясно, что если при неограниченном повторении испытания частость события будет стремиться к вполне определенному числовому значению, то это значение можно принять в качестве объективной характеристики события А. Такое число Р(A), связанное с событием А, называется вероятностью события А.
Математически неограниченное число повторений испытания записывается в виде предела при N, стремящемся к бесконечности ;
Поскольку никогда не может превзойти N, то вероятность оказывается заключенной в интервале
Следует отметить, что приведенное определение вероятности является абстрактным, оно не может быть экспериментально проверено, так как на практике нельзя реализовать бесконечно большое число повторений испытания.
Действия над событиями
В этом разделе приводятся основные правила операций над событиями с использованием для наглядности их графического изображения в виде диаграмм.
Вначале введем понятие «поле событий» как совокупности всех случайных событий данного испытания, для которых определены вероятности. На рис. 4.1 поле событий изображено в виде заштрихованного прямоугольника.
1. Сумма (объединение) событий (рис. 4.2) представляет собой сложное событие, состоящее в появлении хотя бы одного из событий A и B. Объединение событий обозначается как
2. Произведением (пересечением) событий А и В называется их совместное появление (рис. 4.3). Обозначается произведение событий как , или АВ,
3. Достоверным событием называется событие, которое обязательно происходит в результате данного испытания (рис. 4.4). Оно обозначается обычно как Е.
4. Невозможное событие — событие, которое не может произойти в результате данного испытания. Принятое обозначение — .
5. Несовместными называются события, которые в результате данного испытания не могут произойти вместе (рис. 4.5). Примеры несовместных событий: попадание и промах при выстреле, выпадение двух и трех очков при бросании игральной кости. Рис. 4.5 наглядно показывает, что для несовместных событий АВ=- .
6. Противоположным к А событием называется событие, состоящее в непоявлении события А (рис. 4.6). Обозначается противоположное событие символом А. Примеры противоположных событий: промах и попадание при выстреле, выпадение герба или цифры при одном подбрасывании монеты.
Исчисление вероятностей
Непосредственное определение вероятностей
В некоторых простейших случаях вероятности событий могут быть легко определены непосредственно исходя из условий испытаний.
Представим себе общую схему таких испытаний.
Пусть испытание имеет n возможных исходов, т. е. отдельных событий, могущих появиться в результате данного испытания; причем при каждом повторении испытания возможен один и только один из этих исходов. Таким образом, все n исходов испытания несовместны. Кроме того, по условиям испытания нет никаких оснований предполагать, что один из исходов появляется чаще других, т. е. все исходы являются равновозможными.
Допустим теперь, что при п равновозможных исходах интерес представляет некоторое событие А, появляющееся при каждом из т исходов и не появляющееся при остальных n —m исходах. Тогда принято говорить, что в данном испытании имеется п случаев, из которых m благоприятствуют появлению события А.
Вероятность события А в такой схеме равна отношению числа случаев, благоприятствующих событию А, к общему числу всех равновозможных несовместных случаев:
Формула (4.1) представляет собой так называемое классическое определение вероятности по Лапласу, пришедшее из области азартных игр, где теория вероятностей применялась для определения перспективы выигрыша.
Рассмотрим несколько примеров на вычисление вероятностей по формуле (4.1).
Пример 4.1
Испытание состоит в подбрасывании игральной кости, на каждой из граней которой проставлено число очков (от 1 до 6). Какова вероятность того, что: 1) выпадает 2 очка? 2) выпадает нечетное число очков?
В данном испытании имеется 6 равновозможных случаев (выпадение 1, 2, 3, 4, 5, 6 очков), так как нет оснований предполагать, что появление какого-то определенного числа очков более вероятно (если, конечно, кость симметрична). Поэтому вероятность выпадения любого числа очков, в том числе и 2, при одном подбрасывании 1 равна —
Событию А, заключающемуся в появлении нечетного числа очков, благоприятствуют три случая (выпадение 1, 3 и 5), поэтому по формуле (4.1) получаем
Пример 4.2
В урне 5 белых и 10 черных шаров. Шары тщательно перемешивают и затем наугад вынимают 1 шар. Какова вероятность того, что вынутый шар окажется белым?
В этом примере имеется 15 случаев, причем ожидаемому событию (появлению белого шара) благоприятствуют 5 из них, поэтому искомая вероятность составит
Основные правила вычисления вероятностей сложных событий
Ниже приведены основные правила, позволяющие определить вероятность появления сложного события на основании известных вероятностей составляющих его более простых событий.
1. Вероятность достоверного события равна единице:
2. Вероятность объединения (суммы) несовместных событий равна сумме их вероятностей:
Эти два равенства являются аксиомами теории вероятностей, т. е. принимаются в качестве исходных, но требующих доказательства свойств вероятностей. На их основе строится вся теория вероятностей.
Все остальные, приведенные ниже без доказательств формулы могут быть выведены из принятых аксиом.
3. Вероятность невозможного события равна нулю:
4. Вероятность события, противоположного событию А, равна
Формула (4.5) оказывается полезной на практике в тех случаях, когда вычисление вероятности непосредственно события А затруднительно, в то время как вероятность противоположного события находится просто.
5. Теорема сложения вероятностей. Вероятность объединения произвольных событий равна сумме их вероятностей за вычетом вероятности произведения событий:
Для несовместных событий Р(АВ) = 0 и формула (4.6) переходит в (4.2).
6. Условная вероятность. Если требуется найти вероятность события В при условии, что произошло некоторое другое событие А, то такую ситуацию характеризуют с помощью условной вероятности Условная вероятность равна отношению вероятности произведения событий А и В к вероятности события А:
В тех случаях, когда события А и В несовместны, Р(АВ) = 0 и соответственно
Определение условной вероятности в виде (4.7) дает возможность записать следующую формулу для вычисления вероятности произведения событий:
Последняя формула носит название теоремы умножения вероятностей.
7. Вероятности для независимых событий. Два события называются независимыми, если появление одного из них не изменяет вероятности другого, иначе говоря, появление одного из них не содержит никакой информации о другом.
Для независимых событий A и В:
Поскольку вероятность события Л (или В) для независимых событий по определению не изменяется при появлении другого события, то условная вероятность Р(А В) совпадает с вероятностью события Л, а условная вероятность — с Р(В). Вероятности Р(А) и Р(В) в отличие от условных вероятностей называются безусловными.
Теорема умножения вероятностей для независимых событий записывается следующим образом:
т. е. вероятность произведения независимых событий равна произведению их вероятностей.
Пример 4.3
В урне 5 белых, 4 черных и 8 красных шаров. Какова вероятность того, что первый наугад вынутый шар окажется черным или красным?
Здесь имеется всего 17 случаев, из которых появлению черного шара благоприятствует 4, а появлению красного — 8. Поэтому вероятность события Л — появление черного шара:
а вероятность события В — появление красного шара:
Поскольку события A и В несовместны (вынимается всего один шар), то по формуле (4.2) сложения вероятностей несовместных событий получаем:
Пример 4.4
В студенческой группе 25 человек. Какова вероятность того, что дни рождения хотя бы у двоих совпадают?
Вероятность того, что дни рождения у двух произвольно взятых людей совпадают, равна .(Считаем, что попадание дня рождения на любой день в году — равновозможные случаи). Тогда вероятность того, что дни рождения двух людей не совпадают, по формуле (4.5) для вероятности противоположного события равна Вероятность того, что день рождения третьего отличается от дней рождения двух предыдущих, составит (363 случая из 365 благоприятствуют этому событию). Рассуждая аналогично, находим, что для 25-го члена группы эта вероятность равна
Теперь найдем вероятность того, что дни рождения всех 25 членов группы не совпадают. Поскольку все эти события (несовпадение дня рождения каждого очередного члена группы с днями рождения предыдущих) независимы, то по формуле (4.10) умножения вероятностей независимых событий получаем: Мы нашли вероятность того, что дни рождения у всех 25 человек не совпадают. Вероятность противоположного события будет вероятностью того, что хотя бы у двоих дни рождения совпадают, т. е. искомой вероятностью.
Определяем ее по формуле
Пример 4.5
В урне 3 белых и 7 черных шаров. Какова вероятность того, что два подряд наугад вытянутых шара окажутся белыми?
Нас интересует вероятность произведения двух событий: — при первом испытании вынут белый шар и — при втором испытании вынут белый шар. По формуле (4.8) вероятность такого события равна = Вероятность события составит:
После первого испытания в урне осталось 9 шаров, из которых 2 белых, поэтому условная вероятность
Отсюда искомая вероятность равна:
Случайные величины
Выше мы уже дали интуитивное определение случайной величины, характеризующей количественные результаты испытания и способной в одних и тех же условиях испытания под воздействием случайных причин принимать различные значения.
Изучение случайных величин в теории вероятностей требует связи этих величин с определенными событиями, которые заключаются в попадании случайной величины в некоторый интервал и для которых определены вероятности. Иначе говоря, необходимо связать случайную величину с полем событий данного испытания (см. определение поля событий в разделе 4.3).
Для формального определения случайной величины можно поступить следующим образом: пусть при измерении определенного признака объекта получается некоторая величина X, выражаемая действительными числами. Определим событие А как событие, состоящее в том, что величина X меньше или равна заданному числовому значению В последовательности испытаний, т. е. при измерениях на некоторой последовательности объектов, событие А может появиться или не появиться. Тогда, если для любого заданного х определена вероятность X называется случайной величиной.
Обычно рассматриваются два типа случайных величин: дискретные и непрерывные.
Дискретные случайные величины принимают в результате испытания одно из дискретного множества значений. Они хорошо подходят для описания результатов измерений, связанных с подсчетом и выражаемых целыми числами.
Примеры дискретных случайных величин: число подтягиваний на перекладине, число попаданий в кольцо в серии из 10 штрафных бросков и т. п.
Вероятность принятия дискретной случайной величиной каждого из возможных ее значений больше нуля. Эта вероятность может быть записана как
Здесь X — обозначение случайной величины; — конкретные числовые значения, принимаемые дискретной случайной величиной; — вероятности этих значений.
Индекс i может в общем случае пробегать значения от —
Функция связывающая значения дискретной случайной величины с их вероятностями, называется ее распределением (законом распределения).
Непрерывные случайные величины в результате испытания могут принимать любые значения из некоторого интервала.
Примеры непрерывных случайных величин: спортивный результат в беге или прыжках, рост и масса тела человека, сила мышц и др.
Строго говоря, при практических измерениях результаты всегда получаются с точностью до некоторого значения (например, 0, 01 с при измерении времени на беговой дистанции), поэтому их можно было бы описывать, пользуясь моделью дискретных случайных величин, так как они принимают дискретные значения из некоторого интервала: результат в беге—10,12; 10,13; 10,14; …. рост человека —171, 172, 173 Но число возможных значений, как правило, настолько велико, что гораздо удобнее оказывается модель непрерывных случайных величин, хотя она и является в данном случае математической идеализацией.
Поскольку число возможных значений непрерывной случайной величины бесконечно велико и чаще всего нет оснований предположить, что одни значения появляются существенно чаще других, то вероятность принятия непрерывной случайной величиной каждого отдельного значения оказывается равной нулю. По этой причине нельзя описать распределение непрерывной случайной величины в виде вероятностей ее отдельных значений, как в случае дискретных случайных величин. Здесь необходимы другие подходы, которые будут рассмотрены в разделах 4.6 и 4.7.
Функция распределения
Рассмотрим вероятность того, что случайная величина X окажется меньше или равной некоторому заданному числу х, т. е.
Эта вероятность, рассматриваемая как функция переменной х, называется функцией распределения случайной величины X. Она используется для записи распределений как дискретных, так и непрерывных случайных величин.
Обратимся вначале к дискретной случайной величине и поясним построение функции распределения на конкретном примере.
Пусть баскетболист выполняет серию из 10 штрафных бросков, причем вероятность попадания в кольцо для каждой из попыток равна 0,5. Определим вероятность того, что в данной серии баскетболист поразит кольцо ровно 0; 1; 2; …; 10 раз.
Вероятность попадания с одной попытки обозначим как Р = 0,5. Тогда вероятность промаха составит q = 1—Р = 0,5.
Этот пример подходит под общую схему, известную в теории вероятностей как схема Бернулли, описываемая биномиальным распределением: если р — вероятность «успеха» в данном испытании, a q— 1 — р — вероятность «неуспеха», тогда вероятность того, что в п испытаниях «успех» наступит ровно х раз, определяется следующим выражением:
где — биномиальные коэффициенты (число возможных сочетаний из п элементов по х).
Биномиальное распределение широко используется в математической статистике, таблицы биномиальных вероятностей приведены в [4].
Для нашего примера вероятности попадания в кольцо ровно 0; 1; 2; …; 10 раз равны:
Случайная величина (число попаданий в серии из 10 бросков) обозначается через X. События, состоящие в том, что случайная величина X принимает каждое из возможных значений X = 0, X = 1, …, X = 10, являются несовместными, так как случайная величина X может принимать в данной серии испытаний только одно значение.
Определим теперь функцию распределения случайной величины и рассмотрим ее поведение на графике (рис. 4.7).
Рис. 4.7 Функция распределения дискретной случайной величины При значение равно нулю, так как случайная величина X не может принимать значения меньше 0. При
В интервале от 0 до не изменяется, поскольку случайная величина X не принимает значений в этом диапазоне.
Рассмотрим интервал . Событие для этого интервала представляет собой сумму двух событий: X — 0 и X — 1, и поскольку эти события несовместны, то по теореме сложения вероятностей (4.2)
Аналогично для интервала +, для интервала и т. д.
Таким образом, функция распределения остается постоянной на интервалах между значениями которые может принимать случайная величина X. И только в этих точках она скачком меняет свое значение на величину, равную вероятности , т. е. функция распределения дискретной случайной величины является ступенчатой функцией. Это свойство является общим для всех дискретных случайных величин.
Если известна функция распределения, легко найти вероятность показания случайной величины в заданный интервал:
т. e. вероятность того, что случайная величина X окажется меньше или равной но больше определяется как разность значений функции распределения в точках
Например, нужно найти для рассматриваемого примера вероятность того, что баскетболист в серии из 10 штрафных бросков наберет число очков меньше 8, но больше 3. По формуле (4.13) получаем:
Перейдем теперь к непрерывным случайным величинам. Как было сказано ранее, вероятность принятия непрерывной случайной величиной какого-либо конкретного значения равна 0. Следовательно, функция распределения не может иметь скачков, как для дискретной случайной величины. Функция распределения непрерывной случайной величины будет гладкой (непрерывной) функцией (рис. 4.8).
Для непрерывной случайной величины важную роль играет вероятность попадания ее в заданный интервал, которая по известной функции распределения находится как В этом выражении совершенно не обязательно записывать интервал таким образом. Можно было бы записать при этом вероятность попадания случайной величины в интервал не изменится. Это связано с тем, что, как уже отмечалось, функция распределения случайной непрерывной величины не имеет скачков ни при каких значениях х.
Функция распределения представляет собой теоретический аналог полигона накопленных частот, рассмотренного в разделе 2.3.
Плотность распределения вероятностей
Для непрерывных случайных величин вводится понятие «плотность распределения вероятное-т е й», или «плотность вероятностей», играющее исключительно важную роль при их описании.
Плотность вероятностей — это производная от функции распределения непрерывной случайной величины, т. е.
Более подробно при рассмотрении конкретных непрерывных распределений об этой функции рассказано в разделе 4.9. Вид плотности вероятностей показан на рис. 4.9.
Рис. 4.9. Вид плотности распределения вероятностей Вероятность попадания непрерывной случайной величины в интервал между значениями Х и х2 пропорциональная площади под кривой плотности вероятностей, заключенной между точками Эта вероятность математически записывается в виде интеграла от в пределах :
Плотность вероятностей является теоретическим аналогом гистограммы, рассмотренной в разделе 2.3 гл. 2.
Числовые характеристики случайных величин
Распределение случайной величины, заданное в виде функции распределения или плотности вероятностей, полностью ее характеризует. Однако такая исчерпывающая характеристика случайной величины сложна и далеко не всегда необходима. Для решения многих практических задач не нужно знать распределение случайной величины, а достаточно иметь лишь некоторые обобщающие числовые характеристики этого распределения.
Математическое ожидание
Для более наглядного определения математического ожидания (среднего значения) случайной величины рассмотрим подход к этому понятию на конкретном примере.
Пусть имеется дискретная случайная величина X с возможными значениями и вероятностями этих значений В качестве X рассмотрим уже знакомую случайную величину — число попаданий в серии из 10 штрафных бросков в баскетболе. Если баскетболист с достаточными для отдыха промежутками времени, чтобы условия испытания не изменялись, выполняет большое число (n) таких серий из 10 бросков, то каждое из значений (попал 0; 1; …. 10 раз) будет наблюдаться некоторое число раз. Обозначим эти числа через Очевидно, что сумма
Таким образом, имеем n наблюдений случайной величины X, т. е. выборку объема n. Определим по формуле (3.2) выборочное среднее арифметическое:
Здесь индекс n при x обозначает, что среднее арифметическое вычислено по п наблюдениям.
Теперь представим, что испытание, состоящее в серии из 10 бросков, повторяется неограниченное число раз. Здесь, абстрагируясь от физической реализуемости такого эксперимента, будем считать, что наблюдению доступна вся теоретически бесконечная генеральная совокупность значений случайной величины X.
Согласно первоначальному определению вероятности, данному в разделе 4.2.2, относительные частоты событий стремятся к их вероятностям при неограниченном повторении испытания.
Поэтому в пределе при
Таким образом, выборочное среднее арифметическое случайной величины X стремится при неограниченном повторении испытания (при неограниченном увеличении объема выборки) к некоторому постоянному числу, так как в последней сумме — постоянные числа. Это число носит название математического ожидания (среднего значения) случайной величины.
Математическое ожидание обозначает как М (X) или
Математическое ожидание дискретной случайной величины равно сумме всех ее возможных значений, умноженных на вероятности этих значений:
В этой записи означает, что суммирование производится по всем возможным i.
Только что рассмотренный пример показывает, что математическое ожидание — абстрактное понятие. Оно является теоретическим аналогом выборочного среднего арифметического.
Математическое ожидание равно среднему значению генеральной совокупности.
Для непрерывных случайных величин математическое ожидание определяется с помощью плотности вероятностей по формуле:
Дисперсия и стандартное отклонение
Точно так же, как математическое ожидание, являющееся теоретическим аналогом среднего арифметического, можно ввести теоретические аналоги всех числовых характеристик выборки, рассмотренных в гл. 3. Для этого нужно в соответствующих формулах для выборочных характеристик заменить все средние арифметические на математические ожидания.
Дисперсией случайной величины X называется математическое ожидание квадрата отклонений случайной величины от ее математического ожидания (сравните с определением п. 3.4.2). Дисперсия обозначается как
Для дискретных случайных величин
т. е. дисперсия дискретной случайной величины равна сумме квадратов отклонений отдельных значений случайной величины от ее математического ожидания, умноженных на вероятности этих значений.
Для непрерывных случайных величин
Положительный корень квадратный из дисперсии называется средним квадратическим (стандартным) отклонением случайной величины.
Эта величина обозначается, как ах
Дисперсия и стандартное отклонение характеризуют изменчивость (вариативность) случайной величины. Чем сильнее случайная величина отклоняется от своего математического ожидания, тем больше величины и Последнюю использовать удобнее, так как его размерность совпадает с размерностью случайной величины (например, см. с, кг и др.).
Пример 4.6
Определим в качестве примера математическое ожидание и стандартное отклонение случайной величины X, представляющей собой число попаданий в серии из 10 штрафных бросков в баскетболе при вероятности попадания с одного броска р — 0,5.
Как мы уже знаем, наша случайная величина имеет биномиальное распределение (4.12). Если подставить значения биномиальных вероятностей (4.12) в формулы (4.16) и (4.18), то после соответствующих преобразований, которые здесь не приводятся, получим:
В этих выражениях п — число повторений испытания в серии испытаний, т. е. в этом примере число бросков в серии
Моменты
Математическое ожидание и дисперсия представляют собой частные случаи общих числовых характеристик случайной величины, называемых моментами.
Ниже кратко рассматриваются лишь так называемые центральные моменты случайной величины.
K-м центральным моментом случайной величины X называется математическое ожидание k-й степени отклонения случайной величины от ее математического ожидания: В частности, при k = 2 второй центральный момент случайной величины есть дисперсия.
На практике часто используются также третий и четвертый центральные моменты, позволяющие судить о симметричности и остроте вершины кривой распределения случайной величины.
Если = 0, то распределение симметрично относительно математического ожидания, если>0, то преобладают положительные отклонения от математического ожидания, если <0 — отрицательные. Для удобства применяется так называемый коэффициент асимметрии, который является безразмерной величиной и определяется как Об остроте вершины кривой распределения судят по коэффициенту эксцесса: Если >0, то распределение имеет острый пик, если <0 (минимальное значение = — 2), то распределение имеет плосковершинную форму по сравнению с рассмотренным ниже нормальным распределением, для которого = 0.
Нормальное распределение
Большинство экспериментальных исследований, в том числе и в области спорта, связано с измерениями, результаты которых могут принимать практически любые значения в заданном интервале и, как уже было отмечено, описываются моделью непрерывных случайных величин. Поэтому в дальнейшем будут рассматриваться в основном непрерывные случайные величины и связанные с ними непрерывные распределения.
Одним из непрерывных распределений, имеющим основополагающую роль в математической статистике, является нормальное, или гауссово*, распределение.
Нормальное распределение является самым важным в статистике. Это объясняется целым рядом причин.
1. Прежде всего, многие экспериментальные наблюдения можно успешно описать с помощью нормального распределения. Следует сразу же отметить, что не существует распределений эмпирических данных, которые были бы в точности нормальными, поскольку (как будет показано ниже) нормально распределенная случайная величина находится в пределах от — до , чего никогда не бывает на практике. Однако нормальное распределение очень часто хорошо подходит как приближение.
Проводятся ли измерения роста, силы мышц, спортивного результата в беге, прыжках, метаниях, ряда физиологических параметров — везде на результаты оказывает влияние очень большое число случайных факторов (естественные причины и ошибки измерения). Причем, как правило, действие каждого из этих факторов незначительно. Опыт показывает, что результаты именно в таких случаях будут распределены приближенно нормально.
2. Нормальное распределение хорошо подходит в качестве аппроксимации (приближенного описания) других распределений (например, биномиального).
3. Многие распределения, связанные со случайной выборкой, при увеличении объема последней переходят в нормальное.
4. Нормальное распределение обладает рядом благоприятных математических свойств, во многом обеспечивших его широкое применение в статистике.
В то же время следует отметить, что в природе встречается много экспериментальных распределений, для описания которых модель нормального распределения малопригодна. Для этого в математической статистике разработан ряд методов, некоторые из которых приводятся в следующих лекциях.
Плотность вероятностей нормально распределенной случайной величины записывается следующим образом:
График плотности (нормальная кривая) представлен на рис. 4.10.
Укажем основные свойства нормального распределения.
1. Нормальная кривая имеет колоколообразную форму, симметричную относительно точки х —, с точками перегиба, абсциссы которых отстоят от
2. Для нормального распределения математическое ожидание , дисперсия и стандартное отклонение равно
3. Как видно из выражения (4.23), нормальное распределение полностью определяется двумя параметрами: р и 0— математическим ожиданием и стандартным отклонением.
График плотности вероятности нормального распределения показывает, что для нормально распределенной случайной величины вероятность отклонения от среднего значения быстро уменьшается с ростом величины отклонения.
4. Медиана и мода нормального распределения совпадают и равны математическому ожиданию р.
5. Коэффициенты асимметрии и эксцесса нормального распределения равны нулю
Последнее свойство (5) используется для проверки предположения о нормальности распределения генеральной совокупности (гл. 6).
Нормированное нормальное распределение
Формула (4.23) описывает целое семейство нормальных кривых, зависящих, как было сказано выше, от двух параметров — которые могут принимать любые значения, поэтому возможно бесконечно много нормально распределенных совокупностей.
Чтобы избежать неудобств, связанных с расчетами для каждого конкретного случая по достаточно сложной формуле (4.23), используют так называемое нормированное (или’стандартное) нормальное распределение, для которого составлены подробные таблицы.
Нормированное нормальное распределение имеет параметры Это распределение получается, если пронормировать нормально распределенную величину X по формуле:
Плотность распределения вероятностей нормированного нормального распределения записывается в виде:
На кривой нормированного нормального распределения (рис. 4.11) указаны в процентах доли площадей, соответствующих отмеченным значениям нормированного отклонения и, по отношению общей площади под кривой, равной 1 (100%). Эти площади определяют вероятности попадания случайной величины в соответствующие интервалы.
Таблица значений — ординат нормальной кривой приведена в Приложении (табл. 2). Значения для некоторых характерных нормированных отклонений представлены в табл. 4.1.
Вероятность попадания в заданный интервал
Очень часто исследователя интересует вопрос: какова вероятность того, что изучаемый признак генеральной совокупности находится в заданных границах (например, вероятность того, что результат в беге на 100 м для группы испытуемых окажется в пределах 11,5—12,5 с)? Если предполагается нормальное распределение признака в генеральной совокупности, то получить ответ на этот вопрос очень просто. Как говорилось ранее, вероятность попадания нормально распределенной случайной величины в заданный интервал можно определить по функции распределения:
Если использовать функцию нормированного нормального распределения, эту вероятность можно записать следующим образом:
1),
где Ф — принятое обозначение для функции нормированного нормального распределения; —параметры исходного распределения.
Функция нормированного нормального распределения имеет следующий вид:
Интеграл, входящий в это выражение, не выражается в элементарных функциях, поэтому для вычисления функции Ф(и) используют вспомогательную функцию — функцию Лапласа (интеграл вероятностей):
В Приложении приведена табл. 1 удвоенных значений функции Лапласа
Чтобы найти вероятность попадания нормально распределенной случайной величины в заданный интервал с помощью функции Лапласа, используется следующая формула:
Функция Лапласа является нечетной, т. е. =
Часто представляет интерес вероятность попадания в симметричный относительно среднего значения р, интервал. При этом
Учитывая нечетность функции Лапласа, получаем:
Отсюда ясен смысл того, что в табл. 1 Приложения приведены удвоенные значения функции Лапласа.
В табл. 4.2 приведены полученные по формуле (4.28) вероятности того, что нормально распределенная случайная величина отклонится от своего среднего значения не более, чем на
Таблица 4.2 Вероятности попадания нормально распределенной случайной величины в заданный интервал
Из табл. 4.2 следует, что
Это выражение известно в статистике как «правило трех сигм». Оно означает, что с вероятностью 0,9973 (практически с единичной) нормально распределенная случайная величина окажется в пределах от среднего значения. Иначе говоря, отклонения от среднего больше можно ожидать примерно в I случае из 370 испытаний.
Некоторые специальные непрерывные распределения
Нормальное распределение широко применяется как математическая модель для описания экспериментальных данных. В этом разделе будут рассмотрены три распределения, которые играют очень важную роль при обработке результатов, связанных со случайной выборкой объема n, и составляют основу применения критериев значимости и проверки статистических гипотез. Примеры использования этих распределений приводятся в гл. б, посвященной указанным статистическим методам.
X распределение
Если независимые случайные величины, каждая из которых имеет нормированное нормальное распределение с параметрами то сумма квадратов этих величин имеет так называемое (хи-квадрат)-распределение.
Его плотность вероятностей представлена на рис. 4.12 и зависит от единственного параметра — числа степеней свободы V.
Кривая -распределения имеет положительную асимметрию. С ростом числа степеней свободы v она становится все более симметричной и при переходит в нормальное.
Таблицы -распределения приводятся в табл. 5 Приложения. В этой таблице содержатся значения х, соответствующие вероятностям Р— 1 — а, при а, равном 0,05; 0,01 и 0,001 для различного числа степеней свободы v.
t-распределение Стьюдента
Вторым из широко используемых специальных распределений является t-распределение Стьюдента, или просто t-распределение. Это распределение случайной величины:
где U — случайная величина, имеющая нормированное нормальное распределение; V — случайная величина с распределением с v степенями свободы, t-распределение применяется при проверке статистических гипотез при малом объеме выборки. Эти вопросы рассмотрены в гл. 6. Форма t-распределения полностью определяется одним параметром — числом степеней свободы v.
Вид кривой плотности t-распределения показан на рис. 4.13. /-распределение симметрично при любом v и
при переходит в нормальное с параметрами и
F-распределение
Если случайные величины U и V независимы и каждая из них распределена как с степенями свободы соответственно, то величина подчиняется так называемому F-распределению, которое зависит от двух параметров — называемых числами степеней свободы. F-распределение применяется в основном в задачах, связанных с дисперсиями.
Оценка генеральных параметров
Материал, содержащийся в предыдущих лекциях, можно рассматривать как минимальный набор сведений, необходимых для использования основных статистических методов, объединенных в теории статистических выводов.
Перейдем теперь к рассмотрению этих методов. Для этого необходимо определить их место в рамках единого подхода к решению конкретных задач статистических исследований в области спорта.
Основная задача, решаемая с помощью методов математической статистики, — получение информации о закономерностях изменения изучаемого признака для большой совокупности объектов исследования, объединенных по этому признаку. В терминах математической статистики это означает, что делаются выводы о свойствах генеральной совокупности.
Для описания генеральной совокупности используются математические модели теории вероятностей. Исчерпывающую информацию о генеральной совокупности дает распределение вероятностей. Чаще всего используется модель нормально распределенной генеральной совокупности. И в этом случае распределение полностью определено всего двумя параметрами:
- средним значением (математическим ожиданием) и стандартным отклонением.
Следовательно, чтобы полностью описать нормальную генеральную совокупность, нужно знать значения двух генеральных параметров: среднего значения и стандартного отклонения. Так, если интерес вызывают спортивные результаты, то это средний результат всех спортсменов данной категории и стандартное отклонение результата. Эти параметры неизвестны и предположительно находятся в каких-то пределах. Единственное, что можно сделать, чтобы их определить — это провести эксперимент. Эксперимент для всей генеральной совокупности нереализуем или неоправдан, поэтому применяется выборочный метод.
На основании данных, полученных по выборке, делается вывод относительно всей генеральной совокупности. Используемые для этого методы теории статистических выводов обычно подразделяются на два класса: оценка параметров и проверка гипотез.
Задача оценки параметров состоит в получении наилучших в определенном смысле оценок параметров распределения генеральной совокупности на основании выборочных данных.
Проверка гипотез охватывает методы использования выборочных данных для проверки предположений относительно распределения и параметров распределения генеральной совокупности, которые делаются до получения выборочных данных.
В данной лекции будут рассмотрены основные положения теории оценок.
Случайная выборка из генеральной совокупности
Чтобы по выборке можно было делать выводы о свойствах всей генеральной совокупности, она должна быть представительной (репрезентативной). Это обеспечивается в тех ситуациях, когда выборка является случайной. Модель случайной выборки предъявляет к ней следующие требования: 1) каждый из объектов, составляющих генеральную совокупность, должен иметь одинаковую вероятность быть представленным в выборке; 2) все п измерений, образующих выборку, должны быть независимыми, т. е. результаты каждого измерения не должны зависеть от предыдущих измерений.
Существует два основных метода отбора объектов из генеральной совокупности в выборку: повторный и бес-повторный.
При повторном отборе каждый объект после измерения значения признака возвращается в генеральную совокупность. При этом состояние генеральной совокупности перед каждым новым измерением восстанавливается и требование независимости всегда выполняется.
При бесповторном отборе после измерения объект не возвращается в генеральную совокупность. В этом случае соотношение значений признака в оставшейся части генеральной совокупности меняется, и, следовательно, проводимые измерения не являются независимыми, т. е. бесповоротный отбор не является случайным. На практике бесповоротный отбор используется чаще. Когда проводится измерение каких-то признаков, относящихся к спортсменам, выборка составляется таким образом, что после того, как очередной спортсмен принял участие в измерениях, он уже не участвует в следующих измерениях.
Но, как правило, можно считать, что объем генеральной совокупности настолько велик, что при исключении из нее относительно малого числа единиц, составляющих выборку, состояние генеральной совокупности практически не меняется. При бесконечной генеральной совокупности различие между повторным и бесповторным отбором исчезает.
На практике используется несколько способов получении случайных выборок.
1. Истинно случайной будет выборка, полученная способом жеребьевки. Если, например, нужно отобрать группу в 20 человек из генеральной совокупности, включающей 500 человек, то можно заготовить карточки, из которых 20 определенным образом пометить, а остальные оставить пустыми. Затем всем предлагается вытянуть карточку, и таким образом получается необходимая выборка.
Организационно проще случайная выборка получается методом случайных чисел. Суть этого метода заключается в использовании таблицы случайных чисел. Последние располагаются в таблице в случайном порядке, и вероятности появления цифр от 0 до 9 в каждом разряде чисел одинаковы. Фрагмент таблицы случайных чисел представлен в табл. 5.1. Более подробные таблицы можно найти в [3, 4, 7, 13].
Все объекты генеральной совокупности нумеруются. Если объектов 500, то им присваиваются номера от 001 до 500. Затем в таблице случайных чисел произвольным образом выбирается любое число. Например, первое число второго столбца в табл. 5.1 33 834. Это число пятиразрядное, а нам нужны трехразрядные номера, поэтому отбрасываем два любых разряда числа, например последние. Получим 338, и объект с таким номером включаем в выборку. Далее берем следующее число из таблицы, двигаясь слева направо. Поступая аналогичным образом, получаем число 542. Это число больше 500, поэтому оно пропускается. Далее двигаемся по таблице до числа меньше 500, еще не встречавшегося ранее. Это будет 344, затем 448 и т. д. до тех пор, пока не наберем нужное количество номеров. Объекты с полученными номерами включаем в выборку.
Принцип случайности выборки не исключает плановости отбора объектов в нее. При этом планируется отбор по тем признакам объектов, которые не подлежат измерению в проводимом эксперименте. Существуют следующие виды планового отбора.
2. Механический отбор. Генеральная совокупность делится на группы, число которых равно объему выборки, а затем из каждой группы случайным образом выбирается один объект. В других случаях отбирается каждый 10-й, каждый 100-й и т. д. экземпляр генеральной совокупности или ее представительной части. -Например, в группу включается каждый 10-й юный спортсмен ДЮСШ.
3. Типический отбор. Генеральная совокупность делится на типические участки, например по районному принципу, и в каждой из полученных групп случайным образом отбирается одинаковое число объектов.
4. Серийный отбор. Генеральная совокупность делится на группы, называемые сериями, а затем из общего числа серий отбирается нужное число для сплошного исследования. Например, предполагается получить данные о физическом развитии младших школьников города. Если имеется 50 начальных классов средних школ, то при планируемом обследовании шести классов эти классы отбираются случайным образом.
При проведении выборочных исследований предполагается, что выборка является однородной. Это означает, что она получена из одной генеральной совокупности, т. е. в исходной совокупности отсутствуют объекты, резко выделяющиеся по значениям изучаемого признака. Предположение об однородности выборки на практике обычно основывается на предварительном изучении условий эксперимента. Так, обычно есть уверенность в том, что полученные выборочные данные представляют собой результаты измерений для спортсменов одного возраста, квалификации, спортивной специализации и т, п.
Точечные оценки
Под термином «о ц е н к а» в теории оценок понимаются как сами значения параметров генеральной совокупности, полученные по выборке, так и процесс получения этих значений, т. е. правило, по которому они получены.
Определения и требования к оценкам
Оценки подразделяются на два класса: точечные и интервальные.
Точечные оценки представляют собой определенные значения параметров генеральной совокупности, полученные по выборочным данным. Эти значения должны быть максимально близки к значениям соответствующих параметров генеральной совокупности, которые являются истинными значениями оцениваемых параметров.
При формировании интервальных оценок определяют границы интервалов, между которыми с большой вероятностью находятся истинные значения параметров.
Начнем с точечных оценок и рассмотрим оценку произвольного параметра (среднего, дисперсии или какого-то другого) генеральной совокупности, который обозначим . Оценивая параметр по выборке, находим такую величину , которую принимаем за точечную оценку параметра . Естественно, при этом стремимся, чтобы оценка была в определенном смысле наилучшей, поэтому к ней предъявляется ряд требований:
1. Состоятельность. Точечная оценка называется состоятельной, если при неограниченном увеличении объема выборки она стремится к истинному значению параметра .
В математической статистике показывается, что состоятельной оценкой генерального среднего значения является выборочное среднее арифметическое х, а состоятельной оценкой генеральной дисперсии — выборочная дисперсия . Методы вычисления этих выборочных характеристик были рассмотрены в гл. 3.
2. Несмещенность. Оценка называется несмещенной, если она не содержит систематической ошибки, т. е. среднее значение оценки, определенное по многократно повторенной выборке объема n из одной и той же генеральной совокупности, стремится к истинному значению соответствующего генерального параметра.
Выборочное среднее арифметическое является несмещенной оценкой генерального среднего .
Несмещенной оценкой генеральной дисперсии является выборочная дисперсия, вычисляемая по формуле:
Замечание 1
При определении выборочной дисперсии как среднего квадрата отклонений значений признака от среднего арифметического была приведена ее формула:
Было отмечено, что эта формула редко используется, а вместо нее применяется выражение
Теперь поясним смысл такого изменения формулы.
Одним из свойств выборочного среднего арифметического является то, что сумма квадратов отклонений значений признака от среднего арифметического меньше, чем сумма квадратов отклонений от любой другой величины (в том числе и от генерального среднего , т. е. для любой выборки. Поэтому вычисление оценки дисперсии по формуле будет содержать систематическую ошибку, и такая оценка будет смещенной.
Можно показать, что если использовать оценку то она будет несмещенной, т. е. при неограниченном повторении выборки из генеральной совокупности и усреднении выборочной дисперсии, полученной на основании этой формулы, по всем выборкам получается истинное значение генеральной дисперсии.
3. Эффективность. Несмещенная оценка является эффективной, если она имеет наименьшую дисперсию по сравнению с другими несмещенными оценками того же параметра генеральной совокупности.
Это надо понимать так: полученные по выборке оценки — случайные величины, так как случайны сами выборочные значения. Поэтому можно говорить о математическом ожидании и дисперсии оценок Эффективность этих оценок означает, что их дисперсии меньше дисперсий любых других несмещенных оценок среднего значения и дисперсии генеральной совокупности.
Итак, наилучшими в указанном смысле оценками генерального среднего значения и генеральной дисперсии являются выборочные характеристики:
Стандартная ошибка среднего арифметического
Оценки полученные по выборке, как правило, не совпадают с истинными значениями параметров генеральной совокупности. Экспериментально проверить это утверждение невозможно, поскольку не известны истинные значения этих параметров. Но если брать повторные выборки нз одной и той же генеральной совокупности с параметрами р, и с2 и каждый раз вычислять их оценки то окажется, что эти оценки для разных выборок не совпадают, хотя все это из одних и тех же генеральных параметров.
Отклонения оценок генеральных параметров от истинных значений этих параметров называются статистическими ошибками, или ошибками репрезентативности. Их происхождение не имеет ничего общего с ошибками измерения, а возникают они только потому, что не все объекты генеральной совокупности представлены в выборке.
Величины статистических ошибок оценивают по среднему квадратическому (стандартному) отклонению выборочных характеристик. Здесь рассматривается только стандартное отклонение выборочного среднего арифметического.
Если взять очень много независимых выборок объема n из одной и той же генеральной совокупности и определить для каждой из них среднее арифметическое, то окажется, что полученные средние арифметические варьируют вокруг своего среднего значения (равного в — раз меньше, чем отдельные варианты выборки. Следовательно, стандартное отклонение выборочного среднего арифметического будет равно где — стандартное отклонение генеральной совокупности.
В качестве оценки стандартного отклонения выборочного среднего используется величина называемая стандартной ошибкой среднего арифметического. В формуле (5.1) S — выборочное стандартное отклонение
Величина Si показывает, какая ошибка в среднем допускается, если использовать вместо генерального среднего его выборочную оценку Поэтому вычисленное среднее арифметическое часто указывают в виде
чтобы оценить точность оценки
Из формулы (5.1) видно, как зависит стандартная ошибка от объема выборки n: с увеличением объема выборки п стандартная ошибка уменьшается пропорционально корню квадратному из n.
Пример 5.1
Найдем стандартную ошибку среднего арифметического результатов в беге на 100 м для данных примера 3.4. Рассчитанные в примере_3.4 значения выборочных характеристик составляют: =15,4 с и S = 0,94 (с). Объем выборки n = 50, отсюда стандартная ошибка среднего арифметического 0,13 (с).
Замечание 2
Теперь можно вернуться к вопросу, который был оставлен открытым при вычислении выборочных характеристик в гл. 3: с такой точностью нужно вычислять выборочные характеристики?
Как мы только что убедились, при ограниченном объеме выборки п истинное значение генерального среднего р, не может быть определено сколь угодно точно, поэтому при вычислении оставлять большое число значащих цифр не имеет смысла. Существует эмпирическое правило, согласно которому в окончательном результате положение последней значащей цифры должно соответствовать положению первой значащей цифры в величине Чтобы избежать накопления ошибок, связанных с округлением, промежуточные результаты нужно вычислять с точностью на один порядок больше, чем точность окончательных результатов.
Для рассмотренного выше примера = 0,13/3 = = 0,04 (с). Следовательно, значение надо было бы вычислять с точностью до сотых долей секунды, если, конечно, позволяет точность измерения исходных данных.
В этом примере значения признака измерены с точностью до десятых долей секунды, поэтому в более точном вычислении и его стандартной ошибки нет смысла. Окончательный результат следует проводить в виде
Интервальные оценки
По известной величине выборочной характеристики или S и др.) можно определить интервал, в котором с той или иной вероятностью определяется значение параметра генеральной совокупности, оцениваемого по этой выборочной характеристике.
Вероятности, признанные достаточными для того, чтобы уверенно судить о генеральных параметрах на основании выборочных характеристик, называются доверительными.
Обычно в качестве доверительных вероятностей выбирают значения 0,95, 0,99 или 0,999 (их принято выражать в процентах). Перечисленным значениям соответствуют 95, 99 и 99,9 %. Выбор той или иной доверительной вероятности производится исследователем исходя из практических соображений о той ответственности, с какой делаются выводы о генеральных параметрах.
Замечание 3
Как правило, в научных исследованиях в области спорта считается достаточной доверительная вероятность 0,95 (95 %). В некоторых случаях, когда уточняются результаты предыдущих исследований или когда выводы, сделанные в данном исследовании, связаны с большой ответственностью (например, предлагается в корне пересмотреть программу тренировок или рацион питания сборной команды), применяются более высокие уровни доверительной вероятности: 99 или 99,9%.
Интервал, в котором с заданной доверительной вероятностью находится оцениваемый генеральный параметр, называется доверительным интервалом.
В соответствии с доверительными вероятностями на практике используются 95-, 99-, 99,9-процентные доверительные интервалы.
В литературе по математической статистике обычно говорят о 100 (1 —а)-процентном доверительном интервале, где (1 — а) — доверительная вероятность, а а — некоторое малое число (а — 0,05; 0,01; 0,001), задающее вероятность того, что оцениваемый генеральный параметр выходит за границы доверительного интервала.
Теперь рассмотрим формирование доверительного интервала для среднего (математического ожидания) нормально распределенной генеральной совокупности. Пронормируем значение среднего арифметического найденного по выборке объема n из этой генеральной совокупности, по формуле: где — оцениваемый параметр — среднее значение генеральной совокупности; — стандартная ошибка выборочного среднего арифметического.
Величина t имеет t-распределение Стьюдента (определенное в гл. 4) с v = n — 1 степенями свободы.
Необходимо определить доверительный интервал, в котором с доверительной вероятностью 100(1 —а) % находится истинное значение оцениваемого параметра ц. Для этого задается значение а (например, 0,05). Доверительная вероятность будет соответствовать площади под кривой t-распределения Стьюдента, заключенной между точками — (рис. 5.1). Следовательно, доверительный интервал можно записать как
Преобразуем это выражение к виду Это и есть стандартная форма записи доверительного интервала.
Учитывая формулу (5.1) приходим к окончательному выражению:
т. е. истинное значение с вероятностью 100 (1 — а) % лежит в границах Значения для стандартных значений а (0,05, 0,01 и 0,001) и различных значений параметра v t-распределения (v = n — 1) приведены в табл. 4 Приложения.
Чтобы найти границы доверительного интервала для среднего значения генеральной совокупности, действуем в следующем порядке:
- по полученной выборке объема n вычисляем среднее арифметическое и стандартное отклонение S. Методы вычислений рассмотрены в гл. 3;
- задаемся доверительной вероятностью 1 — а (например, 0,95) исходя из целей исследования;
- по таблице t-распределения Стьюдента находим граничные значения В силу симметричности t-распределения достаточно знать только положительное значение . Например, если объем выборки п — 12, то число степеней свободы t-распределения v = 12— 1 = 11, и по табл. 4 Приложения определяем для а = 0,05: = 2,20;
- находим границы доверительного интервала по формуле (5.3). Для а= 0,05 и n = 12:
Как было отмечено в гл. 4, при больших объемах выборки (практически при n > 30) t-распределение Стьюдента переходит в нормальное. Поэтому для определения границ доверительного интервала для при больших объемах выборки можно пользоваться таблицами нормированного нормального распределения (табл. 1 Приложения).
Доверительный интервал для при n > 30 записывается в следующем виде:
где ua — процентные точки нормированного нормального распределения, определяемые по табл. 1 Приложения.
Для стандартных доверительных вероятностей (95, 99, 99,9%) значения приведены в таблице 5.2.
Чтобы найти доверительный интервал для среднего значения генеральной совокупности при больших объемах выборки (n >30), поступаем следующим образом:
- По выборочным данным находим среднее арифметическое и стандартное отклонение S, как показано в гл. 3.
- Задаемся доверительной вероятностью I—а (например, 0,95).
- По табл. 5.2 находим значение соответствующее заданной доверительной вероятности = 1,96).
- Определяем границы доверительного интервала по формуле (5.4). Для а = 0,05 получаем:
Как видно из сравнения найденного доверительного интервала с доверительным интервалом, полученный выше по t-распределению, при малых объемах выборки границы первого интервала шире 1,96). Это понят но из простых физических соображений: при малом объеме выборки получается меньше ин-форгиации о свойствах генеральной совокупности.
Пример 5.2
Определим границы 95 %-ного доверительного интервала для среднего результата в беге на 100 м по данным обследования группы из 50 школьников, приведенным в табл. 2.1.
Объем выборки n= 50, т. е. для определения доверительного интервала можно использовать рекомендации для большого объема выборки. Действуем в указанном выше порядке:
- Среднее арифметическое и стандартное отклонение для рассматриваемого примера вычислены в примере 3:4: — 15,4 с, S = 0,94 с.
- Задаемся доверительной вероятностью 95%.
- Из табл. 5.2 находим — 1,96.
- По формуле (5.4) определяем границы доверительного интервала:
Таким образом, истинное значение среднего времени на дистанции 100 м для школьников этой группы находится в интервале (15,1 с, 15,7 с) с вероятностью 0,95 (95%).
Сделаем еще одно замечание по поводу доверительных интервалов.
Среднее значение р генеральной совокупности является хотя и неизвестным, но фиксированным параметром, а границы доверительного интервала, полученные по случайной выборке объема n, будут также случайными величинами. Когда говорится о 95-процентной доверительной вероятности, это означает, что примерно в 95 % случаев фиксированное, но неизвестное значение окажется в границах доверительного интервала.
Образная трактовка доверительных интервалов приведена в книге «Статистика и планирование эксперимента в технике и науке»*. «Доверительный интервал и связанные с ним понятия похожи на то, с чем мы сталкиваемся при игре с набрасыванием подковы на кол. Кол здесь играет роль оцениваемого параметра (его положение никогда не изменяется)… Подкова выступает в роли доверительного интервала. Если при 100 набрасываниях подковы удается в среднем 90 раз набросить ее на кол, то имеется 90 %-ная гарантия (или уровень доверия) набросить подкову на кол. Доверительный интервал, подобно подкове, меняет свое положение. При любом броске (или при построении некоторой интервальной оценки) кол (или параметр) может как попасть внутрь подковы (интервала), так и оказаться вне ее. Таким образом, делается вероятностное утверждение относительно переменных величин, характеризующих положение подковы».
Оценку параметра найденную в форме доверительного интервала, часто записывают в виде . Чтобы избежать неоднозначности в толковании результатов (перепутывания с записью результата как запись доверительного интервала необходимо сопровождать пояснением. Например 95 %-ный доверительный интервал для среднего результата (15,4 ±0,3 с).
Определение необходимого объема выборки для получения оценок заданной точности
Обычно исследователя интересует вопрос: какой минимальный объем выборки необходим для того, чтобы оценка (чаще всего выборочное среднее арифметическое отличалась от истинного значения среднего значения генеральной совокупности не более чем на заданную величину?
Ответить на этот вопрос можно, если ввести доверительную вероятность и выбрать объем выборки n таким образом, чтобы доверительный интервал имел заданный размер.
Если генеральная совокупность предполагается нормально распределенной и ее дисперсия известна, то доверительный интервал для среднего значения р записывается следующим образом:
где «а для стандартных доверительных вероятностей определены в табл. 5.2.
Пусть требуется, чтобы выборочное среднее отличалось от генерального не более чем на заданную величину d. Это означает, что половина ширины доверительного интервала должна быть равна d, т. е. половика от
должна равняться d:
Отсюда требуемый объем выборки определяется следующим образом:
Истинное значение параметра о генеральной совокупности обычно неизвестно, но при больших объемах выборки можно использовать его выборочную оценку S. Тогда
В качестве примера найдем минимальный объем выборки, необходимый для того, чтобы выборочное среднее значение результата в беге на 100 м, определяемое для группы школьников, отличалось от истинного значения среднего результата не более чем на d = 0,1 с.
По результатам выборочного исследования (пример 5.2) выборочное стандартное отклонение, определенное при n = 50, составляет 0,94 с. Задаемся доверительной вероятностью 95% — 1,96) и по формуле (5.6) находим Таким образом, при объеме выборки n — 339 существует 95 %-ная вероятность того, что выборочное среднее арифметическое будет отличаться от генерального среднего не более чем на 0,1 с.
Критерии значимости и проверка гипотез
В этой лекции рассматривается группа статистических методов, которые получили наибольшее распространение в статистических исследованиях, связанных с практикой спорта. Эти методы применяются всегда, когда предстоит проверить какие-то теоретические предположения, связанные с эффективностью мероприятий, направленных на совершенствование тренировочного процесса. Исследователь выдвигает предположения исходя из анализа конкретного явления с позиций спортивной педагогики, физиологии, медицины, психологии или другой области знаний, представителем которой он является. Затем справедливость предположений проверяется на основании данных соответствующего эксперимента, условия, которого контролируются.
Нулевая гипотеза (нуль-гипотеза) и альтернатива (альтернативная гипотеза)
Статистической гипотезой (или просто гипотезой) называется утверждение о распределении генеральной совокупности, соответствующее некоторым представлениям об изучаемом явлении. В частном случае это может быть утверждение о значениях параметров нормально распределенной генеральной совокупности.
Предположим, что в эксперименте участвуют две группы юных спортсменов — прыгунов в высоту. Одна из них (контрольная) тренируется по традиционной программе, а для второй (экспериментальная) используется новый комплекс специальных упражнений. Действенность нового комплекса оценивается по различию результатов, показанных в этих группах после определенного тренировочного цикла. По полученным данным необходимо проверить следующие утверждения:
- 1. Среднее значение результатов не изменилось, т. е. Здесь — средние значения соответствующих генеральных совокупностей (результатов всех прыгунов данного класса, которые могли бы тренироваться по традиционной и новой программам).
- Вариативность результатов возросла: Z Здесь — так же, как и в п. 1, значения соответствующих генеральных параметров.
- Средний результат возрос на 3 см:
Это три различные статистические гипотезы. Конечно, возможные утверждения не ограничиваются приведенным списком. Гипотезы предстоит проверить с помощью какого-то метода — критерия.
Статистические гипотезы обычно рассматривают две генеральные совокупности, одна из которых может представлять собой теоретическую модель (например, нормальное распределение), а о второй судят по выборке из нее. В других случаях обе генеральные совокупности представлены выборками.
При проверке статистических гипотез принят следующий подход. Считается, что получение в результате эксперимента любых новых данных об изучаемом явлении, не согласующихся с данными, имеющимися до проведения эксперимента,— маловероятное событие. В то же время, если взять две выборки, представляющие собой результаты измерения одного и того же признака, и сравнить между собой их характеристики (среднее арифметическое, стандартное отклонение и др.), то окажется, что они практически всегда различаются. Это различие можно рассматривать как обусловленное только действием случайностей. Поэтому первоначально гипотезу всегда можно сформулировать таким образом: между двумя генеральными совокупностями нет ожидаемого различия. Такая гипотеза называется нулевой гипотезой, или нуль-гипотезой. Обратное ей утверждение о том, что в действительности между генеральными совокупностями есть различие, называется альтернативной гипотезой, или альтернативой.
Итак, вначале выдвигается нулевая гипотеза о том, что различие между генеральными совокупностями равно нулю. Затем получают выборку или несколько выборок, и если выборочные данные не противоречат нулевой гипотезе, т. е. различие можно объяснить только случайностью выборки, то нулевая гипотеза сохраняется (принимается). Если же полученные результаты не удается объяснить только действием случайных факторов, то нулевая гипотеза отвергается, а принимается альтернативная гипотеза.
Нулевую гипотезу принято обозначать, как а альтернативную —
Пусть, например, оценивается эффективность нового комплекса упражнений для юных спортсменов — прыгунов в высоту по среднему значению спортивного результата в контрольной и экспериментальной группах. Тогда нулевую гипотезу можно сформулировать так: среднее значение результатов не изменилось, т. е. Для краткости это записывается так: :
Если заранее нельзя сказать, к чему приведет новый комплекс упражнений — к увеличению или уменьшению результатов, то альтернативная гипотеза будет состоять в том, что средние значения генеральных совокупностей неодинаковы:
Ошибки при проверке гипотез
Ошибки, допускаемые при проверке гипотез, удобно разделить на два типа: L) отклонение гипотезы когда она верна, — ошибка первого рода; 2) принятие гипотезы когда в действительности верна какая-то другая гипотеза, — ошибка второго рода.
Вероятность ошибки первого рода обозначается а. Величина а называется уровнем значимости критерия, по которому проверяется справедливость гипотезы Но.
Вероятность ошибки второго рода обозначается Ее величина зависит от альтернативной гипотезы Рассмотрим для приведенного выше примера следующие две ситуации: 1) в действительности средний результат возрос на 3 см, 2) средний результат увеличился на 30 см. Ясно, что для одних и тех же условий эксперимента и одинакового уровня значимости а вероятность ошибки второго рода (принять гипотезу об отсутствии различия) для второй из альтернатив будет меньше.
Вероятности а и удобно представить, как это сделано в табл. 6.1.
Наглядным способом интерпретации ошибок является их графическое представление.
Предположим, что проверяется гипотеза о равенстве среднего значении генеральной совокупности заданной величине (известной, например, из предыдущих экспериментов).
Для этого берется выборка объема b, находится ее среднее арифметическое и по его величине судят о справедливости гипотезы .
Распределение среднего арифметического при условии, что верна гипотеза , будет Это распределение чисто качественно представлено на рис. 6.1.
Распределение среднего арифметического х при условии, что верна альтернативная гипотеза будет уже другим —
Будем считать, что гипотеза отвергается, если выборочное среднее арифметическое окажется больше некоторого значения К, т. е. как показано на рис. 6.1.
Область непринятия гипотезы называется критической областью критерия. Она показана на рис. 6.1 наклонной штриховкой. Уровень значимости будет соответствовать площади критической области.
Вероятность ошибки второго рода будет равна площади под кривой распределения показанной на рис. 6.1. вертикальной штриховкой.
Величина 1— называется мощностью критерия.
Следует особо подчеркнуть, что любая гипотеза должка формулироваться, а уровень значимости а задаваться исследователем всегда до получения экспериментальных данных, по которым эта гипотеза будет проверяться.
При выборе уровня значимости а исследователь исходит из практических соображений, отвечая на вопрос: какую вероятность ошибки он считает допустимой для его конкретной задачи?
Обычно считают достаточным а =0,05 (5%), иногда а =0,01, редко а= 0,001. Здесь можно руководствоваться соображениями, изложенными в замечании 3 гл. 5 при выборе доверительной вероятности.
Между стандартными статистическими критериями и стандартными доверительными интервалами существует тесная связь: если принимается гипотеза о том, что значение параметра (р,, с?) нормально распределенной генеральной совокупности равно фиксированному значению (ро, ао) с уровнем значимости а, то это эквивалентно заданию 100 (1—а%-ного доверительного интервала для данного параметра нормального распределения. Поэтому оба подхода — доверительные интервалы и критерии значимости — в данном случае равноценны. Преимущество доверительных интервалов в том, что они дают представление об истинном значении параметра генеральной совокупности, а недостаток в том, что их трудно построить в более сложных случаях, например при анализе дисперсий (стандартных отклонений).
Критерии значимости
В рассмотренном выше примере (см. п. 6.2.2) при проверке гипотезы об отсутствии различия среднего результата спортсменов в контрольной и экспериментальной группах можно было бы поступить следующим образом:
вычислить средние арифметические результаты в группах после этапа тренировки и сравнить их между собой. Если окажется, что различие средних арифметических больше, например, 5 см, то можно утверждать, что новый комплекс упражнений оказался эффективным. Но при этом неизвестно, какие ошибки допускаются при таком утверждении, поэтому невозможно точно доказать наличие или отсутствие различий.
Методы, которые для каждой выборки формально точно определяются, удовлетворяют выборочные данные нулевой гипотезы или нет, называются критериями значимости.
Процедура проверки гипотез обычно сводится к тому, что по выборочным данным вычисляется значение некоторой величины, называемой статистикой критерия, или просто критерием, который имеет известное стандартное распределение (нормальное, t-распределение Стьюдента и т. п.), поэтому вычислительная работа упрощается. Найденное значение критерия сравнивается с критическим (граничным) значением крите-терия, взятым из соответствующих таблиц, и по результатам сравнения делается вывод: принять гипотезу или отвергнуть.
Если вычисленное по выборке значение критерия не превосходит граничного значения, то гипотеза принимается на заданном уровне значимости а. В этом случае наблюдаемое по экспериментальным данным различие генеральных совокупностей можно объяснить только случайностью выборки. Однако принятие гипотезы Но совсем не означает доказательства равенства параметров генеральных совокупностей. Просто имеющийся в распоряжении статистический материал не дает оснований для отклонения гипотезы о том, что эти параметры одинаковы. Возможно, появится другой экспериментальный материал, на основании которого эта гипотеза будет отклонена.
Когда вычисленное значение критерия оказывается больше граничного (критического) значения при заданном уровне значимости а, то наблюдаемое различие генеральных совокупностей уже нельзя объяснить только случайностями. В этом случае гипотеза отклоняется в пользу гипотезы при данном уровне значимости а, и говорят, что наблюдаемое различие значимо (статистически значимо) на уровне значимости а.
Следует подчеркнуть разницу между статистической значимостью и практической значимостью. Заключение о практической значимости всегда делается человеком, изучающим данное явление. И здесь истинным критерием является опыт и интуиция исследователя, а статистические критерии значимости — лишь формально точный инструмент, используемый в исследовании. Чем больше исследователь знает об изучаемом явлении, тем точнее будет сформулированная им гипотеза и тем точнее будут выводы, сделанные с помощью критериев значимости.
Замечание 1
Ранее уже подчеркивалось, что уровень значимости ос должен выбираться исследователем до получения экспериментальных данных, по которым будет проверяться гипотеза. Но часто с предварительным выбором возникают затруднения. Обычно говорят, что для научных исследований (в том числе и в спорте) достаточен уровень значимости а = 0,05, но если выводы, которые предстоит сделать по результатам проверки гипотез, связаны с большой ответственностью, то рекомендуется выбирать а = 0,01 или а =0,001.
Как установить ответственность в трактовке результатов эксперимента и тот риск, который связан с выбором уровня значимости а? Чтобы не давать прямых ответов на эти непростые вопросы, часто поступают следующим образом: уровень значимости до эксперимента точно не устанавливается, а по экспериментальным данным вычисляется вероятность Р того, что критерий (статистика критерия) выйдет за пределы значения, рассчитанного по выборке. Таким образом, Р — это экспериментальный уровень значимости. Точное значение Р обычно не указывают, а окончательные результаты приводят в следующем виде: 1) если вычисленное значение критерия не превосходит критического значения на уровне значимости а =0,05, то различие считается статистически незначимым; 2) если вычисленное по выборке значение критерия превышает критические значения при а=0,05, а=0,01 или а= 0,001, то записывают Р<0,05, Р<0,01 или Р<0,001. Это означает, что наблюдаемые различия статистически значимы на уровнях значимости 0,05, 0,01 или 0,001.
Критерии значимости подразделяются на три типа:
- Критерии значимости, которые служат для проверки гипотез о параметрах распределений генеральной совокупности (чаще всего нормального распределения). Эти критерии называются параметрическими.
- Критерии, которые для проверки гипотез не используют предположений о распределении генеральной совокупности. Эти критерии не требуют знания параметров распределений, поэтому называются непараметрически м и.
- Особую группу критериев составляют критерии согласия, служащие для проверки гипотез о согласии распределения генеральной совокупности, из которой получена выборка, с ранее принятой теоретической моделью (чаще всего нормальным распределением).
Односторонние и двусторонние критерии
Остановимся на одном важном обстоятельстве, которое часто не учитывается в спортивных приложениях математической статистики. Если цель исследования в том, чтобы выявить различие параметров двух генеральных совокупностей, которые соответствуют различным естественным условиям (условия тренировки, возраст испытуемых и т.п.), то часто неизвестно, какой из этих параметров будет больше, а какой меньше. Например, если интересуются вариативностью результатов в контрольной и экспериментальной группах, то, как правило, нет уверенности в знаке различия дисперсий или стандартных отклонений результатов, по которым оценивается вариативность. В этом случае нулевая гипотеза состоит в том, что дисперсии равны между собой а цель исследования — доказать обратное т. е. наличие различия между дисперсиями. При этом допускается, что различие может быть любого знака. Такие гипотезы называются двусторонними.
Но иногда задача состоит в том, чтобы доказать увеличение или уменьшение параметра; например, средний результат в экспериментальной группе выше, чем в контрольной. При этом уже не допускается, что различие может быть другого знака. Тогда альтернативная гипотеза (или а обратное ей утверждение Такие гипотезы называются односторонними.
Критерии значимости, служащие для проверки двусторонних гипотез, называются двусторонними, а для односторонних — односторонними.
Возникает вопрос о том, какой из критериев следует выбирать в том или ином случае. Ответ на этот вопрос находится за пределами формальных статистических методов и полностью зависит от целей исследования. Ни в коем случае нельзя выбирать тот или иной критерий после проведения эксперимента на основе анализа экспериментальных данных, поскольку это может привести к неверным выводам. Если до проведения эксперимента допускается, что различие сравниваемых параметров может быть как положительным, так и отрицательным, то следует использовать двусторонний критерий. Если же есть дополнительная информация, например, из предшествующих экспериментов, на основании которой можно сделать предположение, что один из параметров больше или меньше другого, то используется односторонний критерий. Когда имеются основания дли применения одностороннего критерия, его следует предпочесть двустороннему, потому что односторонний критерий полнее использует информацию об изучаемом явлении и поэтому чаще дает правильные результаты.
Например, необходимо доказать различие средних значений генеральных совокупностей (средних значений спортивного результата) при двух различных методиках тренировки по результатам в контрольной и экспериментальной группах. Если есть данные, что экспериментальная группа покажет в среднем лучший результат, то нужно выдвинуть нулевую гипотезу против двусторонней альтернативы Различие доказывается по разности средних арифметических результатов в контрольной и экспериментальной группах Распределение разности при условии, что верна нулевая гипотеза схематично представлено на рис. 6.2, а.
Решение об отклонении гипотезы принимается в том случае, если разность выходит за пределы некоторого значения (допустимы отклонения в обе
Рис. 6.2. Уровни значимости при двустороннем (а) и одностороннем (б) критериях стороны от нуля). Ошибка, которая при этом допускается, равна, как известно, уровню значимости а. Но поскольку отклонения возможны в обе стороны, то при симметричном распределении вероятности отклонении, больших и меньших будут одинаковы и составят а/ 2.
Нели предположить, что в экспериментальной группе будут показаны в среднем более высокие результаты, то можно выдвинуть одностороннюю альтернативу В этом случае при той же нулевой гипотезе распределение разности будет таким же, как и для двустороннего критерия (см. рис. 6.2, б). теперь представляют интерес только положительные значения разности Решение об отклонении принимается, когда окажется больше некоторого При том же уровне значимости а будет всегда меньше поэтому нулевая гипотеза будет при одностороннем критерии отклоняться чаще.
Таким образом, двусторонние критерии оказываются более консервативными, чем односторонние.
Критерии, основанные на нормальном распределении
Если необходимо проверить гипотезу о том, что две независимые выборки получены из генеральных совокупностей X и У с одинаковыми дисперсиями то можно использовать -критерий Фишера.
Сравнение двух выборочных дисперсий из нормальных совокупностей
Условия применения F-критерия: обе выборки независимы и получены из нормально распределенных генеральных совокупностей с параметрами
Известно, что это двусторонняя гипотеза, поэтому следует применять двусторонний критерий. Если же предположить, что одна из генеральных совокупностей имеет большую дисперсию (обозначим ее чем другая то можно сформулировать одностороннюю гипотезу и тогда применяется односторонний F-крите-рий.
Уровень значимости критерия задается а.
Порядок применения F-критерия следующий:
1. Принимается предположение о нормальности распределения генеральных совокупностей, формулируется гипотеза и альтернатива, назначается уровень значимости а, как указано выше.
2. Получают две независимые выборки из совокупностей X и У объемом у соответственно.
3. Рассчитываются значения выборочных дисперсий (методы расчета рассмотрены в гл. 3). Большую из дисперсий обозначают, меньшую
4. Вычисляется значение F-критерия по формуле:
5. Сравнивается вычисленное значение F с критическим значением F-критерия при заданном уровне значимости а и числе степеней свободы 1. Критические значения при уровнях значимости а, равных 0,05, 0,01, 0,001.
Отметим, что в табл. 3 Приложения приведены критические значения одностороннего F-критерия. Поэтому если цель исследования доказать, что одна дисперсия больше другой то критические значения берутся непосредственно из этой таблицы. Если же применяется двусторонний критерий, то критические значения, взятые из табл. 3 Приложения, соответствуют удвоенным уровням значимости: 0,01, 0,02 и 0,002.
6. Делается вывод: если вычисленное значение F-критерия больше или равно критическому, то дисперсии различаются значимо на заданном уровне значимости. В противном случае нет оснований для отклонения нулевой гипотезы о равенстве двух дисперсий.
Пример 6.1
Одна группа школьников шестых классов взята из обычной школы, а другая — из школы со специальной спортивной подготовкой. В обеих группах измерены результаты в беге на 100 м. Предстоит проверить утверждение о том, что по вариативности результатов школьники при обеих системах подготовки не отличаются.
Действуем в порядке, указанном выше.
1. Гипотеза . Альтернатива , т. е. используем двусторонний критерий, поскольку заранее не уверены в том, что какая-либо из генеральных дисперсий больше другой.
Задаемся уровнем значимости а = 0,02 (такой «нестандартный» уровень значимости выбран из желания воспользоваться данными табл. 3 Приложения). Критические значения для двустороннего F-критерия содержатся в [8].
Принимаем предположение о нормальности распределения обеих генеральных совокупностей. Вопросы, связанные с тем, чем можно обосновать такое предположение, рассмотрены ниже в п. 6.4.
2—3. Пусть рассчитанные выборочные стандартные отклонения результатов составили: Обозначаем
4. Вычисляем значение F-критерия по формуле (6.1):
5. Из табл. 3 Приложения при а= 0,02; находим
6. Вывод: посколькуто на уровне значимости а= 0,02 различие дисперсий статистически незначимо, т. е. можно считать, что школьники при обеих системах подготовки не отличаются по признаку вариативности результатов.
Хотя наблюдаемое в эксперименте различие выборочных стандартных отклонений и кажется большим, но имеющиеся статистические данные не дают оснований для отклонения гипотезы о том, что для генеральных совокупностей (всех школьников шестых классов обычных школ и школ со спортивной подготовкой) дисперсии (а значит, и стандартное отклонение) различаются на уровне значимости 0,02.
Следует отметить, что F-критерий очень чувствителен к отклонениям от нормальности распределения генеральной совокупности. Если предположение о нормальном распределении не может быть принято (см. п.п. 6.4), то F-критерий применять не следует. В этом случае используются непараметрические методы, рассмотренные в [3, 4).
F-критерий используется для малых и средних объемов выборки (n < 100). Для больших объемов выборки (n > 100) при проверке гипотезы о равенстве дисперсий применяется «-критерий. В этом случае вычисляется величина
и сравнивается с критическими значениями взятыми из таблиц нормированного нормального распределения (табл. 1 Приложения). Для стандартных уровней значимости значения приведены в табл. 6.2 (см. п. 6,3.2).
Сравнение выборочного среднего арифметического со средним значением генеральной совокупности
Рассмотрим, как с помощью статистических критериев решить вопрос: значимо ли отличие выборочного среднего значения от среднего значения генеральной совокупности, из которой предположительно взята выборка, или наблюдаемое различие является случайным? Такая постановка вопроса типична для выборочного контроля качества продукции в промышленности, но и в спортивных исследованиях такой вопрос часто возникает, когда предстоит решить, значимо ли отличается среднее значение признака, полученное по выборке, от среднего значения, известного по результатам многочисленных предыдущих экспериментов.
Применяемый для этих целей t-критерий Стьюдента также основан на предположении о нормальности распределения генеральной совокупности, но результаты проверки гипотез удовлетворяют по точности и при небольших отклонениях от нормальности распределения (см. п. 6.4).
Условия применения t-критерия: выборка получена из генеральной совокупности, имеющей приближенно нормальное распределение с параметрами
Гипотеза — среднее значение р, генеральной совокупности, из которой получена выборка, равно заданному значению (известному, например, из предыдущих экспериментов).
Альтернатива (двусторонний критерий применяется тогда, когда допускаются отклонения в обе стороны от ).
Уровень значимости: а.
Порядок применения T-критерия:
1. Принимается предположение о нормальности, формулируются гипотезы задается уровень значимости а.
2. Получают выборку объема n.
3. Вычисляется выборочное среднее арифметическое и выборочное стандартное отклонение методами, изложенными в гл. 3.
4. Определяется значение t-критерия по формуле: Здесь |.| означает абсолютную величину разности — (без учета знака).
Величина t имеет при справедливости гипотезы t-распределение Стьюдента (определенное в гл. 4) с v = n — 1 степенями свободы.
5. По табл. 4 Приложения находится критическое значение t-критерия при уровне значимости а и числе степеней свободы v = n — 1. Табл. 4 Приложения содержит критические значения для двустороннего критерия.
6. Делается вывод: если то выборочное среднее значимо отличается от на уровне значимости а, и в этой ситуации отклоняется гипотеза т. е. считается, что выборка взята из другой генеральной совокупности, для которой Если , то на заданном уровне различие незначимо и сохраняется гипотеза
Пример 6.2
Цель исследования — проверить на основании результатов соревнований по спринтерскому бегу известное утверждение о том, что среднее различие между показаниями ручного и электронного хронометража составляет 0,25 с. На соревнованиях результаты фиксировались одновременно системой электронного хронометража и бригадой судей-хронометристов. Допустим, что есть результаты 30 спринтеров, пришедших на финиш первыми в своих забегах (для них, как правило, обеспечена наивысшая точность ручного хронометража, поскольку их результаты фиксируются несколькими хронометристами).
Используем t-критерий и действуем в указанном выше порядке.
1. Предполагаем, что распределение результатов в спринте приближенно нормальное (можно отметить, что справедливость этого предположения подтверждена исследованиями, проведенными в лаборатории спортивной радиоэлектроники ЛЭТИ им. В. И. Ульянова (Ленина) на большом статистическом материале).
Гипотеза
Альтернатива
Уровень значимости а= 0,01 (задается такой малый уровень значимости, поскольку цель — уточнить результаты, являющиеся общепринятыми).
2. Мы получили выборку объема n — 30 (разности
30 результатов по ручному и электронному хронометражу).
3. Допустим, например, что вычисленные выборочные характеристики оказались равными: х = 0,48 с, S = 0,39 с.
4. Вычисляем значение t-критерия по формуле (6.2):
5. По табл. 4 Приложения при а = 0,01 и v = 30 — 1 = 29 находим критическое значение /-критерия: /о,о! = 2,756.
6. Вывод. Поскольку то на уровне значимости 0,01 мы отклоняем гипотезу т. е. среднее значение различий показаний ручного и электронного хронометража статистически значимо отличается от известного значения 0,25 с (вероятность ошибки Р<0,01).
Значит ли это, что значение 0,25 с вообще неверно? Конечно, нет. Основываясь только на полученных результатах, мы не должны даже подозревать этого. Скорее всего наши данные получены из какой-то менее обширной генеральной совокупности, в которой среднее значение отличается от 0,25 с. чтобы уверенно ответить на поставленный нами основной вопрос, мы должны провести многочисленные повторные эксперименты с целью получить значительно больший статистический материал и исключить влияние на результат многих важных факторов, не учтенных в эксперименте (квалификация судей, их эмоциональное состояние, состояние зоны финиша, освещенность и т. п.).
При больших объемах выборки как указано в гл. 4, t-распределение переходит в нормированное нормальное распределение, поэтому при проверке гипотезы вместо t-критерия можно использовать «-критерий, основанный на нормированном нормальном распределении статистики критерия.
В этом случае вычисляют величину
и сравнивают ее с критическими значениями иа нормированного нормального распределения. Для стандартных уровней значимости значения иа приведены в табл. 6.2.
= 2,756, их различие при n — 30 уже незначительно, но при n <30 это различие существенно, поэтому при малых выборках и используется t-критерий.
Сравнение двух выборочных средних значений для независимых выборок
В этом разделе рассматривается очень важный для практики спорта критерий математической статистики, позволяющий получить ответ на вопрос: значимо ли различаются средние значения, полученные по двум независимым выборкам (например, по результатам в контрольной и экспериментальной группах)? Здесь также применяется t-критерий Стьюдента, основанный на предположении, что выборки получены из генеральных совокупностей, имеющих приближенно нормальное распределение. Кроме того, применение t-критерия отличается при различных предположениях относительно дисперсий этих генеральных совокупностей. В математической статистике обычно рассматриваются случаи известных и неизвестных генеральных дисперсий, но, поскольку на практике генеральные дисперсии, как правило, неизвестны, здесь описывается только случай неизвестных дисперсий. При этом возможны следующие варианты предположений: 1) обе дисперсии неизвестны, но предполагается, что они равны между собой; 2) обе дисперсии неизвестны, и предположение о их равенстве не делается.
Как выбрать подходящий вариант? Конечно, если нет уверенности в равенстве дисперсий, нужно использовать второй вариант, потому что в этом случае требуется меньше знаний о распределении генеральных совокупностей, но всегда платой за это является меньшая точность выводов.
Поэтому обычно поступают следующим образом: вначале по имеющимся выборочным данным проверяют гипотезу о равенстве дисперсий, используя F-критерий, а затем уже выбирают тот или иной вариант t-критерия. Строго говоря, это некорректно с точки зрения математической статистики, поскольку, как уже неоднократно подчеркивалось, критерий должен выбираться до получения экспериментальных данных, и правильнее было бы выбрать предположение о равенстве или неравенстве дисперсий по другим, предварительно полученным экспериментальным данным.
При описанном выше подходе t-критерий применяется следующим образом.
Условия применения: обе выборки независимы и получены из генеральных совокупностей X и Y, имеющих нормальное распределение с параметрами
Гипотеза
Альтернатива в зависимости от того, что требуется доказать: простое различие средних значений или то, что одно из них больше другого.
Уровень значимости: а.
Порядок применения:
1. Принимается предположение о нормальности, формулируются гипотеза и альтернатива задается уровень значимости а.
2. Получают две независимые выборки из совокупностей X и Y объемом
3. Вычисляются выборочные характеристики методами, рассмотренными в гл. 3.
4. Используется F-критерий для проверки гипотезы о равенстве генеральных дисперсий, как показано в разделе 6.3.1.
5. По результатам применения F-критерия принимается или не принимается предположение о равенстве дисперсий.
6. Вычисляются значение t-критерия и число степеней свободы v. Применяемые для этого формулы приведены в табл. 6.3, они различаются в зависимости от предположения о дисперсиях и соотношения между объемами выборок
7. Из табл. 4 Приложения находится критическое значение t-критерия при заданном уровне значимости а и числе степеней свободы v.
8. Делается вывод: если то выборочные средние значимо различаются на уровне значимости а (вероятность ошибки В противном случае различие статистически незначимо.
Пример 6.3
Две группы юных баскетболистов, занимающихся на базе одной ДЮСШ, в течение годичного цикла тренировки занимались но разным программам специальной подготовки (традиционной и новой). Эффективность новой программы оценивалась по уровню общефизической подготовки в конце цикла, и одним из контрольных упражнений был бег на 100 м. Численность групп одинакова и составляет n — 10.
Результаты на дистанции 100 м (в с):
Используем t-критерий Стьюдента в указанной выше последовательности:
1. Принимаем предположение о нормальности распределения генеральных совокупностей, из которых получены результаты.
Гипотеза
Альтернатива (берется двусторонний критерий, если нет оснований предполагать, что новая программа специальной подготовки приведет к улучшению результатов на 100 м).
Выбираем уровень значимости а — 0,05.
2. Получаем две выборки, независимость которых обеспечивается планированием эксперимента (результаты, показанные в одной группе, не зависят от результатов другой).
3. Рассчитываем выборочные характеристики по формулам (3.1) и (3.11) гл. 3. Расчеты дают:
4. Применяем F-критерий для проверки гипотезы о равенстве дисперсий. Выбираем уровень значимости двустороннегоF-критерия: а ~ 0,02.
поэтому обозначим Значение ^-критерия выводим по формуле (6.1): Критическое значение двустороннего F-критерия находим из табл. 3 Приложения
5. Поскольку принимаем предположение о равенстве генеральных дисперсий
6. Вычисляем значение t-критерия: нашему случаю соответствует формула (1) из табл. 6.3. Поэтому 7. Из табл. 4 Приложения находим критическое значение t-критерия при a= 0,05 и v = 18: 8. Вывод: поскольку то на уровне значимости 0,05 принимаем гипотезу Нет оснований для заключения о том, что новая программа но изучаемому признаку (бег на 100 м) эффективнее традиционной.
Примечание. Если бы до проведения эксперимента было принято предположение, что новая программа обеспечивает прирост результатов в беге на 100 м, и нужно было бы доказать это, мы выдвинули бы одностороннюю альтернативу В этом случае следует применять односторонний t-критерий.
Последовательность действий точно такая же, за исключением того, что на этапе 7 при использовании табл. 4 Приложения нужно иметь в виду, что в ней содержатся критические значения двустороннего критерия. В случае одностороннего критерия данные табл. 4 соответствуют удвоенным уровням значимости. Таким образом, если для одностороннего критерия устанавливается уровень значимости а = 0,05, то в табл. 4 Приложения находим значение для а = 0,1.
Для этого примера имеем
Теперь уже результат проверки гипотезы будет противоположным. Поскольку то делаем вывод о статистически значимом различии средних значений в беге на 100 м.
В этом нет никакого противоречия или доказательства несостоятельности статистических методов. Просто в первом случае, используя двустороннюю гипотезу, мы допускали и отрицательный эффект новой программы. В такой ситуации выводы должны быть более осторожными, чем в случае односторонней гипотезы, когда имеется дополнительная информация, позволяющая сделaть предположeние о положительном эффекте новой программы, что, естественно, дает возможность сделать более точный вывод. Правда, следует отметить, что превышение критического значения в рассмотренном примере столь незначительно, что в достоверности вывода о наличии положительного эффекта можно усомниться. В такой ситуации следует провести дополнительные исследования.
Сравнение двух выборочных средних значений для связанных выборок
Существует много практических задач, в которых две сравниваемые выборки взаимосвязаны в силу особенностей организации эксперимента или просто потому, что этой взаимосвязи нельзя избежать.
В практике медицинских, биологических и педагогических исследований часто используются так называемые парные сравнения. Один из методов таких сравнений заключается в том, что измерения проводятся для одной и той же группы испытуемых до и после применения интересующих исследователя воздействий. Результаты парных сравнений всегда точнее, чем сравнения на независимых группах, и объясняется это тем, что разброс результатов внутри группы испытуемых всегда больше, чем разброс разностей результатов, полученных при повторных измерениях для одних и тех же индивидуумов. Это можно пояснить на следующем простом примере. Допустим, необходимо но частоте сердечных сокращений (ЧСС) установить влияние на спортсменов какого-то вида тренировочной нагрузки. Конечно, можно было бы провести такой эксперимент на двух независимых однородных группах: в одной из них определить среднее значение ЧСС в покое, а в другой после тренировочной нагрузки. и без точных математических доказательств ясно, что выводы будут точнее, если измерения ЧСС провести у одних и тех же спортсменов до и после тренировочной нагрузки. Поэтому парные сравнения всегда выгодно использовать, конечно, если удается организовать эксперимент так, что будет устранено влияние мешающих факторов {усталость, эффект обучения и т. п.).
При парных сравнениях нельзя использовать рассмотренные выше методы для независимых выборок, поскольку это приведет к большим ошибкам.
Для сравнения средних значений здесь используется модификация t-критерия для связанных выборок. Особенность его в том, что гипотеза формулируется в отношении разностей сопряженных пар наблюдений.
Условия применения: — разность связанных пар результатов измерения. Делается предположение о нормальном распределении этих разностей в генеральной совокупности с параметрами
Гипотеза
Альтернатива (для двустороннего критерия) . Можно сформулировать и одностороннюю альтернативу, например,
Уровень значимости: а.
Порядок применения:
1. Делается предположение о нормальном распределении разностей dформулируется гипотеза и альтернатива выбирается уровень значимости а.
2. Получают две выборки объема n, представляющие собой ряды связанных пар наблюдений.
3. Вычисляются среднее арифметическое и выборочное стандартное отклонение по формулам гл. 3.
4. Определяется значение t-критерия: 5. Из табл. 4 Приложения находятся критические значения-критерия при уровне значимости а и числе степеней свободы
6. Делается вывод: если то наблюдаемое различие значимо на уровне значимости а (Р < а), в противном случае различие статистически незначимо.
Пример 6.4
Группа школьников (n = 10) в течение летних каникул находилась в спортивном лагере. До и после сезона у них измерили жизненную емкость легких (ЖЕЛ). По результатам измерений нужно определить, значимо ли изменился этот показатель под влиянием интенсивных физических упражнений.
До эксперимента
3400 3600 3000 3500 2900 3100 3200 3400 3200 3400
После эксперимента
3800 3700 3300 3600 3100 3200 3200 3300 3500 3600
Действуем в указанном выше порядке:
1. Принимаем предположение о нормальности распределения разностей
Г ипотеза
Альтернатива
Выбираем уровень значимости: а = 0,05.
2. Имеем две связанные выборки объема n =10.
3. Вычисляем выборочные характеристики: значения разностей: 400 100 300 100 200 100 0— 100 300 200,
4. Значение t-критерия, определяемое по формуле (6.3), равно 5. Из табл. 4 Приложения для а = 0,05 и v = 9 находим = 2,262.
6. Вывод: поскольку наблюдаемое различие по показателю ЖЕЛ является статистически значимым на уровне значимости 0,05 (вероятность ошибки Р < 0,05).
При больших выборках (для п) вместо t-критерия можно использовать u-критерий. В этом случае вычисленное значение t сравнивается с критическим значением нормированного нормального распределения (см. табл. 6.2).
Критерии согласия
Все рассмотренные выше критерии значимости являются оптимальными, т. е. обеспечивают наивысшую достоверность статистических выводов только в тех случаях, когда выборки получены из нормально распределенной генеральной совокупности. При отклонениях от нормального распределения точность оптимальных критериев существенно падает, поэтому, чтобы уверенно применять оптимальные критерии, необходимо проверить предположение о нормальном распределении генеральной совокупности. Для этого используются критерии согласия. Здесь нулевая гипотеза представляет собой утверждение о том, что распределение генеральной совокупности, из которой получена выборка, не отличается от нормального. Существует несколько разновидностей критериев согласия. Рассмотрим те из них, которые получили наибольшее распространение на практике.
Предварительная проверка соответствия нормальному распределению
Критерии согласия требуют достаточно большой вычислительной работы, поэтому целесообразно перед тем, как их использовать, проверить с помощью более простых методов соответствие имеющихся экспериментальных данных нормальному распределению. Эти методы, естественно, обладают меньшей мощностью и позволяют установить только значительные расхождения с нормальным распределением, но если такие расхождения будут установлены, то необходимость в применении более точных, но более сложных критериев, как правило, отпадает.
Для предварительной проверки эмпирического распределения на нормальность можно использовать основные свойства нормального распределения, изложенные в гл. 4. При этом эмпирическое распределение представляется в виде вариационного ряда или гистограммы (см. гл. 2). Если в качестве параметров и о нормального распределения принять их выборочные оценки и S, то для проверки можно использовать следующие свойства нормального распределения: 1) практически все отклонения от среднего значения (99,7 %) должны быть меньше ±3S; 2) примерно 2/3 всех отклонений (68,3 %) должны быть меньше ±S; 3) половина всех отклонений от среднего значения должна быть меньше 4) можно использовать такое свойство нормального распределения, что его коэффициенты асимметрии и эксцесса равны нулю.
Для проверки по этому свойству необходимо вычислить выборочные оценки этих параметров по формулам: где — частоты интервалов группировки; k — число интервалов группировки; S — выборочное стандартное отклонение.
Значения коэффициентов As и Ех сравниваются с критическими значениями на уровне значимости а, и если критические значения превышены, то делается вывод о том, что распределение генеральной совокупности, из которой получена выборка, не согласуется с нормальным. В противном случае модель нормального распределения может быть принята. Таблица критических значений содержится в [7, 8,14]. Здесь не будем подробно останавливаться на этих приближенных критериях. Отметим лишь еще раз, что они могут использоваться только совместно с более точными критериями, рассмотренными ниже.
Критерий согласия x2 (хи-квадрат)
Критерий согласия разработан лучше других критериев и чаще других используется. Он основан на сравнении эмпирических частот интервалов группировки с теоретическими (ожидаемыми) частотами, рассчитываемыми по формулам нормального распределения.
Условия применения: объем выборки выборочные данные сгруппированы в интервальный вариационный ряд с числом интервалов не менее 7, ожидаемые (теоретические) частоты интервалов не должны быть меньше 5.
Гипотеза ) — плотность распределения генеральной совокупности, из которой взята выборка, соответствует теоретической модели нормального распределения.
Альтернатива
Уровень значимости: а.
Порядок применения:
1. Формулируется гипотеза, выбирается уровень значимости а.
2. Получается выборка объема независимых наблюдений и представляется эмпирическое распределение в виде интервального вариационного ряда, как показано в гл. 2.
3. Рассчитываются выборочные характеристики и S (методы расчета изложены в гл. 3). Их используют в качестве генеральных параметров и анормального распределения, с которым предстоит сравнить эмпирическое распределение.
4. Вычисляются значения теоретических частот попадания в i-й интервал группировки. Для этого необходимо вероятность попадания в этот интервал, определенную по формуле (4.27), умножить на объем выборки n:
где — функции Лапласа (см. табл. 1 Приложения); — верхняя и нижняя граниты интервала группировки.
Если окажется, что вычисленные ожидаемые частоты п’ некоторых интервалов группировки меньше 5, то соседние интервалы объединяются так, чтобы сумма их ожидаемых частот была больше или равна 5. Соответственно складываются и эмпирические частоты объединяемых интервалов.
5. Значение -критерия рассчитывается по формуле: где — эмпирические частоты; — ожидаемые (теоретические) частоты; k — число интервалов группировки после объединения.
6. Из табл. 5 Приложения находится критическое значение критерия для уровня значимости а и числа степеней свободы v = k — 3.
7. Вывод: если то эмпирическое распределение не соответствует нормальному распределению на уровне значимости а, в противном случае нет оснований отрицать это соответствие.
Пример 6.5
Воспользуемся данными табл. 2.3, где представлены результаты в беге на 100 м группы школьников (n = 50) для проверки соответствия эмпирического распределения нормальному распределению.
Исходные данные помещены в графы 2, 3 табл. 6.4 (графа 2 — границы интервалов группировки, графа 3 — эмпирические частоты интервалов). В табл. 2.3 верхние границы были уменьшены на 0,1 с для удобства подсчета частот. В табл. 6.4 верхние границы оставлены без изменений.
1. Формулируем гипотезу выбираем уровень значимости а = 0,05.
2. Получаем выборку объема n = 50, строим интервальный вариационный ряд с числом интервалов к— 7 (см. табл. 2.3).
3. Выборочные характеристики по этим данным рассчитаны в примере 3.6:
х — 15,4 с, S — 0,9 с.
4. Вычисляем значения теоретических частот по формуле (6.4) с использованием табл. 1 Приложения. Предварительно нормируем границы интервалов группировки:
Нормированные границы занесены в графу 4, а вычисленные теоретические частоты — в графу 5 табл. 6.4.
Поскольку для интервалов с номерами 1, 2, 7 теоретические частоты оказались меньше 5, объединяем интервалы 1 и 2 с 3-м, а интервал 7 с 6-м интервалами. Суммируем эмпирические и ожидаемые частоты интервалов, которые мы объединили. После объединения получилось k = 4 интервала. Таблица 6.4 5. Значение критерия определяемое по формуле (6.5), равно:
Промежуточные расчеты отражены в графах 6 и 7 табл. 6.4.
6. Из табл. 5 Приложения находим для уровня значимости а = 0,05 и числа степеней свободы v = 4— 3= 1:
7. Вывод: поскольку считаем, что эмпирическое распределение соответствует нормальному на уровне значимости 0,05.
Критерий X (лямбда)
Другим критерием, часто используемым для проверки гипотезы о нормальности распределения, является критерий Колмогорова — Смирнова. Здесь гипотеза формулируется по отношению к функциям распределения — функция распределения генеральной совокупности, из которой получена выборка, a F'(x) — функция непрерывного теоретического распределения (нормального распределения).
Колмогорова — Смирнова
Условия применения: объем выборки эмпирическое распределение представлено в виде интервального вариационного ряда.
Гипотеза
Альтернатива
Уровень значимости: а.
Порядок применения:
1. Формулируется гипотеза назначается уровень значимости а.
2. Получают выборку объема независимых наблюдений, она группируется в интервальный вариационный ряд, как показано в гл. 2.
3. Вычисляются выборочные характеристики и S по формулам гл. 3.
4. Рассчитываются значения эмпирических накопленных частот как показано в гл. 2, и теоретических накопленных частот по формуле:
где n — объем выборки; — функция Лапласа (см. табл. 1 Приложения); — срединные значения интервалов группировки.
5. Вычисляются значения критерия
где — максимальное значение модуля (абсолютной величины) разности между эмпирическими и теоретическими накопленными частотами.
6. Определяется критическое значение критерия Колмогорова — Смирнова при уровне значимости а. Для стандартных уровней значимости критические значения равны:
Они соответствуют рассматриваемому варианту применения критерия Колмогорова — Смирнова, когда для вычисления теоретических накопленных частот используются выборочные характеристики и S в качестве параметров нормального распределения.
7. Вывод: если то эмпирическое распределение не соответствует нормальному на уровне значимости а, в противном случае принимается гипотеза о согласии распределения генеральной совокупности с нормальным распределением.
Пример 6.6
Воспользуемся данными предыдущего примера (6.5) для проверки их соответствия нормальному распределению по критерию Колмогорова — Смирнова.
В табл. 6.5 в столбцах 2, 3 приведены срединные значения интервалов группировки и эмпирические накопленные частоты, взятые из табл. 2.3.
1. Формулируем гипотезу и выбираем уровень значимости а = 0,05.
2. Имеем выборку объема n — 50, сгруппированную в интервальный вариационный ряд с семью интервалами.
3. Выборочные характеристики рассчитаны в предыдущем примере:
4. Эмпирические накопленные частоты приведены в графе 3, а теоретические, рассчитанные по формуле (6.6) — в графе 5.
5. Значение критерия составляет 6. Критическое значение для а = 0,05 равно = 0,895.
7. Вывод: поскольку мы вынуждены отклонить гипотезу о том, что выборка взята из нормально распределенной генеральной совокупности.
Оба рассмотренных критерия — Колмогорова — Смирнова применимы в одних и тех же условиях Сравнение мощностей этих критериев для общего случая затруднительно, но из опыта известно, что критерий Колмогорова — Смирнова является более мощным (чаще обнаруживает отклонения от нормальности), если среднее и дисперсия теоретического нормального распределения оцениваются по выборке. Рассмотренные выше примеры 6.5 и 6.6 подтверждают это: для одних и тех же данных на одинаковом уровне значимости критерий Колмогорова — Смирнова обнаружил несоответствие нормальному распределению, а -критерий позволяет принять гипотезу о нормальности.
Критерий W Шапиро — Уилки
Два рассмотренных выше критерия применяются при больших выборках Если объем выборки меньше, то более точные выводы дает критерий Шапиро — Уилки, позволяющий обнаружить отклонения от нормальности распределения уже при. Ниже его применение рассматривается на конкретном примере.
Пример 6.7
Проверим на соответствие нормальному распределению данные примера 6.3 — результаты в беге на 100 м одной из групп (например, контрольной) юных баскетболистов.
Эти результаты представлены в графе 2 табл. 6.6.
Порядок применения:
1. Формулируем гипотезу о соответствии распределения генеральной совокупности, из которой получены данные, нормальному распределению. Назначим уровень значимости а = 0,05.
2. Получаем выборку объема n = 10 независимых измерений.
3. Рассчитываем значение выборочной дисперсии. Из примера 6.З: = 0,37.
Таблица 6.6
4. Ранжируем выборку, т. е. располагаем выборочные значения в возрастающем порядке, как показано в графе 2 табл. 6.6.
5. Образуем разности для чего из максимального значения вычитаем наименьшее затем из вычитаем и т. д. Если n — четное, то число разностей
k = n/2, если n— нечетное, то при этом
центральная варианта выборки в образовании разностей не участвует.
Номера разностей k приведены в графе 3, а значения разностей — в графе 4 табл. 6.6.
6. По табл. 6 Приложения находим значение коэффициентов критерия W Шапиро — Уилки, соответствующие объему выборки n = 10 и номерам разностей k. Эти значения помещены в графе 5 табл. 6.6.
7. Находим произведения Эти произведения
занесены в графу 6 табл. 6.6. . 8. Вычисляем величину 9. Рассчитываем значение критерия W по формуле:
10. Из табл. 7 Приложения находим критическое значение критерия Шапиро — Уилки для уровня значимости а = 0,05:
11. Вывод: посколькуможно говорить о соответствии эмпирических данных нормальному распределению на уровне значимости 0,05.
Заметим, что критерий W Шапиро — Уилки строится таким образом, что гипотеза принимается при в отличие от остальных критериев, для которых гипотеза принимается, если значение критерия меньше критического.
Непараметрические критерии
Применение рассмотренных в разделе 6.3 параметрических критериев было связано с целым рядом допущений. Например, сравнивая выборочные средние значения с помощью t-критерия, принимались следующие предположения: обе выборки являются случайными, т. е. каждая из них получена в результате независимых измерений; обе выборки получены из генеральных совокупностей, имеющих нормальное распределение; дисперсии генеральных совокупностей равны между собой.
На практике эти предположения строго никогда не выполняются, поэтому применение параметрических критериев всегда связано с опасностью ошибочных выводов, возникающей из-за нарушения принятых допущений. В последнее время в математической статистике по этой причине интенсивно разрабатываются непараметрические методы, которые строятся так, чтобы их применение зависело от возможно меньшего числа допущений.
Отметим в связи с этим еще одно важное обстоятельство. Параметрические критерии значимости применимы только для сравнения выборочных данных, представляющих собой результаты измерений, выраженные в единицах метрических шкал (метры, килограммы, секунды и т. п.). Но в спортивных исследованиях часто приходится иметь дело с данными, выраженными в шкалах наименований или порядка, например произвольная нумерация игроков футбольной команды, места, запятые спортсменами на соревнованиях и т. д. Такие данные нельзя сравнивать с помощью параметрических критериев, а непараметрические критерии могут быть успешно применены и к данным этого типа.
Если рассматривать только те случаи, когда выборки можно считать полученными ид нормально распределенных совокупностей, непараметрические критерии всегда проигрывают соответствующим параметрическим критериям, оптимальным в этих случаях, потому что применение непараметрических критериев обычно связано с потерей части информации об измеренных значениях признаков. Поэтому вводится показатель эффективности критерия (E). Он представляет собой отношение объема выборки параметрического критерия к объему выборки непараметрического критерия при одинаковой мощности критериев в условиях нормального распределения генеральной совокупности. Этим показателем и принято оценивать эффективность непараметрических критериев.
Важную группу непараметрических критериев составляют ранговые критерии. Они хорошо разработаны, и эффективность их оказывается очень высокой (для большинства из них при больших объемах выборки эффективность близка к единице). В то же время они очень просты в пользовании и не требуют сложных математических вычислений.
Ниже рассматриваются некоторые из ранговых критериев. предварительно следует познакомиться с понятием «р а н г», играющим здесь ключевую роль.
Ранги
Если расположить выборочные данные в порядке возрастания или убывания (точнее, в неубывающем или невозрастающем порядке, потому что некоторые данные могут совпадать), то получается ранжированная выборка. Порядковый номер выборочного значения в ней называется рангом этого значения.
Ранг однозначно определен порядковым номером, если в выборке нет совпадающих значений. Если же они есть, то их ранги определяются как среднее арифметическое порядковых номеров совпадающих значений. Пусть, например, получена выборка объема n — 10, которая после ранжирования выглядит следующим образом:
Значения с порядковыми номерами 3, 4, 5 и 8, 9 совпали, поэтому их ранги R определяются как
Таким образом, ранг не обязательно будет целым числом.
Для остальных, не совпадающих элементов выборки их ранги равны порядковым номерам. Ранги R, представленных выборочных значений равны:
В ранговых критериях точные значения признаков заменяются их рангами, поэтому информация о них теряется.
Рангами могут быть представлены данные, выраженные в порядковой шкале, в том числе результаты наблюдения качественных признаков, когда невозможно измерить точное численное значение признака, но можно определить очередность значений по принципу «больше— меньше» (например, места в спортивных состязаниях, результаты судейства в баллах, отметки за экзамен и т. п.).
Сравнение двух независимых выборок
К сравнению двух независимых выборок сводится очень широкий круг практических задач, которые в математической статистике часто называются задачами об эффекте обработки. Под «обработкой» здесь понимается любой процесс из конкретной области исследования, например методика или программа тренировки, тактические приемы соревновательной деятельности и др. Об эффекте обработки судят по результатам выборочных исследований. Если эксперимент организован так, что экспериментальный способ обработки сравнивается со стандартным (контрольным), то сопоставляются данные, представляющие собой две независимые выборки: одна получена из контрольной генеральной совокупности (результаты контрольной группы), а вторая — из экспериментальной (результаты экспериментальной группы).
Нулевая гипотеза — это утверждение об отсутствии эффекта обработки, а цель исследования — доказать его наличие. Когда принимается предположение о нормальном распределении обеих генеральных совокупностей, для решения этой задачи применяется t-критерий Стью-дента, который был рассмотрен в разделе 6.3. Но если предварительный анализ эмпирического распределения не позволяет принять предположение о нормальности или к такому выводу приходят в результате проверки гипотезы о нормальности распределения генеральной совокупности по стандартным критериям согласия (см. раздел 6.4), то использовать t-критерий нельзя.
Для таких случаев разработано несколько параметрических критериев. Рассмотрим один из них — критерий Вилкоксона для независимых выборок (критерий иногда называют также критерием Уайта). Это самый простой ранговый критерий.
Применение критерия Вилкоксона основано на единственном предположении: выборки получены из однотипных непрерывных распределений. При этом вид распределения генеральных совокупностей X и Y никак не оговаривается. Допущение о непрерывности распределений может быть ыриннто, когда исследуемый признак имеет большое число возможных градаций.
Гипотеза — это утверждение о том, что функции распределения обеих генеральных совокупностей одинаковы. Иначе говоря, обе выборки получены из одной и той же генеральной совокупности, и эффект обработки отсутствует.
Поясним это более подробно. Поскольку функции распределения F (х) и F {у) равны, то, следовательно, равны и характеристики положения этих распределений (среднее значение и медиана). Поэтому если эффект оценивается по различию средних арифметических двух выборок, то нулевую гипотезу можно было бы записать в виде . В этом случае критерий Вилкоксона является непараметрическbм аналогом t-критерия для независимых выборок. Но, как было отмечено в гл. 3, если эмпирическое распределение получается сильно асимметричным, то среднее арифметическое теряет свою практическую ценность (оно плохо отражает среднее значение признака), и в этих случаях более подходящей характеристикой положения является медиана
Одним из ценных свойств ранговых критериев является и то, что они могут применяться к данным, выраженным в шкале порядков или в шкале наименований. Для таких данных вычисление среднего арифметического не имеет смысла, а в качестве характеристики положения также используется Поэтому гипотезу для непараметрических критериев обычно записывают в виде
Эта запись относится к медианам генеральных совокупностей, хотя здесь используется тот же символ Me, что и для выборочной медианы. В частном случае, когда распределение симметричное (нормальное), эта запись эквивалентна так как для симметричных распределений среднее значение и Me совпадают.
Альтернатива— (это двусторонняя альтернатива). Ее, как обычно, применяют тогда, когда нет уверенности в знаке ожидаемого различия (допускается как положительный, так и отрицательный эффект обработки). Можно сформулировать и одностороннюю альтернативу, например,если нужно доказать, что результаты в экспериментальной группе выше, чем в контрольной.
Ниже рассматривается применение критерия Вилкок-сона на конкретном примере.
Пример 6.8
Воспользуемся данными примера 6.3, где приведены результаты в беге на 100 м контрольной и экспериментальной групп юных баскетболистов. В примере 6.3 принималось предположение о нормальном распределении совокупностей, из которых получены выборки. Здесь такого предположения не делается.
Объем выборки для контрольной группы — = 10 и для экспериментальной — = 10.
Проверим гипотезу против двусторонней альтернативы По-прежнему выбираем уровень значимости а = 0,05.
Порядок применения критерия Вилкоксона:
1. Объединяем обе выборки в одну. Объем объединенной выборки будет Ранжируем объединенную выборку, располагая данные в порядке возрастания, как показано в графе 1 табл. 6.7. При этом отмечаем данные, относящиеся к одной из выборок (все равно какой), например второй.
2. Находим ранги , объединенной выборки, как показано в разделе 6.5.1. Отмечаем ранги, относящиеся ко второй выборке. Они приведены в графе 3 табл. 6.7.
3. Суммируем по отдельности ранги, относящиеся к первой и второй выборкам, т. е. находим суммы:
Суммы рангов:
Контроль:
Для проверки правильности этих операций можно использовать тот факт, что сумма всех рангов
4. Меньшую из сумм рангов принимаем в качестве значения критерия W.
Для нашего примера W = — 82,5.
5. Из табл. 8 Приложения находим критическое значение критерия Вилкоксона при уровне значимости а = 0,05 и при объемах выборки = 10 и — 10 (в табл. 8 — меньший и больший объемы выборки из
6. Вывод: если нулевая гипотеза отбрасывается, т. е. различие считается статистически значимым на уровне значимости а. В противном случае различие статистически незначимо.
Для нашего примера поэтому на основании имеющихся данных мы не можем отклонить гипотезу об отсутствии различия двух выборок. К такому же выводу мы пришли и в примере 6.3, используя t-критерий в предположении нормальности распределений.
Как видно из примера 6,8, применение критерия Вил-коксона основано на очень простых вычислениях сумм рангов. Это характерно для всех ранговых критериев. В то же время эффективность этого критерия довольно высока. Если он применяется для сравнения выборок из нормальных генеральных совокупностей, то при неограниченном увели-нении объема выборок эффективность его равна 0,95. Это означает, что при n = 1000 критерий Вилкоксона имеет такую же мощность (т. е. с такой же вероятностью правильно обнаруживает различие), как и оптимальный для этого случая t-критерий при пn— 950. Если же распределения несимметричны, то эффективность критерия Вилкоксона может быть и значительно больше 1.
В табл. 8 Приложения критические значения приведены только для объемов выборок . Если больше 10, можно приближенно использовать u-критерий. Для этого рассчитывается значение по следующей приближенной формуле:
где — объем выборки с меньшей суммой рангов; — объем второй выборки; n — объем объединенной выборки; W — значение критерия Вилкоксона, определяемое по указанному выше порядку.
Удобнее пользоваться выражением
Вычисленное по этой формуле значение w сравнивается с критическим значением приведенным в табл. 6.8. Еслигипотеза отвергается, если принимается.
Сравнение двух связанных выборок
Здесь будет рассмотрено применение непараметрических методов в тех случаях, когда требуется доказать различие двух связанных выборок, т. е. выборок, полученных при парных сравнениях (например, при повторных измерениях на одной и той же группе испытуемых спортсменов). В предположении нормальности распределения разностей результатов парных измерений используется t-критерий для связанных выборок (см. раздел G.3.4). Теперь же предположение о нормальности не делается.
Наиболее часто применяемый непараметрический критерий в таких случаях — критерий Вилкоксона для связанных выборок, являющийся непараметрическим аналогом упомянутого t-критерия.
Нулевая гипотеза в данном случае — это утверждение о том, что распределение разностей — связанных пар наблюдений является симметричным относительно нуля. Вид распределения при этом не имеет значения. Это означает, что медиана распределения разностей — и среднее значение (если оно может быть определено) равны нулю, т. е.
Альтернатива в двустороннем случае, когда допускается как положительный, так и отрицательный эффект обработки. Можно сформулировать и одностороннюю альтернативу, например,
Ниже приводится пример использования критерия Вилкоксона.
Пример 6.9
Воспользуемся данными примера 6.4, в котором представлены результаты измерения ЖЕЛ У школьников до и после пребывания в спортивном лагере. Применим непараметрический критерий Вилкоксона для доказательства различия связанных пар наблюдений
Зададимся уровнем значимости а = 0,05.
Исходные данные х: и У( помещены в столбцах 2 и 3 табл. 6.9.
Порядок применения:
1. Отбрасываем пары с одинаковыми значениями и и для дальнейших расчетов объем выборки сокращаем на число отброшенных пар.
В нашем примере отбрасывается пара 3200, 3200, и объем выборки будет n = 10 — 1 9.
2. Из оставшихся пар образуем разности Эти разности приведены в графе 4 табл. 6.9.
3. Находим ранги абсолютных значений разностей как показано в разделе 6.5.1. Ранги записаны •в графе 5 табл. 6.9.
4. Отмечаем ранги, относящиеся к положительным и отрицательным значениям разностей.
В графе 5 ранги обозначены (+) и (—).
5. Находим по отдельности суммы рангов отрицательных^ положительных разностей R(—) и R(+).
6. Меньшую из сумм рангов принимаем в качестве значения критерия W. Для нашего примера 2,5.
7. Из табл. 9 Приложения находим критическое значение критерия Вилкоксоиа при уровне значимости а= 0,05 и объеме выборки n = 10:
В табл. 9 Приложения приведены критические значения двустороннего критерия Вилкоксоиа. Если используется односторонний критерий, то значения этой таблицы соответствуют удвоенным уровням значимости, т. е.
8. Вывод: если то нулевая гипотеза отбрасывается и наблюдаемое различие связанных выборок является статистически значимым на уровне значимости а. В противном случае различия статистически незначимы.
Для рассматриваемого примера поэтому различия статистически значимы на уровне значимости а = 0,05 (P <0,05).
К такому же выводу мы пришли и в примере 6.4 при использовании t-критерия для нормального распределения разностей
Если объем выборок достаточно велик можно использовать -критерий, основанный на следующем приближенном выражении:
где W — значение критерия Вилкоксона, определяемое как указано выше.
Вычисленное по этой формуле значение и сравнивается с критическимвзятым из табл. 6.2, и если оказывается, что гипотеза отбрасывается, если гипотеза принимается.
Регрессионный и корреляционный анализ
В предыдущих лекциях были рассмотрены простейшие ситуации, когда в ходе исследования измерялись значения только одного варьирующего признака генеральной совокупности. Остальные признаки либо считались постоянными для данной совокупности, либо относились к случайным факторам, определяющим варьирование исследуемого признака. Как правило, исследования в спорте значительно сложнее и носят комплексный характер. Например, при контроле за ходом тренировочного процесса измеряется спортивный результат и одновременно может оцениваться целый ряд биомеханических, физиологических, биохимических и других параметров (скорость и ускорения общего центра масс и отдельных звеньев тела, углы в суставах, сила мышц, показатели систем дыхания и кровообращения, объем физической нагрузки и энергозатраты организма на ее выполнение и т. д.).
При этом часто возникает вопрос о взаимосвязи отдельных признаков. Например, как зависит спортивный результат от некоторых элементов техники спортивных движений? как связаны энергозатраты организма с объемом физической нагрузки определенного вида? насколько точно по результатам выполнения некоторых стандартных упражнений можно судить о потенциальных возможностях человека в конкретном виде спортивной ‘ деятельности? и т. п. Во всех этих случаях внимание исследователя привлекает зависимость между различными величинами, описывающими интересующие его признаки.
Иногда значение одной величины однозначно определяет значение другой, связанной с ней величины. В этих случаях имеет место функциональная зависимость между величинами. Например, средняя скорость на отрезке L дистанции функционально связана с временем l на этом отрезке ( = L/T), пульсовая стоимость (ПС) 1 м пути однозначно определяется скоростью и частотой сердечных сокращений (ЧСС) на данном участке пути (ПС = ЧСС/) и т. п.
Но чаще исследователя интересуют зависимости другого рода, когда при фиксированном значении одной величины другая величина имеет некоторую свободу и
может принимать различные значения. Так, средняя скорость на фиксированном отрезке пути будет различной для разных спортсменов, пульсовая стоимость 1 м пути при одной и той же скорости отличается для разных испытуемых.
Если в такой ситуации рассматривать одну величину как независимую (контролируемую), а вторую — как зависимую от первой, то зависимая величина ведет себя как случайная и ее можно описать некоторым вероятностным распределением. В то же время интерес вызывает то, что это распределение (или его параметры: среднее значение, стандартное отклонение) закономерно изменяется при изменении значений независимой величины. Например, среднее значение пульсовой стоимости 1 м пути для группы испытуемых будет закономерно изменяться при изменении скорости движения. В таких ситуациях говорят о стохастической (или вероятностной) зависимости между величинами.
При изучении стохастических зависимостей различают регрессию и корреляцию.
Регрессия — это зависимость среднего значения (точнее, математического ожидания) случайной величины Y от величины х. При этом принято говорить: «регрессия Y на х». Независимая величина х может быть не обязательно случайной, поэтому она обозначается здесь строчной буквой, прописные буквы используются обычно для случайных величин.
Корреляция — это зависимость между двумя случайными величинами Y и X, характеризуемая с помощью коэффициентов корреляции.
В соответствии с этим различают регрессионный и корреляционный анализы.
Регрессионный анализ устанавливает формы зависимости между случайной величиной Y и значениями одной или нескольких переменных величин, причем значения последних считаются точно заданными. Такая зависимость обычно определяется некоторой математической моделью (уравнением регрессии), содержащей несколько неизвестных параметров. Вначале на основании выборочных данных находят оценки этих параметров. Далее определяются статистические ошибки оценок или границы доверительных интервалов И проверяется соответствие (адекватность) примятой математической модели экспериментальным данным.
Корреляционный анализ состоит в определении степени связи между двумя случайными величинами X и Y. В качестве меры связи используется коэффициент корреляции. Коэффициент корреляции оценивается по выборке объема n связанных пар наблюдений из совместной генеральной совокупности X и Y. Далее проверяются гипотезы или устанавливаются границы доверительного интервала для генерального коэффициента корреляции. Существует несколько типов коэффициентов корреляции, применение которых зависит от предположений о совместном распределении величин X и Y.
Теперь перейдем к более подробному рассмотрению методов регрессионного и корреляционного анализа.
Регрессионные модели
Самый важный этап регрессионного анализа — это выбор подходящей регрессионной модели, т. е. математического выражения, связывающего значения зависимой случайной величины Y и значения независимой величины х. Так же как и в рассмотренных выше статистических методах, мы относим эту абстрактную математическую модель к некоторой генеральной совокупности, в которой между значениями Y и х действительно существует зависимость, определенная выбранной моделью, и считаем, что экспериментальные данные получены именно из такой генеральной совокупности.
В простейшем случае предполагается линейная зависимость, выраженная уравнением:
Запись означает, что математическое ожидание т случайной величины Y определяется при фиксированном значении величины х.
Это уравнение задает прямую линию в прямоугольной системе координат показанную на рис. 7.1. Регрессионная прямая пересекает ось у в точке у = а, а параметр представляет собой тангенс угла наклона (у) прямой относительно горизонтальной оси х.
Регрессия, выраженная таким уравнением, называется простой линейной регрессией, потому что она учитывает зависимость только от одной контролируемой переменной х.
Иногда не удается объяснить поведение зависимой случайной величины Y влиянием только одной независи-
мой переменной х. Тогда часто используется модель множественной линейной регрессии:
Здесь среднее значение случайной величины У определяется уже значениями k независимых переменных:
Величины могут быть любыми функциями от других величин, в том числе и друг от друга. Термин «линейная регрессия» означает линейность по отношению к параметрам а не к переменным
Частным случаем множественной линейной регрессии является полиномиальная регрессия, выражаемая полиномом степени k:
Рассмотренные уравнения регрессии определяют функциональную зависимость среднего значения зависимой случайной величины У от независимой переменной х (или переменных ). Чтобы указать, как зависят отдельные значения случайной величины Y от значений величины х, нужно ввести в регрессионную модель случайные факторы, которые наряду с зависимостью от величины х влияют на значения Для простой линейной регрессии это записывается следующим образом:
В этом выражении — случайные величины, определяющие для каждого значения случайный характер значений
Во всех регрессионных моделях на случайные величины накладываются определенные ограничения, которые будут подробно рассмотрены ниже на примере простой линейной регрессии.
Итак, регрессионная модель описывает зависимость случайной величины Y от независимой величины х в генеральной совокупности Y. Но поскольку вся генеральная совокупность У недоступна для наблюдений, то истинное уравнение регрессии неизвестно, и любая регрессионная модель будет лишь приближением к действительности.
Как выбрать наилучщую регрессионную модель? Математическая статистика по этому поводу говорит, что выбор модели — искусство и правильность выбора целиком зависит от опыта и интуиции исследователя. Обычно при выборе модели исходят из предметного анализа явления (какую форму связи можно ожидать?), и если имеющейся информации недостаточно, то, как правило, помогает графическое представление экспериментальных данных в виде диаграммы рассеяния (этот график называют также корреляционным полем, потому что при корреляционном анализе применяется точно такое же графическое представление данных). Для каждого значения х; независимой переменной измеренные значения наносятся на график в координатах (х, у), как показано на рис. 7.2 для некоторых гипотетических данных.
Если удается «на глазок» провести прямую линию так, что все значения будут достаточно близки к ней, то можно ожидать, что модель простой линейной регрессии окажется в данном случае адекватной (согласующейся с экспериментальными данными).
Примеры регрессионных задач в спорте
Рассмотрим несколько простых примеров, цель которых — показать, почему регрессионный анализ находит широкое применение а статистических исследованиях в области спорта.
Пример 7.1
В табл. 7.1 приведены данные о мировых рекордах в прыжках с шестом за период с 1957 по 1981 г.*.
Нанесем эти данные на график (рис. 7.3), где по оси х отложим годы, а по оси у — рекордные результаты.
График демонстрирует тенденцию к возрастанию рекордных результатов по годам. Более тонкий анализ позволяет сделать предположения, что начиная с 1965 г. наблюдалось приблизительное линейное возрастание результатов, а в более ранний период зависимость имеет, по-видимому, и более сложный характер. Для первой грубой оценки общей картины можно попытаться представить зависимость в виде прямой линии (ее примерный ход намечен на графике), и тогда имеется заманчивая возможность прогнозировать рекордные результаты на какой-то период времени вперед. (Интересно нанести на этот график более свежие данные и посмотреть, как они вписываются в наш «прямолинейный» прогноз).
Рис. 7.3. График зависимости мировых рекордов в прыжках с шестом от времени установления
Спортивное прогнозирование — одна из важных областей применения регрессионного анализа в спортивных исследованиях*.
Пример 7.2
Другая важная область применения регрессионного анализа в спортивных исследованиях также связана с прогнозированием, но в несколько другом понимании этого термина. Очень часто предметом исследования является такой признак, который непосредственно измерить затруднительно или невозможно. Это особенно характерно для исследований в области спортивной физиологии, медицины, психологии. В то же время известно, что изучаемый признак связан с другими признаками, которые измеряются сравнительно просто. Тогда пытаются подобрать модель предполагаемой зависимости и по этой модели прогнозировать значения неизмеряемого зависимого признака, основываясь на значениях других, легко измеряемых признаков. Прогнозируемые таким образом значения неизмеряемых признаков называются в статистике предикторами. Здесь также используются регрессионные модели, потому что оцениваемая величина является случайной: помимо контролируемых факторов, влияние которых учитывается значениями измеряемых признаков, она зависит и от множества других случайных факторов, которые контролировать не удается.
Например, часто интересуются энергозатратами организма человека при выполнении той или иной фиксированной физической нагрузки. Известно (опять же на основании регрессионного анализа!), что энергозатраты закономерно связаны с потреблением кислорода и ЧСС. Но измерить эти показатели во время выполнения реальных тренировочных заданий тоже достаточно сложно, поэтому пытаются прогнозировать их на основании более простых измерений (например, измерений средней скорости при беге или ходьбе).
Предположим, что цель исследований состоит в оценке энергозатрат организма спортсмена при выполнении стандартной нагрузки: бег на тредбане в течение определенного времени с заданной скоростью.
Энергозатраты оцениваются по ЧСС, и далее определяется пульсовая стоимость 1 м пути (ПС — ЧСС/). В эксперименте участвует однородная по составу группа спортсменов. Средние значения ПС, вычисленные по результатам измерений для всех спортсменов группы, при различных скоростях бега в диапазоне 2,0—5,0 м/с приведены на рис. 7.4. Данные носят иллюстративный характер, но приближенно отражают истинное положение дел*.
Анализ графика (см. рис. 7.4) показывает, что в эксперименте также наблюдается некоторая закономерная связь скорости и ПС, но в этом случае зависимость является уже более сложной и не может быть описана уравнением прямой линии. Можно попытаться использовать полиномиальную модель регрессии (более подробно эти вопросы рассмотрены в специальной литературе). Если в результате регрессионного анализа окажется, что выбранная модель хорошо согласуется с экспериментальными данными, то можно использовать ее для прогнозирования энергозатрат по скорости бега, не прибегая каждый раз к достаточно сложным измерениям ЧСС.
Пример 7.3
Довольно часто интерес вызывает связь между двигательными достижениями в различных видах спортивных упражнений. Это особенно важно при подборе тестов, по результатам которых судят о возможных достижениях в том или ином виде спорта. Как правило, при этом пытаются установить просто наличие достоверной взаимосвязи между результатами теста и результатами в том упражнении, которое по общему признанию объективно отражает возможности человека в конкретном виде спорта. Это делается с помощью корреляционного анализа, но, как мы скоро увидим, чтобы корректно использовать коэффициент корреляции, также необходимо знать предполагаемую форму связи между результатами в двух видах спортивных упражнений.
Рассмотрим следующий пример. В табл. 7.2 приведены результаты, показанные группой школьников (n = 10) в беге на дистанциях 30 и 100 м.
На рис. 7.5 эти данные представлены в графической форме. Результаты в беге на 100 м при фиксированных значениях результатов в беге на 30 мобразовали на графике некоторое «облако» точек. Анализ графика показывает, что в качестве первого приближения здесь можно предположить, что в среднем результат в беге на 100 м для данной категории испытуемых линейно зависит от результатов, показанных на дистанции 30 м (т. е. принимаем модель простой линейной регрессии).
Отметим существенное отличие этого примера от двух предыдущих. В первых двух примерах независимая величина (время и скорость) не является случайной, а ее значения произвольно устанавливаются исследователем в определенном диапазоне. В последнем примере обе величины (и зависимая, и независимая) являются случайными, а их значения получаются по случайной выборке из генеральной совокупности. Исследователь по своему усмотрению вправе считать одну из этих величин зависимой, а другую — независимой.
Это две различные ситуации, рассматриваемые в регрессионном анализе. Методы его одинаковы в обоих случаях, а различие состоит в том, что в ситуациях, описываемых в первых двух примерах, нельзя оценить значимость корреляции между двумя величинами методами корреляционного анализа, рассмотренными ниже (хотя формально вычислить коэффициент корреляции можно и здесь).
Простая линейная регрессия
Из-за ограниченности объема книги мы не сможем рассмотреть многие вопросы регрессионного анализа, и для углубленного знакомства с ним следует обратиться к специальной литературе. В этом разделе излагается простейший, но очень важный для практики спорта случай — простая линейная регрессия.
Предположения регрессионного анализа
Выше было показано, что модель простой линейной регрессии, отражающая зависимость значений зависимой величины У от значений независимой переменной х в генеральной совокупности, описывается уравнением:
В этом уравнении — неизвестные параметры уравнения регрессии,— случайные ошибки, представляющие собой случайные отклонения значений от линии регрессии:
Применение модели линейной регрессии основано на следующих предположениях:
1. В генеральной совокупности, из которой получены экспериментальные данные, действительно существует линейная регрессия, т. е. среднее значение зависимой случайной величины Y для любого значения независимой величины х является линейной функцией от х:
2. Нет никаких факторов, существенно влияющих на
связь между величинами У и х. Это два самых важных предположения, определяющих практическую полезность линейного регрессионного анализа.
3. В генеральной совокупности все остатки взаимно независимы. Другими словами, требуется, чтобы все наблюдаемые (измеренные) значения случайной величины Y были статистически независимыми при всех значениях независимой переменной х.
Если это предположение не выполняется, то невозможно оценить точность приближенного описания экспериментально наблюдаемых зависимостей с помощью регрессии. Это предположение обычно справедливо в тех случаях, когда выборочные данные, по которым строится линия регрессии, представляют собой результаты измерения для разных индивидов. Поэтому эти результаты можно считать независимыми друг от друга.
4. В генеральной совокупности, из которой получены выборочные данные, при любом значении независимой переменной х случайные величины имеют нормальное распределение со средним значением и одинаковыми дисперсиями
Это предположение является необходимым при проверке значимости линейной регрессии и определении границ доверительных интервалов для параметров а и
Оценка параметров уравнения регрессии
Истинное уравнение регрессии обычно неизвестно, потому что не имеется возможности наблюдать всю генеральную совокупность. Единственное, что можно сделать, чтобы построить линию регрессии, — это провести выборочное исследование и по экспериментальным данным оценить генеральные параметры а и Пусть получена выборка объема n наблюдений зависимой случайной величины Y, соответствующих значениям независимой переменной х.
Оценки параметров а и которые получаются по выборочным данным, обозначаются соответственно а и b. Для определения оценок a и b чаще всего применяется метод наименьших квадратов. Суть этого метода в том, что отыскиваются такие значения а и b, которые обеспечивают минимум суммы квадратов отклонений измеренных значений от прямой линии, задаваемой параметрами а и b, т. е.
Таким образом, по методу наименьших квадратов получаем эмпирическое уравнение некоторой прямой:
Здесь — принятое обозначение для оценки величины Y при заданном значении х.
Оценка по методу наименьших квадратов является наилучшей в том смысле, что она дает уравнение такой прямой, для которой ошибка (сумма квадратов отклонений измеренных значений у; от этой прямой) будет наименьшей по сравнению с любой другой прямой линией (в том числе и с неизвестной истинной линией регрессии). В то же время, если каждому значениюсоответствует несколько измеренных значений то прямая, полученная по методу наименьших квадратов, обеспечивает минимум отклонений средних арифметических при любом значении независимой переменной х, т. е. прямая наименьших квадратов является одновременно и оценкой истинной линии регрессии:
Значения а и b по методу наименьших квадратов находятся из решения системы так называемых нормальных уравнений:
Решения этой системы уравнений можно записать в следующем, удобном для расчетов виде:
где — выборочные средние арифметические
Обычно b называют коэффициентом регрессии, a — свободным членом уравнения регрессии.
Пример 7.4
Найдем значения коэффициента регрессии (b) и свободного члена уравнения регрессии (а) для данных примера 7.3, т. е. построим прямую линию, устанавливающую приближенную зависимость результатов в беге на 100 м от результатов в беге на 30 м.
1. По данным табл. 7.2 находим значения промежуточных сумм, входящих в формулу (7.4):
2. Определим значения средних арифметических:
3. По формуле (7.4) вычисляем коэффициент регрессии: 4. По формуле (7.5) находим свободный член уравнения регрессии:
Таким образом, уравнение регрессии имеет вид:
Прямая, построенная по этому уравнению, показана на рис. 7.6 вместе с исходными данными. Эта прямая является наилучшей линейной оценкой уравнения регрессии, полученной по имеющимся данным. Но это не означает, что нельзя построить оценку регрессии в виде какой-то другой зависимости (нелинейной), которая будет лучше соответствовать экспериментальным данным, чем прямая линия.
Полученное эмпирическое уравнение регрессии можно использовать для прогнозирования результатов на дистанции 100 м по результатам дистанции 30 м. Например, если в группе школьников, которая участвовала в эксперименте, будет показан результат 5,2 с на дистанции 30 м, то можно ожидать, что результат на дистанции 100 м будет:
И это будет наилучшим прогнозом, который можно сделать, используя модель линейной регрессии.
Стандартная ошибка предсказания
Мерой качества приближенного описания реальной зависимости между величинами Y и х с помощью уравнения линейной регрессии является стандартное отклонение значений от регрессионной прямой, вычисляемое по формуле:
является мерой точности предсказания значений случайной величины Y по заданным значениям величины х, поэтому называют также стандартной ошибкой предсказания.
Пример 7.4 (продолжение)
Определим стандартную ошибку предсказания для данных примера с результатами в беге на 100 и 30 м. Для этого найдем значение промежуточной суммы входящей в формулу (7.6):
Подставив эти значения в формулу (7.6) и используя найденные ранее значения остальных составляющих формулы (7.6), получим:
Две прямые линии, отстоящие от прямой регрессии на ограничивают зону околорегрессионной прямой, в которую с вероятностью 0,683 попадают экспериментальные значения т. е. примерно 68,3 % всех значенийоказываются в этой зоне.
Зона, определяемая стандартной ошибкой предсказания, показана на рис. 7.6 штриховыми линиями.
Проверка адекватности линейной модели
Проверка адекватности линейной модели может быть произведена с помощью стандартного F-критерия. Гипотеза в этом случае представляет собой утверждение о том, что регрессия в генеральной совокупности линейна, а альтернатива — обратное ей утверждение. F-критерий может быть применен в том случае, если каждому значению соответствует несколько измеренных значений . Порядок применения критерия описан в литературе [1, 4, 8]. Здесь не будем подробно на нем останавливаться, а рассмотрим простой и наглядный графический способ проверки адекватности.
Проверка адекватности линейной модели производится по графику остатков: где — измеренные значения величины, соответствующие значениям оценка по уравнению регрессии.
Если остатки сконцентрированы в горизонтальной полосе вдоль оси абсцисс, то линейную модель можно считать адекватной. Если зона, где расположены остатки, расширяется, это означает, что нарушено предположение 4 регрессионного анализа (см. раздел 7.4.1): дисперсии неодинаковы при различных значениях . Это требует изменения регрессионной модели. Если остатки имеют тенденцию закономерно изменяться, то нарушено предположение 2, т. е. не учтены какие-то факторы, существенно влияющие на связь между величинами Y и х. В этом случае также нужно изменить модель и ввести в нее неучтенные факторы. Предположение 4 о нормальности распределения может быть проверено с помощью стандартных критериев согласия (см. раздел 6.4), примененных к эмпирическому распределению остатков
Следует отметить, что регрессионный анализ в полном объеме достаточно сложен даже для простой линейной модели. Здесь не обойтись без помощи ЭВМ. Для универсальных ЭВМ существуют стандартные программы регрессионного анализа*.
Здесь нет возможности уделить этому внимание, поэтому рассматриваются лишь простейшие методы, при которых для расчетов вполне достаточно обычных микрокалькуляторов.
В заключение построим график остатков для примера 7.4. Этот график приведен на рис. 7.7.
Как следует из рис. 7.7, остатки распределились в основном в горизонтальной полосе вблизи нуля, поэтому приближенно можно считать, что в рассмотренном примере линейная модель регрессии является адекватной.
Проверка значимости коэффициента регрессии
Если в результате проведенной проверки нет оснований сомневаться в адекватности линейной модели, то необходимо проверить гипотезу о том, что в действительности в генеральной совокупности отсутствует линейная регрессия, а то, что полученный коэффициент регрессии b отличен от нуля,, объясняется только случайностью выборки.
Если данных много, то необходимость в такой проверке, как правило, отпадает, потому что зависимость явно прослеживается при графическом представлении данных (см., например, рис. 7.3). Но если выборка невелика, то такaя проверка полезна.
Гипотеза проверяется с помощью стандартного t-критерия Стьюдента, рассмотренного в гл. 6. Значение t-критерия определяется по формуле:
где — абсолютная величина коэффициента регрессии, — стандартная ошибка предсказания, определяемая формулой (7.6).
t-критерий применяется обычным образом, как показано в гл. 6. Вычисленное по формуле (7.7) значение критерия сравнивается с критическим значением при уровне значимости а и числе степеней свободы v= n — 2. Критические значения /« приведены в табл. 4 Приложения.
Заметим, что здесь a-уровень значимости, его не следует путать со свободным членом уравнения регрессии для которого также принято обозначение а.
Если значение критерия то нулевая гипотеза отклоняется, и можно сделать вывод, что линейная регрессия значима на уровне значимости а. В противном случае гипотеза принимается.
Пример 7.4 (продолжение)
Оценим значимость коэффициента регрессии b = 3,0, рассчитанного для данных нашего примера. Зададимся уровнем значимости а=0,05.
Подставим найденные ранее значения в формулу
(7.7) и определим значение t-критерия:
Из табл. 4 Приложения находим при а = 0,05 и v = 10-2 = 8:
Поскольку то на уровне значимости 0,05 отклоняем нипотезу т. е. коэффициент регрессии b = 3,0 является статистически значимым.
Полиномиальная регрессия
Часто зависимость между двумя величинами, которую можно предположить, анализируя графическое представление экспериментальных данных или опираясь на предметный анализ явлений, оказывается достаточно сложной, и модель линейной регрессии плохо подходит. Тогда прибегают к более сложным моделям, начиная обычно с самой простой из них — полиномиальной регрессии. Эти модели описываются выражением, содержащим, кроме линейного члена (1-й степени х) более высокие степени переменной х. Редко используется полином выше 3-й степени, поэтому модель полиномиальной регрессии можно представить в следующем виде:
Все предположения, которые принимаются при регрессионном анализе с использованием такой модели, полностью соответствуют предположениям, которые были сделаны в случае простой линейной регрессии.
Оценка параметров полиномиальной модели по выборочным данным также производится по методу наименьших квадратов. Система нормальных уравнений в этом случае имеет вид:
Решая совместно эти уравнения, находим коэффициенты .
Можно получить эти решения в готовом виде, и они приведены в, но выражения получаются громоздкими и плохо пригодны для вычислений на калькуляторе, где приходится Применять такие сложные операции, что затраты времени становятся неоправданными. Поэтому, если возникнет необходимость использовать полиномиальную регрессию, лучше обратиться за помощью к специалисту и выполнить расчеты на ЭВМ. Можно надеяться, что в ближайшем будущем положение в корне изменится с появлением общедоступных и простых персональных ЭМ, и что не менее важно, специальных программ статистического анализа для них, по которым неискушенный в программировании человек сможет выполнить необходимые расчеты в режиме понятного диалога с ЭВМ. Тогда вычислительные трудности перестанут быть для многих определяющими при выборе статистических методов анализа.
Коэффициент корреляции
Как уже отмечалось в начале этой лекции, при исследовании корреляции двух признаков обе величины X и Y, описывающие поведение этих признаков, рассматриваются как случайные величины, которые представлены совместным вероятностным распределением. Для двух случайных величин совместное распределение называется двумерным.
Корреляция изучается на основании экспериментальных данных, представляющих собой измеренные значения () двух признаков. Если экспериментальных данных немного, то двумерное эмпирическое распределение представляется в виде двух рядов связанных между собой значений . При большом количестве данных их запись в виде двойного ряда значений , становится трудно обозримой, и тогда, как и в случае одномерного распределения, данные группируют, а двумерное эмпирическое распределение представляют в виде корреляционной таблицы, в которой для каждой области группировки, задаваемой интервалами группировки по признакам X и Y, записывается частота совместного попадания значений х, и у, в данную область группировки. Анализ корреляции с использованием корреляционных таблиц подробно изложен в литературе [4, 7, 8, 9, 10, и здесь рассматриваться не будет.
Корреляционный анализ, как и другие статистические методы, основан на использовании вероятностных моделей, описывающих поведение исследуемых признаков в некоторой генеральной совокупности, из которой получены экспериментальные значения
Когда исследуется корреляция между количественными признаками, значение которых можно точно измерить в единицах метрических шкал (метры, секунды, килограммы и т. п.), то очень часто принимается модель двумерной нормально распределенной генеральной совокупности. Плотность вероятностей двумерного нормального распределения имеет вид
где
Это распределение зависит от пяти параметров, четыре из которых нам уже знакомы:— средние значения (математические ожидания); — стандартные отклонения случайных величин X и У. Пятый параметр р носит название «коэффициент корреляции» и является мерой связи между случайными величинами X и У.
Модель двумерного нормального распределения позволяет дать наглядную графическую интерпретацию коэффициента корреляции.
Если р — 0, то значения полученные из двумерной нормальной совокупности, располагаются на графике в координатах х, у в пределах области, ограниченной окружностью (рис. 7.8, а). В этом случае между случайными величинами X и У отсутствует корреляция и они называются некоррелированными. Для двумерного нормального распределения некоррелированность означает одновременно и независимость случайных величин X и Y.
Если р= I или р= — 1, то между случайными величинами X и У существует линейная функциональная зависимость (У = с + dX). В этом случае говорят о полной корреляции. При р = 1 значения ( определяют точки, лежащие на прямой линии, имеющей положительный наклон (с увеличением значения также увеличиваются), при р = — 1 прямая имеет отрицательный наклон (рис. 7.8, б).
В промежуточных случаях точки, соответствующие значениямпопадают в область, ограниченную некоторым эллипсом (рис. 7.8, в, а), причем при р>0 имеет место положительная корреляция (с увеличением значения имеют тенденцию к возрастанию), при р<0 корреляция отрицательная. Чем ближе р к ±1, тем уже эллипс и тем теснее экспериментальные значения группируются около прямой линии.
Таким образом, коэффициент корреляции является мерой линейной связи между случайными величинами.
В двумерном нормальном распределении существуют две линии регрессии: регрессия У на X и регрессия X на У (в зависимости от того, какую из величин X или У считать независимой, а какую — зависимой). Причем для нормального распределения регрессия всегда линейна, т. е. среднее значение одной случайной величины линейно зависит от значений другой случайной величины. Поэтому для двумерного нормального распределения коэффициент корреляции является мерой взаимосвязи двух случайных величин.
Это справедливо только для двумерного нормального распределения. При произвольном распределении корреляция является мерой только линейной связи. Пусть, например, две случайные величины связаны функциональной квадратичной зависимостью и случайная величина X равномерно распределена на интервале значений (—х, х), т. е. вероятности ее попадания в любой сколь угодно малый интервал внутри общего интервала (—х, х) одинаковы. В этом случае оказывается, что коэффициент корреляции равен 0, хотя имеет место функциональная зависимость. Это нужно иметь в виду при использовании коэффициента корреляции в качестве меры связи двух случайных величин. Поэтому, когда определяется коэффициент корреляции, обычно предполагается, что экспериментальные данные получены из генеральной совокупности, имеющей двумерное нормальное распределение.
Если нет оснований предполагать двумерное нормальное распределение, в качестве меры связи часто используется коэффициент ранговой корреляции Спирмена, для которого вид распределения случайных величин X и Y не имеет значения. Коэффициент ранговой корреляции является мерой любой монотонной (неубывающей или невозрастаюшей) зависимости между случайными величинами. Его применение рассмотрено в разделе 7.7
Если исследуется корреляционная зависимость между качественными признаками, которые не поддаются непосредственному измерению, то такая зависимость называется сопряженностью. В качестве меры зависимости используются коэффициенты сопряженности, рассмотренные в разделе 7.8.
Оценка коэффициента корреляции
Коэффициент корреляции р для генеральной совокупности, как правило, неизвестен, поэтому он оценивается по экспериментальным данным, представляющим собой выборку объема n пар значений полученную при совместном измерении двух признаков X и Y. Коэффициент корреляции, определяемый по выборочным данным, называется выборочным коэффициентом корреляции (или просто коэффициентом корреляции). Его принято обозначать символом r.
В качестве оценки генерального коэффициента корреляции р используется коэффициент корреляции r Бра-ве — Пирсона. Для его определения принимается предположение о двумерном нормальном распределении генеральной совокупности, из которой получены экспериментальные данные. Это предположение может быть проверено с помощью соответствующих критериев значимости. Следует отметить, что если по отдельности одномерные эмпирические распределения значений согласуются с нормальным распределением,, то из этого еще не следует, что двумерное распределение будет нормальным. Для такого заключения необходимо еще проверить предположение о линейности связи между случайными величинами X и Y. Строго говоря, для вычисления коэффициента корреляции достаточно только принять предположение о линейности связи между случайными величинами, и вычисленный коэффициент корреляции будет мерой этой линейной связи. Но тогда нельзя оценить достоверность найденного коэффициента корреляции с помощью стандартных критериев значимости, которые рассмотрены ниже. Для этого требуется принять предположение о двумерном нормальном распределении.
Коэффициент корреляции r Браве — Пирсона вычис ляется по формуле:
где — выборочные средние арифметические, n — объем выборки.
Для практических расчетов более удобна следующая формула:
В этой формуле все суммы также вычисляются для i от 1 до n. Удобство формулы (7.9) в том, что она оперирует непосредственно с исходными данными поэтому вычисления производятся более точно, чем по формуле (7.8), в которой присутствуют, которые всегда содержат ошибки округления.
Важным свойством коэффициента корреляции является то, что он не изменяет своего значения при любом линейном преобразовании исходных данных . Например, если заменить с помощью преобразований:
то значение , выведенное по преобразованным данным, совпадает с выведенным по исходным данным.
Это свойство позволяет существенно упростить вычисление коэффициента корреляции в тех случаях, когда значения представлены многоразрядными числами.
Между коэффициентом корреляции r и коэффициентами регрессии (коэффициенты регрессии У на X и X на У) существует простая взаимосвязь:
Зная коэффициент корреляции, можно легко определить коэффициент регрессии:
где — выборочные стандартные отклонения.
Квадрат коэффициента корреляции называется коэффициентом детерминации (d):
Коэффициент детерминации является мерой определенности линейной регрессии. Чем больше коэффициент детерминации, тем меньше наблюдаемые значения при каждом значении отклоняются от линии регрессии У на X, тем точнее определена линия регрессии. Так, например, если r = 0,9, то d = 0,81 и 81 % общего рассеяния значений (характеризуемого дисперсией можно объяснить линейной связью с изменяющимися значениями
Пример 7.5
Определим, существует ли связь между результатами в беге на 30 и на 100 м для данных примера 7.4, полученных для группы школьников.
Исходные данные (результаты в беге на 30 м) и (результаты бега на 100 м) приведены в столбцах 2 и 3 табл. 7.3. Корреляционный анализ производится в следующем порядке:
1. Наносим исходные данные на график корреляционного поля, отображая каждую пару значений () в виде точки с координатами в прямоугольной системе координат. Этот график построен на рис. 7.5.
Анализ графика позволяет сделать предположение о линейной связи между результатами в беге на 30 и 100 м для данной категории испытуемых. Силу этой связи можно оценить по коэффициенту корреляции r Браве — Пирсона.
2. Вычисляем значения промежуточных сумм, входящих в формулу (7.9), для коэффициента корреляции:
Промежуточные расчеты приведены в столбцах 2—6 табл. 7.3.
3. По формуле (7.9) вычисляем коэффициент корреляции:
Такое значение коэффициента корреляции свидетельствует о наличии сильной положительной корреляции между результатами в беге на 30 и 100 м.
4, Находим коэффициент детерминации
93,5% рассеяния результатов в беге на 100 м может быть объяснено изменением результатов в беге на 30 м. Иными словами, на оба исследуемых признака (результаты в беге на 30 и 100 м) действуют общие факторы, вызывающие варьирование этих признаков, и доля общих факторов составляет 93,5 %. Остальные 6,5 % приходятся на долю факторов, действующих на исследуемые признаки избирательно.
Пример 7.6
Исследовалась группа спортсменок I разряда, специализирующихся в беге на 400 м. Цель исследования состояла в том, чтобы выявить влияние времени на первой половине дистанции на время пробегания последних 200 м. На соревнованиях для 20 спортсменок измерены результаты на обеих половинах дистанции 400 м. Эти данные приведены в столбцах 2 и 3 табл. 7.4: — результаты на первой, — на второй половине дистанции.
Проведем корреляционный анализ экспериментальных данных.
1. Построим график корреляционного поля (рис. 7.9). Анализ графика показывает, что в данном случае можно предположить существование линейной корреляции между исследуемыми признаками, причем здесь корреляция отрицательная для данной категории испытуемых, т. е. при более быстром пробегании первой половины дистанции время на последних 200 м имеет тенденцию к возрастанию.
Вычислим коэффициент корреляции Браве — Пирсона для полученных экспериментальных данных.
Как показал предыдущий пример 7.5, расчет коэффициента корреляции достаточно громоздкий. Можно ожидать, что в данном примере расчеты будут еще сложнее, потому что данных вдвое больше. Чтобы упростить вычисления, воспользуемся линейным преобразованием исходных данных (7.10). Это не изменит значения коэффициента корреляции, но позволит существенно упростить расчеты при правильном выборе линейного преобразования. Применим следующие преобразования:
Значения = 25,8 и — 30,5 выбраны примерно в центре рядов а множитель с — 10 выбран с целью преобразовать данные в целочисленные значения.
Преобразованные данные приведены в столбцах-4 и
5 табл. 7.4. Далее порядок вычислений ничем не отличается от рассмотренного в примере 7.5.
2. Находим значения промежуточных сумм:
По формуле (7.9) определяем:
Полученный результат говорит о наличии сильной отрицательной корреляции.
4. Коэффициент детерминации равен
В данном случае 64 % рассеяния результатов на последних 200 м объясняется изменением результатов на первой половине дистанции.
Критерий значимости и доверительные интервалы для коэффициента корреляции
Основываясь только на значении выборочного коэффициента корреляции, особенно если это значение не очень близко к ±1, нельзя сделать вывод о достоверности корреляции между признаками. Этот вывод может быть сделан с помощью соответствующих критериев значимости корреляции. Такие критерии служат для проверки гипотезы о том, что в генеральной совокупности отсутствует корреляция, а отличие от нуля выборочного коэффициента корреляции объясняется только случайностью выборки. Альтернатива может быть двусторонней если не известен знак корреляции, или односторонней когда знак корреляции может быть заранее определен.
Применение стандартных критериев значимости корреляции основано на предположении о двумерном нормальном распределении генеральной совокупности, из которой получены экспериментальные данные.
Если принять предположение о наличии линейной связи между исследуемыми признаками, то гипотезу о двумерном нормальном распределении можно проверить с помощью стандартных критериев согласия (см. раздел 6.4), примененных к одномерным эмпирическим распределениям признаков X и Y.
Если предположение о двумерном нормальном распределении принимается, то могут быть использованы следующие критерии значимости корреляции:
t-критерий. При использовании t-критерия Стыодента-вычисляется значение критерия по формуле:
где r — выборочный коэффициент корреляции; n — объем выборки.
Вычисленное по формуле (7.13) значение t-критерия сравнивается с критическим значением при заданном уровне значимости и числе степеней свободы = n — 2.
Чтобы упростить применение t-критерия, составлена таблица критических значений коэффициента корреляции (см. табл. 10 Приложения). При наличии этой таблицы отпадает необходимость в вычислениях по формуле (7.13). Достаточно просто сравнить выборочный
коэффициент корреляции r с критическим значением при уровне значимости а и объеме выборки n. Если окажется, что то гипотеза принимается и делается вывод об отсутствии значимой корреляции. Если гипотеза отклоняется. Для двустороннего критерия это означает, что коэффициент корреляции статистически значимо отличается от 0 на уровне значимости а, для одностороннего критерия делается вывод о наличии значимой положительной или отрицательной корреляции. Заметим, что табл. 10 Приложения содержит критические значения для двустороннего критерия, —критерий, основанный на Z-преобразовании. Другой критерий значимости корреляции основан на Z-преобра-зовании Фишера: Перевод значений коэффициента корреляции r в значении Z может быть выполнен по табл. 11 Приложения. Эта таблица содержит только положительные значения r, но можно воспользоваться тем фактом, что Z-преобра-зование симметрично, и Z для отрицательного r равно значению Z для соответствующего положительного r, взятого со знаком минус.
Величина Z имеет приближенно нормальное распределение со средним значением
и стандартным отклонением
Z-преобразование можно применять при Критерий значимости применяется следующим образом:
1. Вычисляем значение 2. Сравниваем значение с критическим значением нормированного нормального распределения при заданном уровне значимости а. Критические значения для стандартных уровнен значимости приведены в табл. 6.2.
3. Если то гипотеза принимается, и делаем вывод об отсутствии значимой корреляции. При отклоняется. Для двустороннего критерия делаем вывод о том, что коэффициент корреляции значимо (7.14)
отличается от 0. Для одностороннего критерия отклонение означает, что существует статистически значимая положительная или отрицательная корреляция.
Доверительный интервал для коэффициента корреляции
Z-преобразование удобно тем, что с его помощью можно определить границы доверительного интервала для генерального коэффициента корреляции p. Доверительный интервал строится следующим образом:
1. Вычисляем значение Z по формуле (7.14) или с помощью табл. 11 Приложения и стандартное отклонение по формуле
2. Задаемся доверительной вероятностью 1 — а и определяем граничные значения нормированного нормального распределения, соответствующие этой доверительной вероятности. Граничные значения равны критическим значениям двустороннего -критерия, поэтому для их определения можно пользоваться табл. 6.2.
3. Находим границы доверительного интервала для среднего значения величины Z:
4. С помощью обратного преобразования Фишера переходим к доверительному интервалу для коэффициента корреляции р. Для этого по табл. 12 Приложения’ находим значения r, соответствующие значениям Z Это и будут границы доверительного интервала для р.
Пример 7.6 (продолжение)
Оценим значимость корреляции на уровне значимости a = 0,05 и границы 95 %-ного доверительного интервалу для коэффициента корреляции для данных примера 7.6, представляющих собой результаты на первой и второй половине дистанции 400 м для спортсменок I разряда.
Действуем в таком порядке:
1. Вначале проверим гипотезу о том, что экспериментальные данные получены из двумерной нормальной совокупности.
Значения критерия W Шапиро — Уилки (см. раздел 6.4.4) для рядов соответственно равны: Промежуточные расчеты здесь не приводятся, и предоставляется возможность выполнить их самостоятельно.
Критическое значение для уровня значимости a = 0,05 и объема выборки n= 20 находим по табл. 7 Приложения:
Поскольку превышают то одномерные распределения значений согласуются с нормальным распределением на уровне значимости 0,05. Кроме того, принято предположение о линейной связи величин X и Y, поэтому можно считать обоснованным предположение о двумерном нормальном распределении и применить стандартные критерии значимости корреляции.
2. Оценим значимость корреляции путем сравнения с критическим значением коэффициента корреляции. Ранее вычисленный выборочный коэффициент корреляции По табл. 10 Приложения находим при и n — 20 критическое значение = 0,468.
Поскольку , то делаем вывод о статистической значимости коэффициента корреляции на уровне значимости 0,05. Между результатами на первой и второй половине дистанции 400 м существует значимая корреляция. Вероятность ошибки такого вывода так как r превышает критическое значение
Воспользуемся Z-преобразованием для проверки значимости корреляции. Отметим, что для рассматриваемого примера данный критерий можно не применять, так как выборочный коэффициент корреляции значительно превышает критическое значение, и использование еще одного критерия вряд ли изменит в такой ситуации вывод о значимости корреляции. Но Z-преобразование потребуется нам для определения доверительного интервала для коэффициента корреляции.
По табл. 11 Приложения при r =0,802 находим Z = 1,099.
Стандартное отклонение
Значение ц-критерия по формуле (7.15) составляет:
При уровне значимости а — 0,05 по табл. 6.2 находим критическое значение двустороннего -критерия:
Поскольку вывод о наличии значимой корреляции подтверждается.
4. Определим границы доверительного интервала для генерального коэффициента корреляции р.
Границы 95 %-ного доверительного интервала для по формуле (7.16) равны:
По табл. 12 Приложения находим значения r, соответствующие границам доверительного интервала для р: 0,558 и 0,917.
Следовательно, 95 %-ный доверительный интервал для р будет: —0,917<р<—0,558.
Здесь мы учли, что выборочный коэффициент корреляции отрицательный.
Коэффициент ранговой корреляции Спирмена
Если потребуется установить связь между двумя признаками, значения которых в генеральной совокупности распределены не по нормальному закону, т. е. предположение о том, что двумерная выборка получена из двумерной нормальной генеральной совокупности, не принимается, то можно воспользоваться коэффициентом ранговой корреляции Спирмена В этом выражении — разность рангов пары значений Определение рангов было дано выше в разделе 6.5.1.
Формула (7.17) получается непосредственно из формулы (7.8) для коэффициента корреляции Браве — Пирсона, если в последнюю вместо; подставить их ранги.
Коэффициент ранговой корреляции также имеет пределы 1 и —1. Если ранги одинаковы для всех значений то все разности рангов Если ранги расположены в обратном порядке, Таким образом, коэффициент ранговой корреляции является мерой совпадения рангов значений и
Когда ранги всех значений строго совпадают или расположены строго в обратном порядке, между случайными величинами X и Y существует функциональная зависимость, причем эта зависимость не обязательно линейная, как в случае с коэффициентом линейной корреляции Браве — Пирсона, а может быть любой монотонной зависимостью (т. е. постоянно возрастающей
или постоянно убывающей зависимостью). Если зависимость монотонно возрастающая, то ранги значений — совпадают и = 1; если зависимость монотонно убывающая, то ранги обратны и = — 1. Следовательно, коэффициент ранговой корреляции является мерой любой монотонной зависимости между случайными величинами X и Y.
В тех случаях, когда в рядах встречаются одинаковые, совпадающие между собой значения, формула (7.17) дает несколько завышенный результат. Для более точных расчетов применяется следующая формула:
— число совпадающих значений (или рангов значений ) в каждой из групп, где эти значения совпадают.
При небольшом числе совпадающих значений формула (7.17)обеспечивает практически приемлемую точность и можно не усложнять расчеты вычислением
Коэффициент ранговой корреляции Спирмена вычисляется значительно проще, чем коэффициент корреляции Браве — Пирсона при одних и тех же исходных данных, поскольку при вычислении используются ранги, представляющие собой обычно целые числа.
Коэффициент ранговой корреляции целесообразно использовать в следующих случаях:
1. Если экспериментальные данные представляют собой точно измеренные значения признаков X и Y и требуется быстро найти приближенную оценку коэффициента корреляции. Тогда даже в случае двумерного нормального распределения генеральной совокупности можно воспользоваться коэффициентом ранговой корреляции вместо точного коэффициента корреляции Браве — Пирсона. Вычисления будут существенно проще, а точность оценки генерального параметра р с помощью коэффициента при больших объемах выборки составляет 91,2% по отношению к точности оценки по коэффициенту корреляции r.
2. Когда значения и (или) заданы в порядковой шкале (например, оценки судей в баллах, места на соревнованиях, количественные градации качественных признаков), т. е. когда признаки не могут быть точно измерены, но их наблюдаемые значения могут быть расставлены в определенном порядке.
Пример 7.7.
Воспользуемся данными примера 7.5 и определим коэффициент ранговой корреляции между результатами школьников в беге на 30 и 100 м. Исходные данные приведены в столбцах 2 и 3 табл. 7.5.
Расчет производится в следующем порядке:
1. Находим ранги значений как показано в разделе 6.5.1.
Ранги приведены в столбцах 4 и 5 табл. 7.5. 2 3 4
2. Вычисляем разности рангов (столбец 6). Для проверки правильности вычисления рангов можно использовать тот факт, что сумма всех разностей di должна быть равна нулю. 3. Возводим разности в квадрат и находим сумму:
4. В рядах встречаются совпадающие значения, поэтому для вычисления коэффициента ранговой корреляции нужно пользоваться формулой (7.18).
Предварительно найдем значения В ряду имеются 3 группы совпадающих значений: первая группа содержит два значения (4,6; 4,6), вторая и третья — по 3 значения. Поэтому
В ряду всего одна группа из двух совпадающих значений, следовательно,
5. По формуле (7.18) находим . Заметим, что если не учитывать наличия совпадающих значений, а воспользоваться формулой (7.17), то получим значение Это подтверждает сделанное выше замечание о том, что при небольшом числе совпадающих значений можно не учитывать их наличия.
Как видим, коэффициент ранговой корреляции0,975 несущественно отличается от вычисленного ранее коэффициента корреляции Браве — Пирсона (r = 0,967), но получен путем значительно более простых расчетов.
Пример 7.8
Выясним, существует ли связь между результатами в
прыжках в длину с места и местами, занятыми на соревнованиях, для гимнастов 11—12 лет. Данные, полученные по наблюдениям за 10 гимнастами этой возрастной категории, приведены в столбцах 2 и 3 табл. 7.6.
Данный пример соответствует второму случаю применения коэффициента ранговой корреляции Спирмена. Здесь значения (места на соревнованиях) выражены в порядковой шкале. К таким данным коэффициент корреляции Браве — Пирсона не применим, а взаимосвязь может быть установлена только с помощью коэффициента ранговой корреляции.
Порядок расчета полностью соответствует рассмотренному выше в примере 7.7, за исключением того, что в данном примере отсутствуют совпадающие значения и поэтому нет необходимости вычислять
Коэффициент ранговой корреляции по формуле (7.17) составляет
Значимость коэффициента ранговой корреляции
Гипотеза (генеральный коэффициент ранговой корреляции равен 0) может быть проверена путем сравнения выборочного коэффициента ранговой корреляции с критическим значением . Критические значения для стандартных уровней значимости приведены в табл. 13 Приложения. Содержащиеся в этой таблице критические значения соответствуют одностороннему критерию (альтернатива т. е. при использовании этого критерия должна быть уверенность в знаке предполагаемой корреляции. Если такой уверенности нет, следует применять двусторонний критерий (альтернатива . при этом уровни значимости, приведенные в табл. 13 Приложения, следует удвоить.
Если то коэффициент ранговой корреляции статистически незначим на уровне значимости а; если делаем вывод о наличии значимой корреляции.
Табл. 13 Приложения содержит критические значения для объемов выборки . Если объем выборки больше или подобной таблицы нет под рукой, то при можно
приближенно воспользоваться t-критерием, значение которого вычисляется следующим образом:
Это значение сравнивается с критическим значением t-распределения Стьюдента при числе степеней свободы v = n — 2. Критические значения приведены в табл. 4 Приложения.
Пример 7.7 (продолжение)
Выборочный коэффициент ранговой корреляции, определенный для данных примера7.7, составляет — 0,975. Для уровня значимости а = 0,05 и объема выборки n = 10 из табл. 13 Приложения находим критическое значение:
Поскольку гипотеза отклоняется на уровне значимости 0,05. Между результатами школьников в беге на 30 и на 100 м существует статистически значимая положительная корреляция. (Делаем вывод именно о положительной корреляции, потому что был использован односторонний критерий.) Ошибка утверждения о значимости положительной корреляции Р<0,001, поскольку превышает и критическое значение = 0,8667).
Пример 7.8 (продолжение)
Для данных примера 7.8 выборочный коэффициент ранговой корреляции = 0, 539. Его сравнение с 0,5512 свидетельствует об отсутствии статистически значимой положительной корреляции между результатами гимнастов 11 —12 лет в прыжках в длину с места и местами, занятыми на соревнованиях, несмотря на то, что выборочный коэффициент корреляции кажется сравнительно высоким. Имеющийся у нас объем экспериментальных данных (n=10) не позволяет отклонить гипотезу об отсутствии корреляции даже при значении выборочного коэффициента ранговой корреляции 0,539.
Сопряженность качественных признаков
Если требуется выявить связь (сопряженность) между качественными признаками, которые не поддаются непосредственному измерению, для этого используются коэффициенты сопряженности.
Здесь рассматривается только простейший случай: связь между двумя альтернативными признаками. Мерой альтернативных признаков является наличие или отсутствие их у объектов исследования. Например, человек может заниматься или не заниматься спортом, заболеть или не заболеть простудным заболеванием, сдать или не сдать зачет по математической статистике, установить или не установить мировой рекорд в плавании, легкой атлетике и т. д.
При исследовании сопряженности двух альтернативных признаков исходные экспериментальные данные представляют в виде четырехклеточной таблицы сопряженности признаков (табл. 7.7). В этой таблице содержатся частоты а, b, с и d, соответствующие для выборки объема n наличию (+) или отсутствию (—) каждого из признаков «1» или «2» у испытуемых.
Взаимосвязь между двумя альтернативными признаками устанавливается с помощью тетрахорического коэффициента сопряженности (или коэффициента ассоциации) Пирсона
Рассмотрим его применение на примере.
Пример 7.9
Пусть, например, было проведено исследование влияния занятий спортом на утомляемость в течение рабочего дня у молодых выпускников технического вуза. Обследование проводилось с помощью анкетного опроса, и 200 ответов на вопросы анкеты «Занимаетесь ли вы спортом систематически?», «Чувствуете ли вы состояние психического или физического утомления к концу рабочего дня?» распределились, как показано в табл. 7.8.
Тетрахорический коэффициент сопряженности определяется по следующей формуле:
Этой формулой можно пользоваться, если все частоты а, b, с и d не меньше 5.
Для данных рассматриваемого примера Это значение дает основание предполагать, что при систематических занятиях спортом состояние утомления в течение рабочего дня наблюдается реже.
Для проверки нулевой гипотезы о независимости признаков (об отсутствии сопряженности) используется Пирсона (см. раздел 6.4). Значения критерия определяются по формуле: Вычисленное значение сравнивается с критическим значением ПРИ числе степеней свободы v=l. Еслито гипотеза об отсутствии сопряженности между признаками принимается. Если делается вывод о наличии статистически значимой связи между признаками. В данном случае, как правило, используется двусторонний критерий, т. е. знак предполагаемой сопряженности заранее не устанавливается.
Для рассматриваемого примера значение -кРитерия составляет
Зададимся уровнем значимости а =0,05 и по табл. 5 Приложения находим критические значения -кРитеРия с одной степенью свободы:
Поскольку можно сделать вывод о наличии статистически значимой связи между занятиями спортом и утомляемостью к концу рабочего дня для данной категории испытуемых. Ошибка такого вывода Р<0,001, поскольку превышает и критическое значение -критерия на уровне значимости 0,001
Приложение
Удвоенные значения функции Лапласа
Удвоенные значения функции Лапласа:
(площадь под кривой нормального распределения между точками —u, u)
Ординаты нормальной кривой
Ординаты нормальной кривой
Критические значения одностороннего F-критерия Фишера
Критические значения одностороннего F-критерия Фишера (верхние числа в строке соответствуют уровню значимости 0,05; средние — 0,01; нижние — 0,001) Таблица 3
Критические значения двустороннего t-критерия Стьюдента
Критические значения двустороннего t-критерия Стьюдента
(v — число степеней свободы)
Вспомогательные коэффициенты для проверки нормальности
Вспомогательные коэффициенты для проверки нормальности распределения по критерию W Шапиро — Уилки (n — объем совокупности, k — номер сравниваемой пары)
Лекции по предметам:
- Математика
- Алгебра
- Линейная алгебра
- Векторная алгебра
- Геометрия
- Аналитическая геометрия
- Высшая математика
- Дискретная математика
- Математический анализ
- Теория вероятностей
- Математическая логика
Учебник онлайн:
- Точечные оценки, свойства оценок
- Доверительный интервал для вероятности события
- Проверка гипотезы о равенстве вероятностей
- Доверительный интервал для математического ожидания
- Доверительный интервал для дисперсии
- Проверка статистических гипотез
- Регрессионный анализ
- Корреляционный анализ
- Статистические решающие функции
- Случайные процессы
- Выборочный метод
- Статистическая проверка гипотез
- Статистические оценки
- Теория статистической проверки гипотез
- Линейный регрессионный анализ
- Вариационный ряд
- Законы распределения случайных величин
- Дисперсионный анализ
- Математическая обработка динамических рядов
- Корреляция — определение и вычисление
- Элементы теории ошибок
- Методы математической статистики
Основы статистики: просто о сложных формулах
Время на прочтение
6 мин
Количество просмотров 270K
Статистика вокруг нас
Статистика и анализ данных пронизывают практически любую современную область знаний. Все сложнее становится провести границу между современной биологией, математикой и информатикой. Экономические исследования и регрессионный анализ уже практически неотделимы друг от друга. Один из известных методов проверки распределения на нормальность — критерий Колмогорова-Смирнова. А вы знали, что именно Колмогоров внес огромный вклад в развитие математической лингвистики?
Еще будучи студентом психологического факультета СПбГУ, я заинтересовался когнитивной психологией. Кстати, Иммануил Кант не считал психологию наукой, так как не видел возможности применять в ней математические методы. Мои текущие исследования посвящены моделированию психических процессов, и я надеюсь, что такие направления в современной когнитивной психологии, как вычислительные и коннективисткие модели, смягчили бы его отношение!
Конечно, статистика применяется далеко за пределами научных лабораторий: в рекламе, маркетинге, бизнесе, медицине, образовании и т.д. Но, что самое интересное, базовые знания анализа данных крайне полезны и в повседневной жизни. Например, думаю, все вы знакомы с понятием среднего арифметического. Среднее значение очень часто используется в СМИ при обсуждении различных социально-экономических показателей — доходов, уровня безработицы и т.д. В 2005 году британские СМИ писали о том, что средний уровень дохода населения не только не возрос, но снизился на 0,2 % по сравнению с предыдущим годом. Мелькали заголовки «Доходы населения снизились впервые с 1990 года». Некоторые политики даже использовали этот факт, критикуя действующее правительство. Однако, важно понимать, что среднее арифметическое — хороший показатель, когда наш признак имеет симметричное распределение (богатых столько же, сколько бедных). Реальное же распределение доходов имеет скорее следующий вид:
Распределение имеет явно выраженную асимметрию: очень состоятельных людей заметно меньше, чем представителей среднего класса. Это приводит к тому, что в данном случае банкротство одного из миллионеров может значительно повлиять на этот показатель. Гораздо информативнее использовать значение медианы для описания таких данных. Медиана — это значение зарплаты, которое находится в самой середине распределения доходов (50% всех наблюдений меньше медианы, 50% — больше). И, как ни удивительно, медиана дохода в 2005 году в Великобритании, в отличие от среднего значения, продолжила свой рост. Таким образом, если вы знаете о различных типах распределения и различных мерах центральной тенденции (среднее и медиана), то вас не так просто ввести в заблуждение в таких случаях, как описаны в примере.
Черный ящик статистического анализа
Как мы уже выяснили, чем бы вы ни планировали заниматься, вероятность столкнуться с курсом «математическая статистика в вашей области» постепенно приближается к единице. Однако, часто занятия по введению в статистику не вызывают восторга у студентов нетехнических факультетов. Через несколько занятий выясняется, что такие базовые понятия, как, например, корреляция представляют собой нечто следующее:
И, отчаявшись досконально разобраться с происхождением этих сумм и квадратных корней, студент может начать воспринимать статистику следующим образом: «если r > 0, то положительная связь, а если меньше 0, то отрицательная»; «если p уровень значимости меньше 0.05 — то хорошо, если от 0.05 до 0.1 — то не очень хорошо, а если больше 0.1 — то плохо». Помогая студентам готовиться к экзамену, не раз сталкивался с такими заклинаниями! Также, разумеется, никто не рассчитывает все эти показатели вручную, и используя, например, SPSS, можно за секунду загуглить пошаговую инструкцию «как сравнить два средних».
- Жмем сюда
- Снимаем/ставим галочки тут
- p < 0.05 —> profit
Статистический анализ начинает напоминать черный ящик: на вход подаются данные, на выход — таблица основных результатов и значение p-уровня значимости (p-value), который и расставит все точки над i.
О чем нам, собственно, говорит p-value?
Предположим, мы решили выяснить, существует ли взаимосвязь между пристрастием к кровавым компьютерным играм и агрессивностью в реальной жизни. Для этого были случайным образом сформированы две группы школьников по 100 человек в каждой (1 группа — фанаты стрелялок, вторая группа — не играющие в компьютерные игры). В качестве показателя агрессивности выступает, например, число драк со сверстниками. В нашем воображаемом исследовании оказалось, что группа школьников-игроманов действительно заметно чаще конфликтует с товарищами. Но как нам выяснить, насколько статистически достоверны полученные различия? Может быть, мы получили наблюдаемую разницу совершенно случайно? Для ответа на эти вопросы и используется значение p-уровня значимости (p-value) — это вероятность получить такие или более выраженные различия при условии, что в генеральной совокупности никаких различий на самом деле нет. Иными словами, это вероятность получить такие или еще более сильные различия между нашими группами, при условии, что, на самом деле, компьютерные игры никак не влияют на агрессивность. Звучит не так уж и сложно. Однако, именно этот статистический показатель очень часто интерпретируется неправильно.
А теперь несколько примеров про p-value
Итак, мы сравнили две группы школьников между собой по уровню агрессивности при помощи стандартного t-теста (или непараметрического критерия Хи — квадрат более уместного в данной ситуации) и получили, что заветный p-уровень значимости меньше 0.05 (например 0.04). Но о чем в действительности говорит нам полученное значение p-уровня значимости? Итак, если p-value — это вероятность получить такие или более выраженные различия при условии, что в генеральной совокупности никаких различий на самом деле нет, то какое, на ваш взгляд, верноеутверждение:
- Компьютерные игры — причина агрессивного поведения с вероятностью 96%.
- Вероятность того, что агрессивность и компьютерные игры не связаны, равна 0.04.
- Если бы мы получили p-уровень значимости больше, чем 0.05, это означало бы, что агрессивность и компьютерные игры никак не связаны между собой.
- Вероятность случайно получить такие различия равняется 0.04.
- Все утверждения неверны.
Если вы выбрали пятый вариант, то абсолютно правы! Но, как показывают многочисленные исследования, даже люди со значительным опытом в анализе данных часто некорректно интерпретируют значение p-value (например, можно посмотреть эту интересную статью).
Давайте разберем все ответы по порядку:
- Первое утверждение — пример ошибки корреляции: факт значимой взаимосвязи двух переменных ничего не говорит нам о причинах и следствиях. Может быть, это более агрессивные люди предпочитают проводить время за компьютерными играми, а вовсе не компьютерные игры делают людей агрессивнее.
- Это уже более интересное утверждение. Все дело в том, что мы изначально принимаем за данное, что никаких различий на самом деле нет. И, держа это в уме как факт, рассчитываем значение p-value. Поэтому правильная интерпретация: «Если предположить, что агрессивность и компьютерные игры никак не связаны, то вероятность получить такие или еще более выраженные различия составила 0.04».
- А что делать, если мы получили незначимые различия? Значит ли это, что никакой связи между исследуемыми переменными нет? Нет, это означает лишь то, что различия, может быть, и есть, но наши результаты не позволили их обнаружить.
- Это напрямую связано с самим определением p-value. 0.04 — это вероятность получить такие или еще более экстремальные различия. Оценить вероятность получить именно такие различия, как в нашем эксперименте, в принципе невозможно!
Вот такие подводные камни могут скрываться в интерпретации такого показателя, как p-value. Поэтому очень важно понимать механизмы, заложенные в основании методов анализа и расчета основных статистических показателей.
Онлайн-курс по основам статистики: сложные формулы несложным языком
Сейчас я пишу диссертацию на факультете психологии СПбГУ и преподаю статистику биологам в Институте биоинформатики. Основываясь на курсе читаемых лекций и собственного исследовательского опыта, возникла идея создать онлайн-курс по введению в статистику на русском языке для всех желающих, необязательно биоинформатиков или биологов.
Существует много хороших онлайн-курсов по анализу данных и статистике (например, такой, такой, или такой), но практически все они на английском языке. Надеюсь, что курс будет полезен для тех, кто только знакомится с основами статистики. В нем я стараюсь в максимально доступной форме разобрать основные идеи и методы анализа данных, уделяя особое внимание самой идее статистической проверки гипотез и интерпретации получаемых результатов. В качестве примеров будут задачи из различных областей: от биоинформатики до социологии. Курс бесплатный и все его материалы останутся открытыми после окончания, начинается 15 февраля.
Полезные материалы
Если вы знаете какие-либо полезные курсы или материалы по введению в статистику — делитесь в комментариях!