Как найти медиану по гистограмме распределения

Как оценить среднее значение и медиану любой гистограммы

  • Редакция Кодкампа

17 авг. 2022 г.
читать 2 мин


Гистограмма — это диаграмма, которая помогает нам визуализировать распределение значений в наборе данных.

По оси X гистограммы отображаются интервалы значений данных, а по оси Y указано, сколько наблюдений в наборе данных приходится на каждый интервал.

Среднее значение гистограммы

Хотя гистограммы полезны для визуализации распределений, не всегда очевидно, что представляют собой средние и медианные значения, просто взглянув на гистограммы.

И хотя невозможно найти точное среднее и срединное значения распределения, просто взглянув на гистограмму, можно оценить оба значения. В этом руководстве объясняется, как это сделать.

Как оценить среднее значение гистограммы

Мы можем использовать следующую формулу, чтобы найти наилучшую оценку среднего значения любой гистограммы:

Наилучшая оценка среднего: Σm i n i / N

куда:

  • m i : середина i -го бина
  • n i : частота i -го бина
  • N: общий размер выборки

Например, рассмотрим следующую гистограмму:

Среднее значение гистограммы

Наилучшей оценкой среднего значения будет:

Среднее значение = (5,5*2 + 15,5*7 + 25,5*10 + 35,5*3 + 45,5*1) / 23 = 22,89 .

Глядя на гистограмму, это кажется разумной оценкой среднего значения.

Как оценить медиану гистограммы

Мы можем использовать следующую формулу, чтобы найти наилучшую оценку медианы любой гистограммы:

Наилучшая оценка медианы: L + ((n/2 – F)/f) * w

куда:

  • L: Нижний предел средней группы
  • n: общее количество наблюдений
  • F: кумулятивная частота до средней группы
  • f: частота срединной группы
  • w: ширина срединной группы

Еще раз рассмотрим следующую гистограмму:

Среднее значение гистограммы

Наилучшей оценкой медианы будет:

Медиана = 21 + ((25/2 – 9)/10) * 9 = 24,15 .

Глядя на гистограмму, это также кажется разумной оценкой медианы.

Связанный: Как оценить стандартное отклонение любой гистограммы

Дополнительные ресурсы

Как найти среднее значение, медиану и моду в диаграммах «стебель-и-листья»
Как рассчитать среднее значение из таблиц частот
Когда использовать среднее значение против медианы

По гистограмме такие вещи никто не определяет, ну, разве что кроме моды, которая — однозначно, самый высокий столбец гистограммы.
Однако на вашей высокохудожественной, но абсолютно неинформативной картинке совершенно непонятно, столбик относится к Х справа от него, или слева?
Предположим, что столбик справа, значит мода — 13.
Медиана — надо посчитать площадь прямоугольников, потом выбрать точку такую, в которой площадь слева и справа равны. Поскольку в вашем случае имеем только высокохудожественный рисунок, надо считать не площадь, а высоты ваших столбиков. Как-то очень по мазохистски это делать без данных. На глаз я бы сказал, что медиана будет 15 (зеленая полоса), т.к. слева — примерно 80+примерно 50=примерно 130 . Справа — посчитать сложно, примерно так оно и будет.
Среднее — единственное из трех параметров выборки, которое может быть дробным. Т.о. — это синяя полоса. Определить его значение по рисунку не возможно в принципе.

ПРАКТИЧЕСКОЕ ЗАНЯТИЕ № 4.

Расчёт структурных характеристик
вариационного ряда распределения.

Студент
должен:

знать:

   область применения и методику расчёта структурных
средних величин;

уметь:

   исчислять структурные средние величины;

   формулировать вывод по полученным результатам.

Методические указания

В
статистике исчисляются мода и медиана, которые относятся к структурным средним,
так как  их величина зависит от строения статистической совокупности.

Расчёт моды

Модой называется значение признака
(варианта), чаще всеговстречающееся в изучаемой
совокупности. В дискретном ряду распределения модой будет варианта с наибольшей
частотой.

Например: Распределение проданной женской обуви по размерам характеризуется
следующим образом:

Размер
обуви

34

35

36

37

38

39

40

41

Количество
проданных пар

8

19

34

108

72

51

6

2

В этом ряду
распределения  модой является 37 размер,
т.е. Мо=37 размер.

Для
интервального ряда распределения мода определяется по формуле:

где ХMo
нижняя граница модального интервала;

hMo   величина модального интервала;

fMo
частота модального интервала;

fMo1  и 
fMo+1 – частота интервала соответственно

предшествующего модальному и следующего за ним.

Например:
Распределение рабочих по стажу работы характеризуется следующими данными.

Стаж работы, лет

до 2

2-4

4-6

6-8

8-10

10 и более

Число рабочих, чел.

4

23

20

35

11

7

Определить моду
интервального ряда распределения.

Мода интервального ряда составляет

Мода всегда бывает
несколько неопределённой, т.к. она зависит от величины групп и точного
положения границ групп. Мода широко применяется в коммерческой практике при
изучении покупательского спроса, при регистрации цен и т.п.

Расчёт медианы

Медианой в статистике называется варианта,
расположенная в середине упорядоченного ряда данных, и которая делит
статистическую совокупность на две равные части так, что у одной половины
значения меньше медианы, а у другой половины – больше её. Для определения
медианы необходимо построить ранжированный ряд, т.е. ряд в порядке возрастания
или убывания индивидуальных значений признака.

В дискретном
упорядоченном ряду с нечётным числом членов медианой будет варианта,
расположенная в центре ряда.

Например: Стаж пяти рабочих составил 2, 4, 7, 9 и 10 лет. В таком ряду медиана-7
лет, т.е. Ме=7 лет

Если дискретный
упорядоченный ряд состоит из чётного числа членов, то медианой будет средняя
арифметическая из двух смежных вариант, стоящих в центре ряда.

Например: Стаж работы шести рабочих составил 1, 3, 4, 5, 10 и 11лет. В этом ряду
имеются две варианты, стоящие в центре ряда. Это варианты 4 и 5. Средняя
арифметическая из этих значений и будет медианой ряда

 

Чтобы определить медиану для
сгруппированных данных, необходимо считать накопленные частоты.

Например: По имеющимся данным определим медиану размера обуви

Размер обуви

Количество проданных пар

Сумма накопленных частот

34

8

8

35

19

8+19=27

36

34

27+34=61

37

108

61+108=169

38

72

39

51

40

6

41

2

Итого

300

Для
определения медианы надо подсчитать сумму накопленных частот ряда. Наращивание
итога продолжается до получения накопленной суммы  частот, превышающей половину суммы частот
ряда. В нашем примере сумма частот составила 300, её половина – 150. Накопленная
сумма частот получилась равной 169. Варианта, соответствующая этой сумме, т.е.
37 и есть медиана ряда.

Если
же сумма накопленных частот против одной из вариант равна точно половине суммы
частот ряда, то медиана определяется как средняя арифметическая этой варианты и
последующей.

Например: По имеющимся данным определим медиану заработной платы рабочих

Месячная заработная плата, тысуб.

Число рабочих, чел.

Сумма накопленных частот

14,0

2

2

14,2

6

2+6=8

16,0

12

8+12=20

16,8

16

18,0

4

Итого:

40

Медиана будет равна:

Медиана
интервального вариационного ряда распределения определяется по формуле:

Где  ХМе – нижняя граница медианного интервала;

hMe
величина медианного интервала;

f 
— сумма частот ряда;

fМе – частота медианного интервала;

Например: По имеющимся данным о распределении предприятий по численности
промышленно – производственного персонала рассчитать медиану в интервальном
вариационном ряду

Группы предприятий по численности ППП, чел.

Число предприятий

Сумма накопленных частот

100-200

1

1

200-300

3

1+3=4

300-400

7

4+7=11

400-500

30

11+30=41

500-600

19

600-700

15

700-800

5

Итого:

80

Определим, прежде всего,
медианный интервал. В данном примере сумма накопленных частот, превышающих половину
суммы всех значений ряда, соответствует интервалу 400-500.Это и есть медианный
интервал, т.е. интервал, в котором находится медиана ряда. Определим её
значение

Если же сумма накопленных частот
против одного из интервалов равна точно половине суммы частот ряда, то медиана
определяется по формуле:

где n – число
единиц в совокупности.

Например: По имеющимся данным о распределении предприятий по
численности промышленно – производственного персонала рассчитать медиану в
интервальном вариационном ряду

Группы предприятий по численности ППП, чел.

Число предприятий

Сумма накопленных частот

100-200

1

1

200-300

3

1+3=4

300-400

6

4+6=10

400-500

30

10+30=40

500-600

20

40+20=60

600-700

15

700-800

5

Итого:

80

чел

Моду и медиану в
интервальном ряду можно определить
графически:

моду
в дискретных рядах — по полигону распределения, моду в интервальных рядах — по
гистограмме распределения, а медиану — по кумуляте.

Мода интервального ряда распределения
определяется по гистограмме распределения определяют
следующим образом. Для этого выбирается самый высокий прямоугольник, который
является в данном случае модальным. Затем правую вершину модального
прямоугольника соединяем с правым верхним углом предыдущего прямоугольника. А
левую вершину модального прямоугольника – с левым верхним углом последующего
прямоугольника. Далее из точки их пересечения опускают перпендикуляр на ось
абсцисс. Абсцисса точки пересечения этих прямых и будет модой распределения.

Медиана рассчитывается по
кумуляте. Для её определения из точки на шкале
накопленных частот (частостей), соответствующей 50%,
проводится прямая, параллельная оси абсцисс, до
пересечения с кумулятой. Затем из точки пересечения
указанной прямой с кумулятой опускается перпендикуляр
на ось абсцисс. Абсцисса точки пересечения является медианой.

Кроме моды и медианы в вариантных рядах могут быть
определены и другие структурные характеристики – квантили. Квантили
предназначены для более глубокого изучения структуры ряда распределения.

Квантиль – это значение
признака, занимающее определенное место в упорядоченной по данному признаку
совокупности. Различают следующие виды квантилей:

      квартили  – значения признака, делящие упорядоченную
совокупность на
четыре
равные части;

      децили
– значения признака, делящие упорядоченную совокупность на десять
равных частей;

      перцентели
значения признака, делящие упорядоченную совокупность на сто равных частей.

Таким образом, для характеристики положения центра ряда распределения
можно использовать 3 показателя: среднее значение признака, мода, медиана. При выборе вида и формы конкретного показателя
центра распределения необходимо исходить из следующих рекомендаций:

                
для устойчивых социально-экономических
процессов в качестве показателя центра используют среднюю
арифметическую. Такие процессы характеризуются симметричными распределениями, в
которых ;

                
для неустойчивых процессов положение
центра распределения характеризуется с помощью Mo
или Me. Для асимметричных процессов предпочтительной
характеристикой центра распределения является медиана, поскольку занимает
положение между средней арифметической и модой.


Для вычисления медианы в MS EXCEL существует специальная функция

МЕДИАНА()

. В этой статье дадим определение медианы и научимся вычислять ее для выборки и для заданного закона распределения случайной величины.

Начнем с

медианы

для

выборок

(т.е. для фиксированного набора значений).

Медиана выборки


Медиана

(median) – это число, которое является серединой множества чисел: половина чисел множества больше, чем

медиана

, а половина чисел меньше, чем

медиана

.

Для вычисления

медианы

необходимо сначала

отсортировать множество чисел

(значения в

выборке

). Например,

медианой

для выборки (2; 3; 3;

4

; 5; 7; 10) будет 4. Т.к. всего в

выборке

7 значений, три из них меньше, чем 4 (т.е. 2; 3; 3), а три значения больше (т.е. 5; 7; 10).

Если множество содержит четное количество чисел, то вычисляется

среднее

для двух чисел, находящихся в середине множества. Например,

медианой

для выборки (2; 3;

3

;

6

; 7; 10) будет 4,5, т.к. (3+6)/2=4,5.

Для определения

медианы

в MS EXCEL существует одноименная функция

МЕДИАНА()

, английский вариант MEDIAN().


Медиана

не обязательно совпадает со

средним значением (mean, average) в

выборке

. Совпадение имеет место только в том случае, если значения в выборке распределены симметрично относительно

среднего

. Например, для

выборки

(1; 2;

3

;

4

; 5; 6)

медиана

и

среднее

равны 3,5.

Чтобы в этом убедиться —

построим гистограмму

для симметричной выборки, состоящую из 36 значений, и вычислим

среднее

и

медиану

(см.

файл примера

лист

Медиана-выборка

).

В чем же ценность

медианы

? Почему ее используют зачастую наравне со

средним значением

?

Оба параметра используются для определения «центральной тенденции»

выборки

. Для

выборки

с несимметричным распределением,

медиана

будет отличаться от

среднего

. Например, для (1; 2;

3

;

4

; 5; 600)

медиана

равна 3,5, а вот

среднее

равно 103,5 (смещено в сторону б

о

льшего значения).

То есть, если имеется длинный хвост распределения, то

медиана

лучше, чем

среднее

значение, отражает «типичное» или «центральное» значение. Например, рассмотрим пример несправедливого распределения зарплат в компании, в которой руководство получает существенно больше, чем основная масса сотрудников (также см.

статью Описательная статистика

, раздел

Медиана

).

Очевидно, что средняя зарплата (71 тыс. руб.) не отражает тот факт, что 86% сотрудников получает не более 30 тыс. руб. (т.е. 86% сотрудников получает зарплату в более, чем в 2 раза меньше средней!). В то же время медиана (15 тыс. руб.) показывает, что

как минимум

у половины сотрудников зарплата меньше или равна 15 тыс. руб.


Примечание

: Так как медиана является 50-й

процентилью

и 2-й

квартилью

, ее также можно вычислить с помощью формул

=ПРОЦЕНТИЛЬ.ВКЛ(

Выборка;0,5

)

и

=КВАРТИЛЬ.ВКЛ(

Выборка;2

)

, где

Выборка

– это ссылка на диапазон, содержащий значения выборки.

Если выборка содержит нечетное количество чисел, то для вычисления медианы можно также воспользоваться формулой:

НАИБОЛЬШИЙ(Выборка;СЧЁТ(Выборка)/2)

.

Медиана непрерывного распределения

Если

Функция распределения

F

(х)

случайной величины

х

непрерывна, то

медиана

является решением уравнения

F(х)

=0,5.


Примечание

: подробнее о

Функции распределения

см. статью

Функция распределения и плотность вероятности в MS EXCEL

.

Если известна

Функция распределения

F(х) или

функция плотности вероятности

p

(х)

, то

медиану

можно найти из уравнения:

Например, решив аналитическим способом это уравнение для Логнормального распределения lnN(μ; σ

2

), получим, что

медиана

вычисляется по формуле =EXP(μ). При μ=0, медиана равна 1.

Обратите внимание на точку

Функции распределения

, для которой

F

(х)=0,5

(см. картинку выше)

.

Абсцисса этой точкиравна1. Это и есть значение медианы, что естественно совпадает с ранее вычисленным значением по формуле em.

В MS EXCEL

медиану

для

логнормального распределения

LnN(0;1) можно вычислить по формуле

=ЛОГНОРМ.ОБР(0,5;0;1)

.


Примечание

: Напомним, что интеграл от

функции плотности вероятности

по всей области задания случайной величины равен единице.

Поэтому, линия медианы (х=Медиана) делит площадь под графиком

функции плотности вероятности

на две равные части.


Примечание

: В

статье о распределениях MS EXCEL

приведены ссылки на распределения для которых в MS EXCEL существуют специальные функции (

нормальное распределение

,

гамма-распределение

,

Экспоненциальное

и др.). Используя эти функции можно вычислить

медиану

соответствующего распределения.

Рис.
2

Вывод:
Интервальный ряд распределения и его
график показывают, что распределение
земельных участков по ценовым группам
неравномерное. Наиболее часто встречаются
земельные участки первой, самой дешевой
группы со значением признака в интервале
29 – 112 тыс. руб. за сотку. Наименьшее
число единиц приходится на четвертый
интервал от 278 до 361 тыс. руб. за 1 сотку.

Задача 1.3. Расчет средней арифметической, моды и медианы в интервальном ряду распределения

Условие:
Имеются данные интервального ряда о
ценах предложения на участки земли в
садово-огороднических товариществах
в Выборгском районе Ленинградской
области. (результаты решения задачи 1.1
в таб.1.4.)

Требуется
определить
среднюю арифметическую, моду и медиану
цены участка земли и сделать выводы.

Решение.
Составим
макет таблицы 1.5 и перенесем в него
исходные данные из таб.1.4.

№ п/п

Населенный
пункт

Размер
участка, соток

Стоимость
участка, тыс. руб.

Цена
за сотку, тыс. руб.

Расстояние
до Санкт-Петербурга, км

Регион

1

2

3

4

5

6

7

35

д.
Лужайка

7,5

220

29,33

150

Выборг

14

п.
Симагино

10

390

39,00

50

Симагино

8

п.
Симагино

10

400

40,00

50

Симагино

34

Каннельярви

13,5

550

40,74

80

Каннельярви

32

Кирилловское

9

100

44,44

90

Кирилловское

10

р.п.
Поляны

10

500

50,00

70

Каннельярви

9

Ландышевка

7

400

57,14

110

Приморск

28

п.
Симагино

50

3500

70,00

50

Симагино

24

п.
Симагино

30

2500

83.33

50

Симагино

33

Кирилловское

6

500

83.33

90

Кирилловское

15

Пионерское

10

850

85

100

Приморск

31

Лейпясуо

7.3

630

86.3

100

Кирилловское

16

Смирново

10

900

90

130

Выборг

36

Лейпясуо

10

900

90

100

Кирилловское

17

р.п.
Поляны

10

1000

100

70

Каннельярви

Итого

200,3

30

п.
Симагино

59

7000

118.64

50

Симагино

18

Уткино

10

1200

120

80

Каннельярви

11

Горьковское

6

750

125,00

70

Каннельярви

19

Кирилловское

10

1300

130

90

Кирилловское

12

Первомайское

6

790

131.67

60

Симагино

13

Семиозерье

6

800

133.33

70

Каннельярви

20

Заходское

10

1360

136

85

Каннельярви

26

Зеленая
роща

19.5

2900

148.72

70

Местерьярви

21

Уткино

10

1500

150

80

Каннельярви

Итого

136,5

27

д.
Ровное

14

2850

203.57

95

Кирилловское

25

п.
Симагино

11

2600

236.36

50

Симагино

Итого

25

23

Ильичево

7

2500

357,14

50

Симагино

Итого

7

22

Невский

6

2300

383,33

80

Местерьярви

29

п.
Вязы

10

4400

440,00

110

Приморск

37

п.
Вязы

10

4400

440,00

110

Приморск

Итого

26

Табл.
1.5 Исходные и расчетные данные для
определения средней арифметической
величины, моды и медианы в интервальном
ряду

Интервалы
по цене 1 сотки, тыс.руб.

Частота
(кол-во соток)-
fi

Середина
интервала (
хi)

Произведение

хifi

Накопленная
частота,
Si

1

2

3

4

5

29,33-112,33

200,3

70,83

14187,249

200,3

112,33-195,33

136,5

153,83

20997,795

336,8

195,33-278,33

25

236,83

5920,75

361,8

278,33-361,33

7

319,83

2238,81

368,8

361,33-442,33

26

402,83

10473,58

394,8

Итого

394,8

Х

53818,184

Х

А)
Расчет
средней арифметической величины
проводится
по
формуле средней взвешенной
:

(тыс.руб/сотка)

Вывод:
Средняя цена одной сотки участка земли
в садово-огороднических товариществах
в Выборгском районе Ленинградской
области в изучаемой совокупности
составляет 136,3 тыс.руб.

Б)
Определим модальное
значение признака (Х
MO)
в
интервальном ряду расчетным и графическим
способом.

Расчетный
(интерполяционный)
метод

Модальное
значение определяется поэтапно: сначала
определяется модальный интервал, а
затем по формуле в нем находится Хmo.

а)
Определяем модальный интервал. Модальным
будет интервал с наибольшей частотой
встречаемости признака. В нашем примере
модальный интервал (29,33-112,33),
так как он имеет максимальную частоту
встречаемости – 200,3.

б)
Вычисляем модальное значение признака,
для чего используем формулу


,
где

x0
начальное
значение модального интервала

f
mo

-частота модального интервала

f
mo-1
— частота интервала, предшествующая
модальному интервалу.

f
mo+1
частота
интервала, следующего за модальным
интервалом.

h
шаг
интервала

хмо

Графический
метод

С
этой целью используется гистограмма
распределения.




а)
Определим модальный интервал, т.е.
столбик гистограммы с наибольшей
высотой.

Рис.3

б)
Точку, соответствующую верхней границе
модального интервала, соединяем отрезком
прямой с точкой, соответствующей верхней
границе предыдущего перед модальным
интервала. Точку, соответствующую нижней
границе модального интервала, соединяем
с точкой, соответствующей нижней границе
интервала, последующего за модальным.
Из точки пересечения прямых опускаем
перпендикуляр на ось абсцисс и фиксируем
модальное значение признака.

Искомая
точка на графике соответствует модальному
значению – 92,28 (тыс. руб./м2).

Вывод:
Наиболее часто в изучаемой совокупности
встречается цена

92,28
тыс. руб./м2.

Расчет
медианы в интервальном ряду :

Расчетный
(
интерполяционный)
метод

Определение
медианы в интервальном ряду по алгоритму
схоже с определением модального значения:
сначала определяется медианный интервал,
а затем в нем по формуле рассчитывается
конкретное значение медианы.

а)
Для определения медианного интервала
для каждого интервала определим
накопленную частоту (таб.1.7, графа 5).
Накопленная частота покажет последний
порядковый номер единицы для данной
группы. Установим адрес медианы, то есть
ее порядковый номер в ранжированном
ряду, по формуле n
мe
=


=


.
Эта единица находится в интервале 29,33
– 112,33. Он является медианным.

б)
Рассчитаем медианное значение признака
по формуле:

,

где

x0
начальное
значение медианного интервала

h
шаг
интервала

N
— общее
число единиц совокупности

(+1)
– используется в рядах с нечетным числом
единиц совокупности

Sme-1

накопленная частота до медианного
интервала

fme

— частота медианного интервала.

Подставив
необходимые величины в формулу, получаем

тыс.руб./сот.

Графический
метод:

Применение
аналогично рассмотренному выше примеру
дискретного ряда с тем различием, что
за варианты принимаются верхние границы
интервалов.

а)
Изобразим ряд распределения графически
в виде кумулятивной кривой (рис.1.5) На
оси абсцисс отмечаем точки, соответствующие
верхним границам интервалов, на оси
ординат – накопленные частоты. Накопленная
частота покажет, сколько единиц
совокупности имеет значение признака,
не выше данного. Точки соединяем отрезками
прямой.






б
)
Из максимальной точки кумуляты (31),
соответствующей общему числу единиц,
опускаем перпендикуляр на ось абсцисс,
делим перпендикуляр пополам и из точки
деления проводим горизонтальную линию
до пересечения с кумулятой. Далее из
точки пересечения с кумулятой опускаем
перпендикуляр на ось ОХ. Точка пересечения
на оси ОХ указывает значение медианы,
равное 111,38 тыс. руб.

Рис.
4

Вывод:
половина всех площадей участков продается
по цене 111,38 тыс.руб. за сотку и менее,
другая половина – 111,38 тыс.руб. за сотку
и более.

Соседние файлы в предмете Статистика

  • #
  • #
  • #

Понравилась статья? Поделить с друзьями:
  • Как найти работы в сельской местности
  • Как найти обратное отношение к полученному
  • Как составить пояснительную записку пример
  • Как найти источник опубликования закона
  • Как составить персиковый цвет