Как составить гистограмму статистика

§ 2. Введение в визуализацию данных

Как правило, использование списков данных — не самый лучший способ
представить данные в вашей работе потому что мы не можем получить много
информации о них просто взглянув на список. Есть и более удобные способы
и в этой статье мы рассмотрим 3 из них на примере следующей выборки:

30 студентов СПбГАУ набрали на интернет-тестировании следующее
количество баллов:

86

80

25

77

73

76

100

90

69

93

90

83

70

73

73

70

90

83

71

95

40

58

68

69

100

78

87

97

92

74

Листостебельная диаграмма

Одним из простейших способов как-то визуализировать данные являются
листостебельные диаграммы (stem and leaf diagrams). Для нашего
примера мы можем построить такую диаграмму:

2

5

3

4

0

5

8

6

9

8

9

7

7

3

6

0

3

3

0

1

8

4

8

6

0

3

3

7

9

0

3

0

0

5

7

2

10

0

0

Эта диаграмма состоит из стебля — чисел, стоящих слева от
вертикальной линии, которые представляют собой десятки и
листьев — соответствующих чисел справа от линии, которые являются
единицами. В общем случае, стебель строят из редко меняющихся разрядов
(десятков в нашем случае), а листья — из тех разрядов, которые меняются
часто (в нашем случае это единицы). Из такой диаграммы мы сможем быстро
получить некую информацию, например, мы видим что 2 студента набрали
максимальное количество баллов, а 3 написали тест меньше, чем на 60
баллов.

Мы также можем построить
сортированную листостебельную диаграмму (sorted stem and leaf diagram)
— она строится точно так же как и обычная, но её листья отсортированны в
проядке возрастания. Для нашего примера:

2

5

3

4

0

5

8

6

8

9

9

7

0

0

1

3

3

3

4

6

7

8

8

0

3

3

6

7

9

0

0

0

2

3

5

7

10

0

0

Такие диаграммы могут быть довольно гибкими: например мы можем разбить
элементы стебля на более мелкие диапазоны. Так, разобьём значение 80 на
два (80-84 и 85-89):

8

0

3

3

8

6

7

Как построить листостебельную диаграмму по шагам:
  1. Определите часто и редко меняющиеся разряды в ваших данных
  2. Выпишите редко меняющиеся разряды слева от линии
  3. Выпишите часто меняющиеся разряды справа от линии

Гистограмма частот

Листостебельная диаграмма непрактична для большой выборки, поэтому можно
использовать
гистограмму частот (frequency histogram). Сначала мы выделяем
группы каких-либо значений, например значения из примера выше мы можем
сгруппировать так:

группа

0

10

20

30

40

50

60

70

80

90

100

значения

0-9

10-19

20-29

30-39

40-49

50-59

60-69

70-79

80-89

90-99

100

Затем подсчитываем частоту для каждой группы (то есть строим таблицу
частот для групп):

x

0

10

20

30

40

50

60

70

80

90

100

f

0

0

1

0

1

1

3

10

5

7

2

И строим диаграмму частот, отмечая группы по оси

x
, а их частоты — по оси

y
:

Этот способ может быть применён к любому количественному набору данных.
Вы можете создавать группы на своё усмотрение, например, разделить
группу 80 на две: 80 и 85.

Как построить гистограмму частот по шагам:
  1. Сгруппируйте данные
  2. Постройте таблицу частот для групп
  3. Постройте гистограмму, отметив по оси

    x

    группы, а по оси

    y

    частоты

Гистограмма относительных частот

До этого момента мы работали с
абсолютными частотами (absolute frequency) то есть количеством
вхождений элемента в набор данных (в случае с частотами группы —
количеством значений, входящих в группу), но мы также можем работать и с
относительными частотами.

Относительная частота (relative frequency),

ω


— отношение частоты элемента к размеру выборки или генеральной
совокупности

Мы можем построить таблицу относительных частот для нашего примера:

x

0

10

20

30

40

50

60

70

80

90

100

ω

0

0

0.033

0

0.033

0.033

0.01

0.333

0.167

0.233

0.067

И строим гистограмму, на этот раз отмечая по оси y уже относительные
частоты:

Как вы можете заметить, пропорции столбиков и общий вид гистограммы не
отличается от гистограммы абсолютных частот — изменяются лишь числа на
оси

y
.
Тем не менее, гистограмма относительных частот позволяет нам
моментально оценить какую часть данных занимает та или иная группа.
Также как и при построении гистограммы частот, при построении
гистограммы относительных частот выбор количества групп обычно зависит
от размера выборки или генеральной совокупности. Чем больше размер, тем
больше групп мы можем выделить.

Как построить гистограмму относительных частот по шагам:
  1. Сгруппируйте данные
  2. Постройте таблицу частот для групп
  3. Постройте таблицу относительных частот для групп
  4. Постройте гистограмму, отметив по оси

    x

    группы, а по оси

    y

    — относительные частоты

Построение полигона, гистограммы, кумуляты, огивы

Для наглядности строят различные графики статистического
распределения, и, в частности, полигон и гистограмму.

  • Полигон
  • Гистограмма
  • Кумулята и огива

Полигон


Полигоном частот называют
ломаную, отрезки которой соединяют точки

. Для построения полигона частот на оси
абсцисс откладывают варианты

, а на оси ординат – соответствующие им
частоты

. Такие точки

 соединяют
отрезками прямых и получают полигон частот.

Полигоном относительных
частот называют ломаную, отрезки которой соединяют
точки

. Для построения полигона относительных
частот на оси абсцисс откладывают варианты

, а на оси ординат – соответствующие им
относительные частоты (частости)

. Такие точки

 соединяют
отрезками прямых и получают полигон частот.

На сайте можно заказать решение контрольной или самостоятельной работы, домашнего задания, отдельных задач. Для этого вам нужно только связаться со мной:

ВКонтакте
WhatsApp
Telegram

Мгновенная связь в любое время и на любом этапе заказа. Общение без посредников. Удобная и быстрая оплата переводом на карту СберБанка. Опыт работы более 25 лет.

Подробное решение в электронном виде (docx, pdf) получите точно в срок или раньше.


Пример 1

Построить полигон частот и
полигон относительных частот (частостей):

Решение

Вычислим относительные
частоты (частости):

Полигон частот

Полигон относительных частот

В случае интервального ряда для
построения полигона в качестве

 берутся середины интервалов.

Гистограмма


В случае интервального
статистического распределения целесообразно построить гистограмму.

Гистограммой частот
называют ступенчатую фигуру, состоящую из прямоугольников, основаниями которых
служат частичные интервалы длиною

, а высоты (в случае равных интервалов) должны
быть пропорциональны частотам. При построении гистограммы с неравными
интервалами по оси ординат наносят не частоты, а плотность частоты 

. Это необходимо сделать для устранения
влияния величины интервала на распределение и иметь возможность сравнивать
частоты.

В случае построения
гистограммы относительных частот (гистограммы частостей)
высоты в случае равных интегралов должны быть пропорциональны относительной
частоте

, а в случае неравных интервалов высота
равна плотности относительной частоты

.

На сайте можно заказать решение контрольной или самостоятельной работы, домашнего задания, отдельных задач. Для этого вам нужно только связаться со мной:

ВКонтакте
WhatsApp
Telegram

Мгновенная связь в любое время и на любом этапе заказа. Общение без посредников. Удобная и быстрая оплата переводом на карту СберБанка. Опыт работы более 25 лет.

Подробное решение в электронном виде (docx, pdf) получите точно в срок или раньше.


Пример 2

Построить гистограмму
частот и относительных частот (частостей)

Гистограмма частот

Гистограмма относительных частот


Пример 3

Построить гистограмму
частот (случай неравных интервалов).

Решение

Вычислим плотности
частоты:

Гистограмма частот

Кроме этой задачи на другой странице сайта есть

пример построения полигона и гистограммы на одном графике для интервального вариационного ряда

Кумулята и огива


При помощи кумуляты (кривой сумм) изображается ряд накопленных частот.
Накопленные частоты определяются путём последовательного суммирования частот по
группам и показывают, сколько единиц совокупности имеют значения признака не больше,
чем рассматриваемое значение. При построении кумуляты
интервального вариационного ряда по оси абсцисс откладываются варианты ряда, а
по оси ординат накопленные частоты, которые наносят на поле в виде
перпендикуляров к оси абсцисс в верхних границах интервалов. Затем эти
перпендикуляры соединяют и получают ломаную линию, т.е. кумуляту.

Если при графическом
изображении вариационного ряда в виде кумуляты оси
поменять местами, то получим огиву.  То есть огива строится аналогично кумуляте с той
лишь разницей, что накопленные частоты помещают на оси абсцисс, а значения
признака — на оси ординат.


Пример 4

Построить кумулятивную
кривую:

Решение

Вычислим накопленные
частоты:

Кумулятивная кривая


Загрузить PDF


Загрузить PDF

Гистограмма – способ графического отображения данных при помощи вертикальных или горизонтальных прямоугольников, ширина которых равна, а длина пропорциональна данным. Гистограмма отображает соотношение одной величины в разных диапазонах (например, в разных временных периодах). В основном прямоугольники рисуются вертикально, но могут располагаться и горизонтально.

  1. 1

    Определите данные (значения). Например, постройте диаграмму, отображающую количество осадков (в мм) в период с февраля 2005 года по февраль 2006 года. Вам нужно найти количество осадков в каждом месяце.

    • Прямоугольники на гистограмме могут соприкасаться, потому что их диапазоны имеют общую границу. Гистограмма с соприкасающимися прямоугольниками может иметь диапазоны 0 — 5, 5 — 10, 10 — 15 или, возможно, доли минуты или часа и так далее, когда данные представлены в непрерывном диапазоне. Гистограмма с раздельными прямоугольниками может иметь диапазоны 0 — 4, 5 — 9, 10 — 14 или январь, февраль, март, где данные не непрерывны.
  2. 2

    Проведите ось Х и ось Y (в форме прямого угла). Выберите данные (диапазоны, периоды, т.п.), которые будут откладываться на оси категорий. Это те данные, которые откладываются по оси Х (ось категорий). Например, временные периоды откладываются по оси категорий. На другой оси будут откладываться значения (продажи, затраты, количество произведенной продукции, другие величины).

  3. 3

    Промаркируйте ось Х. Разделите длину оси (или количество клеток, если вы используете бумаги в клетку) на количество прямоугольников, которые необходимо нарисовать, чтобы найти ширину каждого прямоугольника. Если вы получили десятичную дробь, округлите ее до ближайшего целого числа. Если прямоугольники соприкасаются, ставьте маркер на месте их соприкосновения. Если прямоугольники не соприкасаются, оставьте пустую клетку между парами прямоугольников и ставьте маркер (название, значение, диапазон) в центре каждого прямоугольника. В нашем примере промаркируйте ось Х названиями месяцев.

    • Назовите ось Х. После того, как вы промаркировали ось Х, справа напишите ее название; в нашем примере напишите «Месяцы».
  4. 4

    Промаркируйте ось Y. Разделите количество клеток над осью Х на самое большое число из ваших данных, чтобы вычислить единицу измерения каждой клетки. Если вы получили десятичную дробь, округлите ее до ближайшего целого числа. Точку пересечения осей обозначьте как «0». Поставьте маркеры со значениями: каждая клетка выше 0 увеличивается на полученное число. В нашем примере по оси Y откладываются миллиметры осадков, например, от 10 мм до 70 мм. В этом случае промаркируйте ось Y с шагом 10 (то есть 0, 10, 20, 30 и так далее).

  5. 5

    Нарисуйте прямоугольники, начиная с оси Х до соответствующего значения на оси Y. Если значение находится между двумя маркерами, приблизительно определите, где его рисовать. Обратите внимание, что в нашем примере прямоугольники должны быть разделены, так как данные не непрерывны.

    • Например, если в феврале 2005 года выпало 30 мм осадков, нарисуйте прямоугольник до отметки «30» на оси Y.
  6. 6

    Интерпретируйте данные после построения гистограммы (их визуализации). Обратите внимание на следующее:

    • Выбросы. Это значения, которые сильно отличаются от всех остальных. В нашем примере выбросом является значение «70 мм осадков», так как другие значения лежат между 0 и 40 мм осадков.
    • Разрывы. Это значения, равные нулю. В нашем примере в июле вообще не было осадков.
    • Частотность. Это значение, встречающееся чаще всех. В нашем примере значение «10 мм осадков» встречается в апреле, мае и июне.
    • Кластеры. Ищите скопление наибольших/наименьших значений. В нашем примере больше всего осадков выпало в феврале, марте и апреле 2005 года.

    Реклама

Советы

  • Можно построить более сложную гистограмму, если каждому диапазону соответствует два или более значений и поэтому каждому диапазону на оси категорий (ось Х) соответствует два или несколько прямоугольников. В этом случае в пустом пространстве между прямоугольниками дорисуйте еще одни (соответствующих значений, но другого цвета).
  • Гистограмму также можно сделать горизонтальной путем перестановки вертикальной и горизонтальной осей.

Реклама

Что вам понадобится

  • Бумага
  • Карандаш
  • Линейка

Об этой статье

Эту страницу просматривали 46 116 раз.

Была ли эта статья полезной?

Гистограмма и ящик с усами на пальцах

Время на прочтение
4 мин

Количество просмотров 76K

В этой заметке я хочу описать два типа графиков для одномерных данных, а именно

  • гистограмма
  • ящик с усами

image

Рассмотрим произвольную выборку вещественных чисел X=(x_1,..., x_N), будем обозначать порядковую статистику x_{[k]}, такую что x_{[1]}leqldotsleq x_{[k]}leqldotsleq x_{[N]}.

Гистограмма

Скорее всего все поменять этот тип графика из школьной или университетской программы, который выглядит приблизительно так как на картинке.

Пример гистограммы

Прежде всего необходимо помнить, что значения входной выборки располагаются по оси x, а по оси y располагается число раз, которое данное значение встретилось (назовем их отсчеты). Гистограмма позволяет огрубить и сделать набор данных более компактным, при этом не умаляя его специфичность.
Важными характеристиками гистограммы являются следующие:

  • число столбцов (которые называются bins или bars)
  • абсолютные или плотностные отсчеты по оси y
  • как сгруппированы данные

Столбцы

В подавляющем большинстве случаев гистограмма определена на отрезке I=[min(X)-varepsilon_1; max(X)+varepsilon_2], где X — исходная выборка, varepsilon_1, varepsilon_2 вспомогательные константы, округляющие до ближайших “читаемых” чисел, которые в каждом случае зависят от масштаба и, обычно, это делители десятки в масштабе исходных данных. Если вдруг стало интересно, как ставить отсечки в данных, то можно посмотреть ссылку: R (pretty).

Так же обычно гистограммы делят отрезок I на подотрезки равной длины и, вот, выбор числа отрезков является искусством, хотя можно привести несколько формул:

где n — число столбцов, N — размер исходной выборки, hat{sigma} — оценка стандартного отклонения, IQR=X_{[3/4N]}-X_{[1/4 N]} — интерквартильное расстояние, которое еще встретится ниже.

Так же можно отметить несколько правил здравого смысла:

  • хорошо чтобы в большинстве столбцов было больше одного исходного значения
  • каждый столбец гистограммы требует хотя бы одного пикселя по ширине, и в целом ограничение “не более 200” столбцов достаточно распространено

В противном случае, если число столбцов избыточно, а исходных данных мало, гистограмма будет напоминать штрих-код, как например на рисунке ниже.

Штрихкод

Ось Y

Гистограммы бывают в абсолютных значениях, когда по оси y откладывается количество элементов исходной выборки попавших в каждый из интервалов, и в относительных, когда сумма столбцов нормируются на единицу, в этом случае гистограмма является оценкой плотности распределения и с точки зрения графика меняется лишь масштаб.

Так как обычная гистограмма является оценкой плотности, то мы можем суммировать столбцы и получить оценку функции вероятности следующим образом: s_i=sum_{j=1}^{i} n_i/N. Два следующих графика построены по одним и тем же данным, слева не нормализованная гистограмма, справа аккумулированные значения нормализованной гистограммы.
Абсолютные значения, гистограмма Эмпирическая функция распределения

Группировка данных

До сих пор был рассмотрен случай, когда у нас есть характеристика, на которую мы просто хотим взглянуть, обычно намного более интересно сравнивать поведение одной и той же характеристики для различных подгрупп. В таком случае гистограмма будет иметь следующий вид.

Гистограмма с тремя группами c уклонением

В данном случае, ширина каждого столбца для каждой группы уменьшается пропорционально числу групп и слегка сдвигаются друг относительно друга, в качестве альтернативы можно рассмотреть полупрозрачное перекрытие, которое будет выглядеть следующим образом для тех же данных.
Гистограмма с тремя группами с перекрытием

В сухом остатке

Для отрисовки гистограммы необходимо определить

  • Число столбцов
  • Нужна ли нормализация и аккумулирование данных
  • Способ отображения различных групп

Для отрисовки гистограммы для каждой группы требуется хранить следующие значения:

Диаграмма размаха

“Ящик с усами” не имеет официально устоявшегося названия, а называть его “ящиком с усами“ у меня язык не поворачивается, тем более когда ящиков несколько, а диаграмма размаха хоть и не очень частотное, но более благозвучное название. Приведем пример трех ящиков слева отображены соответствующие значения исходных данных (не являются частью диаграммы размаха). Прежде всего необходимо отметить, что в случае диаграмм размаха, исходная характеристика откладывается по оси Y, а ось X условна и представляет собой группирующую переменную.

Диаграмма размаха, пример

Чтобы нарисовать ящик для одной группы про исходные данные необходимо знать всего три характеристики:

Иногда к “обязательному” набору добавляют следующие дополнительные:

Таким образом, ящик с усами в разрезе будет выглядеть следующим образом.

Ящик с усами в разрезе

Некоторые моменты требуют пояснения. Ящик, то есть объект между Q_{25} и Q_{75}, практически везде ограничен этими значениями, а вот “усы” могут различаться и если вас действительно интересуют числа, необходимо уточнять, что имеется в виду в каждом отдельном случае. Самое важное это длина усов: исходим из того, что она 1.5cdot IQR=1.5 (Q_{75}-Q_{25}).

Отметки минимума и максимума часто опускаются, экстремальные точки, то есть выходящие за пределы усов тоже опускаются либо рисуются точками или звездочками. В зависимости от структуры данных желание отрисовывать экстремальные значения может значительно увеличить объем данных для отрисовки диаграммы размаха.

Магическое число 1.5 появилось в работе Тьюки Exploratory Data Analysis (1977) и причина его появления не очень ясна, но с тех времен ничего не менялось, многие инструменты предлагают его в качестве значения по умолчанию, но позволяют выставлять произвольное, вплоть до нуля, в этом случае, “усы” будут покрывать весь отрезок от минимального до максимального значений исходных данных.

Есть предположение, что 1.5 возникло следующим образом. Ширина усов составляет 4cdot IQR, известно, что IQR/2 для симметричных распределений совпадает с абсолютным отклонением от медианы (MAD), которая в свою очередь, является оценкой дисперсии с коэффициентом 1.48. А значит, 4cdot IQRapprox 8cdot MAD approx 16/3cdot hat{sigma} approx 6cdothat{sigma}, мы получаем не безызвестные 3 сигмы влево, 3 сигмы вправо.
Иногда в качестве концов усов предлагается интервал [Q_{5}, Q_{95}], в таком случае очевидно, что всегда (если исходных данных больше 20) должны получаться точки, не попадающие внутрь интервала и поэтому их обычно игнорируют при таком подходе.

В сухом остатке

Для отрисовки “диаграммы размаха” необходимо определить:

  • способ группировки данных
  • длину усов
  • нужно ли отмечать экстремальные значения

Для отрисовки “ящика с усами” для одной группы требуется всего 3 числа.

Для
наглядности строят различные графики
статистического распределения, например,
гистограмму.

Гистограмма
частот — ступенчатая фигура, состоящая
из прямоугольников, основаниями которых
служат интервалы длиной h, а высота
которых равны отношению ni/h, где
все наблюдаемые значения разбивают на
несколько интервалов длиною h и находят
значение ni как сумму частот тех
вариант, которые попали в i-интервал.

Для
построения гистограммы частот на оси
абсцисс откладывают интервалы, а высота
каждого столбика равна ni/h.

Площадь
i-прямоугольника равна = (ni/h)
·
h , т. е.
сумме частот тех значений, которые
попали в этот i-интервал.










ni/h
h

Площадь
всей гистограммы равна количеству
выборки n (сумме всех частот ni)

Пример:
построить гистограмму частот распределения:
в 1м столбце указан интервал, а во 2м —
сумма частот вариант:

Интервал
h

Частоты
ni

2-5

9

5-8

10

8-11

25

11-14

6

Строим
еще одну колонку, в которой укажем
высоту. Как написано выше, высота у нас
равна ni/h,
и то, и другое нам известно. Интервал
(h) равен 3 (это можно проследить: 2-5=3,
8-5=3, 11-8=3 и т. д.). Итак, строим:

Интервал
h

Частоты
ni

Высота
ni/h

2-5

9

Равно
9:3=3

5-8

10

Равно
10:3=3,3

8-11

25

Равно
25:3=8,3

11-14

6

Равно
6:3=2

Посчитаем
сумму частот (это будет площадь
гистограммы):

складываем
все ni =
9+10+25+6= 50

Строим
гистограмму:

8







,3

3,3

3

2

2
5 8 11 14

Ось х — интервалы.

Ось
у — высота (тот столбик, который мы
рассчитывали сами)

30. Свойства статистических оценок параметров распределения: несмещённость, эффективность, состоятельность.

Пусть
требуется изучить количественный
признак ГС. В распоряжении исследователя
имеется выборка объемом n
этого количественного признака

;

; … ;

Рассматривая
эти наблюдения как независимые случайные
величины

;

; … ;

можно сказать, что найти СТАТИСТИЧЕСКУЮ
ОЦЕНКУ НЕИЗВЕСТНОГО ПАРАМЕТРА это
значит найти функцию от наблюдаемых
значений, которая и дает приближенное
значение оцениваемого параметра.

Для
того, чтобы статистические оценки давали
хорошие приближения оцениваемых
параметров, они должны удовлетворять
некоторым требованиям.

Пусть


— статистическая оценка неизвестного
параметра

(«тета»)

  1. ОПР
    – НЕСМЕЩЁННОЙ называют статистическую
    оценку

    математическое ожидание которой равно
    оцениваемому параметру при любом объеме
    выборки т.е.

    ОПР
    – СМЕЩЁННОЙ называют оценку, математическое
    ожидание которой не равно оцениваемому
    параметру.

Оценка
должна быть несмещенной.

  1. ОПР
    – ЭФФЕКТИВНОЙ называют статистическую
    оценку, которая имеет наименьшую
    возможную дисперсию (при заданном
    объеме выборки n)

  2. ОПР
    – СОСТОЯТЕЛЬНОЙ называют статистическую
    оценку, которая при

    стремится к оцениваемому параметру.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]

  • #
  • #
  • #
  • #
  • #
  • #
  • #
  • #
  • #
  • #
  • #

Понравилась статья? Поделить с друзьями:
  • Как найти закономерность 1234
  • Как исправить прожженную куртку утюгом
  • Атом рпг диверсант смирнов как найти
  • Как найти секс в тик токе
  • Как найти вальдшнепа в лесу