Как найти шаги гистограммы


Загрузить PDF


Загрузить PDF

Гистограмма – способ графического отображения данных при помощи вертикальных или горизонтальных прямоугольников, ширина которых равна, а длина пропорциональна данным. Гистограмма отображает соотношение одной величины в разных диапазонах (например, в разных временных периодах). В основном прямоугольники рисуются вертикально, но могут располагаться и горизонтально.

  1. 1

    Определите данные (значения). Например, постройте диаграмму, отображающую количество осадков (в мм) в период с февраля 2005 года по февраль 2006 года. Вам нужно найти количество осадков в каждом месяце.

    • Прямоугольники на гистограмме могут соприкасаться, потому что их диапазоны имеют общую границу. Гистограмма с соприкасающимися прямоугольниками может иметь диапазоны 0 — 5, 5 — 10, 10 — 15 или, возможно, доли минуты или часа и так далее, когда данные представлены в непрерывном диапазоне. Гистограмма с раздельными прямоугольниками может иметь диапазоны 0 — 4, 5 — 9, 10 — 14 или январь, февраль, март, где данные не непрерывны.
  2. 2

    Проведите ось Х и ось Y (в форме прямого угла). Выберите данные (диапазоны, периоды, т.п.), которые будут откладываться на оси категорий. Это те данные, которые откладываются по оси Х (ось категорий). Например, временные периоды откладываются по оси категорий. На другой оси будут откладываться значения (продажи, затраты, количество произведенной продукции, другие величины).

  3. 3

    Промаркируйте ось Х. Разделите длину оси (или количество клеток, если вы используете бумаги в клетку) на количество прямоугольников, которые необходимо нарисовать, чтобы найти ширину каждого прямоугольника. Если вы получили десятичную дробь, округлите ее до ближайшего целого числа. Если прямоугольники соприкасаются, ставьте маркер на месте их соприкосновения. Если прямоугольники не соприкасаются, оставьте пустую клетку между парами прямоугольников и ставьте маркер (название, значение, диапазон) в центре каждого прямоугольника. В нашем примере промаркируйте ось Х названиями месяцев.

    • Назовите ось Х. После того, как вы промаркировали ось Х, справа напишите ее название; в нашем примере напишите «Месяцы».
  4. 4

    Промаркируйте ось Y. Разделите количество клеток над осью Х на самое большое число из ваших данных, чтобы вычислить единицу измерения каждой клетки. Если вы получили десятичную дробь, округлите ее до ближайшего целого числа. Точку пересечения осей обозначьте как «0». Поставьте маркеры со значениями: каждая клетка выше 0 увеличивается на полученное число. В нашем примере по оси Y откладываются миллиметры осадков, например, от 10 мм до 70 мм. В этом случае промаркируйте ось Y с шагом 10 (то есть 0, 10, 20, 30 и так далее).

  5. 5

    Нарисуйте прямоугольники, начиная с оси Х до соответствующего значения на оси Y. Если значение находится между двумя маркерами, приблизительно определите, где его рисовать. Обратите внимание, что в нашем примере прямоугольники должны быть разделены, так как данные не непрерывны.

    • Например, если в феврале 2005 года выпало 30 мм осадков, нарисуйте прямоугольник до отметки «30» на оси Y.
  6. 6

    Интерпретируйте данные после построения гистограммы (их визуализации). Обратите внимание на следующее:

    • Выбросы. Это значения, которые сильно отличаются от всех остальных. В нашем примере выбросом является значение «70 мм осадков», так как другие значения лежат между 0 и 40 мм осадков.
    • Разрывы. Это значения, равные нулю. В нашем примере в июле вообще не было осадков.
    • Частотность. Это значение, встречающееся чаще всех. В нашем примере значение «10 мм осадков» встречается в апреле, мае и июне.
    • Кластеры. Ищите скопление наибольших/наименьших значений. В нашем примере больше всего осадков выпало в феврале, марте и апреле 2005 года.

    Реклама

Советы

  • Можно построить более сложную гистограмму, если каждому диапазону соответствует два или более значений и поэтому каждому диапазону на оси категорий (ось Х) соответствует два или несколько прямоугольников. В этом случае в пустом пространстве между прямоугольниками дорисуйте еще одни (соответствующих значений, но другого цвета).
  • Гистограмму также можно сделать горизонтальной путем перестановки вертикальной и горизонтальной осей.

Реклама

Что вам понадобится

  • Бумага
  • Карандаш
  • Линейка

Об этой статье

Эту страницу просматривали 46 116 раз.

Была ли эта статья полезной?

§ 2. Введение в визуализацию данных

Как правило, использование списков данных — не самый лучший способ
представить данные в вашей работе потому что мы не можем получить много
информации о них просто взглянув на список. Есть и более удобные способы
и в этой статье мы рассмотрим 3 из них на примере следующей выборки:

30 студентов СПбГАУ набрали на интернет-тестировании следующее
количество баллов:

86

80

25

77

73

76

100

90

69

93

90

83

70

73

73

70

90

83

71

95

40

58

68

69

100

78

87

97

92

74

Листостебельная диаграмма

Одним из простейших способов как-то визуализировать данные являются
листостебельные диаграммы (stem and leaf diagrams). Для нашего
примера мы можем построить такую диаграмму:

2

5

3

4

0

5

8

6

9

8

9

7

7

3

6

0

3

3

0

1

8

4

8

6

0

3

3

7

9

0

3

0

0

5

7

2

10

0

0

Эта диаграмма состоит из стебля — чисел, стоящих слева от
вертикальной линии, которые представляют собой десятки и
листьев — соответствующих чисел справа от линии, которые являются
единицами. В общем случае, стебель строят из редко меняющихся разрядов
(десятков в нашем случае), а листья — из тех разрядов, которые меняются
часто (в нашем случае это единицы). Из такой диаграммы мы сможем быстро
получить некую информацию, например, мы видим что 2 студента набрали
максимальное количество баллов, а 3 написали тест меньше, чем на 60
баллов.

Мы также можем построить
сортированную листостебельную диаграмму (sorted stem and leaf diagram)
— она строится точно так же как и обычная, но её листья отсортированны в
проядке возрастания. Для нашего примера:

2

5

3

4

0

5

8

6

8

9

9

7

0

0

1

3

3

3

4

6

7

8

8

0

3

3

6

7

9

0

0

0

2

3

5

7

10

0

0

Такие диаграммы могут быть довольно гибкими: например мы можем разбить
элементы стебля на более мелкие диапазоны. Так, разобьём значение 80 на
два (80-84 и 85-89):

8

0

3

3

8

6

7

Как построить листостебельную диаграмму по шагам:
  1. Определите часто и редко меняющиеся разряды в ваших данных
  2. Выпишите редко меняющиеся разряды слева от линии
  3. Выпишите часто меняющиеся разряды справа от линии

Гистограмма частот

Листостебельная диаграмма непрактична для большой выборки, поэтому можно
использовать
гистограмму частот (frequency histogram). Сначала мы выделяем
группы каких-либо значений, например значения из примера выше мы можем
сгруппировать так:

группа

0

10

20

30

40

50

60

70

80

90

100

значения

0-9

10-19

20-29

30-39

40-49

50-59

60-69

70-79

80-89

90-99

100

Затем подсчитываем частоту для каждой группы (то есть строим таблицу
частот для групп):

x

0

10

20

30

40

50

60

70

80

90

100

f

0

0

1

0

1

1

3

10

5

7

2

И строим диаграмму частот, отмечая группы по оси

x
, а их частоты — по оси

y
:

Этот способ может быть применён к любому количественному набору данных.
Вы можете создавать группы на своё усмотрение, например, разделить
группу 80 на две: 80 и 85.

Как построить гистограмму частот по шагам:
  1. Сгруппируйте данные
  2. Постройте таблицу частот для групп
  3. Постройте гистограмму, отметив по оси

    x

    группы, а по оси

    y

    частоты

Гистограмма относительных частот

До этого момента мы работали с
абсолютными частотами (absolute frequency) то есть количеством
вхождений элемента в набор данных (в случае с частотами группы —
количеством значений, входящих в группу), но мы также можем работать и с
относительными частотами.

Относительная частота (relative frequency),

ω


— отношение частоты элемента к размеру выборки или генеральной
совокупности

Мы можем построить таблицу относительных частот для нашего примера:

x

0

10

20

30

40

50

60

70

80

90

100

ω

0

0

0.033

0

0.033

0.033

0.01

0.333

0.167

0.233

0.067

И строим гистограмму, на этот раз отмечая по оси y уже относительные
частоты:

Как вы можете заметить, пропорции столбиков и общий вид гистограммы не
отличается от гистограммы абсолютных частот — изменяются лишь числа на
оси

y
.
Тем не менее, гистограмма относительных частот позволяет нам
моментально оценить какую часть данных занимает та или иная группа.
Также как и при построении гистограммы частот, при построении
гистограммы относительных частот выбор количества групп обычно зависит
от размера выборки или генеральной совокупности. Чем больше размер, тем
больше групп мы можем выделить.

Как построить гистограмму относительных частот по шагам:
  1. Сгруппируйте данные
  2. Постройте таблицу частот для групп
  3. Постройте таблицу относительных частот для групп
  4. Постройте гистограмму, отметив по оси

    x

    группы, а по оси

    y

    — относительные частоты

Математика • 7 класс

Просмотрено190

Построение гистограмм. Шаг данных

  • Гистограмма позволяет представить изменение данных на протяжении отрезка времени.

  • Важной характеристикой при построении диаграммы является шаг данных это длина интервалов, откладываемых по оси ОХ, которые являются основанием для прямоугольников гистограммы. Чем меньше шаг, тем больше столбиков диаграммы и гистограмма будет выглядеть более пологой.

  • Пример. На основании опроса была составлена таблица любителей йогурта. Построим гистограмму, взяв шаг данных 10 лет и 5 лет.

Было полезно?

Класс 7

Предмет: Вероятность и статистика

Тема: «Построение
гистограмм. Шаги группировки. Решение задач»

Тип урока: изучение нового материала

Цель урока: представление данных в виде
гистограммы.

Задачи: научиться строить и анализировать гистограммы,
подбирать подходящий шаг группировки.

Актуализация опорных данных

Повторить:

— Что такое выборка, ранжированный ряд,
размах, частота, относительная частота, гистограмма.

— Привести примеры для чего используют
гистограммы (например:

1. Анализ продаж, выручки или поставок по
различным срезам:
● по периодам времени;
● по регионам;
● по филиалам/подразделениям;
● по товарам/услугам.

2. Маркетинговый анализ:
● эффективность коммуникативных акций по каналам;
● аналитика затрат на рекламу;
● количество проведенных активностей и их полезность.

3. Финансовый анализ:
● планы и динамика по выручке и прибыли;
● учет приходов и расходов денежных средств;
● количество денег на счетах.
4. Анализ производственных процессов:
● отслеживание складских запасов;
● эффективность использования мощностей;
● учет отгрузок и поставок.

5. Статистический и социодемографический
анализ, а также многое другое.

Изучение нового материала

Шаги группировки.

1 шаг.  Элементы выборки объемом n элементов
расположить в ранжированный ряд (по возрастанию или убыванию)

2 шаг.  Вычислить
размах R (разность между минимальным и максимальным значением случайной
величины):

R=xmax-xmin

3 шаг.  Разбить
вариационный ряд на k непересекающихся интервалов

Можно воспользоваться следующими
рекомендациями

Объем выборки

Число интервалов

25-40

5-6

41-60

6-8

61-100

7-10

101-200

8-12

Более 200

10-15

4 шаг.  Определить
длину одного интервала:

b=R/k

5 шаг.  5. Определить границы каждого интервала.

6 шаг.  Определить
частоты — количество ni элементов выборки, попавших в i-й интервал (элемент,
совпадающий с правой границей интервала, относится к последующему интервалу)

Наряду с частотами одновременно подсчитываются также
относительные частоты https://konspekta.net/infopediasu/baza9/1549744345023.files/image001.pngи
процент случаев относительно общего объема выборки

https://konspekta.net/infopediasu/baza9/1549744345023.files/image002.png

Полученные результаты сводятся в таблицу, называемую таблицей
частот группированной выборки.

7 шаг.  По
данным таблицы построить гистограмму.

(по горизонтальной оси – интервалы выборки, по
вертикальной оси частота или относительная частота)

8 шаг.  Описание гистограммы:

· общего количества обследованных.

· минимального и максимального значения анализируемой
величины, (с указанием в скольких процентов случаев)

· наиболее часто и редко встречающегося значения анализируемой
величины (с указанием в скольких процентов случаев)

· в каких пределах в основном лежит анализируемая величина.

· дайте качественную оценку функции плотности распределения
данной случайной величины (нормальное или отличное от нормального).

Первичное закрепление материала

Задание 1.   Результаты измерения
пульса у 25 обследованных.

70;   75;   63;   64;   72;   77;   80;   85;   79;   64;  
63;   60;   55;   56;   58;   58;   73;   72;   65;   65;   66;   68;   69;  
66;   68.

1)Элементы выборки расположим в ранжированный ряд (по
возрастанию)

55;   56;   58;   58;   60;   63;   63;   64;   64;   65;  
65;   66;   66;   68;   68;   69;   70;   72;   72;   73;   75;   77;   79;  
80;   85.

2) Вычислим размах R

R = xmax xmin = 85 – 55 = 30 (уд./мин)

3) Разобьем вариационный ряд на k непересекающихся интервалов
(воспользуемся таблицей)

У нас 25 объектов выбираем к = 6(столбцов)

4)Определяем длину одного интервала b = R/к = 30 ׃
6 = 5 (уд./мин)

5)Определим границы каждого интервала.

Первый интервал начинается с минимального значения  55уд./мин,
заканчивается 55+5=60

Второй интервал начинается с 60уд./мин, заканчивается
60+5=65уд./мин

И т.д.

6) Строим частотную таблицу

№ столбца

Интервалы измерений

пульса

Частота

ni

Относительная частота (%)

1

55 ≤ х < 60

4

16

2

60 ≤ х < 65

5

20

3

65 ≤ х < 70

7

28

4

70 ≤ х < 75

4

16

5

75 ≤ х < 80

3

12

6

80 ≤ х ≤ 85

2

8

(частоту считаем в ранжированном ряду)

7) По данным таблицы строим гистограмму

8)Описываем гистограмму:

— Общее количество обследованных  25.

— Минимальное значение пульса лежит в пределах от 55 до
60уд./мин

— Максимальное значение пульса лежит в пределах от 80 до
85уд./мин

— Наиболее часто встречающийся пульс в пределах 65 – 70уд./мин
(28% случаев)

— Наиболее редко встречающийся пульс в пределах 80 – 85уд./мин
(8% случаев)

— Тахикардия ( ˃80уд./мин) наблюдается в 8% случаев

— Брадикардия (< 60уд.мин) наблюдается в 16% случаев

Задание 2.

Опрос потребления йогурта различными возрастными категориями.
Опрошено 100 человек.

Найти относительную частоту потребления йогурта разными
возрастными категориями

Построить гистограмму.

Описать гистограмму.

№ столбца

Интервалы измерений

Возраст опрошенных

Частота

ni

Относительная частота (%)

1

Менее 10

5

2

10 ≤ х < 20

15

3

20 ≤ х < 30

40

4

30 ≤ х < 40

25

5

40 ≤ х < 50

9

6

50 ≤ х ≤ 60

6

Домашнее задание

Задание 1.

         Ниже приведены результаты 25 измерений напряжения (в
вольтах) в бытовой электросети. Все измерения были сделаны днём в случайно
выбранные моменты времени. Ранее уже говорилось о том, что напряжение в сети
подвержено случайной изменчивости в силу многих факторов.

225 В,     227 В,     225 В,    
228 В,     225 В,

228 В,     218 В,     217 В,    
218 В,     220 В,

223 В,     225 В,     216 В,    
222 В,     224 В,

220 В,     218 В,     221 В,    
220 В,     216 В,

214 В,     219 В,     231 В,     228
В,     227 В.

Разобрать шаги группировки, построить частотную таблицу,
построить гистограмму, описать гистограмму

Параметры
технологического процесса, на которые
действуют множество факторов (человек,
оборудование, режущий инструмент,
материал, температура окружающей среды
и т.д.), не могут быть все время одинаковы
и изменяются в пределах, влияющих на
них погрешностей действующих факторов.
Так что неизбежно, что в любом заданном
множестве значений параметра будет
рассеивание. Но, хотя сами значения
параметра все время меняются, они
подчиняются определенной

закономерности,
которую называют распределением.

При
контроле качества изделий необходимо
на основе собранных данных выявить
реальное состояние показателей качества
изделия, по которым, сравнивая их с
требуемыми показателями, принимается
окончательное решение о годности
данного изделия. Если проверяются все
изделия, то вся их совокупность называется
генеральной популяцией или генеральной
совокупностью
.

Одно
или несколько изделий, взятых из
генеральной совокупности, называется
выборкой.

Так
как выборка используется для оценивания
характеристик всей генеральной
совокупности, ее необходимо выбирать
таким образом, чтобы она отражала именно
эти характеристики. А для этого
выборка должна быть случайной. Данные,
полученные на выборках, служат основой
для решения о генеральной совокупности.
Очевидно, что чем больше объем выборки,
тем больше информации об этой
совокупности можно получить, тем
точнее она будет характеризовать всю
генеральную совокупность.

Для
оценки совокупности изделий по
случайной выборке применяют метод,
основанный на построении гистограммы
распределения.

Гистограмма
представляет собой столбчатый график
и применяется для наглядного изображения
распределения конкретных значений
параметра по частоте повторения за
некий период времени (неделя, месяц,
год).

При
нанесении на график допустимых значений
параметра опре­деляется, как часто
этот параметр попадает в допустимый
диапазон или выходит за его границы.

Вид
гистограммы зависит от объема выборки,
количества интервалов, начала отсчета
первого интервала. Чем больше объем
выборки и меньше ширина интервала, тем
ближе гистограмма к непрерывной кривой.

Подготовка
данных для построения гистограммы.
Допустим, надо исследовать вероятность
достижения заданной точности диаметра
наружной поверхности оси, обрабатываемой
на токарном станке в размер 32,50 ±0,025. Для
этого из большого количества осей взята
выборка в количестве 90 штук. Имеется
банк измеренных диаметров осей, при
этом максимальный измеренный диаметр
равен 32,5455 мм, а минимальный-32,5005 мм.
Построим гистограмму по данным измерений
диаметров осей. Рассмотрим последовательно
этапы
подготовки данных для построения
.

Этап
1

вычислить размах выборки (R). Размах
выборки

равен разности наибольшего и наименьшего
значения измерений диаметров: R=0,045
мм.

Этап
2

— определить количество и размеры одного
интервала размаха выборки. Для
наглядности гистограммы рекомендуется
выбирать при ее

построении
от 5 до 20 интервалов равной ширины.
Для нашего случая можно принять
количество интервалов равным 9 при
ширине одного интервала 0,005 мм.

Этап
3

— подготовить бланк таблицы со
следующими графами: номер интервала,
границы интервала, среднее значение
интервала, количество измерений в
каждом интервале.

Этап
4

— определить границы интервалов. Нижняя
граница первого интервала равна
минимальному значению измерения в
выборке, а верхняя граница равна сумме
значения нижней границы и величины
интервала. Нижняя граница второго
интервала равна верхней границе первого.
И так далее до девятого интервала, у
которого верхняя граница равна
максимальному значению измеренного
диаметра.

Этап
5

-вычислить значение середины каждого
интервала. Очевидно, что средняя точка
каждого интервала имеет среднее
значение границ

интервала.

Этап
6

— заполнить таблицу на рис. ниже.

Рис.
Данные для построения гистограммы
распределения

Последовательность
шагов при построении гистограммы

такова.

Этап
1

— взять лист бумаги (лучше в клетку) и
нанести на него горизонтальную линию,
на которой будем откладывать значения
измерений диаметров осей. Масштаб по
оси выбирается из соотношения размера
листа и среднего значения размаха
выборки. Например, каждые 10 мм листа
соответствуют ширине одного интервала
0,005 мм. Нанести на горизонтальной оси
весь размах с разметкой каждого
интервала. Оставить при этом слева и
справа свободные места, равные ширине
одного интервала. Обозначить точками
середины каждого интервала.

Этап
2

— нанести на бумагу вертикальную ось.
Место пересечения с горизонтальной
осью — крайняя левая точка добавочного
(нулевого) интервала. Масштаб по оси
выбирается из соотношения размера
листа и максимального количества
измерений в одном интервале. Например,
на каждые 25 мм листа-5 измерений.

Этап
3

— построить в каждом интервале
прямоугольники, высота которых
соответствует количеству измерений
в интервале (рис. ). Построенная
столбчатая диаграмма и есть гистограмма
распределения. Нанесем на гистограмму
линию, состоящую из отрезков, соединяющих
точки середин интервалов на верхних
полках прямоугольников. Непрерывная
линия, соединяющая середины интервалов
по верхним полкам, называется полигоном
распределения
.
При увеличении количества интервалов
и уменьшении их ширины полигон
распределения превращается в практическую
кривую распределения. Расстояние
между крайними точками первого и
последнего интервала называется
размахом
или полем рассеивания
.

Рис.
Гистограмма:
x
— среднее значение,
s
– среднеквадратическое отклонение, 1
– полигон распределения.

Сравнение
гистограммы с границами допуска. При
сравнении и анализе величин и взаимного
положения полей допуска и рассеивания
можно выделить 5 типичных вариантов.

Первый
вариант.

Поле рассеивания значительно меньше
поля допуска, ω < Т (рис.10.11, а).
Технологический процесс протекает
нормально, требуется только поддерживать
существующее состояние.

Рис.
Сравнение гистограммы с границами
допуска (
SLSU):
а), б) – технологический процесс протекает
нормально, в),г),д) – технологический
процесс протекает ненормально.

Второй
вариант.

Поле рассеивания равно или немного
меньше поля допуска, ω = Т (рис. 10.11, б).
Технологический процесс протекает
нормально, но нет запаса надежности.
Можно провести мероприятия по уменьшению
поля рассеивания, если затраты на эти
мероприятия будут меньше, чем потери
от возможного брака.

Третий
вариант.

Поле рассеивания меньше поля допуска,
но смещено влево (или вправо) от границы
поля допуска (рис.10.11, в). Процесс
ненормальный. Необходимо добиться
смещения середины поля рассеивания
к центру поля допуска.

Четвертый
вариант
.
Поле рассеивания больше поля допуска
(ω > Т) и размещено симметрично
относительно центра поля допуска (рис.
10.11, г). Процесс ненормальный. Необходимо
провести мероприятия по уменьшению
поля рассеивания.

Пятый
вариант
.
Поле рассеивания больше поля допуска
и смещено относительно центра допуска
(рис.10.11, д). Процесс ненормальный. Это
худший вариант взаимного положения
полей, при котором количество
забракованных изделий возрастает.
Необходимо, прежде всего, добиться
симметричного расположения полей,
посчитать затраты от брака и принять
(или не принять) дополнительные мероприятия
по уменьшению поля рассеивания.

Для
нашего конкретного примера допуск на
диаметр составляет 0,05 мм, а поле
рассеивания 0,045 мм. Таким образом, поле
рассеивания меньше величины поля
допуска. Одновременно минимальное и
максимальное измеренные значения
диаметров меньше соответствующих
минимальной и максимальной границ
поля допуска. Можно сделать заключение,
что операция точения обеспечивает
необходимую точность диаметра наружной
поверхности оси. Однако разница между
величинами полей невелика, что при
малейшей неточности в настройке
технологической системы может привести
к появлению брака.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]

  • #
  • #
  • #
  • #
  • #
  • #
  • #
  • #
  • #
  • #
  • #

Понравилась статья? Поделить с друзьями:
  • Как найти смартфон через геолокацию
  • Как найти приложение для андроид по иконке
  • Как найти запчасти по вин номеру авто
  • Как исправить каштановый цвет волос
  • Как составить педагогический портрет учителя