На самом деле не существует правил, сколько классов должно быть. Есть несколько вещей, чтобы рассмотреть количество классов. Если бы был только один класс, то все данные попадали бы в этот класс. Наша гистограмма была бы просто одним прямоугольником с высотой, определяемой количеством элементов в нашем наборе данных. Это не сделало бы очень полезным или полезная гистограмма.
С другой стороны, у нас может быть множество классов. Это приведет к множеству баров, ни один из которых, вероятно, не будет очень высоким. Было бы очень трудно определить какие-либо отличительные характеристики от данных с использованием этого типа гистограммы.
Чтобы защититься от этих двух крайностей, у нас есть практическое правило, чтобы определить количество классов для гистограммы. Когда у нас относительно небольшой набор данных, мы обычно используем только около пяти классов. Если набор данных относительно большой, то мы используем около 20 классов.
Опять же, позвольте подчеркнуть, что это практическое правило, а не абсолютный статистический принцип. Могут быть веские причины иметь другое количество классов для данных. Мы увидим пример этого ниже.
Прежде чем мы рассмотрим несколько примеров, мы увидим, как определить, какие классы на самом деле. Мы начинаем этот процесс с нахождения ассортимент наших данных. Другими словами, мы вычитаем самое низкое значение данных из наибольшего значения данных.
Когда набор данных относительно мал, мы делим диапазон на пять. Частное является шириной классов для нашей гистограммы. В этом процессе нам, вероятно, потребуется выполнить некоторое округление, что означает, что общее количество классов может не достигнуть пяти.
Когда набор данных относительно велик, мы делим диапазон на 20. Как и прежде, эта проблема деления дает нам ширину классов для нашей гистограммы. Также, как мы видели ранее, наше округление может привести к чуть более или чуть менее 20 классам.
В любом случае с большим или маленьким набором данных мы начинаем первый класс в точке, немного меньшей наименьшего значения данных. Мы должны сделать это так, чтобы первое значение данных попадало в первый класс. Другие последующие классы определяются шириной, которая была установлена, когда мы разделяли диапазон. Мы знаем, что мы находимся в последнем классе, когда наш класс содержит самое высокое значение данных.
Для примера мы определим подходящую ширину класса и классы для набора данных: 1.1, 1.9, 2.3, 3.0, 3.2, 4.1, 4.2, 4.4, 5.5, 5.5, 5.6, 5.7, 5.9, 6.2, 7.1, 7.9, 8.3, 9.0, 9.2, 11.1, 11.2, 14.4, 15.5, 15.5, 16.7, 18.9, 19.2.
Мы видим, что в нашем наборе 27 точек данных. Это относительно небольшой набор, и поэтому мы разделим диапазон на пять. Диапазон составляет 19,2 - 1,1 = 18,1. Мы делим 18,1 / 5 = 3,62. Это означает, что ширина класса 4 будет подходящей. Наименьшее значение данных - 1,1, поэтому мы начинаем первый класс с точки, меньшей этой. Поскольку наши данные состоят из положительных чисел, имеет смысл сделать первый класс от 0 до 4.
В качестве одного из примеров, предположим, что есть тест с несколькими вариантами ответов на 35 вопросов, и 1000 учащихся в старшей школе сдают тест. Мы хотим сформировать гистограмму, показывающую количество студентов, которые набрали определенные оценки по тесту. Мы видим, что 35/5 = 7 и 35/20 = 1,75. Несмотря на то, что наше эмпирическое правило дает нам выбор классов ширины 2 или 7 для использования в нашей гистограмме, может быть лучше иметь классы ширины 1. Эти классы будут соответствовать каждому вопросу, на который студент правильно ответил на тесте. Первый из них будет в центре на 0, а последний будет в центре на 35.