Построение вариационного ряда
Любое
статистическое исследование должно
начинаться с установления характера
распределения изучаемых признаков.
Распределение
– это соотношение между значениями
случайной величины и частотой их
встречаемости.
Бóльшая повторяемость одних значений
по сравнению с другими заставляет
задумываться о причинах наблюдаемых
процессов. Если значения признака
откладывать по оси абсцисс, а частоты
их встречаемости по оси ординат, то
можно построить гистограмму,
частотную
диаграмму,
удобную для целей иллюстрации и
исследования.
Основой
для построения гистограммы служит
вариационный
ряд – представленный в виде таблицы
ряд значений изучаемого признака,
расположенных
в порядке возрастания с соответствующими
им частотами их встречаемости в выборке.
Начнем
с примера изучения плодовитости
серебристо-черных лисиц, которое дало
следующие результаты (число щенков на
самку): 5 5 6 5 5 6 4 4 4 5 6 4 6 6 4 6 4 5 5 8 5 3 6 5 5 5 5 5
6 3 6 4 6 4 6 2 5 6 5 3 7 6 3 4 6 8 6 3 5 5 6 5 4 3 8 4 7 5 4 3 1 6
5 3 4 5 6 7 4 4 6 5 6 4 6 5.
Для
дискретного признака (такова плодовитость)
построение вариационного ряда обычно
не представляет сложности, достаточно
подсчитать встречаемость конкретных
значений.
Плодовитость, |
Частота, a |
1 |
1 |
2 |
1 |
3 |
8 |
4 |
16 |
5 |
23 |
6 |
21 |
7 |
3 |
8 |
3 |
Гистограмма,
построенная по данным о плодовитости
лисиц (рис. 2), сразу же обнаруживает
характерное поведение случайной величины
– высокие частоты встречаемости значений
в центре распределения и низкие по
периферии.
Рис.
2. Распределение
плодовитости лисиц
Если
же изучаемый признак непрерывен (таковы
размерно-весовые характеристики), то
для построения вариационного ряда
сначала весь диапазон изменчивости
признака разбивается на серию равных
интервалов (классов вариант), затем
подсчитывают, сколько вариант попало
в каждый интервал. Число классов для
больших выборок (n > 100)
должно быть не менее 7 и не более 12, их
оптимальное число можно приблизительно
определить по эмпирической формуле:
k
=
1 + 3.32 ∙ lg(n),
где п
– объем выборки
(число
вариант в выборке).
Составим
для примера вариационный ряд для
непрерывного признака – по данным о
весе 63 взрослых землероек (г):
9.2 |
11.6 |
8.1 |
9.1 |
10.1 |
9.6 |
9.3 |
9.7 |
9.9 |
9.9 |
9.6 |
7.6 |
10.0 |
9.7 |
8.4 |
8.6 |
9.0 |
8.8 |
8.6 |
9.3 |
11.9 |
9.3 |
9.2 |
10.2 |
11.2 |
8.1 |
10.3 |
9.2 |
9.8 |
9.9 |
9.3 |
9.1 |
9.4 |
9.6 |
7.3 |
8.3 |
8.8 |
9.2 |
8.0 |
8.6 |
8.8 |
9.0 |
9.5 |
9.1 |
8.5 |
8.8 |
9.7 |
11.5 |
10.5 |
9.8 |
10.0 |
9.4 |
8.7 |
10.0 |
7.9 |
8.6 |
8.7 |
9.1 |
8.2 |
9.2 |
9.4 |
8.8 |
9.8 |
1)
Все
операции могут быть выполнены вручную.
Вначале следует определить объем выборки
n =
63.
2)
Рассчитать
пределы размаха
изменчивости
значений, лимит
– разность
между максимальным и минимальным
значением:
Lim
= xmax − xmin
=
11.9 −7.3 = 4.6.
3)
Найти
число классов вариационного ряда по
формуле:
k
=
1 + 3.32 ∙ lg(63)
= 6.973811 ≈ 7.
4)
Найти
длину интервала dx
(допустимо округление):
dx
= Lim/ k
= 4.6/ 7
≈ 0.7.
5)
Установить
границы классов; в качестве первой
границы имеет смысл взять округленное
минимальное значение: xmin
=
7.
6)
Вычислить
центральное значение признака в каждом
классе; исходным берется значение центра
первого интервала; для первого класса
7–7.7, для второго – 7.8–8.4…
7)
Произвести разноску вариант в
соответствующие классы с подсчетом их
числа методом конверта (табл. 2):
1
2 3 4 5 6 7 8 9 10 .
Теперь
данные можно представить графически,
в виде полигона частот (ломаной кривой)
или гистограммы (столбиками) (рис. 3).
Таблица 2
Классы |
Центр |
Подсчет частот |
Частоты, |
7–7.7 |
7.35 |
|
2 |
7.8–8.4 |
8.05 |
|
7 |
8.5–9.1 |
8.75 |
|
18 |
9.2–9.8 |
9.45 |
|
22 |
9.9–10.5 |
10.15 |
|
10 |
10.6–11.2 |
10.85 |
|
1 |
11.3–11.9 |
11.55 |
|
3 |
Сумма |
63 |
Рис.
3.
Распределение бурозубок по весу тела
Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]
- #
- #
- #
- #
- #
- #
- #
- #
- #
- #
- #
Варианты для выполнения работы
I. Установление закономерностей, которым подчинены массовые случайные явления, основано на изучении методами теории вероятностей статистических данных — результатов наблюдений.
Почти все встречающиеся в жизни величины (урожайность сельскохозяйственных растений, продуктивности скота, производительность труда и заработная плата рабочих, объем производства продукции и т.д.) принимают неодинаковые значения у различных членов совокупности. Поэтому возникает необходимость в изучении их изменяемости. Это изучение начинается с проведения соответствующих наблюдений, обследований.
В результате наблюдений получают сведения о численной величине изучаемого признака у каждого члена данной совокупности.
Пример. Имеются данные о размере прибыли 100 коммерческих банков. Прибыль, млн. рублей.
30,2 | 51,9 | 43,1 | 58,9 | 34,1 | 55,2 | 47,9 | 43,7 | 53,2 | 34,9 |
47,8 | 65,7 | 37,8 | 68,6 | 48,4 | 67,5 | 27,3 | 66,1 | 52,0 | 55,6 |
54,1 | 26,9 | 53,6 | 42,5 | 59,3 | 44,8 | 52,8 | 42,3 | 55,9 | 48,1 |
44,5 | 69,8 | 47,3 | 35,6 | 70,1 | 39,5 | 70,3 | 33,7 | 51,8 | 56,1 |
28,4 | 48,7 | 41,9 | 58,1 | 20,4 | 56,3 | 46,5 | 41,8 | 59,5 | 38,1 |
41,4 | 70,4 | 31,4 | 52,5 | 45,2 | 52,3 | 40,2 | 60,4 | 27,6 | 57,4 |
29,3 | 53,8 | 46,3 | 40,1 | 50,3 | 48,9 | 35,8 | 61,7 | 49,2 | 45,8 |
45,3 | 71,5 | 35,1 | 57,8 | 28,1 | 57,6 | 49,6 | 45,5 | 36,2 | 63,2 |
61,9 | 25,1 | 65,1 | 49,7 | 62,1 | 46,1 | 39,9 | 62,4 | 50,1 | 33,1 |
33,3 | 49,8 | 39,8 | 45,9 | 37,3 | 78,0 | 64,9 | 28,8 | 62,5 | 58,7 |
Из данной таблицы видно, что интересующий нас признак (прибыль банков) меняется от одного члена совокупности к другому, варьирует. Варьирование есть изменяемость признака у отдельных членов совокупности.
Вариационным рядом называется последовательность вариант, записанных в возрастающем порядке и соответствующих им частот.
Число, показывающее, сколько раз повторяется в данной совокупности каждое значение признака, называется частотой.
Составим ранжированный вариационный ряд (выпишем варианты в порядке возрастания):
20,4 | 25,1 | 26,9 | 27,3 | 27,6 | 28,1 | 28,4 | 28,8 | 29,3 | 30,2 |
31,4 | 33,1 | 33,3 | 33,7 | 34,1 | 34,9 | 35,1 | 35,6 | 35,8 | 36,2 |
37,3 | 37,8 | 38,1 | 39,5 | 39,8 | 39,9 | 40,1 | 40,2 | 41,4 | 41,8 |
41,9 | 42,3 | 42,5 | 43,1 | 43,7 | 44,5 | 44,8 | 45,2 | 45,3 | 45,5 |
45,8 | 45,9 | 46,1 | 46,3 | 46,5 | 47,3 | 47,8 | 47,9 | 48,1 | 48,4 |
48,7 | 48,9 | 49,2 | 49,6 | 49,7 | 49,8 | 50,1 | 50,3 | 51,8 | 51,9 |
52,0 | 52,3 | 52,5 | 52,8 | 53,2 | 53,6 | 53,8 | 54,1 | 55,2 | 55,6 |
55,9 | 56,1 | 56,3 | 57,4 | 57,6 | 57,8 | 58,1 | 58,7 | 58,9 | 59,3 |
59,5 | 60,4 | 61,7 | 61,9 | 62,1 | 62,4 | 62,5 | 63,2 | 64,9 | 65,1 |
65,7 | 66,1 | 67,5 | 68,6 | 69,8 | 70,1 | 70,3 | 70,4 | 71,5 | 78,0 |
В нашем случае каждое значение признака (варианта вариационного ряда) повторилось только один раз, т.е. значение частоты для всех вариант равно единице. Перейдем к интервальному вариационному ряду, так как интересующий нас признак принимает дробные, практически не повторяющиеся значения.
Для этого необходимо определить число интервалов (классов) и длину интервала (классного промежутка), после чего произвести разноску, т.е. подсчитать для каждого интервала число вариант, попавших в него.
Количество классов устанавливают в зависимости от степени точности, с которой ведется обработка, и количества объектов в выборке. Считается удобным при объеме выборки (n) в пределах от 30 до 60 вариант распределять их на 6-7 классов, при n от 60 до 100 вариант — на 7-8 классов, при n от 100 и более вариант — на 9-17 классов.
Нужное количество групп также может быть ориентировочно вычислено по формуле Стерджесса:
где — число групп (классов, интервалов) ряда распределения; n — объем выборки.
Можно также использовать выражение:
При они дают примерно одинаковые результаты.
В рассматриваемом примере о размере прибыли коммерческих банков, n=100. Применяя формулу Стерджесса, получим:
Однако Таким образом, число интервалов может быть равно 8, 9, 10 и т.д.
Нахождение нужного количества групп и их размеров часто бывает взаимообусловлено. Для того, чтобы как-то определиться с числом интервалов, найдем размах вариации — разность между наибольшей и наименьшей вариантой:
где — размах вариации,
— наибольшее значение варьирующего признака,
— наименьшее значение варьирующего признака.
Найдем размах вариации для рассматриваемой задачи:
Для того, чтобы найти длину интервала (величину классового промежутка) необходимо разделить размах вариации на число классов и полученную величину округлить таким образом, чтобы было удобно производить сначала разноску, а затем и различные вычисления. Рекомендую округлять до единиц, до которых округлены варианты в исходной таблице, в нашем случае до десятых.
Согласно формуле получаем
Теперь необходимо определиться с началом первого интервала. Для этого можно использовать формулу:
Замечание. За начало первого интервала можно принять некоторое значение, несколько меньшее или само значение
. Далее в табличном виде я покажу оба варианта.
Прибавив к началу первого интервала (нижней границе) шаг, получим верхнюю границу первого интервала и одновременно нижнюю границу второго интервала. Выполняя последовательно указанные действия, будем находить границы последующих интервалов до тех пор, пока не будет получено или перекрыто .
Таким образом, верхняя граница одного интервала одновременно является нижней границей другого интервала. Чтобы не возникало сомнений, в какой интервал отнести варианту, попавшую на границу, условимся относить ее к верхнему интервалу.
Составим теперь рабочую таблицу для построения интервального вариационного ряда и произведем подсчет частот вариант, попавших в тот или иной интервал.
Как и обещал покажу две таблицы построения ряда:
1. Отсчет ведем от , т.е. нижняя граница первого интервала совпадает с
.
Группы банков по размеру прибыли (границы интервалов) |
Количество банков, принадлежащих данной группе (частоты, |
Накопленные частоты, |
20,4 — 27,6 | 4 | 4 |
27,6 — 34,8 | 11 | 15 |
34,8 — 42 | 16 | 31 |
42 — 49,2 | 21 | 52 |
49,2 — 56,4 | 21 | 73 |
56,4 — 63,6 | 15 | 88 |
63,6 — 70,8 | 10 | 98 |
70,8 — 78 | 2 | 100 |
2. Начало первого интервала определяем с помощью формулы: .
Группы банков по размеру прибыли (границы интервалов) |
Количество банков, принадлежащих данной группе (частоты, |
Накопленные частоты, |
16,8 — 24 | 1 | 1 |
24 — 31,2 | 9 | 10 |
31,2 — 38,4 | 13 | 23 |
38,4 — 45,6 | 17 | 40 |
45,6 — 52,8 | 23 | 63 |
52,8 — 60 | 18 | 81 |
60 — 67,2 | 11 | 92 |
67,2 — 74,4 | 7 | 99 |
74,4 — 81,6 | 1 | 100 |
Как мы видим в 1-м случае у нас получилось восемь интервалов, что полностью совпадает с результатом, который нам дала формула Стерджесса. Во втором случае у нас получилось девять интервалов, так как при поиске начала первого интервала пользовались специальной формулой.
Для дальнейшего исследования я буду пользоваться результатами второй таблицы, так как там ярко выражен модальный интервал (одна мода) и медиана практически точно попадает на середину вариационного ряда.
Мы получили интервальный вариационный ряд — упорядоченную совокупность интервалов варьирования значений случайной величины с соответствующими частотами попаданий в каждый из них значений величины.
II. Графическая интерпретация вариационных рядов.
№ п/п |
Границы интервалов, |
Середины интервалов, |
Частоты интервалов, |
Относительные частоты |
Плотность относит. частоты |
Плотность частоты |
1 | 16,8 — 24 | 20,4 | 1 | 0,01 | 0,001 | 0,139 |
2 | 24 — 31,2 | 27,6 | 9 | 0,09 | 0,013 | 1,250 |
3 | 31,2 — 38,4 | 34,8 | 13 | 0,13 | 0,018 | 1,806 |
4 | 38,4 — 45,6 | 42 | 17 | 0,17 | 0,024 | 2,361 |
5 | 45,6 — 52,8 | 49,2 | 23 | 0,23 | 0,032 | 3,194 |
6 | 52,8 — 60 | 56,4 | 18 | 0,18 | 0,025 | 2,500 |
7 | 60 — 67,2 | 63,6 | 11 | 0,11 | 0,015 | 1,528 |
8 | 67,2 — 74,4 | 70,8 | 7 | 0,07 | 0,010 | 0,972 |
9 | 74,4 — 81,6 | 78 | 1 | 0,01 | 0,001 | 0,139 |
Строим графики:
Далее найдем моду вариационного ряда:
где
— начало модального интервала;
— длина частичного интервала (шаг);
— частота предмодального интервала;
— частота модального интервала;
— частота послемодального интервала.
Определим модальный интервал — интервал, имеющий наибольшую частоту. Из таблицы видно, что модальным является интервал (45,6 — 52,8).
Медиана
Для интервального ряда медиана находится по формуле:
где
— начало медианного интервала;
— длина частичного интервала (шаг);
— объем совокупности;
— накопленная частота интервала, предшествующая медианному;
— частота медианного интервала.
Определим медианный интервал — интервал, в котором впервые накопленная частота превышает половину объема выборки.Так как объем выборки n=100, то n/2=50. По таблице найдем интервал, где впервые накопленные частоты превысят это значение. Таким является интервал (45,6 — 52,8).
Получаем,
III. Расчет сводных характеристик выборки.
Для определения составим расчетную таблицу. Для начала определимся с ложным нулем С. В качестве ложного нуля можно принять любую варианту. Максимальная простота вычислений достигается, если выбрать в качестве ложного нуля варианту, которая расположена примерно в середине вариационного ряда (часто такая варианта имеет наибольшую частоту).
Варианте, которая принята в качестве ложного нуля, соответствует условная варианта, равная нулю. В нашем случае С=49,2.
Равноотстоящими называют варианты, которые образуют арифметическую прогрессию с разностью h.
Условными называют варианты, определяемые равенством:
Произведем расчет условных вариант согласно формуле:
N п/п |
Середины интервалов, |
Частоты интервалов, |
Условные варианты, |
Произведения частот и условных вариант, |
Произведения частот и условных вариант, |
Произведения частот и условных вариант, |
Произведения частот и условных вариант, |
Произведения частот и условных вариант, |
Произведения частот и условных вариант, |
1 | 20,4 | 1 | -4 | -4 | 16 | -64 | 256 | 9 | 81 |
2 | 27,6 | 9 | -3 | -27 | 81 | -243 | 729 | 36 | 144 |
3 | 34,8 | 13 | -2 | -26 | 52 | -104 | 208 | 13 | 13 |
4 | 42 | 17 | -1 | -17 | 17 | -17 | 17 | 0 | 0 |
5 | 49,2 | 23 | 0 | 0 | 0 | 0 | 0 | 23 | 23 |
6 | 56,4 | 18 | 1 | 18 | 18 | 18 | 18 | 72 | 288 |
7 | 63,6 | 11 | 2 | 22 | 44 | 88 | 176 | 99 | 891 |
8 | 70,8 | 7 | 3 | 21 | 63 | 189 | 567 | 112 | 1792 |
9 | 78 | 1 | 4 | 4 | 16 | 64 | 256 | 25 | 625 |
Контроль:
Контроль:
Равенство выполнено, следовательно вычисления произведены верно.
Вычислим условные моменты 1-го, 2-го, 3-го и 4-го порядков:
Найдем выборочные среднюю, дисперсию и среднее квадратическое отклонение :
Также для оценки отклонения эмпирического распределения от нормального используют такие характеристики, как асимметрия и эксцесс.
Асимметрией теоретического распределения называют отношение центрального момента третьего порядка к кубу среднего квадратического отклонения:
Асимметрия положительна, если «длинная часть» кривой распределения расположена справа от математического ожидания; асимметрия отрицательна, если «длинная часть» кривой расположена слева от математического ожидания. Практически определяют знак асимметрии по расположению кривой распределения относительно моды (точки максимума дифференциальной функции): если «длинная часть» кривой расположена правее моды, то асимметрия положительна, если слева — отрицательна.
Эксцесс эмпирического распределения определяется равенством:
где — центральный эмпирический момент четвертого порядка.
Для нормального распределения эксцесс равен нулю. Поэтому если эксцесс некоторого распределения отличен от нуля, то кривая этого распределения отличается от нормальной кривой: если эксцесс положительный, то кривая имеет более высокую и «острую» вершину, чем нормальная кривая; если эксцесс отрицательный, то сравниваемая кривая имеет более низкую и «плоскую» вершину, чем нормальная кривая. При этом предполагается, что нормальное и теоретическое распределения имеют одинаковые математические ожидания и дисперсии.
Вычисляем центральные эмпирические моменты третьего и четвертого порядков:
Найдем асимметрию и эксцесс:
IV. Проверка гипотезы о нормальном распределении генеральной совокупности. Критерий согласия Пирсона.
Проверим генеральную совокупность значений размера прибыли банков по критерию Пирсона
Правило. Для того, чтобы при заданном уровне значимости проверить нулевую гипотезу : генеральная совокупность распределена нормально, надо сначала вычислить теоретические частоты, а затем наблюдаемое значение критерия:
и по таблице критических точек распределения , по заданному уровню значимости
и числу степеней свободы
найти критическую точку
, где s — количество интервалов.
Если — нет оснований отвергнуть нулевую гипотезу.
Если — нулевую гипотезу отвергают.
Найдем теоретические частоты , для этого составим следующую таблицу.
Середины интервалов, |
Частоты интервалов, |
Произведем расчет, |
Произведем расчет, |
Значения функции Гаусса, |
Произведем расчет, |
Теоретические частоты, |
20,4 | 1 | -28,152 | -2,23 | 0,0332 | 57 | 2 |
27,6 | 9 | -20,952 | -1,66 | 0,1006 | 57 | 6 |
34,8 | 13 | -13,752 | -1,09 | 0,2203 | 57 | 13 |
42 | 17 | -6,552 | -0,52 | 0,3485 | 57 | 20 |
49,2 | 23 | 0,648 | 0,05 | 0,3984 | 57 | 23 |
56,4 | 18 | 7,848 | 0,62 | 0,3292 | 57 | 19 |
63,6 | 11 | 15,048 | 1,19 | 0,1965 | 57 | 11 |
70,8 | 7 | 22,248 | 1,77 | 0,0833 | 57 | 5 |
78 | 1 | 29,448 | 2,34 | 0,0258 | 57 | 1 |
Вычислим , для чего составим расчетную таблицу.
1 | 1 | 2 | -1 | 1 | 0,5 | 1 | 0,5 |
2 | 9 | 6 | 3 | 9 | 1,5 | 81 | 13,5 |
3 | 13 | 13 | 0 | 0 | 0 | 169 | 13 |
4 | 17 | 20 | -3 | 9 | 0,45 | 289 | 14,45 |
5 | 23 | 23 | 0 | 0 | 0 | 529 | 23 |
6 | 18 | 19 | -1 | 1 | 0,05 | 324 | 17,05 |
7 | 11 | 11 | 0 | 0 | 0 | 121 | 11 |
8 | 7 | 5 | 2 | 4 | 0,8 | 49 | 9,8 |
9 | 1 | 1 | 0 | 0 | 0 | 1 | 1 |
100 | 100 |
Наблюдаемое значение критерия, |
103,30 |
Контроль:
Вычисления произведены правильно.
Найдем число степеней свободы, учитывая, что число групп выборки (число различных вариант) s=9;
По таблице критических точек распределения по уровню значимости
и числу степеней свободы k=6 находим
Так как — нет оснований отвергнуть нулевую гипотезу. Другими словами, расхождение эмпирических и теоретических частот незначительное. Следовательно, данные наблюдений согласуются с гипотезой о нормальном распределении генеральной совокупности.
На рисунке построены нормальная (теоретическая) кривая по теоретическим частотам (зеленый график) и полигон наблюдаемых частот (коричневый график). Сравнение графиков наглядно показывает, что построенная теоретическая кривая удовлетворительно отражает данные наблюдений.
V. Интервальные оценки.
Интервальной называют оценку, которая определяется двумя числами — концами интервала, покрывающего оцениваемый параметр.
Доверительным называют интервал, который с заданной надежностью покрывает заданный параметр.
Интервальной оценкой (с надежностью ) математического ожидания (а) нормально распределенного количественного признака Х по выборочной средней
при известном среднем квадратическом отклонении
генеральной совокупности служит доверительный интервал
где — точность оценки, n — объем выборки, t — значение аргумента функции Лапласа
(см. приложение 2), при котором
;
при неизвестном среднем квадратическом отклонении (и объеме выборки n<30)
где S — исправленное выборочное среднее квадратическое отклонение, находят по таблице приложения по заданным n и
.
В нашем примере среднее квадратическое отклонение известно, . А также
,
,
. Поэтому для поиска доверительного интервала используем первую формулу:
Все величины, кроме t, известны. Найдем t из соотношения По таблице приложения находим t=1,96. Подставив t=1,96,
,
,
в формулу, окончательно получим искомый доверительный интервал:
Интервальной оценкой (с надежностью ) среднего квадратического отклонения
нормально распределенного количественного признака Х по «исправленному» выборочному среднему квадратическому отклонению S служит доверительный интервал
(при q<1), (*)
(при q>1),
где q — находят по таблице приложения по заданным n и .
По данным и n=100 по таблице приложения 4 найдем q=0,143. Так как q<1, то, подставив
в соотношение (*), получим доверительный интервал:
Обработка вариационного ряда
Варианты в статистической совокупности подвергаются обработке. Для этого составляется вариационный ряд, т. е. варианты располагают по возрастающим или убывающим величинам. Варианты в выборке, относящиеся к одному и тому же признаку, практически не совпадают между собой, или варьируют. Те варианты, которые резко отличаются от вариантов статистической совокупности и вызывают сомнение у исследователя определяются как артефакт. Они располагаются в начале или в конце вариационного ряда. Артефакт исключается из статистической совокупности и не подлежит обработке. Например, в приведенных вариационных рядах: 2, 9, 11, 12, 13, 15 и 25, 27, 29, 32, 55 почти все соседние показатели весьма близки по значению. Вызывают сомнение варианты 2 в первом ряду и 55 во втором. Их можно принять за артефакт и исключить (выбраковать) из обработки. Выбраковка должна быть статистически доказана.
Существующие критерии выбраковки основываются, как правило, на допущении, что выборка распределяется по нормальному или близкому к нему закону. В качестве критерия выбраковки может быть использован критерий τ (прил. 3). Если критерий τ вычисленный (фактический) больше или равен критерию τ табличному (τф ≥ τт) при объеме выборки N и уровне значимости α (0,05 или 0,01), то соответствующие значения вариантов выборки (х) допустимо отбросить как артефакт. Значения τ для вызывающей сомнение величины вычисляются по следующим формулам:
τ1 = (х2 – х1) / (хn–1 – х1) (1.1)
для наименьшего значения переменной величины в вариационном ряду (х1);
τn = (хn – хn–1) / (хn – х2) (1.2)
для максимального значения переменной в вариационном ряду.
Пример. При составлении вариационного ряда по урожайности сельскохозяйственных культур в разрезе хозяйств одного из районов получен следующий ряд значений: 10,8; 12,5; 12,9; 13,2; 20,2 (ц/га). Вызывает сомнение максимальное значение в выборке варианты 20,2. Следует доказать, можно ли ее отнести к артефакту. Подставляем необходимые данные в формулу 1.2:
τ5 = (х5– х4) / (х5 – х2) = (20,2 – 13,2) / (20,2 – 12,5) = 0,958.
Вычисленное значение критерия (τ5 = 0,958) сравнивают с табличным значением (τт), учитывая объем выборки (N = 5). В прил. 3 критическое значение критерия артефакта для N = 5 и уровня значимости α 0,05 и 0,01 соответственно будут равны 0,807 и 0,916, что меньше расчетного значения (τ5 = 0,958). Поэтому варианту 20,2 признают артефактом и исключают из статистической обработки как сомнительную. Затем приступают к вычислению показателей описательной статистики при условии, что тип распределения вариант соответствует нормальному или логнормальному закону распределения. В иных случаях с выборкой работают как с непараметрической, на которые теория вероятности не распространяется.
При установлении типа распределения принимается следующий порядок действий. Сначала определяется величина классового интервала i, которая зависит от принятого числа классов k и объема выборки N:
i = (хmax – xmin) / k.(1.3)
Число классов в зависимости от объема выборки определяется по формуле:
k = 1 + 3,3 lg N.(1.4)
Исходя из формулы (1.4), можно рекомендовать следующее число классов в зависимости от объема выборки:
N |
30–50 |
51–10 |
101–400 |
401–1000 |
1001–2000 |
k |
4–5 |
6–7 |
8–9 |
9–10 |
11–12 |
Величина классового интервала должна быть одинаковой на протяжении всего вариационного ряда. Границы классов выбираются такими, чтобы каждая варианта могла быть отнесена только к одному классу. Примеры правильной границы классов: 5–9, 10–14, 15–19 или 5,1–9,1, 9,2–13,2, 13,3–17,3, первый и последний классы могут быть неполными. Границы классов желательно выбирать так, чтобы крайние варианты ряда по возможности оказались ближе к середине интервала своего класса.
Пример. Пусть в выборке объемом N = 64 по количеству осадков за время наблюдения хmax = 179 мм, xmin = 103 мм. Согласно формуле (1.4), вариационный ряд разбиваем на 8 классов. Затем находим классовый интервал:
i = (179 – 103) / 8 = 9,5, или округленно 10.
Исходя из величины классового интервала и минимального значения в выборке, за начало левой границы первого класса удобно принять величину 100. Прибавляя к 100 классовый интервал 10, получаем левые границы последующих классов: 110, 120, 130, 140, 150, 160, 170 мм. Правые границы классов должны отличаться на единицу точности наблюдения от левой границы следующего класса, чтобы граничные значения вариант были отнесены к определенному классу. В нашем примере точность измерения составляет 1,0 мм, поэтому правые границы классов будут следующими: 109, 119, 129, 139, 149, 159, 169, 179 (табл. 1.1).
Срединное значение класса (х)вычисляем путем сложением границ классов и делением суммы на два. Для первого класса срединное значение равно: (100 + 109) / 2 = 104,5. Срединное значение последующих классов определяется путем последовательного прибавления классового интервала к срединному значению предыдущего класса: 104,5 + 10= =114,5. Узнать какая сейчас погода Полтаве, вы сможете на сайте meteoprog.ua. Снег, дождь, солнце, ветер, облачно все эти характеристики погодных условий берутся из численной модель прогноза погоды WRF (Weather Research and Forecasting), установленной на собственном высокопроизводительном компьютерном кластере, что дает надежный и качественный прогноз погоды.
Затем производим разноску вариант по классам (подсчитываем количество вариант, вошедших в тот или иной класс в зависимости от их абсолютных величин). Получаем частоту (f) класса (см. табл. 1.1). Сумма частот должна соответствовать объему выборки (64), сумма частостей fч (частота, выраженная в процентах) должна равняться 100 %.
Таблица 1.1
Группировка вариант в классы при дискретной изменчивости признака
Границы класса |
Середина класса, х |
Частота, f |
Частость, fч, % |
100–109 |
104,5 |
6 |
9,37 |
110–119 |
114,5 |
10 |
15,62 |
120–129 |
124,5 |
12 |
18,75 |
130–139 |
134,5 |
14 |
21,87 |
140–149 |
144,5 |
10 |
15,62 |
150–159 |
155,5 |
6 |
9,37 |
160–169 |
165,5 |
4 |
6,25 |
170–179 |
175,5 |
2 |
3,12 |
i = 10 |
k = 8 |
N = 64 |
∑ 100,00 |
По частоте и середине класса представим вариационный ряд графически в виде полигона и кривой распределения частот (рис. 1.1).
Рис. 1.1. Способы графического представления вариационного ряда: кривая распределения и гистограмма
При построении вариационной кривой по оси абсцисс откладываются значения середины класса, по оси ординат – частоты. При построении гистограммы по оси абсцисс откладываются границы классов, а число вариант каждого класса обозначается высотой или площадью соответствующего прямоугольника. При сравнении изменчивости одинаковых условий или признаков полученные вариационные кривые распределения частот наносятся на один график. Группировка вариант в классы для сравниваемых выборок должна быть одинаковой. Если объем выборок не одинаков, все частоты должны быть выражены в процентах от объема выборки по каждой совокупности.