Статистичекая помощь!
Новости
О нас
Услуги
Наши работы
Статьи
Контакты
Глоссарий
 


  ОБЩАЯ ТЕОРИЯ СТАТИСТИКИ

Под редакцией члена-корреспондента Российской Академии наук И.И. Елисеевой

5.6. Построение вариационного ряда. Виды рядов. Ранжирование данных


Первым этапом статистического изучения вариации являются построение вариационного ряда - упорядоченного распределения единиц совокупности по возрастающим (чаще) или по убывающим (реже) значениям признака и подсчет числа единиц с тем или иным значением признака.

Существуют три формы вариационного ряда: ранжированный ряд, дискретный ряд, интервальный ряд. Вариационный ряд часто назы-вают рядом распределения. Этот термин используется при изучении вариации как количественных, так и неколичественных признаков. Ряд распределения представляет собой структурную группировку (см. гл. 6).

Ранжированный ряд это перечень отдельных единиц совокупности в порядке возрастания (убывания) изучаемого признака.

Примером ранжированного ряда может служить табл. 5.5.


Таблица 5.5

Крупные банки Санкт-Петербурга, ранжированные по размерам

собственного капитала на 01.07.96


Название банка

Собственный капитал, млрд руб.

Петроагропромбанк                                          71

Петровский                                                      146

Балтийский                                                      196

Банк Санкт-Петербург                                    201

Промстройбанк                                                731


Если численность единиц совокупности достаточно велика, ранжированный ряд становится громоздким, а его построение, даже с помощью ЭВМ, занимает длительное время. В таких случаях вариационный ряд строится с помощью группировки единиц совокупности по значениям изучаемого признака.

Если признак принимает небольшое число значений, строится дискретный вариационный ряд. Примером такого ряда является распределение футбольных матчей по числу забитых мячей (табл. 5.1). Дискретный вариационный ряд - это таблица, состоящая из двух строк или граф: конкретных значений варьирующего признака хi и числа единиц совокупности с данным значением признака fi частот (f - начальная буква англ. слова frequency).


Определение числа групп


Число групп в дискретном вариационном ряду определяется числом реально существующих значений варьирующего признака. Если же признак может принимать хотя и дискретные значения, но их число очень велико ( например, поголовье скота на 1 января года в разных сельхозпредприятиях может составлять от нуля до десятков тысяч голов), тогда строится интервальный вариационный ряд. Интервальный вариационный ряд строится и для изучения признаков, которые могут принимать любые, как целые, так и дробные, значения в области своего существования. Таковы, например, рентабельность реализованной продукции, себестоимость единицы продукции, доход на 1 жителя города, доля лиц с высшим образованием среди населения разных территорий и вообще все вторичные признаки, значения которых рассчитываются путем деления величины одного первичного признака на величину другого (см. гл. 3).

Интервальный вариационный ряд представляет собой таблицу, (состоящую из двух граф (или строк) интервалов признака, вариация которого изучается, и числа единиц совокупности, попадающих в данный интервал (частот), или долей этого числа от общей численности совокупности (частостей).

При построении интервального вариационного ряда необходимо выбрать оптимальное число групп (интервалов признака) и установить длину интервала. Поскольку при анализе вариационного ряда сравнивают частоты в разных интервалах, необходимо, чтобы величина интервала была постоянной. Оптимальное число групп выбирается так, чтобы в достаточной мере отразилось разнообразие значений признака в совокупности и в то же время закономерность распределения, его форма не искажалась случайными колебаниями частот. Если групп будет слишком мало, не проявится закономерность вариации; если групп будет чрезмерно много, случайные скачки частот исказят форму распределения.

Чаще всего число групп в вариационном ряду устанавливают, придерживаясь формулы, рекомендованной американским статистиком Стерджессом (Sturgess):

где k - число групп; n - численность совокупности.


Эта формула показывает, что число групп - функция объема данных.

Предположим, необходимо построить вариационный ряд распределения предприятий области по урожайности зерновых культур за какой-то год. Число сельхозпредприятий, имевших посевы зерновых культур, составило 143; наименьшее значение урожайности равно 10,7 ц/га, наибольшее - 53,1 ц/га. Имеем:

Так как число групп целое, следовательно, рекомендуется построить 8 или 9 групп.


Определение величины интервала


Зная число групп, рассчитывают величину интервала:

В нашем примере величина интервала составляет:

а) при 8 группах

б) при 9 группах

Для построения ряда и анализа вариации значительно лучше иметь по возможности округленные значения величины интервала и его границ. Поэтому наилучшим решением будет построение вариационного ряда с 9 группами с интервалом, равным 5 ц/га. Этот вариационный ряд приведен в табл. 5.6, а его графическое изображение дано на рис. 5.1.

Границы интервалов могут указываться разным образом: верхняя граница предыдущего интервала повторяет нижнюю границу следующего, как показано в табл. 5.6, или не повторяет.

В последнем случае второй интервал будет обозначен как 15,1-20, третий как 20,1-25 и т.д., т.е. предполагается, что все значения урожайности обязательно округлены до одной десятой. Кроме того, возникает нежелательное осложнение с серединой интер- вала 15,1-20, которая, строго говоря, уже будет равна не 17,5, а 17,55; соответственно при замене округленного интервала 40-60 на 40,1-6,0 вместо округленного значения его середины 50 получим 50,5, Поэтому предпочтительнее оставить интервалы с повторяющейся округленной границей и договориться, что единицы совокупности, имеющие значение признака, равное границе интервала, включаются в тот интервал, где это точное значение впервые указывается. Так, хозяйство, имеющее урожайность, равную 15 ц/га, включается в первую группу, значение 20 ц/га -во вторую и т. д.

           

Рис. 5.1. Распределение хозяйств по урожайности


Таблица 5.6

Распределение хозяйств области по урожайности зерновых культур


Группы хозяйств по урожайности,

ц/га хj

Число хозяйств

        fj

Середина интервала,

ц/га хj'


xj

Накопленная частота fj

10- 15

6

12,5

75,0

б

15-20

9

17,5

157,5

15

20-25

20

22,5

450,0

35

25 -30

41

27,5

1127,5

76

30-35

26

32,5

845,0

102

35-40

21

37,5

787,5

123

40-45

14

42,5

595,0

137

45 - 50

5

47,5

23-7,5

142

50-55

1

52,5

52,5

143

Итого

143


4327,5


Графическое изображение вариационного ряда

Существенную помощь в анализе вариационного ряда и его свойств оказывает графическое изображение. Интервальный ряд изображается столбиковой диаграммой, в которой основания столбиков, расположенные на оси абсцисс, это интервалы значений варьирующего признака, а высоты столбиков - частоты, -соответствующие масштабу по оси ординат. Графическое изображение распределения хозяйств области по урожайности зерновых культур приведено на рис. 5.1. Диаграмма этого рода часто называется гистограммой (от греческого слова «гистос» - ткань, строение).

Данные табл. 5.5 и рис. 5.1 показывают характерную для многих признаков форму распределения: чаще встречаются значения средних интервалов признака, реже - крайние; малые и большие значения признака. Форма этого распределения близка к рассматриваемому в курсе математической статистики закону нормального распределения. Великий русский математик А. М. Ляпунов (1857 - 1918) доказал, что нормальное распределение образуется, если на варьирующую переменную влияет большое число факторов, ни один из которых не имеет преобладающего влияния. Случайное сочетание множества примерно равных факторов, влияющих на вариацию урожайности зерновых культур, как природных, так и агротехнических, экономических, создает близкое к нормальному закону распределения распределение хозяйств области по урожайности.

Если имеется дискретный вариационный ряд или используются середины интервалов, то графическое изображение такого вариационного ряда называется полигоном (от греч. слова - многоугольник). Каждый из вас легко построит этот график, соединяя прямыми точки с координатами х, и /.

Отношение высоты полигона или диаграммы к их основанию рекомендуется в пропорции примерно 5:8.


Понятие частости

Если в табл. 5.6 число хозяйств с тем или иным уровнем урожайности выразить в процентах к итогу, принимая все число хозяйств (143) за 100%, то средняя урожайность может быть вычислена так:

где w - частость 7-й категории вариационного ряда;


Кумулятивное распределение

Преобразованной формой вариационного ряда является ряд накопленных частот, приведенный в табл. 5.6, графа 5. Это ряд значений числа единиц совокупности с меньшими и равными нижней границе соответствующего интервала значениями признака. Такой ряд называется кумулятивным. Можно построить кумулятивное распределение «не меньше, чем», а можно «больше, чем». В первом случае график кумулятивного распределения называется кумулятой, во втором - огивой (рис. 5.2).


Плотность, распределения

Если приходится иметь дело с вариационным рядом с неравными интервалами, то для сопоставимости нужно частоты или частости привести к единице интервала. Полученное отношение называется плотностью распределения:

Плотность распределения используется как для расчета обобщающих показателей, так и для графического изображения вариационных рядов с неравными интервалами.


                

       Рис. 5.2. Огива и кумулята распределения по урожайности


 

угловые гранитные мойки

Диодные потолочные светильники цена.
  Новости   О нас   Услуги   Наши работы   Статьи   Контакты   Глоссарий
Статистическая помощь! © 2005 - 2014  Защита авторских прав
Новости Добавить в избранное