8.12. Меры тесноты связей в многофакторной системе
Многофакторная система требует уже не одного, а множества показателей тесноты связей, имеющих разный смысл и применение. Основой измерения связей является матрица парных коэффициентов корреляции (табл. 8.10).
Таблица 8.10
Матрица парных коэффициентов корреляции
По этой матрице можно судить о тесноте связи факторов с результативным признаком и между собой. Хотя все эти показатели относятся к парным связям, все же матрицу можно использовать для предварительного отбора факторов для включения в уравнение регрессии. Не рекомендуется включать в уравнение факторы слабо связанные с результативными признаками, но тесно связанные с другими факторами. Если, например, имеем: rxy1 = 0,8; rxy2 = 0,65;
rx1x2 = 0,88, то в регрессионное уравнение следует включить фактор x1, а фактор х2 не включать, так как он тесно связан с х1 (коллинеарен с x1), и его корреляция с у слабее, чем корреляция фактора x1. Совершенно недопустимо включать в анализ факторы, функционально связанные друг с другом, т. е. с коэффициентом корреляции, равным единице. Включение таких пар признаков приводит к вырожденной матрице коэффициентов и неопределенности решения. В этом случае решение задачи на ПЭВМ прекращается.
Матрица парных коэффициентов для нашего примера (табл. 8.11) говорит об отсутствии коллинеарных (т. е. линейно связанных) факторов, что позволяет включить все эти факторы в уравнении регрессии.
На основе этой матрицы вычисляется наиболее общий показатель тесноты связи всех входящих в уравнение регрессии факторов
Таблица 8.11
Матрица парных коэффициентов корреляции
Этим способом можно определить величину R2 не вычисляя расчетных значений результативного признака у?i для всех единиц совокупности. Если полученная величина R2 не удовлетворяет исследоветеля, то можно прекратить дальнейшие вычисления и не рассчитывать у?i (это имеет значение, если совокупность состоит из сотен и тысяч единиц).
Принципиальное содержание множественного коэффициента детерминации, как и парного, раскрывается формулой (8.2). Jmo отношение части вариации результативного признака, объясняемой за счет вариации входящих в уравнение факторов, к общей вариации результативного признака за счет всех факторов, здесь под «вариацией» понимается сумма квадратов отклонении индивидуальных расчетных по уравнению величин от средней («объясненная вариация») и первичных индивидуальных величин от средней («общая вариация»).
В нашем примере значение сумм квадратов отклонений и коэффициенты детерминации и корреляции приведены по распечатке программы «Microstat» в табл. 8.12.
Таблица 8.12
Показатели множественной корреляционной связи
Верхняя строка: корректированный R-квадрат = 0,872390; вторая строка: R-квадрат = 0,897912; третья строка: множественный R = 0,947582. Затем приводится таблица дисперсионного анализа, в которой указываются источники вариации: объясненная сумма квадратов отклонений значений, рассчитанных по уравнению регрессии, от среднего значения Dост = Σ(y?i - y?)2 = 662 772,98 при числе степеней свободы, равном числу объясняющих переменных dfk = 3; остаточная - отклонения фактических значений от расчетных Dост = Σ(y?i - y?)2 = 75353,96 при числе степеней свободы, равном df=n-k-1, df=12; общая - Σ(y?i - y?)2 =738 126,94, при числе степеней свободы df = п –k - 1, df = 15. Затем приводится средний квадрат отклонений: s21 = Dобъясн : dfобъясн = 662772,98 : 3 = 220924,3;
Ы22 =Dост : dfост = 75353,96 : 12 = 6279,5. Далее указано их отношение, т. е.
s21/s22 = F-критерию. Наконец, указывается вероятность ошибочного решения, т. е. нулевого R2, равная 0,000003171.
Три фактора, включенные в уравнение регрессии, объясняют 89,8% вариации уровня валового дохода, если рассматривать 16 хозяйств как генеральную совокупность, не считаясь с ее ограниченной численностью (некорректированный коэффициент детерминации равен 0,8979). Если же учесть конечность объема совокупности п, число факторов k, а также свойство метода, по которому по мере приближения числа k к числу п коэффициент детерминации автоматически приближается к единице и достигает ее при k = п - 1 независимо от реальной роли факторов, то необходимо корректировать коэффициент множественной детерминации на потерю степеней свободы вариации:
Корректированный коэффициент детерминации всегда ниже, чем некорректированный, причем разность их значений тем меньше, чем меньше факторов входит в уравнение регрессии. Если из числа факторов исключить факторы, слабо связанные с результативным признаком (т. е. с низким значением ?j, например, ? < 0,1), то некорректированный коэффициент детерминации немного уменьшится (он всегда уменьшается при исключении части факторов), но корректированный коэффициент может даже возрасти за счет уменьшения разности между R2 и корректированным R2. Что касается множественного коэффициента корреляции R, то программа «Microstat» рассчитывает его, как корень квадратный из некорректированного R2, а другие программы, например «Statgraphics», - как корень квадратный из R2корр.
Для случая двух факторов коэффициент множественной детерминации легко вычисляется по рекуррентной формуле из парных коэффициентов детерминации:
Используя матрицу парных коэффициентов корреляции (табл. 8.11), получим:
Таким образом, за счет вариации факторов x1 и х2 объясняется 57,65% общей вариации валового дохода с 1 га сельхозугодий.
Вернемся к табл. 8.12. Дисперсионный анализ системы связей предназначен для оценки того, насколько надежно доказывают исходные данные наличие связи результативного признака со всеми факторами, входящими в уравнение. Для этого сравниваются дисперсии у - объясненная и остаточная: суммы соответствующих квадратов отклонений, приходящиеся на одну степень свободы вариации. Отношение дисперсии за счет факторов к остаточной дисперсии есть критерий Фишера F; в нашем примере он равен 35,18. Табличное критическое значение для 3 и 12 степеней свободы при вероятности нулевой гипотезы 0,01 составляет 5,95. Следовательно, вероятность нулевой гипотезы много меньше 0,01. Программа «Microstat» дает значение вероятности нулевой гипотезы, т. е. вероятность случайного отклонения от нуля коэффициента детерминации при отсутствии связи в генеральной совокупности; она равна 3,17·10-6, т. е. три миллионных! Ясно, что эту ничтожную вероятность можно игнорировать и сделать вывод, что имеющаяся информация надежно свидетельствует о наличии связи.
Кроме показателя общей тесноты связи вариации результативного признака со всеми факторами, входящими в регрессионное уравнение, необходимы и показатели, измеряющие тесноту связи с каждым фактором. К таким показателям относятся коэффициенты раздельной детерминации.
Коэффициентом раздельной детерминации, обозначаемым далее как d2j, называется произведение парного коэффициента корреляции фактора хj на его ?-коэффициент.
Формула (8.39) дает еще один метод вычисления коэффициента множественной детерминации, используемый в некоторых программах для ЭВМ. В нашем примере получаем следующие значения коэффициентов раздельной детерминации:
Таким образом, за счет вариации x1 объясняется 24,2% вариации, за счет вариации х2 - всего 7,3%; за счет вариации x3 - более половины - 583% вариации уровня дохода. Сумма коэффициентов раздельной детерминации равна некорректированному коэффициенту R2.
Недостатком коэффициентов раздельной детерминации является их гетерогенный характер: то, что они объединяют коэффициент парной корреляции, измеряющий нечистое влияние фактора, с ?-коэффициентом, измеряющим условно чистое влияние фактора, абстрагированное от влияния других факторов, входящих в уравнение связи. Из-за этого могут возникнуть неинтерпретируемые отрицательные величины коэффициентов d2j, если знаки парного коэффициента корреляции и ?-коэффициента не совпадают при существенной взаимосвязи между факторами. Кроме того, сама идея о том, что совокупное влияние всех факторов равно сумме влияния каждого из них, противоречит системному подходу к исследованию.
Рассмотрим разложение R2 с учетом системного эффекта. Система факторов - это не простая их сумма, так как система предполагает внутренние связи, взаимодействие составляющих ее элементов. Действие системы не равно сумме воздействий составляющих ее элементов. К последним добавляется «системный эффект» «Emergency». Методом, полностью отвечающим системному подходу, является метод разложения коэффициента множественной детерминации на сумму чистых влияний каждого фактора, выражаемых величинами ?21, и показатель влияния системного эффекта факторов ?x.
Так как расчетные значения результативного признака у?j можно представить как , то вариацию у?j1 только за счет влияния фактора xm можно представить при условии, что все остальные факторы, входящие в уравнение, закреплены на своих средних уровнях:
. (8.40)
Подставим в (8.40) значение фактора xm-1 = xm +Δxm1 :
Теперь измерим сумму квадратов отклонений у только за счет вариации признака хm.
(8.41)
Мерой вариации результативного признака за счет изолированного влияния вариации фактора xm является доля объясняемой этим влиянием вариации у. Соответственно получаем:
Сумма изолированных долей влияния каждого фактора в отдельности на вариацию у есть , a системный эффект
(8.42)
Проведем разложение коэффициента множественной детерминации по данным нашего примера:
за счет вариации x1 : ?21, = 0,35222 = 0,1239, или 12,39%;
за счет вариации x2 : ?22 = (-0.206)2 = 0,0424, или 4,24%;
за счет вариации x3 : ?23, = 0,6642 = 0,4409, или 44,09%.
Суммарное влияние трех факторов составило =60,72% системный эффект:
= 0,8979 - 0,6072 = 0,2907, или 29,07%.
Как видим, роль системного эффекта связей между факторами довольно велика: он на втором месте после влияния третьего фактора.
Системный эффект может, в свою очередь, быть разложен на влияние ковариации каждой пары факторов или на влияние совместной вариации отдельных групп факторов, если число последних велико. Если исследователь все же желает отказаться от выделения системного эффекта, свести коэффициент множественной детерминации к сумме по отдельным факторам, можно разделить величину П, пропорционально величине ?2j.
Программы анализа связей на ЭВМ обычно предусматривают вычисление коэффициентов частной детерминации. Они приведены выше в последней графе табл. 8.8. Коэффициент частной детерминации фактора xm - это доля вариации у, дополнительно объясняемой при включении фактора xm после остальных факторов в уравнение регрессии, в величине вариации у, не объясненной ранее включенными факторами. Наиболее ясно суть частных коэффициентов детерминации выражается формулой их расчета через коэффициенты множественной детерминации. Частный коэффициент детерминации для фактора хm обозначим как
.
Тогда
. (8.43)
Здесь R2y - коэффициент детерминации для уравнения со всеми k факторами. Числитель (8.43) и есть дополнительно объясняемая часть вариации у при включении фактора хm в уравнение после всех остальных факторов. В нашем примере, используя ранее рассчитанную величину Ryx1x2 = 0,5765, при включении в анализ фактора x3 получаем:
Некоторое расхождение в четвертой значащей цифре с табл. 8.8 объясняется округлением промежуточных расчетных показателей.
Следует усвоить, что коэффициенты частной детерминации - это доли от разных величин, поэтому они несравнимы; по этим долям нельзя судить о роли факторов. Их главное практическое значение - определить, имеет ли смысл добавить в уравнение регрессии новый фактор или нет. Если при его включении ранее необъясненная вариация уменьшится на три четверти, как в примере при введении фактора х3, его включение оправдано; если же коэффициент частной детерминации мал, то дополнительный фактор включать не следует. Сумма частных коэффициентов детерминации смысла не имеет и растет с ростом числа факторов и ростом R2 без ограничения.
При последовательном вводе факторов в уравнение регрессии объясняемая часть вариации результативного признака возрастает с каждым новым фактором, вводимым в уравнение. При вводе последнего фактора эта часть достигает величины R2. Доли вариации у, объясняемые вводом каждого следующего фактора, и называют коэффициентами последовательной детерминации. Обозначим их как р2j. Для первого фактора этот коэффициент равен коэффициенту парной детерминации первого фактора, для второго - разности между коэффициентом детерминации при двух факторах и парным коэффициентом детерминации первого фактора и так далее. По данным нашего примера имеем:
= 0,6872 = 0,4720;
= 0,5765 - 0,4720 = 0,1045;
= 0,8979 - 0,5765 = 0,3214;
Однако крупнейшим недостатком такого способа разложения R2 является зависимость величин р2j от принятого порядка включения факторов в уравнение регрессии. Первый включаемый фактор «забирает в свою пользу» львиную часть системного эффекта, а на долю последнего фактора остается ничтожная часть. Например, если переставить местами факторы х1 и х3, а также вычислить по рекуррентной формуле двухфакторный коэффициент детерминации = 0,8035, то получим результаты, отличные от предыдущих:
p21 (для фактора х1) = = 0,8782 = 0,7709;
р22 (для фактора x2) = = 0,8035 - 0,7709 = 0,0326;
р23 (для фактора x3) = = 0,8979 - 0,8035 = 0,0944.
Доля фактора x3 возросла более чем вдвое, а доля фактора x1 уменьшилась более чем втрое.
|