§ 5. Ковариационный анализ
Ковариационный анализ - статистический метод оценки влияния на случайную величину различных одновременно действующих факторов, одни из которых заданы качественно, а другие могут быть измерены количественно. Иными словами, ковариационный анализ может рассматриваться как комбинация дисперсионного и регрессионного анализов.
Линейная модель ковариационного анализа имеет вид:
![]()
где X - некоторые постоянные коэффициенты; b - фиксированные в данном эксперименте факторы; g - коэффициенты регрессии Y на z; z'g - определяет вклад факторов, поддающихся количественному исследованию (z - значения факторов или регрессоров); e - случайная нормально распределенная величина.
Будем полагать, что коэффициенты регрессии не зависят от градаций качественного фактора, задающего разбивку исходных данных на p групп:
g1=…=gp=g.
Основные предположения ковариационного анализа:
1 - Y имеет нормальное распределение с параметрами (X'b, s2I);
2 - Y имеет нормальное распределение с параметрами (X'b+z'g, s2I);
3 - предполагается, что распределение e нормально с параметрами (0,s2).
Исходные данные для ковариационного анализа:
Градации фактора | 1 | (y11,z11) | … | (y1n1,z1n1) |
… | … | … | … | |
p | (yp1,zp1) | … | (ypnp, zpnp) |
Предположение (1) соответствует нулевой гипотезе:
![]()
а предположение (2) – гипотезе:
.
Если гипотеза Hg выполняется, то проверка гипотезы Hb сводится к общему дисперсионному анализу. Если гипотеза Hg отклоняется, то перед проверкой требуется внести некоторые коррективы, исключающие эффект регрессии.
Принципиальную схему ковариационного анализа рассмотрим на примере однофакторного анализа с одним независимым переменным (регрессором):
,
где bi - эффект i-ой градации фактора; gzij - эффект, обусловленный действием z; g - коэффициент регрессии; eij - эффект неконтролируемых факторов; i - меняется от 1 до p; j - меняется от 1 до ni.
Проверка гипотезы
Определим суммы квадратов и произведений отклонений, отражающих изменчивость Y и z.
А. Внутри групп (градаций):
![]()
![]()
,
где
и
.
Б. Между группами:
![]()
![]()
,
где
.
Если гипотеза Hγ верна, то статистика:
![]()
имеет F-распределение с 1 и N-p-1 степенями свободы.
Гипотеза о равенстве нулю коэффициентов регрессии g отклоняется, если при выбранном уровне значимости a вычисленное значение критерия превысит табличное Fa,1,N-p-1.
Проверка гипотезы
в условиях g ¹ 0. Суммы квадратов "между группами" и "внутри групп" должны быть скорректированы так, чтобы влияние независимой переменной z было исключено.
Для этого вычислим:
a=a1+a2; b=b1+b2; c=c1+c2;
S=b-c2/a; S=b1-(c1)2/a1; S=b2-(c2)2/a2.
Статистика S2/S1 в условиях гипотезы Hb имеет F-распределение с p-1 и N-p-1 степенями свободы.
Эту схему можно обобщить на случаи, когда классификация наблюдений выполнена по двум и более факторам. В геологии ковариационный анализ применяется реже, чем дисперсионный и регрессионный анализ, хотя информация, привлекаемая геологом для решения генетических задач, большей частью носит комбинированный характер.
Глава VI. Главные компоненты и факторный анализ
§ 1. Метод главных компонент
Главными компонентами случайного p-мерного вектора x называются такие ортогональные линейные комбинации vj (j=1,…,r; r£p) составляющих этого вектора (x1,…,xp), что при упорядочении их по дисперсиям выполняются неравенства: S2(v1)³…³S2(vr).
Метод главных компонент (МГК) - статистический метод сжатия информации, основанный на нахождении собственных векторов и собственных значений ковариационной матрицы p-мерного случайного вектора, распределенного по многомерному нормальному закону.
Основная задача, в которой МГК играет важную самостоятельную роль, - задача выяснения сущности геологических процессов по данным изучения современного облика изучаемых объектов. Она сводится к выяснению и оценке роли факторов в становлении изучаемых явлений и существующих закономерностей размещения полезных ископаемых в земных недрах. С ней связаны задачи построения корреляционных моделей в предположении действия определенной совокупности природных процессов, определения особенностей изменения по площади и разрезу составляющих, обязанных действию как отдельно взятых факторов, так и любых их сочетаний. Имеются работы, в которых факторный анализ используется для выделения систематических и случайных составляющих изменчивости комплекса геологических характеристик. Метод главных компонент нашел применение при изучении вопросов становления состава магматических образований, парагенетических ассоциаций и решении ряда других задач.
МГК при решении некоторых задач выполняет также вспомогательные функции в комплексе с другими методами прикладного статистического анализа. Такова его роль в задачах классификации, где он позволяет уменьшить число геологических признаков, в задачах прогнозирования на основе построения регрессионной модели. МГК используется при картировании геолого-геофизических характеристик, при сравнительном изучении природных систем и выделении эволюционирующих составляющих.
Рассмотрим вычислительные аспекты МГК на примере статистического метода Хотеллинга. Пусть x=(x1,…,xp) - p-мерный случайный вектор имеющий многомерное нормальное распределение с математическим ожиданием нуль и ковариационной матрицей S. Можно найти ортогональное преобразование:
v=Ax
такое, что ковариационная матрица случайного вектора v будет диагональной
L=diag(l1,…,lp),
причем l1³…³lp - корни уравнения:
|S-lE|=0,
а j-ый столбец матрицы A удовлетворяет уравнению:
Saj=ljaj.
Этот вектор можно нормировать, так что
и j-ая компонента vj вектора v имеет наибольшую дисперсию среди всех нормированных линейных комбинаций, некоррелированных с предыдущими компонентами v1,…,vj-1.
Обычно ковариационная матрица неизвестна. Ее оценивают выборочной ковариационной матрицей.
Для нахождения значений главных компонент v1,…,vr, r£p, случайного вектора x вычисляются собственные значения l1,…,lp и собственные векторы a1,…,ap матрицы S, причем собственные векторы нормируют к единице.
Далее находят проекции векторов (x1p,…,xkp) на направления главных компонент (a1,…,ap). Тогда v=(x, a) или
Методы регрессионного анализа и распознавания образов позволяют решать задачу уменьшения исходного признакового пространства путем отбрасывания малоинформативных признаков и использования для дальнейшего анализа лишь наиболее существенных. Но при этом, не всегда, достигается наглядное представление исходной информации и обеспечивается учет ее достоверности. Кроме того, вне поля зрения оказываются взаимозависимости между переменными, которая является следствием проявления общих причин и может содержать сведения о природных процессах. В этом отношении определенными преимуществами перед методами регрессионного анализа и распознавания образов обладают компонентный и факторный анализы. Эти методы в определенной степени похожи. Поэтому часть исследователей считают метод главных компонент (МГК) разновидностью факторного анализа (ФА). Но между ними существует и различия.
§ 2. Методы R-модификации факторного анализа
Основоположником факторного анализа считают Ч. Спирмена (1904 г.), который выдвинул предположение о существовании фактора, общего для всех интеллектуальных тестов, и ряда специфических факторов, каждый из которых действует в пределах данного теста и не коррелирует с другими.
Основное положение факторного анализа соответствует интуитивному представлению о том, что признаки исследуемого явления могут быть описаны в терминах небольшого числа основополагающих внутренних параметров - бщих факторов, т. е.:
![]()
где i=1, 2, …, n и z(z1, …, zn) – n-мерный вектор-столбец наблюдаемых переменных; Fi - некоторые многочлены переменных f1, f2, …, fk; e=(e1, …, en) – n-мерный вектор-столбец специфических факторов, влияющих только на данную переменную. Предполагается, что они не коррелированы как между собой, так и с общими факторами f. Факторы f1, f2, …, fk обычно предполагаются некоррелированными между собой. Все они имеют определенную интерпретацию.
|
Из за большого объема этот материал размещен на нескольких страницах:
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 |



