где Akl - алгебраическое дополнение для элемента rkl матрицы R, т. е. определитель матрицы размерности m-1, которая получается, если в R вычеркнуть k-ю строку и l-й столбец, умноженный на (-1)k+l. Величина частного коэффициента корреляции меняется в пределах от -1 до 1.

В геологии, возможности которой в области активного эксперимента весьма ограничены, частная корреляция является одним из эффективных методов исследования взаимоотношения между компонентами сложных природных систем и параметрами внешней среды. Выборочный частный коэффициент корреляции есть оценка rij. q по выборочным данным частного коэффициента корреляции случайных величин xi и xj при фиксированных m-2 величинах {xl: l=1,…,m; l¹i; l¹j} следующего вида:

где Bij - алгебраическое дополнение выборочной корреляционной матрицы {rij} для совокупности случайных величин {xj: j=1,…,m}, соответствующее элементу rij.

Распределение rij. q, построенное по n наблюдениям, совпадает с распределением выборочного коэффициента парной корреляции [Стьюдент с числом (n-2) и Фишер с числом (1,n-2) или (n-2,n-2)] с уменьшением числа степеней свободы на m-2. Поэтому проверка значимости выборочного коэффициента частной корреляции проводится аналогичным образом.

6). Множественная корреляция.

Коэффициент множественной корреляции - мера линейной зависимости случайной величины xk от совокупности случайных величин {xl : l=1,…,m; l¹k}. Коэффициент множественной корреляции определяется формулой:

где |R| - определитель корреляционной матрицы R, имеющей размерность m*m; Akk - алгебраическое дополнение для элемента rkk матрицы R, т. е. определитель матрицы размерности m-1, которая получается, если в R вычеркнуть k-ю строку и k-й столбец.

Свойства коэффициента множественной корреляции:

1) 

2)  Û "l; (rkl - парный коэффициент корреляции);

3)  , если xk является строго линейной комбинацией совокупности случайных величин {xl : l=1,…,m; l¹k}.

Имеет место соотношение: следовательно, равенство коэффициента множественной корреляции единице выполняется всегда, когда значение хотя бы одного из парных коэффициентов корреляции с первым индексом k равно 1.

Множественная корреляция широко применяется в геологических исследованиях, например, при прогнозировании таких геологических признаков, измерения которых либо затруднительно по техническим причинам, либо невыгодны по экономическим соображениям.

Выборочным коэффициентом множественной корреляции между случайной величиной xi и набором x1,…,xi-1,xi+1,…,xm называется величина:

где Cii - диагональный элемент матрицы, обратной для матрицы выборочных коэффициентов корреляции.

Для проверки статистической гипотезы H0 о равенстве нулю коэффициента множественной корреляции:

при множестве альтернатив:

вычисляется величина:

имеющая в условиях нулевой гипотезы F-распределение с m-1 и n-m степенями свободы.

При уровне значимости a по таблицам F-распределения находят критическое значение F-распределения с m-1 и n-m степенями свободы. Если F > Fa, m-1,n-m, то гипотеза H0 отклоняется, в противном случае - принимается как подтвердившаяся.

7. Каноническая корреляция.

Она служит для измерения силы связи между двумя множествами случайных величин.

Пусть X(1)={Xi, i=1,…,k}, X(2)={Xj, j=k+1,…,k+l}, X(1)ÇX(2)¹Æ, X=X(1)ÈX(2). Положим p1=k, p2=l, p=k+l и условимся, что p1£p2. Корреляционную матрицу размерности p*p разобьем на блоки: R11 - матрица p1*p1 парных коэффициентов корреляции между элементами подмножества X(1); R22 - аналогичная матрица p1*p2, относящаяся к подмножеству X(2); R12= T(R21) - матрицы размерностью p1*p2 и p2*p1. Тогда:

Нулевую гипотезу, предполагающую отсутствие линейной связи между подмножествами случайных величин X(1) и X(2), запишем:

Нулевая гипотеза противопоставляется гипотезе H1, утверждающей, что подмножества случайных величин X(1) и X(2) не являются независимыми. Выбор между гипотезами H0 и H1 осуществляется на основе коэффициентов канонической корреляции, оценки которых (v1,…,vp-1ÎV) определяются как ненулевые корни уравнения:

где R11, R22, R21, R12 - блоки выборочной корреляционной матрицы R.

Суть канонической корреляции заключается в отыскании таких линейных комбинаций величин, составляющих подмножества X(1) и X(2), которые дают максимальную корреляцию U1. Затем в каждом из подмножеств находим новые линейные комбинации, опять же удовлетворяющие условию максимальной корреляции U2. При этом U1³U2, а линейные комбинации, полученные при нахождении U1 и U2, ортогональны, т. е. некоррелированы. Можно сказать, что первая линейная комбинация соответствует наиболее мощному фактору, общему для обоих подмножеств, тогда как вторая и последующие комбинации (всего их p1, если p1£p2) учитывают все более слабеющие попарно некоррелированные факторы. В результате получаем следующий ряд коэффициентов канонической корреляции:

Принятие решения относительно гипотезы H0 опирается на критерий:

где N - объем p-мерной выборки, на основе которой формировалась матрица R.

При условии, что нулевая гипотеза верна, величина критерия I имеет c2-распределение. Нуль-гипотеза отвергается при уровне значимости a, если вычисленное значение I превысит предельно допустимое значение , выбираемое из таблицы. Число степеней свободы f регулируется объемами подмножеств X(1) и X(2) и составляет p1*p2. Следовательно, при коррелируемые подмножества случайных величин считаются зависимыми.

§ 4. Регрессионный анализ

Регрессионный анализ - совокупность статистических методов, ориентированных на исследование стохастической зависимости одномерной переменной Y от набора других переменных (X1,…,Xp). Его основными задачами являются:

1 - установление формы зависимости Y от (X1,…,Xp);

2 - определение вида уравнения регрессии;

3 - прогнозирование значений результирующей (зависимой) переменной Y, носящей названия отклика по известным значениям (независимых) переменных (X1,…,Xp), которые называются регрессорами.

Линейная регрессия. Основное уравнение регрессионного анализа имеет вид:

Yj=b1C1j+…+bpCpj+ej.

Здесь {Yj} - значения зависимой переменной; {Xij} - значения независимых переменных; {ej} - случайные отклонения (их появление чаще всего связывают с действием факторов, не учтенных измерениями независимых переменных); {bi} - неизвестные коэффициенты регрессии, оценки которых {bi}отыскиваются по выборочным данным.

Традиционный регрессионный анализ опирается на следующие допущения:

1 - Mej=0; Dej=s2<¥ для всех j;

2 - cov(ei, ej)=0 (i¹j);

3 - ранг матрицы X (исходных данных) равен p;

4 - значения Y достаточно однородны (извлечены из совокупности с распределением близким к нормальному);

5 - измерения переменных выполнены без существенных ошибок.

Различают линейную и нелинейную регрессию. При этом выделяются следующие классы:

1 - регрессии, линейные по X и по b:

Yj=b1C1j+…+bpCpj+ej;

2 - регрессии, линейные по b и нелинейные по X, например:

3 - регрессии, нелинейные по b, например:

Для регрессий линейных по X и b или только по b, вычисления оценок b неизвестных коэффициентов b производится методом наименьших квадратов. В основе этого метода лежит требование минимизации суммы квадратов отклонений эмпирических значений Y от значений Y*, вычисляемых по уравнению регрессии:

Этот же метод можно использовать и для регрессий, нелинейных по b, если удается подобрать подходящее преобразование к линейному виду. Например, для применим преобразование logY=logb1 + X*logb2 и получим линейную зависимость.

Кроме того, обычно вводят фиктивную переменную X0, такую, что X0j = 1 для всех j. Это позволяет вместе с коэффициентами b1,…,bp вычислять и b0 - постоянную регрессии, сдвигающую поверхность регрессии в область скопления точек {yj, xij}.

Отыскав (b0,b1,…,bp) (в матричной форме: b=(X'X)-1X'Y), можно составить уравнение регрессии:

Из за большого объема этот материал размещен на нескольких страницах:
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28