Критерий Пури-Сена-Тамуры для проверки гипотез о равенстве многомерных средних в двух объектах (непараметрический). Этот ранговый критерий устойчив относительно нарушение нормальности (и даже унимодальности) распределения изучаемых случайных величин, а также относительно наличия в сопоставляемых выборках аномальных наблюдений.
Процедура применения критерия следующая.
1. По каждому геологическому признаку в отдельности строится общий для двух выборок вариационный ряд в порядке возрастания членов. Все члены нумеруются от 1 до N=n1+n2 (определяются метки-ранги).
2. Членам с равными значениями ставится в соответствие скорректированный ранг - среднее арифметическое рангов (уточненный средний ранг или среднюю метку вводят лишь тогда, когда равные значения присутствуют в обеих выборках, а если они принадлежат одной выборке, то скорректированный ранг можно не вычислять).
3. Определяются два m-мерных вектора средних меток-рангов T1 и T2.
4. Определяется m-мерный вектор E средних меток-рангов по объединенной выборке объема N=n1+n2.
5. Составляется ковариационная матрица меток-рангов объединенной выборки V.
6. Вычисляется обратная к V матрица V-1.
7. Вычисляется статистика Пури-Сена-Тамуры, представляющая собой квадратичную форму:
.
8. В условиях нулевой гипотезы о равенстве многомерных средних в двух объектах статистика L распределена по закону Пирсона c2 с m степенями свободы.
Поэтому, если окажется I£
, то для заданного уровня значимости a принимается нулевая гипотеза о равенстве многомерных средних как подтвердившаяся. В противном случае, нулевая гипотеза должна быть отклонена как противоречащая эмпирическим данным и приняты альтернативные гипотезы о существенности различий в многомерных средних сравниваемых двух объектов.
Критерий Кульбака (параметрический) для проверки гипотез о равенстве ковариационных матриц в двух объектах является многомерным аналогом одномерного критерия Бартлета и учитывает не только дисперсии, но и ковариации признаков. Критерий базируется на предположении о многомерном нормальном распределении m-мерных случайных величин и отсутствии аномальных наблюдений, а также не предполагает равенства ковариационных матриц. Рассчитываются оценки S1 и S2 ковариационных матриц по каждой выборки в отдельности. Затем рассчитывается оценка обобщенной ковариационной матрицы:
.
Вычисляются определители выборочных ковариационных матриц êS1ê, êS2ê, êSê и критерий Кульбака:
.
В условиях нулевой гипотезы о равенстве ковариационных матриц в двух объектах H0: S1=S2 статистика I0 распределена асимптотически по закону Пирсона c2 с k=m(m+1)/2 степенями свободы. Поэтому, если окажется I0£
, то для заданного уровня значимости a принимается как подтвердившаяся нулевая гипотеза о равенстве ковариационных матриц в двух объектах. В противном случае нулевую гипотезу следует отклонить и принять альтернативные гипотезы о существенных отличиях ковариационных матриц в первом и втором объектах. Иными словами, в случае принятия альтернативы следует полагать, что характеристики рассеяния и зависимости между изучаемыми геологическими признаками в сопоставляемых объектах значимо различаются.
Критерий Пури-Сена-Тамуры для проверки гипотез о равенстве ковариационных матриц в двух объектах (непараметрический) базируется на предположении, что m-мерные случайные величины (модели комплекса m геологических признаков в сопоставляемых объектах) имеют одинаковые медианы. Поэтому для использования данного критерия необходимо предварительно центрировать исходные данные медианами: yi=xi-Me({xi}).
Процедура применения данного критерия состоит в следующем.
1. По каждой выборке и каждому геологическому признаку в отдельности определяем медианы.
2. Центрируем исходные медианами.
3. По каждому геологическому признаку в отдельности по центрированным медианами данными составляется вариационный ряд в порядке возрастания его членов. Все члены нумеруются от 1 до N=n1+n2, т. е. определяются ранги
4. Для каждого ранга ri вычисляем соответствующую ему метку:
ei=[ri/(N+1)-0.5]2.
5. В разных выборках ( в одной можно не исправлять) равным значениям центрированных медианами исходных данных ставится в соответствие скорректированная средняя метка - среднее арифметическое из меток для равных значений.
6. Определяются два m-мерных вектора средних меток-рангов T1 и T2.
7. Определяется m-мерный вектор E средних меток-рангов по объединенной выборке объема N=n1+n2.
8. Составляется ковариационная матрица меток-рангов объединенной выборки V.
9. Вычисляется обратная к V матрица V-1.
10. Вычисляется статистика Пури-Сена-Тамуры, представляющая собой квадратичную форму:
.
11. В условиях нулевой гипотезы о равенстве многомерных средних в двух объектах статистика LΣ распределена по закону Пирсона c2 с m степенями свободы.
Поэтому, если окажется
£
, то для заданного уровня значимости a принимается как подтвердившаяся нулевая гипотеза о равенстве ковариационных матриц в двух объектах. В противном случае нулевую гипотезу следует отклонить и принять альтернативные гипотезы о существенных отличиях ковариационных матриц сравниваемых объектов, т. е. меры рассеяния и зависимости геологических характеристик в сравниваемых геологических объектах значимо различаются.
Глава III. Классификация и кластерный анализ
§1. Задачи классификации и правила их составления
Необходимость классифицировать геологические объекты и процессы постоянно возникает при проведении прогнозно-металлогенических исследований, при разведке и геолого-экономической оценке месторождений полезных ископаемых. При решении прогнозных задач геолог группирует изученные геологические объекты, а затем уточняет геологические свойства каждой полученной однородной классификационной группы. Если получены данные по новому геологическому объекту, то необходимо данный объект отнести к одной из априорно известных однородных классификационных единиц либо построить по имеющимся данным новую классификацию. Максимальная типичность и максимальная аномальность – важные принципы прогнозирования при отсутствии информации по эталонным месторождениям и недостатке сведений о благоприятных признаках.
Классификация – один из фундаментальных процессов в науке. Факты и явления должны быть упорядочены, прежде чем мы сможем их понять и разработать общие принципы, объясняющие как их появление, так и наблюдаемый среди них порядок. Классификация – это упорядочение объектов по их сходству. Под термином «классификация» обычно понимается распределение предметов по заданным классам согласно наиболее существенным признакам, присущим предметам данного типа и отличающим их от предметов других типов. Составление классификаций подчиняется следующим правилам:
1 - в одной классификации применяется одно и то же основание;
2 - объем классифицируемого класса равняется сумме объемов подклассов;
3 - классы и подклассы не пересекаются;
4 - подразделение на подклассы производится непрерывно.
Геолог обычно решает одну из двух задач классификации:
1) - выявление естественного расслоения исходных геологических наблюдений и объектов на четко выраженные группы (кластеры, таксоны), лежащие друг от друга на некотором расстоянии, но не разбивающиеся на столь же удаленные друг от друга части;
2) - типизация, при которой совокупность данных и объектов разбивают на сравнительно небольшое число областей группирования так, чтобы элементы одной области лежали друг от друга по возможности на небольшом расстоянии.
Задача типизации всегда имеет решение, а кластеризации не всегда, т. е. может существовать один единственный кластер. Имеется три основных типа данных, используемых в кластерном анализе: многомерные, данные о близости, данные о кластерах.
Классификацию геологических объектов можно производить с помощью набора числовых, качественных или классификационных признаков, используя формальные математические методы для разбивки на классы. Альтернативным к такому формализованному подходу является экспертный метод, при котором разбивка объектов на классы производится геологами - петрологами, тектонистами, геохимиками, геофизиками и другими на основе профессиональных знаний, опыта, интуиции. Функция расстояния и мера сходства определяет понятие однородности объектов, которое в кластерном анализе является наименее формализованным. Выбор расстояние или коэффициента сходства является узловым моментом исследования, от которого решающим образом зависит окончательный вариант разбивки объектов на классы при заданном алгоритме разбивки.
§ 2. Схемы классификации геологических объектов
Целесообразно различать три аспекта процедуры применения кластерного анализа:
1. выбор функции расстояний d или мер сходства r между любыми парами многомерных геологических наблюдений;
2. выбор функции расстояний d или мер сходства r между любыми геологическими объектами, каждый из которых охарактеризован наборами многомерных геологических наблюдений;
3. выбор функции расстояний d или мер сходства r между любыми парами групп объектов, в том числе между объектом и группой объектов.
|
Из за большого объема этот материал размещен на нескольких страницах:
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 |



