Совершенно очевидной интерпретацией стандартного отклонения является его способность оценивать “типичность” среднего: стандартное отклонение тем меньше, чем лучше среднее суммирует, “представляет” данную совокупность наблюдений.

Еще одно важное применение стандартного отклонения связано с тем, что оно, наряду со средним арифметическим, позволяет определить самые существенные характеристики нормального распределения. Графически нормальному распределению частот наблюдений соответствует симметричная колокообразная кривая. 68% наблюдений (точнее, 68% общей площади) будет заключено в пределах ±1 стандартное отклонение от среднего значения. Если скажем, среднее нормального распределения равно 200, а стандартное отклонение – 4, то можно заключить, что не менее 68% наблюдений лежит между значениями 196 и 204 (т. е. 200 ± 4). Соответственно не менее 32% случаев будут лежать за этими пределами, в левом и правом “хвостах” распределения. Из теории вероятности известно также, что в пределах ±3 стандартных отклонений окажется около 99,73% общего числа наблюдений.

Для любого унимодального симметричного распределения, даже если оно отличается от нормального, не менее 56% наблюдений будут попадать в промежуток ±1 стандартное отклонение от среднего арифметического значения, для ±3 стандартных отклонений внутри указанного интервала окажутся не менее 95% наблюдений.

Хотя результаты одномерного анализа данных часто имеют самостоятельное значение, большинство исследований уделяют основное внимание анализу связей между переменными. Самым простым и типичным является случай анализа взаимосвязи (сопряженности) двух переменных. Используемые здесь методы задают некоторый логический каркас, остающийся почти неизменным и при рассмотрении более сложных моделей, включающих множество переменных. Устойчивый интерес социологов к двумерному и многомерному анализу данных объясняется вполне понятным желанием проверить гипотезы о причинной зависимости двух или более переменных. Ведь утверждения о причинных взаимосвязях составляют фундамент не только социальной теории, но и социальной практики. Так как возможности социологов проверять причинные гипотезы с помощью эксперимента, как уже говорилось, ограниченны, основной альтернативной является статистический анализ не экспериментальных данных.

Первым шагом к анализу взаимоотношений двух переменных является их перекрестная классификация. Речь идет о таблице, содержащей информацию о совместном распределении переменных. Допустим, в результате одномерного анализа данных мы установили, что люди сильно различаются по уровню заботы о своем здоровье: некоторые люди регулярно делают физические упражнения, другие – полностью пренебрегают зарядкой. Мы можем предположить, что причина этих различий какая-то другая переменная, например, пол, образование, род занятий, доход и т. п.

Пусть мы располагаем совокупностью данных о занятиях физзарядкой и образовании для выборки горожан. Для простоты мы предположим, что обе переменные имеют лишь два уровня: высокий и низкий. Так как данные об образовании исходно разбиты на большее количество категорий, нам придется их перегруппировывать, разбив весь диапазон значений на два класса. Предположим, мы выберем в качестве граничного значения 10 лет обучения, так что есть люди, получившие неполное среднее и среднее образование, попадут в “низкую” градацию, а остальные в “высокую”. Для занятий физическими упражнениями мы соответственно воспользуемся двумя категориями – “делают физзарядку” и “не делают физзарядку”. Таблица 5 показывает, как могло бы выглядеть совместное распределение этих двух переменных.

Обычно характер взаимоотношений между переменными в небольшой таблице можно определить даже “на глазок”, сравнивая числа в столбцах или строках. Еще легче это сделать, если вместо абсолютных значений стоят проценты. Чтобы перевести абсолютные частоты, указанные в клетках таблицы, в проценты, нужно разделить их на маргинальные частоты и умножить на 100. Если делить на маргинал 50/255∙100=19,6%, т. е. 19,6% людей, имеющих низкий уровень образования делают зарядку (но не наоборот!). Если делить на маргинал строки, то мы получим другую величину – процент по строке. В частности, можно заметить, что 80% людей, делающих зарядку имеют высокий уровень образования (200/250∙100). Деление на общую численность выборки дает общий процент. Так, всего в выборке 50% людей, делающих зарядку.

Таблица 5

Взаимосвязь между уровнем образования и занятиями физкультурой

Занятия

физкультурой

Уровень образования

Всего

низкий

высокий

Делают зарядку

50

200

250

Не делают зарядку

205

45

250

Всего

255

245

500

Так как вывод о наличии взаимосвязи между переменными требует демонстрации различий между подгруппами по уровню зависимой переменной, при анализе таблицы сопряженности можно руководствоваться простыми правилами. Во-первых, нужно определить независимую переменную и, в соответствии с принятым определением, пересчитать абсолютные частоты в проценты. Если независимая переменная расположена по горизонтали таблицы, мы считаем проценты по столбцу; если независимая переменная расположена по вертикали, проценты берутся от сумм по строке. Далее сравниваются процентные показатели, полученные для подгрупп с разным уровнем независимой переменной. Обнаруженные различия свидетельствуют о существовании взаимосвязи между двумя переменными.

Обнаружив наличие взаимосвязи между двумя переменными, и оценив интенсивность этой связи с помощью какого-либо коэффициента, исследователь стремится проинтерпретировать эту взаимосвязь в терминах причин и следствий.

Необходимо, во-первых, найти подтверждение того, что связь не является обратной. Если, например, мы обнаружили высокую корреляцию между полученным образованием и престижностью профессии или алкоголизмом у родителей и алкоголизмом у детей, то таким подтверждением служит естественная укороченность событий: обучение обычно предшествует работе, а проблемы родителей – проблемам детей.

Во-вторых, нужно исключить альтернативные объяснения обнаруженной взаимосвязи. Во многих случаях существуют вполне правдоподобные гипотезы, объясняющие найденную зависимость воздействием третьей переменной (или нескольких переменных). Возможно, например, что на избирательную активность влияет не столько пол избирателя сколько его доход. Так как оплата труда женщин в среднем ниже, чем мужчин, женщины реже проявляют политическую активность. Соответственно сравнение женщин, имеющих высокооплачиваемую работу, и мужчин в этом случае не выявит никаких различий в отношении к выборам.

Классический подход к анализу взаимосвязи с введением дополнительных, контрольных переменных, в социологии получил название метода уточнения. Для того чтобы произвести уточнение причинной модели, нужно сделать содержательные предположения о том, является ли контрольная (третья) переменная предшествующей либо опосредующей. Если контрольная переменная предшествует во времени и независимой и зависимой переменным, то она воздействует на них как общая причина, порождая эмпирическую взаимосвязь между переменными. Эта взаимосвязь, однако, не является причинной связью, т. к. объясняется влиянием третьей, контрольной переменной. Предположим, что нам удалось установить, что 80% людей, регулярно посещающих врача, оценивают свое самочувствие как “плохое”, тогда как среди людей, посещающих врача реже одного раза в год, доля оценивших таким образом свое самочувствие составила 15%. Если принять установленную взаимосвязь за собственно причинную, мы придем к несколько необычному выводу: чем чаще человек посещает докторов, тем хуже он себя чувствует. Предположим, однако, что мы имеем возможность проверить альтернативную гипотезу: люди, страдающие хроническими заболеваниями, и чаще обращаются за медицинской помощью, и больше подвержены плохому самочувствию. Для того чтобы узнать, сохранится ли исходная взаимосвязь “регулярные посещения врача → плохое самочувствие” при введении контрольной переменной, нам нужно построить одну условную таблицу сопряженности “посещение х самочувствие” для людей, страдающих хроническими заболеваниями, а другую таблицу – для здоровых. В каждой из этих таблиц объясняющая переменная будет поддерживаться на постоянном уровне. Пусть, например, мы получим две частные таблицы, объединенные в таблицу 6.

Анализ этих двух частных таблиц показывает, что частота посещений врача не оказывает сколько-нибудь заметного влияния на общую оценку самочувствия. Иными словами, метод уточнения в данном примере позволил продемонстрировать, что исходно установленная эмпирическая сопряженность признаков является ложной и может получить объяснения при введении контрольной переменной.

Анализ таблиц сопряженности и метод уточнения – это наглядные и достаточно эффективные средства, используемые в проверке гипотез о взаимозависимости переменных. Однако этим подходам присущи определенные ограничения. Во-первых, проводя перегруппировку количественных переменных в номинальные или ординальные (т. е. разбивая доход на “высокий” и “низкий”, а интеллект – на “средний’ и “выше среднегои "нийелект д на "оминальные или ординальные ()чения. Во-первых, проводя перегруппировку количественическими заболеваниями и ча”), мы теряем существенную информацию о вариации признака внутри качественных градаций. Во-вторых, для уточнения исходной причинной модели нам может потребоваться не одна, а две или четыре дополнительные переменные, что ведет в свою очередь к возрастанию числа частных таблиц сопряженности. По этим причинам многие исследователи используют несколько более сложные статистические методы анализа, свободные от описанных ограничений.

Существует обобщенный показатель, позволяющий измерить тесноту связи между переменными, т. е. их тенденцию изменяться совместно. Это коэффициент корреляции Пирсона, позволяющий оценить возможность предсказания значений зависимой переменной по значениям независимой. Общая формула

Таблица 6

Зависимость общего самочувствия от лечения при контроле

хронической заболеваемости (N=1000 чел.),%

Самооценка общего самочувствия

Больные

Здоровые

Регулярно посещают врача

Редко посещают врача

Регулярно посещают врача

Редко посещают

врача

Хорошее

20

18

88

87

Плохое

80

82

12

13

для его вычисления включает в себя величину ковариации значений X и Y. Эта величина (Sxy) характеризует совместное изменение значений двух переменных. Она задается как сумма произведений отклонений наблюдаемых значений X и Y от средних Х и Y соответственно, т. е. S(Хi –Xср)(Yi – Yср), деленная на количество наблюдений. Чтобы понять “физический смысл” ковариации, достаточно обратить внимание на следующее ее свойство: если для какого-то объекта i в выборке оба значения – Хi и Yi – окажутся высокими, то и произведение (Хi – Xср) на (Yi – Yср) будет большим и положительным. Если оба значения (по Х и по Y) низки, то произведение двух отклонений, т. е. двух отрицательных чисел, также будет положительным. Таким образом, если линейная связь Х и Y положительна и велика, сумма таких произведений для всех наблюдений также будет положительна. Если связь между X и Y обратная, то многим положительным отклонениям по Х будут соответствовать отрицательные отклонения по Y, т. е. сумма отрицательных произведений отклонений будет отрицательной.

Наконец, при отсутствии систематической связи произведения будут иногда положительными, иногда отрицательными, а их сумма (и, следовательно, ковариации Х и Y) будет, в пределе, равна нулю. Таким образом, ковариация показывает величину и направление связи, совместного изменения Х и Y. Если разделить ковариацию Sxy на стандартные отклонения Sx и Sy, то мы получим искомую формулу коэффициента корреляции Пирсона (rxy).

rxy = Sxy

SxSy

Более удобная для практических вычислений формула выглядит так:

rxy = n SXiYi–(SXi)(SYi)________________

Ö(nSXi²–(SXi)²) (nSYi²–(SYi)²)

Несмотря на несколько устрашающий вид, расчетная формула очень проста. Для “ручного” вычисления rxy вам понадобится лишь пять величин: суммы значений по Х и по Y (SХi и SYi), суммы квадратов значений по Х и по Y (SX² и SY²), суммы произведений Х и Y по всем объектам – “случаям” (SXiYi). В таблице 7 приведены данные о максимальных дневных и ночных температурах, зарегистрированных в 10 городах[9].

Таблица 7

Максимальные дневные и ночные температуры

воздуха в некоторых городах

Город

Дневная температура воздуха (Х)

Ночная температура воздуха (Y)

Лондон

16

11

Париж

21

12

Стокгольм

20

12

Варшава

25

14

Бонн

25

16

Рим

36

23

Тель-Авив

31

23

Анкара

32

15

Каир

36

22

Москва

16

8

Итого: N=10

Просуммировав значения в столбцах, мы получим: ∑Хi = 258 и ∑Yi = 156. Возведя каждое из значений Х и Y в квадрат и просуммировав, мы найдем, что ∑Хi2 = 7180; ∑Yi2 =2962.

Сумма попарных произведений Хi и Yi (∑Хi Yi) составит 4359. Вы можете самостоятельно убедиться в том, что подстановка всех значений в расчетную формулу даст величину rxy =0,91. Иными словами, корреляция между дневными и ночными температурами воздуха очень высока, но все же отлична от 1,0 (коэффициент корреляции может меняться в пределах от –1,0 до +1,0). Это отличие, вероятно, объясняется влиянием других факторов (продолжительность дня и ночи, облачность, географическое положение и т. п.). Судя по полученной величине корреляции, знание дневных температур позволяет предсказывать ночные температуры с очень высокой точностью, но не безошибочно.

Как и всякая выборочная статистика, коэффициент корреляции подвержен выборочному разбору. Существует некоторая вероятность того, что для данной выборки будет получено ненулевое значение коэффициента корреляции, тогда как истинное его значение для генеральной совокупности равно нуля. Иными словами, существует задача оценки значимости полученных значений корреляций, относящаяся к области теории статистического вывода. Прежде, всего, вероятностная оценка коэффициента корреляции подразумевает оценку отношения к его случайной ошибке. Удобная, хотя и не вполне надежная формула для вычисления ошибки коэффициента корреляции (mr), выглядит так:

mr = 1 – r ²

n – 1

В использовавшемся нами примере данных о погоде коэффициент корреляции оказался равен 0,91, а его выборочная ошибка составляет 0,0573 (r = 0,91; n = 10). Отношение r к mr, обозначаемое как t, составит 0,91/0,0573 ≈ 15,88. Разумеется, коэффициент, превосходящий свою случайную ошибку почти в 16 раз, может быть признан значимым. Когда значение r не столь близко к единице и выборка невелика, нужно все же проверить статистическую гипотезу о равенстве r нулю в генеральной совокупности. Для этого нужно определить t по формуле:

t = rn – 2

1 – r²,

где t – это величина так называемого t – критерия Стьюдента, r – выборочный коэффициент корреляции, n – объем выборки. Для установления значимости вычисленной величины t – критерия пользуются таблицами t – распределения для (n – 2) степеней свободы (см. прил. 5).

Во многих пособиях по статистике можно найти и готовые таблицы критических значений коэффициента корреляции r для данного уровня значимости α. В этом случае отпадает необходимость в каких-либо вычислениях t: достаточно сравнить полученную величину коэффициента корреляции с табличным значением (например, величина коэффициента корреляции r = 0,55 будет существенной на уровне значимости p = 0,01 даже для выборки объемом 105, так как критическое значение составляет 0,254).

Для определения тесноты (силы) и направления корреляционной связи между двумя признаками или двумя иерархиями признаков используется также метод ранговой корреляции Спирмена. Коэффициент ранговой корреляции Спирмена подсчитывается по формуле:

_ 6S(d²)

rs = N∙(N²–1)

где d – разность между рангами по двум переменным для каждого испытуемого; N – количество ранжируемых значений, в данном случае количество испытуемых.

Для расчета эмпирического значения rs воспользуемся данными [10] (см. таблицу 8).

rs = 1 – (6∙802/20∙(20² – 1)) = 1 – 4812/7980 = 0,397

По таблице прил. 2 определяем критические значения rs при N = 20

0,45(р≤0,05)

rs кр. = 0,57(р≤0,01)

Так как rs эмп. < rs кр., то корреляция между упорядоченными перечнями видов страха в американской и отечественной выборке не достигает уровня статистической значимости, т. е. значимо не отличается от нуля.

Коэффициент Спирмена имеет ряд ограничений. Во-первых, по каждой переменной должно быть представлено не менее 5 наблюдений. Верхняя граница выборки определяется имеющимися таблицами критических значений (см. прил. 2), а именно N≤40. Во-вторых, коэффициент ранговой корреляции при большом количестве одинаковых рангов по одной или обеим сопоставляемым переменным дает углубленные значения. В идеале оба коррелируемых ряда должны представлять собой две последовательности несовпадающих значений.

Как мы выяснили, для проведения анализа массива данных социологи используют большое число различных математических методов, позволяющих полно и всесторонне анализировать собранную информацию. Кроме того, в современной социологии для этой цели активно применяются компьютерные программы математико-статистической обработки данных.

Стандартные статистические методы обработки данных включены в состав электронных таблиц, таких как Excel. Но, гораздо, большими возможностями обладают специализированные статистические пакеты, позволяющие применять для обработки данных самые современные методы математической статистики.

Среди программных средств данного типа можно выделить узкоспециализированные пакеты, в первую очередь – STATISTICA, SPSS (statistical package for social sciences), STADIA, STATGRAPHICS, которые имеют большой набор статистических функций: факторный анализ, регрессионный анализ, кластерный анализ, многомерный анализ, критерий согласия и т. д.

Таблица 8

Ранги видов страха в американской и отечественной выборках

N пп

Виды страха

Ранг в американской выборке

Ранг в российской выборке

d

d2

1

Страх публ. выступления

1

7

-6

36

2

Страх полета

2

12

-10

100

3

Страх совершить ошибку

3

10

-7

49

4

Страх неудачи

4

6

-2

4

5

Страх неодобрения

5

9

-4

16

6

Страх отвержения

6

2

4

16

7

Страх злых людей

7

5

2

4

8

Страх одиночества

8

1

7

49

9

Страх крови

9

16

-7

49

10

Страх открытых ран

10

13

-3

9

11

Страх дантиста

11

3

8

64

12

Страх уколов

12

19

-7

49

13

Страх прохождения тестов

13

20

-7

49

14

Страх полиции (милиции)

14

17

-3

9

15

Страх высоты

15

4

11

121

16

Страх собак

16

11

5

25

17

Страх пауков

17

18

-1

1

18

Искалеченных людей

18

8

10

100

19

Больниц

19

15

4

16

20

Темноты

20

14

6

36

Сумма:

210

210

0

802

Данные программные продукты обычно содержат и средства для визуальной интерпретации полученных результатов: различные графики, диаграммы, представление данных на географической карте и др.

Из за большого объема этот материал размещен на нескольких страницах:
1 2 3 4 5 6 7 8 9