Методология анализа данных в социологии

Структура эмпирических данных в социологии. Измерение - составная часть анализа. Кодирование - процедура измерения. Индексы при сборе и анализе данных. Восходящая и нисходящая стратегия анализа данных. Специфические приемы измерения социальной установки.

Рубрика Социология и обществознание
Вид учебное пособие
Язык русский
Дата добавления 29.09.2014
Размер файла 789,5 K

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Если для кого-то термин «предсказание» остался пока непонятым, то при описании предлагаемых ниже мер как можно реже будем пользоваться этим термином.

Меры л (лямбда) Л. Гуттмана (L. Guttmann)

Таки мер три, две из ни направленные, а одна представляет собой усреднение первых двух. Мы приведем только одну л^. Эта мера, этот коэффициент характеризует в случае нашей задачи влияние будущей профессии (X) на удовлетворенность учебой (У). Отвечает на вопрос, насколько изменяется предсказание (У) при знании (X). Ниже приводится формула, в которой используются известные вам обозначения, за исключением:

Пщгах -- максимальная частота в i-й строке:

потах -- максимальная частота среди маргинальных частот по столбцам.

Р ni max - n0max

л/ чП00 n0

Эта формула была бы понятнее, если вместо частот использовать частости (доли), интерпретируемые как вероятности [11, с. 126]. Такую формулу мы не будем приводить, чтобы не пугать излишними формулами. Отметим лишь, что в литературе приводится как формула, записанная через абсолютные частоты, так и через частости. Кроме того, фамилия Гуттмана тоже приводится по-разному. Например, Гудман в работе 8, с. 131. Это не так уж важно.

Для того чтобы пояснить содержательный смысл этой меры, этого коэффициента, ниже приводится та же таблица сопряженности, с которой мы постоянно работаем для изучения взаимосвязи между «будущей профессией студента» (признак X) и «удовлетворенностью учебой» (признак У). Таблица 3.5.1 содержит те же частоты, что и таблица 3.3.1, за исключением обозначений самих частот. В нее добавлен новый столбец -- последний с максимальными частотами по всем строкам, включая строку с маргинальными частотами по столбцам. Они нам необходимы для вычисления коэффициента Ху/х Гуттмана.

Таблица 3.5.1 Таблица сопряженности двух признаков (У) и (X),

: Будущая профессия

студента (X)

Степени удовлетворенности учебой (У)

Маргинальные частоты по строкам Но

Максимальные чистоты но строкамVI) ьш

1

2

3

4

5

1 .Политолог

14

20

31

30

5

100

0| шач =31

2.Соииолог

30

40

60

60

10

200

3.Культуролог

90

90

60

45

15

300

П1тл1=90

4.Филолог

31

30

19

15

5

100

mix =31

5.Психолог

а

10

15

15

2

50

П5льи=15

б.Историк

27

110

15

85

13

150

Маргинальные частоты по столбцам Hi,

200

300

200

250

50

Ни, =1000

Чему же равен коэффициент в нашем случае? Он рассчитывается очень просто.

(31 + 60 + 90 + 31 +15 +110)-300

лн / г == 0,05

у /1000 - 300

Даже по тому, как вычисляется коэффициент, видно, что он позволяет определять, существуют ли в строка модальные группы, т. е. есть ли в каждой профессиональной группе ярко выраженная, часто встречаемая «степень удовлетворенности учебой». Судя по нашей таблице, таких групп практически нет, что и подтверждается маленьким значением коэффициента. Какими же свойствами обладает этот коэффициент?

1.Он изменяется от нуля до единицы.

2.Он равен единице только в одном случае, когда в каждой профессиональной группе все студенты имеют одинаковую степень удовлетворенности учебой и при этом в каждой отличную от другой. Если бы наша таблица сопряженности при те же маргинальны частота имела бы такой вид, как это представлено в таблице .3.5.2, коэффициент был бы равен 0,86.

(100 + 200 + 300 +100 + 50 +150) - 300 900 - 3001000-300" 700

Таблица 3.5.2 Таблица сопряженности двух признаков (для Д Л =0,86)

Будущая профессия

(X)

Степени удовлетворенности

(У)

Маргинальные частоты по строкам

Максимальные частоты по строкам ft] МАХ

1

2

3

4

5

ГЦ з

1 .Политолог

0

0

100

0

0

КЮ

П| пм* =100

2.Социопог

200

0

0

0

0

200

n:nw=200

З.Культуролог

0

300

0

0

0

300

nJ mm =300

4.<1*1лолог

0

0

0

100

0

100

Щийа =100

5-Психолог

0

0

0

0

50

50

Щ max =50

б.Историк

0

0

100

150

0

250

П» max =150

Маргинальные частоты по столбцам

200

300

200

250

50

П,м,=:1000

По max =300

Итак, визуально мы наблюдаем наличие модальных групп в строках, кроме последней. Если бы в нашей таблице число строк равнялось числу столбцов, например, не было бы историков, то коэффициент был бы равен 1, а таблицу можно было бы перестановкой столбцов превратить в такую, в которой только диагональные элементы отличались бы от нуля. Таким образом, по значению коэффициента можно судить о степени отличия реальной таблицы от диагональной. В случае, когда значение коэффициента равно 1, вероятность статистического предсказания (У) по X максимальная. Такой случай практически в социологических исследованиях не встречается.

3. Значение коэффициента равно нулю в нескольких случаях. Первый -- все частоты сосредоточены только в одной строке. На самом деле знание признака X нечего не дает для увеличения знания об У. Второй случай -- отсутствие феномена модальности, т. е., условно говоря, полная «размытость» данных в таблице. По таблице 3.5.1 мы получили значение, близкое к нулю и равное 0,05. Практически модальность не наблюдается. И наконец, третий случай, когда все частоты сосредоточены только в одном столбце.

Этот случай заслуживает особого внимания, ибо противоречит основному содержанию коэффициента. Если данные сосредоточены в одном столбце, то естественно модальные классы существуют. Тогда и вероятность предсказания значения У по значению X должна быть равна единице. А наш коэффициент равен нулю. Здесь мы наблюдаем ситуацию, когда коэффициент плохо ведет себя в нуле. Запомните эту фразу. Вы будете встречаться с подобными фразами и в случае других коэффициентов. Чтобы исключить неверную интерпретацию нулевого значения, необходимо по одномерному распределению уточнить, не сосредоточены ли данные только в одном столбце. Такой случай также не встречается в социологической практике.

Представляется важным отметить, что в реальны исследования значения коэффициента Гуттмана очень малы и использовать их нужно так же, как и многие другие коэффициенты в сравнительном контексте, например, для ранжирования как бы независимых между собой признаков по степени их влияния на некоторый особенно важный для исследователя признак, обозначаемый как целевой, зависимый. Если такого нет, то направленные коэффициенты «лямбда» использовать не имеет особого смысла.

Меры ф (may) Л. Гудмена и Е. Краскала (L. Goodman, Е. Kruskal)

Эти меры, на мой взгляд, интересны социологу, ибо с ними можно работать в сравнительном контексте, не обращая особого внимания на всякие значимости. Таких мер вообще-то три, как и в случае мер Гуттмана. Первые две из них направленные, а третья как бы усредняет первые два. Мы рассмотрим только одну из них. Для этого опять обратимся к нашей таблице сопряженности 3.5.1. При этом вспомним и рис. 3.3.1. На этом рисунке были изображены эмпирические кривые распределения удовлетворенности учебой в каждой профессиональной группе -- будущие профессии студентов-гуманитариев (мы уже обозначили эти признаки через У и X). Визуально мы с вами наблюдали наличие трех типологических синдромов по характеру распределения признака У. Другими словами, три типа структуры удовлетворенности учебой.

Ни один коэффициент глобального арактера не позволит определить, сколько типов структур наблюдается. Если социолога интересуют такие группы, то до применения всяки коэффициентов представляется целесообразным отя бы визуально на компьютере просмотреть графики такого вида, которые изображены на рис. 3.3.1 и рис. 3.3.2. Тот же коэффициент, который мы рассмотрим, позволяет в целом определить степень отличия условных распределений У от безусловного. Ниже приведем формулу. В ней будем использовать обозначения вероятностей (условных и безусловных), введенных в начале этого раздела. В этот раз формулу запишем не на языке абсолютных частот, а на языке вероятности -- доли, частости. В литературе она приводится обычно через абсолютные частоты [1, с. 36, 3, с. 36].

Один из грех коэффициентов т (may) Гудмена и Краскала выглядит следующим образом.

Если вы подставите в эту формулу вместо вероятности (точнее оценок вероятности) частоты, то получите формулу, приводимую в литературе, т. е.:

Две первые формулы служат для вычисления безусловны вероятностей. Их значения приведены соответственно в последней строке таблицы 3.5.3 и в последнем столбце. Третья формула -- для вычисления

условной вероятности. Значения такой вероятности приведены в ячейках таблицы 3.5.3. Они аналогичны данным таблицы 3.3.2 (верхнее левое значение в ячейках).

Таблица 3.5.3 Таблица сопряженности (условные и безусловные вероятности)

Будущая профессия студента

Степень удовлетворенностью учебой

Безусловные вероятности К

1

2

3

4

5

1. Политолог

0,14

0.20

0,51

0,30

0,05

0.10

2. Социолог

0,15

0,20

0,3Q

Q.3Q

Q,05

0.20

3. Культуролог

0.3Q

0,30

Q.2Q

0,15

0,05

0.30

4. Филолог

0,31

0,30

0,19

0,15

Ш

0.10

5. Психолог

0,16

0,20

0,30

0,30

0,04

0.05

6. Историк

0,11

0,44

0.06

0,34

0.05

0,25

Безусловные вероятности С

0,20

0,30

0,20

0,25

0.05

N = 1000

Коэффициент «ф» чем-то напоминает и «хи-квадрат», и л Гуттмана. Однако он не такой «прозрачный» для объяснения, как эти коэффициенты. Вообще-то говоря, если все можно было бы описывать и объяснять в социологии вербально, то, может, язык математики был бы и не нужен. И что совершенно очевидно, чем ближе язык математики к языку социолога, тем он сложнее. Все таки попытаемся прояснить содержательный смысл приведенного коэффициента.

Прежде всего необходимо пояснить, зачем при сравнении распределений всякие квадраты. В числителе квадрат по аналогии с формулой дисперсии. Для того чтобы учесть отклонение условной частоты от безусловной в одну и другую сторону. В знаменателе сумма квадратов безусловных вероятностей. Простая их сумма всегда равна единице. Это вы знаете. Такой знаменатель -- количественная характеристика распределения по столбцам (безусловное распределение по У). Числитель несет в себе основное содержание коэффициента. В числителе в скобка -- отклонение условной вероятности от безусловной вероятности У. Естественно, все отклонения суммируются по всем значениям У (по всем столбцам). В свою очередь такие величины, полученные по каждой строке (по каждому условному распределению У) суммируются как бы с весами, равными безусловной вероятности по строке. Тем самым строки уравниваются в «правах» за вклад в значение коэффициента. Напомню, что при вычислении величины «хи-квадрат» мы уравнивали в «правах» ячейки таблицы сопряженности, а здесь -- строки.

Коэффициент ф {may) Гудмена и Краскала обладает следующими свойствами:

1.Принимает значение от нуля до единицы.

2.Равен нулю, если структура распределения по строкам одинакова и такая, как структура распределения маргинальны (по столбцам) частот. В этом случае наблюдается статистическая независимост У от X. Будущая профессия не влияет на удовлетворенность учебой.

3. Равен единице, если будущая профессия студента полностью детерминирует его удовлетворенность учебой. Каждой профессии соответствует своя собственная степень удовлетворенности учебой. Чисто формально это означает, что таблицу сопряженности можно привести к диагональному виду. В самом деле, для таблицы 3.5.2 значение коэффициента равно ф y/x = 0,83

Вычислим значение коэффициента для нашей таблицы 3.5.3. Чтобы вычислить числитель, нужно сложить 6 (для всех строк таблицы) величин. Каждая такая величина равна

сйзУ{свй~С.)2,

Для первой строки она равна :

0,З(0,14-0,20)Я+{0,20-0,30)-+(0,31-0,20);+{П>30-0,2Я)ъ+ +(0,05-О,05)2} - 0,0028

Для остальных строк эта величина соответственно равна 0,0045; 0,006; 0,0022; 0,00121; 0,01385. Таким образом, значение числителя равно 0,024. Знаменатель равен:

1- {(0.2)2 + (0.3)2 + (0.2)2 +(0.25)2 +(0.05)2} = 0.77

Тогда значение коэффициента будет равно ^,/х = 0,03. Такое небольшое значение коэффициента говорит об отсутствии влияния будущей профессии на структуру удовлетворенностью учебой. Вероятность предсказания удовлетворенности учебой практически не изменится, если учитывать будущую профессию.

До си пор мы с вами рассматривали только меры связи для номинальны признаков, ибо они чаще други встречаются в социологически данны . При этом, анализируя данные нашей таблицы сопряженности, мы не обращали внимания на то, что один из признаков имел порядковый уровень измерения. Не использовать информацию об упорядоченности -- значит намеренно отказаться от ценной информации. Разумеется, существуют коэффициенты, позволяющие учесть то, что один из сопрягаемы признаков измерен по порядковой шкале.

Существует так называемый ранговый бисериалъный коэффициент для случая изучения связи между дихотомическим (поэтому коэффициент называется бисериалъным) номиналъным признаком и ранговым [2, с. 165-- 167, 8, с. 139, 11, с. 121]. При этом для случая несвязанных рангов. Напомним, что с ситуацией связанных рангов мы встречаемся, если в ранжированном ряду естъ одинаковые ранги. Также существует точечный бисериалъный коэффициент для случая изучения связи между дихотомическим номиналъным признаком и «метрическим».

Ранговые коэффициенты связи

Ранговыми коэффициентами связи называются меры связи, позволяющие вычислять степень согласованности в ранжировании одних и тех же объектов по двум различным основаниям или по двум различным признакам. Мы неоднократно ссылались на необходимость для социолога такого рода коэффициентов. Например, при построении шкалы суммарны оценок появлялась необ одимость в проверке согласованности результатов, полученных по итоговой шкале, с данными по исходным шкалам (суждениям).

Коэффициентов ранговой корреляции много. Для того чтобы понять их схожесть и различие, необходимо вначале несколько отойти от таблиц сопряженности и нашей задачи. А вам придется вернуться к разделу книги, посвященному процедуре ранжирования. Как было отмечено, такая процедура возникает у социолога как на этапе измерения, так и на этапе анализа данных. В любом случае возникает задача определения степени согласованности двух ранжированных рядов. Представим себе, что для одной и той же совокупности объектов получили два ранжированны ряда. Например, по тем же будущим профессиям студента. Значит, объектов у нас всего шесть по числу профессий. Пусть первый ряд получен по степени уменьшения индекса удовлетворенности учебой. Второй ряд -- по степени уменьшения индекса уверенности в трудоустройстве по профессии после окончания вуза. Далее будем коротко называть эти признаки -- «удовлетворенность» и «уверенность».

В данном контексте мы не будем обсуждать вопрос, каким образом измерены эти признаки как характеристики группы. Заметим лишь, что они могли быть получены с помощью шкалы суммарных оценок или как групповые индексы, примеры которых были приведены в «Лекциях».

В случае полной (максимальной) согласованности ранжирования по этим двум признакам естественно предположить наличие тесной (сильной) связи между признаками «удовлетворенность» и «уверенность». Такая связь может быть и прямой (чем больше удовлетворенность, тем больше уверенность), и обратной (чем больше удовлетворенность, тем меньше уверенность). Из этого проистекает, что логично изменяться значениям коэффициента ранговой корреляции от -1 до +1. Этим свойством обладают все приведенные ниже коэффициенты.

Приведем примеры нескольких коэффициентов, а затем поясним их содержательный смысл.

Мера у(гамма) Л. Гудмена и Е. Краскала (L. Goodman, E.Kraskal) = S-D Y"S + D ' Мера i~k (may) М. Дж. Кендалла (M.Kendall)

2{S-D) Tk~~\j(S + D + Ty){S + D + Tx)>

Меры dP. Ссмерса (R.Comeis) S-D

Первая из этих мер в работе [8, с. 135], обозначена как «г Гудмана». Эти меры удачно описаны в работе [1, с. 37--40]. Вы, конечно, обратили внимание, что у всех приведенных мер один и тот же числитель, а знаменатели различны. Прежде всего рассмотрим числитель, ибо он несет в себе основное содержание коэффициентов, В таблице 3.5.4 представлены два ранжированных ряда. Объекты ранжирования -- будущие профессии. Они приведены в таблице для удобства в том порядке, в котором их ранги во втором ряду возрастают, т. е. в порядке убывания степени уверенности. Число рангов равно числу объектов, связанных рангов (одинаковых) в наших рядах не наблюдается.

Таблица 3.5.4 Примеры двух ранжированных рядов

Признаки

1ИИ

социологи

психологи

политологи

культу-ролопг

историки

филологи

ч Удовлетворенность

3

4

2

6

1

5

у Уверен н осп

1

2

3

4

5

6

Из этой таблицы видим, что политологи в первом ряду имеют ранг 2, а во втором -- ранг 3, а историки в первом ряду -- ранг 1, во втором -- ранг 5. Для того чтобы оценить степень согласованности наших, грубо говоря, «ранжировок», можно применить тот же прием, который был применен при вычислении меры качественной вариации. Образуем из наших шести объектов различные пары. Таких пар будет 6x5/2=15. Возьмем отдельную пару объектов. Ранги, соответствующие первому объекту, обозначим а второму -- (i2, j2). Эти ранги могут находиться в различных отношениях. Возможна одна из двух ситуаций, каждая из которых включает два

возможных соотношения между рангами (1а, 16, 2а, 26). Первая ситуация: lc. i,> ци i,> jj

или соотношение 16. i, < ци |,<Ь Вторая ситуация: 2а. \{>\гп 'ь<\г

или соотношение 26. it < i2H |,>ь

В первой ситуации ранги как бы согласованы, а во втором не согласованы. Подсчитаем, для скольких пар из 15-ти наблюдается согласованность, и обозначим число таких пар через S. Затем подсчитаем, для скольких пар наблюдается несогласованность, и обозначим число таких пар через D. В числителе всех приведенных выше мер стоит как раз разница между числом согласованных и несогласованных пар объектов. Для примера наших ранжированных рядов величина (S-D) равна:

S-D = (3-2) + (2-2) + (2-1) + (0-2) + (1-0) = 1.

Здесь первая скобка -- результат анализа согласованности / несогласованности рангов в парах, образованных первым объектом с остальными пятью, т. е. в парах (1 и 2), (1 и З), (1 и 4), (1 и 5), (1 и 6). Среди них согласованность (случай 1а) -- в трех парах, а несогласованность (случай 26) -- в двух парах. Вторая скобка -- результат анализа пар, образованных вторым объектом, т. е. пар (2 и 3), (2 и 4), (2 и 5), (2 и 6). Среди ни в дву пара согласованность, а в дву -- несогласованность. Последняя скобка -- результат анализа пары (5 и 6).

Мы рассматривали случай отсутствия связанных рангов, поэтому для определения степени согласованности можно использовать первый из тре коэффициентов, приведенных выше. Знаменатель для его вычисления равен: S+D = (3+2) + (2+2) + (2+1) + (0+2) + (1+0) = 15 или просто числу различных возможных пар, т. е. 6x5/2=15 Тогда г ~ 0,07. В самом деле степень согласованности в наших ранжированны ряда очень мала. Второй из тре коэффициентов учитывает наличие связанных рангов. Кроме соотношений (1а; 16; 2а; 26) при анализе пар могут встретиться и другие соотношения (в случае связанных рангов)'.

Третья ситуация: За. i, > i3 и j, - jj или Четвертая ситуация: 4а. i, = i, и j, < ]г или 46. i, = ijH \1>it_

Число пар, соответствующих третьей ситуации (есть связанные ранги во втором ряду ), обозначим через Ту. Число пар, соответствующих четвертой ситуации (есть связанные ранга в первом ряду), обозначим через Тх. Второй коэффициент учитывает число связанных рангов в том и другом ранжированных рядах.

И наконец, обратите внимание на коэффициент dy/x. Мер Сомерса всего три по аналогии с мерами «лямбда» Гуттмана и «гамма» Гудмена и Краскала, т. е. ранговые коэффициенты связи бывают и направленные. Мы привели только одну из трех мер Сомерса. В случае ее использования вопрос о степени согласованности в ранжированных рядах звучит несколько иначе, а именно: влияет ли «уверенность» на «удовлетворенность» и, наоборот, влияет ли ранжирование по «удовлетворенности» на ранжирование по «уверенности». Разумеется, только в смысле того, что ранжирование объектов по степени убывания «удовлетворенности» (признак У) зависит от ранжирования по степени убывания «уверенности» (признак X). Поэтому в знаменателе учитываются связанные ранги только для признака У.

А теперь представим себе, что речь идет об анализе связи по таблице сопряженности (корреляционная таблица) двух признаков, имеющих порядковый уровень измерения. Допустим, что у каждого нашего студента-гуманитария есть оценка не только удовлетворенности учебой, но и удовлетворенности собой. Оба признака имеют порядковый уровень измерения. Для изучения связи между ними используются те же ранговые меры связи. Их значения рассчитываются по тем же формулам, ибо можно всех наших студентов (объекты ранжирования) упорядочить и получить два ранжированны ряда. Первый -- по степени убывания (возрастания) удовлетворенности учебой, а второй -- по убыванию (возрастанию) удовлетворенности собой. Естественно, у нас будут сплошь связанные ранги. Напомним, что число рангов равно числу объектов, т. е. 1000. Реально никто такое ранжирование не проводит, а просто вычисляются по таблице сопряженности число согласованных пар, число несогласованных и число связанных рангов. Существуют коэффициенты ранговой корреляции для быстрого счета (коэффициент Спирмена), но в век компьютеров они уже утратили свою актуальность.

Мы рассмотрели все коэффициенты^ необходимыге для первоначального понимания того, что они из себя представляют, и почему их так много. В завершение этого раздела книги несколько слов о том, что все эти коэффициентыг являются статистиками, т.е. для них можно построить доверительныш интервал. Тот интервал, в котором находится истинное значение коэффициента, т. е. для изучаемой генеральной совокупности. Доверительныге интервалыг есть для «лямбда» [1, с. 34], «may» [1, с. 36], для коэффициентов ранговой корреляции [9, с. 185--187].

В рамках книги не ставилась цель привести все меры или дать их классификацию, ибо для этого необ одимы серьезные знания в области науки под названием теория вероятности и математическая статистика. Более того, мы намеренно не рассматривали меры для изучения связи между признаками, измеренными по «метрическим» шкалам (по всем, по которым уровень измерения выше порядкового). Такая позиция обусловлена сочетанием двух факторов процесса обучения студентов. Во-первых, в эмпирической социологии такого рода шкалы встречаются реже других. Во-вторых, в читаемом студентам курсе «Теория вероятности и математическая статистика» понятие «связь» вводится именно с такого рода мер связи.

Задание на семинар или для самостоятельного выполнения

Задание выполняется индивидуально. Каждый студент работает с той же матрицей данны (см. первое задание в начале этой главы), с той же таблицей сопряженности.

1.Вычислить значения направленных мер связи Гуттмана, т. е. вычислить два значения. Сравнить результаты с аналогичными результатами других студентов.

Вычислить значения двух направленных коэффициентов Гудмена и Краскала. Сравнить со значениями, полученными в предыдущем задании.

Получить два ранжированных ряда. Объектами ранжирования будут группы, полученные при различны значения первого признака (номинальный уровень измерения). В каждой группе подсчитать среднее арифметическое значение третьего признака (метрический уровень измерения) и упорядочить эти группы в порядке убывания / возрастания этих значений. Тем самым получается первый ряд. Для получения второго ряда в тех же группах подсчитать групповой индекс (см. раздел «Логические и аналитические индексы») по второму признаку. По значениям этого индекса получить второй ранжированный ряд.

Подсчитать необходимый для вашего случая коэффициент ранговой корреляции. Обосновать, почему выбран именно такой, а не другой коэффициент. Проанализировать полученное значение коэффициента.

ВЫВОДЫ ИЗ ГЛАВЫ 3

Начало начал анализа данных -- это процессе планирования исследования, этап разработки программы исследования, разработки концептуальной схемы исследования.

В процессе построения модели изучения свойства социального объекта продумывается логика поиска простых эмпирических закономерностей. В целом «язык» анализа данных в предполагаемом исследовании определяется только после осмысления логики интерпретации эмпирически закономерностей, т. е. ответа на вопрос: Что и как будем делать, если получим то-то и то-то?

3.Независимо от выбора стратегии анализа (восходящей или нисходящей) социологу необходимы умения первичного анализа, первичной обработки данных. Одномерные распределения, таблицы сопряженности только просты по виду. Социолог может использовать множество «языков» анализа данных при работе с ними.

Меры центральной тенденции различны для разных типов шкал. Средняя арифметическая без дисперсии, медиана без квартального размаха, мода без коэффициента качественной вариации для социолога не имеют содержательного смысла.

В зависимости от того, с какими из относительны частот работает социолог, он решает разные типы содержательных задач.

Изучение связи между признаками (эмпирическими индикаторами или производными от ни показателями) -- одна из целей анализа. Связь, взаимосвязь трактуются, понимаются по-разному. Потому так много мер (коэффициентов) связи.

В таблице сопряженности находится вся информация о взаимосвязи двух признаков.

8.Изучение взаимосвязей невозможно без понимания таких пар понятий: «функциональная -- корреляционная связь», «локальные меры связи -- глобальные», «сильная связь -- слабая», «ложное значение коэффициента -- истинное», «направленная связь -- ненаправленная», «статистическая зависимость -- независимость» и т. д.

9.Меры связи различаются для различных типов шкал и для разного понимания связи.

10.Коэффициенты парной связи целесообразно использовать только в сравнительном контексте в рамках одного и того же исследования. Эффективными являются две стратегии Их использования: поиск факторной структуры совокупности признаков; поиск признаков, детерминирующих целевой признак.

ГЛАВА 4. НИСХОДЯЩАЯ СТРАТЕГИЯ АНАЛИЗА ДАННЫХ 1. ЯЗЫК АНАЛИЗА ДАННЫХ

Элементы логики анализа. Язык анализа как составная часть языка социологического исследования. Математическая формализация как составная часть логической. Классыг математических методов. Логика использования математических методов. Языгк типологического анализа. Языгк причинного анализа. Языгк факторного анализа. Основной и вспомогательныге языгки анализа. Понятие «метаметодика анализа данных».

Эта глава книги посвящена четвертому и пятому из выделенны нами структурных элементов методологии анализа данных, а именно нис одящей стратегии анализа и языка анализа данны . Одна из целей этой главы -- завершить обозначение контуров видимой части айсберга под названием методология анализа в эмпирической социологии.

В начале третьей главы мы останавливались на том, какой смысл вкладывается в понятия восходящая стратегия анализа -- нисходящая стратегия анализа. В любом социологическом исследовании логическая с ема анализа, или логика анализа, выстраивается опираясь на одну из эти стратегий. Это только один штри процесса формирования логики анализа данных или, другими словами, только один элемент логической формализации процесса получения знания, которое опирается на эмпирические данные. Другой элемент связан с выбором в исследовании как бы основного языка анализа эмпирии. Язык анализа данных является составной частью языка социологического исследования [1, с. 32--61]. В свою очередь составной частью любого языка анализа является математика, математический формализм. Поэтому остановимся на самых общих моментах применения математических методов в социологии.

В начале третьей главы было особо отмечено, что математические методы, приемы, способы анализа данных (обработка, переработка, обобщение, систематизация информации) существуют сами по себе и могут быть использованы в любой науке, где есть эмпирия. С некоторыми самыми простыми математическими методами мы познакомились в третьей главе. В рамках восходящей стратегии анализа было проиллюстрировано, как может выстраиваться логика анализа и тем самым логика применения математических методов. Их необходимость естественным образом проистекала из движения от частного к общему, от поиска простых эмпирических закономерностей к поиску более сложных. Напомним, что восходящая стратегия анализа возникает при работе с биографиями людей, с текстами полуформализованныгх и свободные интервью, с данными изучения общественного мнения, т. е. в основном при работе с информацией второго и пятого типов.

Что в одит в математическую формализацию? Говоря просто, где, когда, как и зачем нужно использовать тот или иной математический метод? Но эта фраза относится и к «физикам», и к «лирикам». Она не носит оттенка конструктивности для социолога. Социологическая специфика начинается тогда, когда выстраиваются в исследовании ответы на вопросы:

Что изучать? Зачем и для достижения каких целей изучать? Где и при каких условиях изучать? С помощью каких средств изучать?

Как уже подчеркивалось в начале книги, эти вопросы могут быть отнесены как к исследованию в целом, так и к отдельно выделенным его этапам. Поэтому понятие «средства» включает в себя всю совокупность методов социологического исследования, к которым относятся в равной мере:

€ подходы к изучению социального (метод опроса, качественный метод, количественный метод, биографический метод, анализ социальны систем, моделирование социальны процессов и т. д.);

€ методы получения информации (анкетирование, интервью, наблюдение, анализ документов);

€ техники, приемы сбора информации или методы измерения (метод семантического дифференциала, шкала Терстоуна, шкалограммный анализ Гуттмана и т. д.);

€ методы математического анализа (корреляционный анализ, факторный анализ, латентно-структурный анализ, кластерный анализ и т.

д.);

€ метод как язык анализа (типологический анализ, факторный анализ, причинный анализ, детерминационный анализ, сравнительный анализ и т. д.).

Остановимся на метода , обозначенны в предпоследнем блоке. Каждый метод имеет свою собственную логику применения в социологическом исследовании. Как вы уже убедились, без математических методов социологу, работающему с эмпирическими данными, не обойтись [12, 16, 18]. Точнее говоря, применение не метода, не методов, а класса методов. Класс методов -- это методы, применяющиеся для решения примерно одинаковы задач. Класс методов -- это методы, опирающиеся на примерно одинаковые математические модели. Мы с вами рассмотрели, по сути, всего два класса методов: методы дескриптивной статистики, или первичной обработки данных, и методы анализа таблиц сопряженности, или методы корреляционного анализа. Существует достаточно большое количество различны классов методов. Методы дисперсионного анализа, методы регрессионного анализа, методы многомерной классификации, методы факторного анализа, методы многомерного шкалирования, методы причинного анализа, методы детерминационного анализа и т. д. Есть еще целый пласт, в котором много классов методов. Это пласт так называемых методов математического моделирования. То, что мы перечислили, -- это тоже моделирование, но есть все же особые методы, за которыми закрепился термин математическое моделирование [8, 18].

Каждый класс математических методов может распадаться на отдельные группы по аналогии с методами анализа таблиц сопряженности. У нас была группа коэффициентов, основанных на проверке гипотезы о статистической зависимости, и другая группа коэффициентов, основанных на согласованности в ранжировании (коэффициенты ранговой корреляции). Не следует обращать особое внимание на название метода как на указку пути его использования. Это оберегает социолога от приверженности различным методам с красивыми названиями. К примеру, рассмотрим класс методов, которые называются методами причинного анализа. Использование одного из методов этого класса не означает на ождение истинной причинности (если таковая вообще существует) изучаемы социальных феноменов. Речь идет лишь о некоторой модели изучения предполагаемых причинно-следственных отношений между признаками. Сегодня модели такие, а завтра совсем другие. Ив то же время, найдя посредством этих моделей тенденции, синдромы, количественные оценки, социолог получает возможность перехода к качественно новому знанию для познания причинности. Однако для изучения причинности социолог может использовать и другие классы методов, в названии которы термин «причина» отсутствует.

Один и тот же класс методов может использоваться и в контексте измерения, и в контексте реализации определенной логики анализа. Для решения одной и той же содержательной задачи речь может идти о комплексном применении методов разного класса. Подобная комплексность носит либо параллельный характер, либо последовательный. Первое означает применение методов из разного класса для решения одной и той же задачи. Второе означает применение методов разного класса на различных этапах решения задачи, интересующей исследователя.

Естественно, социолог должен владеть навыками математической формализации как составной части процесса получения знания, опирающегося на эмпирические данные. Однако социологу не столь важно овладеть математическими методами, сколько уметь связать, увязать воедино процедуры логической и математической формализации. Это и будет составлять в целом логику анализа данных в исследовании.

Как же формируется эта логика? И, тем самым, как выбираются в исследовании математические методы? Напомню, что с первым составным элементом, позволяющим исследователю разработать логику анализа, вы уже познакомились -- это выбор одной из стратегий (вос одящей или нисходящей) анализа данных. Соотнесение отдельно взятого социологического исследования с одной из этих двух стратегий анализа зависит от априорных представлений, от априорных знаний социолога об изучаемом фрагменте социальной реальности. По сути, речь идет о целях, задачах, гипотезах исследования.

Как мы убедились, в рамка вос одящей стратегии, анализа основная проблема для социолога -- выбор метода поиска эмпирически закономерностей и интерпретация этих закономерностей. Формально перед социологом вначале стоит вопрос о выборе класса методов, а только потом -- о выборе конкретного метода (модели) из этого класса. Если задана совокупность шагов по реализации модели, то это называется алгоритмом.

Сначала мы с вами в нашем модельном исследовании, посвященном изучению времяпрепровождения студентов, искали простенькие эмпирические закономерности, регулярности. Для этого изучали «поведение» отдельно взятого признака (непосредственно наблюдаемого или производного от эмпирически индикаторов), т. е. изучали характер распределения признака. Описание распределения проис одило на основе вычисления моды, медианы, среднего арифметического, среднего взвешенного, коэффициента количественной вариации, энтропии, коэффициента качественной вариации, дисперсии, квартального размаха.

Затем у нас возникла необходимость поиска более сложных закономерностей, а именно анализа совместного «поведения» двух признаков. Тем самым мы вышли на разное понимание парных связей и, соответственно, на математическую формализацию отдельно взятого «понимания». Коэффициентов связи оказалось много. Было показано, что у той части «языка» анализа -- языка изучения связи -- есть свой собственный понятийный аппарат, без понимания которого невозможно выбрать необходимый социологу коэффициент (меру) связи. По сути, мы искали эмпирические закономерности в структуре связей. Чисто технически искали закономерности в таблице сопряженности. Они носили уже более сложный арактер.

Дальше мы могли перейти к многомерному случаю: как бы к анализу совместного «поведения» многи признаков. Здесь язык анализа эмпирически закономерностей претерпел бы дальнейшее усложнение, как, впрочем, и сами эмпирические закономерности. По сути, речь идет уже о многомерном анализе социальны явлений. Чисто те нически -- это применение огромного числа различны сложны математически методов, каждый из которы опирается на вполне определенную математическую модель. При этом социолог, ис одя из вос одящей стратегии, последовательно ищет ответы на вопросы, такие, как: не объединяются ли эмпирические индикаторы в факторы, а объекты -- в классы. К примеру, похожие в определенном смысле объекты составляют класс, а похожие по «поведению» эмпирические индикаторы могут образовать «новый социальный» фактор. Главная задача в таки исследовательски сюжета -- проблема интерпретации получаемых эмпирических закономерностей.

Как было отмечено, социолог может строить исследовательский процесс и по нисходящей стратегии. В этом случае концептуальная схема исследования должна не только существовать, но предполагает достаточно жесткую структуру, и особенно в той ее части, которая относится к логике анализа. Это предполагает «продумывание» всей логики анализа априори (до сбора эмпирической информации), выбор как бы основного языка анализа в исследовании для поиска ответа на вопрос «Почему это?».

От того, на каком языке анализа социолог будет исследовать интересующий его фрагмент социальной реальности, зависит и то, какого рода эмпирический материал ему нужен, и то, какие приемы «обработки» информации он будет использовать для изучения и объяснения того или иного социального феномена. Разумеется, выбранная в исследовании логика анализа включает в себя как составную часть (или опирается) на одну из обозначенных Стратегий (восходящая стратегия или нисходящая стратегия). Но это только одна составная часть логики анализа. Другая составная часть -- выбор в исследовании языка анализа. Например, в качестве таковы могут выступать язык типологического анализа, язык причинного анализа, язык факторного анализа.

Рассмотрим в упрощенном виде и содержательный смысл в ситуации, когда социолог работает ис одно как бы с готовой информацией (первый тип). Например, пусть изучаемым социальным явлением будет «феномен господина X на выборах». Когда мы встречаемся с подобным явлением? Либо тогда, когда какой-то неожиданный кандидат набрал значительное число голосов, либо, наоборот, известный кандидат потерпел неудачу. Вот тогда и возникает много заказчиков у социолога, которые отят получить ответ на вопрос «Почему это?». Независимо от того, кто нам заказал социологический анализ данного феномена, мы должны предложить обоснованную логику анализа. Ис одно у нас с вами только результаты выборов, например, число голосов (в процента ), полученны кандидатом в каждой области России. Значит, у нас один-единственный эмпирический индикатор, эмпирические объекты -- отдельные области России. Заметим, что наш эмпирический индикатор измерен по метрической шкале (шкала процентов). Значениями эмпирического индикатора является число голосов (в процента ), полученны господином X в каждой области.

Как социолог мог бы выстраивать логику анализа «феномена господина X на выборах»! Такая логика зависит от того, какой язык анализа выбран в качестве основного из обозначенны выше языков анализа. Рассмотрим коротко, каковыми могут быть рассуждения социолога при решении этой задачи, если в качестве основного языка анализа выбраны.

Язык типологического анализа данных

Типологический анализ применяется для поиска знания о реально существующих типах (формах, видах) изучаемого социального феномена [10, 14, 20]. Применительно к нашей задаче -- это поиск типов существования феномена господина X на выбора .

Прежде всего определяем, какова будет в нашем исследовании общая стратегия анализа: вос одящая или нис одящая. Но для этого необ одимо сформулировать основную цель нашего исследования. В свою очередь ее нельзя обозначить без основной гипотезы исследования. Такая гипотеза может звучать следующим образом. Существуют группы областей, однотипных в смысле «феномена господина X на выборах», и такие, которые можно интерпретировать как объекты социального управления. Например, в том смысле, что механизм воздействия на электоральное поведение одинаков в областях, отнесенных к одной и той же группе, к одному и тому же типу. Тогда цель нашего исследования -- проверка гипотезы о существовании именно таких типов областей. Но таких типов может и не быть, т. е. гипотеза может и не подтвердиться. Из этого, как вы понимаете, не следует, что мы получили плохой результат. Для социолога одинаково важен любой результат.

Обратите внимание, что в формулировку гипотезы заложен предполагаемый язык анализа -- язык типологического анализа. Что здесь первично - гипотеза или выбор языка анализа? Ответ на этот вопрос оставим пока открытым.

Если у нас есть какие-то априорные представления о существовании именно такого рода типов областей, то логика анализа выстраивалась бы по нисходящей стратегии. Тогда мы выделили бы группы однотипных областей по априорно заданным признакам. Эти признаки играют роль типообразующих признаков. Затем изучали бы характер распределения нашего эмпирического индикатора на каждой группе областей, а также его взаимосвязи с другими признаками. Последние также заранее заданы социологом и тоже играют роль типообразующих. Пока не представляется возможным описать всю процедуру типологического анализа. Ясно одно: в данном случае мы движемся от общего к частному -- по нис одящей стратегии.

Если же у нас нет никаки априорны представлений, то логика анализа выстраивается по восходящей стратегии. Тогда прежде всего изучаем характер распределения нашего эмпирического индикатора по всей совокупности областей. Для этого вычисляем размах, моду, медиану, среднее взвешенное, дисперсию, квартальный размах. Допустим, что мы получили следующие значения:

R1 = 20 -- разма , т. е. разница между максимальным (пусть оно равно 25%) и минимальным (пусть оно равно 5%) значениями эмпирического индикатора;

Мо1 = 10 -- первое модальное значение, т. е. наиболее часто встречаются области, где господин X получил примерно 10% голосов; Мо2 = 20 -- второе модальное значение;

Me = 15 -- медиана, т. е. в половине областей господин X получил более 15% голосов, а в половине менее 15% голосов;

R2 = 5,5 -- квартальный разма , т. е. разброс вокруг медианы, т.е.

ч = 16,5 -- взвешенное среднее арифметическое значение, т. е. в среднем по России господин X получил 16,5% голосов;

у = 7,7 -- среднеквадратическое отклонение, т. е. разброс вокруг среднего арифметического равен 7,7.

Следует отметить, что мы работаем с метрической шкалой. Поэтому при необходимости построения эмпирической кривой распределения необ одимо разбить на интервалы (равные или неравные) весь диапазон изменения значений (от 5 до 25) эмпирического индикатора.

Исходя из значений размаха, квартального размаха, среднеквадратического отклонения, видим, что совокупность областей неоднородна с точки зрения электорального поведения. Совершенно очевидно, что, как минимум, наблюдается четыре типологических синдрома. Первый обусловлен группой областей, отдавших за господина X минимальное число голосов. Второй -- группой областей, отдавши максимальное число голосов. При этом такие группы могут состоять из одной единственной области. Третий и четвертый синдромы -- группы областей, отдавши примерно 10% голосов и 20% голосов. Это еще не типы, а только кандидаты в типы, поэтому мы и пользуемся понятием «типологический синдром».

Нас ведь интересуют не просто группы областей, по ожие по числу, отданных господину X голосов. Нам интересны только такие группы, которые можно интерпретировать как объекты социального управления -- в том смысле, что ме анизм воздействия на электоральное поведение областей, отнесенны к однотипной группе, одинаков. Поэтому возникает вопрос перехода от как бы формальной группировки, проведенной по числу голосов за господина X, к содержательной типологии. А для этого необходима дополнительная информация о наших эмпирических объектах -- областя . Ответ на вопрос: какая нужна информация -- проистекает из поиска социологом ответа на другой вопрос. Чем еще, кроме доли голосов, похожи, близки области, отнесенные к одной и той же группе? Может, в них одинаковый процент населения с высшим образованием, а может, в них одинаковая доля сельского населения и т. д. Вполне возможен вариант, когда области похожи по тому, как в них организовывалась предвыборная кампания. Возможно и сочетание нескольких факторов и причин.

Для нас пока важно, что по восходящей стратегии ищутся типологические синдромы, а по нисходящей стратегии проверяются гипотезы о существовании типов. Языку типологического анализа посвящена следующая -- последняя часть книги.

Язык причинного анализа

Содержательный смысл языка причинного анализа обусловлен необходимостью поиска причинно-следственных отношений между социальными феноменами. При этом причина и следствие разделены во времени. Одна и та же причина может породить несколько следствий. Одно и то же следствие может проистекать из-за существования разны причин.

Применительно к той же задаче изучения «феномена господина X на выборах» мы можем рассуждать примерно таким образом. Мы наблюдаем следствие (число голосов, отданных господину X в каждой области), причины которого нам неизвестны и логика анализа которых нам пока неясна. Как и в случае типологического анализа, огромную роль при построении логики анализа играют априорные представления о причинно-следственных отношениях, гипотезы исследования. Но они уже сформулированы на другом языке -- языке причинного анализа.

...

Подобные документы

  • Подготовка эмпирических данных к обработке и анализу. Сущность и виды группировок, понятие рядов распределения. Графическое представление информации в анализе социологических данных. Структура и требования к отчету о социологическом исследовании.

    контрольная работа [320,8 K], добавлен 05.04.2011

  • Понятие социологического исследования. Подготовка эмпирических данных к обработке и анализу. Сущность и виды группировок. Таблицы и графики: их роль в анализе социологических данных. Структура отчета об исследовании. Основные требования к его составлению.

    контрольная работа [542,4 K], добавлен 10.11.2010

  • Отношение математики и социологии. Понятие эмпирических и математических систем. Примеры наблюдаемых и латентных переменных. Социологический опрос как инструмент сбора информации об объекте. Применение математических методов при измерении в социологии.

    эссе [75,8 K], добавлен 02.10.2014

  • Элементы индексного анализа. Социологический индекс – инструмент классификации, сравнения и измерения. Аналитические индексы в социометрическом исследовании. Индексы социального статуса. Индексы социальной экспансии. Групповые и персональные социоиндексы.

    доклад [43,2 K], добавлен 16.12.2008

  • Интервью - распространенный метод сбора информации в социологии. Сбор данных методом формализованного интервью называют анкетированием. Он подразумевает стремление к максимальной стандартизации и унификации процедур сбора данных, их обработки и анализа.

    контрольная работа [13,3 K], добавлен 29.12.2008

  • Тесты в социологическом исследовании, шкалирование при сборе и анализе социологической информации. Проблема качества социологического измерения, надежность и валидность измерения. Конструирование индексов и шкал, метод построения гутмановской шкалы.

    курсовая работа [58,8 K], добавлен 15.02.2011

  • Специфические черты визуальной социологии, история ее зарождения. Фотография как инструмент исследования в социологии. Определение базовых характеристик метода символического анализа фотографии и опыт его применения в социологических исследованиях.

    реферат [22,0 K], добавлен 20.04.2012

  • Понятие и этапы проведения социологического исследования, требования к нему. Исследование и оценка влияния индустрии fashion на студентов ВГУ. Определение исследуемой совокупности. Обоснование метода сбора эмпирических данных. Этапы анализа информации.

    курсовая работа [56,6 K], добавлен 08.01.2013

  • Анализ марксистской школы в социологии. Классический этап развития социологии, основные научные концепции и теоретические основы изучения социальных явлений. Методология К. Маркса при анализе проблем общественного труда, теория социального конфликта.

    контрольная работа [30,5 K], добавлен 03.04.2012

  • Обзор методов проведения эмпирических исследований социально-экономических и политических процессов. Особенности анализа документов как метода проведения социологических исследований. Специфика методики массового опроса, эксперимента и наблюдения.

    курсовая работа [78,7 K], добавлен 31.01.2014

  • Основные виды социологических исследований: теоретические (разведывательные, описательные, аналитические) и эмпирические (международные, общенациональные, региональные, локальные, отраслевые). Обработка результатов и анализ эмпирических данных социологии.

    контрольная работа [32,3 K], добавлен 02.08.2011

  • Общие принципы измерения в социологии. Использование математических методов сбора и обработки первичной социальной информации для измерения социального неравенства. Концепции прожиточного минимума и относительной бедности. Методы измерения бедности.

    курсовая работа [181,1 K], добавлен 25.01.2016

  • Методологические проблемы социологических исследований. Функции социологии. Разработка программы социологического исследования. Обобщение и анализ данных, полученных в процессе его проведения. Описание и применение разных методов и методик в социологии.

    учебное пособие [339,5 K], добавлен 14.05.2012

  • Понятие социологии как прикладной науки, основные проблемы современной социологии, анализ предмета. Характеристика основных задач социологии, рассмотрение методов объяснения социальной действительности. Функции и роль социологии в преобразовании общества.

    контрольная работа [137,6 K], добавлен 27.05.2012

  • Сущность, значение и методика социологического исследования. Развитие эмпирических исследований, обогащающих теорию и позволяющих разрабатывать механизмы регулирования социальных процессов. Обработка и анализ результатов социологического исследования.

    курсовая работа [30,3 K], добавлен 18.12.2009

  • Общая характеристика основных понятий социологии; изложение основ науки. Рассмотрение структуры социологического знания о системе и развитии общества. Выявление классификации данных знаний. Определение структуры и программы проведения исследования.

    реферат [27,7 K], добавлен 06.11.2014

  • Причины применения информационные технологии в социологических исследованиях. Телефонизация как инструмент социологии. Технология проведения опросов в Интернет-форумах, SMS-опросы, вопросник на компьютере. Инструменты для компьютерной обработки данных.

    презентация [2,8 M], добавлен 15.05.2019

  • Особенности изучения общественного мнения блогосферы методом контент-анализа. Специфика социологических методов сетевых сообществ. Методики измерения отчуждения в современной социологии. Психиатрическая изоляция как практика социального отлучения.

    контрольная работа [23,5 K], добавлен 16.11.2009

  • Причины возникновения социологии. Сформированные идеологии индивидуализма. Объект социологии, ее структура и функции. Характеристика ее предметной зоны. Информация об обществе как разновидность социальной реальности. Развитие мировой социологии.

    контрольная работа [15,0 K], добавлен 13.04.2009

  • Предмет, объект, функции и методы социологии, виды и структура социологического знания. Объекты и сущность предмета экономической социологии. Социологическое понимание экономической сферы социальной жизни. Уровни и роль развития экономической социологии.

    реферат [23,3 K], добавлен 14.11.2010

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.