Методология анализа данных в социологии
Структура эмпирических данных в социологии. Измерение - составная часть анализа. Кодирование - процедура измерения. Индексы при сборе и анализе данных. Восходящая и нисходящая стратегия анализа данных. Специфические приемы измерения социальной установки.
Рубрика | Социология и обществознание |
Вид | учебное пособие |
Язык | русский |
Дата добавления | 29.09.2014 |
Размер файла | 789,5 K |
Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже
Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.
25
15
100
Накопленная частота
2,7
7.7
15,2
25,2
30
40
60
85
100
На рис. 3.2.4 изображены гистограмма и кумулята по продолжительности затрат времени на учебу (интервалы равные, их девять). Кумулята -- это всегда возрастающая кривая. Пока на пунктирные линии не обращайте внимания.
Графическое изображение распределений в виде эмпирических кривых распределения (полигоны и кумуляты) нужны социологу в зависимости от типа шкал для разны целей. Для номинальной шкалы мы можем упорядочить (провести ранжирование) различные профессиональные группы по их представительности (объему) в наших данных и соответственно выделить модальные (самые большие по объему) группы. Для порядковой шкалы, кроме этого, определяется и степень единодушия студентов в оценке своей удовлетворенности учебой. Вспоминаем шкалу Терстоуна, для Построения которой посредством медианы и квартального размаха оценивалась степень единодушия экспертов. Самую важную роль играют эмпирические кривые распределения для метрических признаков. Но эта роль связана не с первичным анализом и не с изучением поведения эмпирическииндикаторов, а с анализом поведения показателей/коэффициентов/ индексов.
Рис. -?.24Кумулята по продолжительности затрат времен» на учебу
При статистическом подходе к анализу распределений каждый такой показатель теоретически может иметь закон распределения с определенными параметрами и по эмпирической кривой распределения можно судить о том, каков этот закон. Знание законов дает возможность применения к анализу эмпирии всего богатства средств, накопленных в математической статистике. Законов очень много, и отсюда названия: нормальный закон распределения (рис. 3.2.5), логарифмический закон распределения (рис. 3.2.6), линейный закон распределения (рис. 3.2.7) и т.д. Законы вы проходили и в школе. Уравнение прямой, параболы, гиперболы интерпретируются как математические законы, связывающие две величины X и Y. Некоторые законы нельзя записать в явном виде, т. е. в виде математической формулы.
Что касается самого факта существования закона распределения какого-то показателя, то это требует доказательства. Например, в виде проверки статистических гипотез. Эту тему относим к последующим этапам в вашем образовании.
Перейдем к рассмотрению характеристик, описывающих (отсюда название дескриптивная статистика) «поведение» признака в целом, в виде некоторой эмпирической тенденции. Потому они и называются мерами центральной тенденции.
Рис. 3.15Рис. 3.2.6Рис. 3.2.7
Мода
Наиболее часто встречающееся значение признака называется модой. Таки значений может быть и несколько. В нашем случае третья профессия является модальной. Социолог никогда не работает с одной единственной модой, а употребляет понятие «модальные значения». Для нашего примера профессии 3 и 8 являются модальными. Аналогична ситуация в случае порядковых шкал. Мода равна 2 (наиболее часто встречаются студенты, степень удовлетворенности учебой которых равен двум). В качестве модальных значений имеет смысл рассматривать все же два значения, 2 и 4, т. е. наиболее распространены две группы по степени удовлетворенности. И это несмотря на то, что по объему они различны. Однако по сравнению с другими группами они достаточно большие. Можно считать, что наличие таких модальных групп специфично, характерно, типично для изучаемой совокупности студентов-гуманитариев. Это самая простая эмпирическая закономерность.
На ождение модального значения в случае метрической шкалы невозможно по рис. 3.2.3, ибо ширина интервалов различна и это модальное значение может находиться в любом интервале. Поэтому прежде всего возникает задача определения модального интервала -- интервала, содержащего моду. Для этого необ одимо перейти от деления на интервалы, основанного на содержательны критерия , к делению на интервалы по формальным критериям. При этом интервалы должны иметь равную длину и их число должно зависеть от степени изменчивости признака. Чем больше степень изменчивости, тем больше нужно интервалов для определения модального. На рис. 3.2.8 приведена гистограмма, построенная для случая деления «продолжительности» на девять равных интервалов. Абсолютные частоты в этих интервалах были приведены выше в таблице 3.2.1. Плотность в каждом интервале пропорциональна этим абсолютным частотам. Ширина интервала равна 1. Эмпирическая кривая распределения в этом случае называется эмпирической функцией распределения плотности.
Существует математическая формула для вычисления моды, но мы приведем лишь геометрический способ нахождения моды в модальном интервале. Модальным интервалом является интервал в 7--8 часов. Значение моды вычисляется геометрически (пересечение пунктирных линий на рис. 3.2.8) и примерно равно 7,3 часа (см. стрелочку на том же рисунке). Является логичным, что мода должна находиться ближе к тому концу модального интервала, который примыкает к интервалу с большим числом объектов. Возникает вопрос, как подсчитать значение моды, если модальный интервал первый или последний по счету. Тогда за моду принимается середина эти интервалов.
Модальные значения определенным образом говорят о арактере поведения признака и в основном о числе «горбов». Например, вспоминаем задачу ранжирования по предпочтениям различных сортов пива. С какими ситуациями мы сталкивались? С достаточным единодушием (один горбик, одна мода), с двумя противоположными тенденциями (два горбика, две моды) и с полным разнообразием (практически равномерное распределение -- моды нет). Чтобы как-то продвинуться в анализе предпочтений, мы использовали еще одну характеристику -- медиану, к рассмотрению которой и переходим.
Медиана
Эта мера центральной тенденции, или характеристика распределения, имеет смысл только для порядковы и метрически шкал. С медианой мы сталкивались при построении шкалы Терстоуна и опять же в процедуре ранжирования. В общем случае медиана -- значение признака, соответствующее середине упорядоченного ряда. Например, пусть у нас есть данные по каждой области -- доли голосов в %, отданных избирателями на выборах господину Икс. Тогда значение медианы, равное 15%, интерпретируется следующим образом. В половине областей отдано за господина Икс больше 15% голосов, а в половине -- меньше 15%. Не правда ли, это очень важная характеристика для интерпретации результатов выборов?
Для вычисления медианы в этом случае мы должны были упорядочить все области в порядке возрастания или убывания числа голосов. Если число областей нечетное, то в середине ряда -- одна единственная область. Медиана тогда равна числу голосов, отданных господину Икс в этой области. Если число областей четное, то середину ряда составляют две области и медиана вычисляется как среднее значение по этим двум областям.
В случае нашего примера метрической шкалы -- продолжительность затрат времени на учебу -- медиана может быть вычислена таким же образом. Для этого проведем упорядочение студентов по возрастанию/убыванию этих затрат и найдем середину аналогичным образом. Медиану можно вычислить и по кумуляте (см. шкалу Терстроуна).
Для порядковы и метрически шкал необ одимым является понятие медианного интервала, т.е. интервала содержащего медиану. Как правило, вы не любите формулы, поэтому приведем вербальное описание формулы для вычисления медианы в медианном интервале. Это делается по двум соображениям. Первое -- показать, что математическая формула всегда отражает содержание. Второе -- математической формулой иногда пользоваться удобнее для избежания очень длинны описаний. Итак, медиана в медианном интервале вычисляется по формуле:
нижняя |
ширина |
полотна \ |
частота \ |
частота» \ |
|||||
гранит |
+ |
мешанного |
от числа 1 |
накопленная |
медианном |
||||
ыедаакнсгс |
интервала |
X |
объектов j |
до |
интервале |
||||
интервала |
медаяшого интервала |
||||||||
1 |
й |
й / |
й 1 |
\ / |
|||||
(И |
L (п/2) |
(Р) - |
(Р) |
Эту формулу можно записать очень просто с использованием обозначений, приведенны внизу:
Me = x +1-
P
Чем выше уровень измерения, тем богаче возможности описания «поведения» признака. Если признак измерен по метрической шкале, то кроме моды и медианы для описания поведения признака используется известная всем мера центральной тенденции -- средняя арифметическая.
Среднее арифметическое
Для любой совокупности значений признака это сумма всех значений, деленная на и число. Вернемся к примеру признака -- продолжительность затрат времени на учебу. Обозначим число студентов-гуманитариев через n (для нашего случая n=1000), а через X -- значение этой продолжительности для i-го студента. Тогда средняя арифметическая продолжительности будет равна:
n i=1
Таким образом можно определить среднею продолжительность затрат времени на учебу в группа студентов с любой «будущей профессией», с любой степенью удовлетворенности учебой и т. д.
Социолог часто встречается с ситуацией, когда конкретные значения признака по отдельным объектам неизвестны. Исходно имеются только интервалы изменения признака и частота (абсолютная или относительная) встречаемости объектов в этих интервалах. Например, та же продолжительность может быть задана в виде интервалов и частоты в них. Это может быть в двух случаях. Первый -- данные о продолжительности получены c помощью прямого вопроса анкеты: «Сколько времени Вы в среднем в неделю тратите на занятия, связанные с учебой?». При этом предлагаются заданные заранее интервалы. По сути, мы имеем дело с порядковой шкалой. В этом случае также можно вычислить среднее значение продолжительности для некоторой группы студентов. Только она называется средняя взвешенная и вычисляется несколько по-другому.
Второй случай, когда у социолога отсутствуют конкретные значения по каждому объекту в ситуации вторичного анализа. Вторичным анализом социолог называет анализ «чужи » данны для решения свои собственны , новы задач. Тогда часто при одится работать уже с вычисленными до него средними арифметическими. Например, результаты исследования бюджетов времени обычно публикуются в виде средних затрат времени с указанием объема группы, для которой они получены. В процессе вторичного анализа возникает необходимость объединения каких-то групп и, соответственно, в подсчете общей средней. В этой ситуации также необходима средняя взвешенная для вычисления «средней средних».
Вычислим среднюю продолжительность затрат времени на учебу студентами-гуманитариями по данным таблицы 3.1.3. Для этого предполагается, что продолжительность для каждого респондента, отнесенного к интервалу, равна середине интервала. Для наши шести интервалов их середины соответственно равны:
Х1 = 0,5; X2 = 1,75; X3 = 3,25; X4 = 5,5; X5 = 7,5; X6 = 8,5.
Нам известно число студентов в каждом интервале: щ = 27; n2 = 75; n3 = 150; n4 = 348; n5 = 250; n6 = 150. Тогда продолжительность затрат времени на учебу в среднем на студента или средняя взвешенная продолжительность равна:
X = (0,5х27+1,75х75+3,25х150+5,5х348+7,5х250Н-8,5х150)/1000=5,7 Формула для вычисления средней взвешенной выглядит для k интервалов следующим образом:
k
Ў--njxj
Ў nj
j=1
где Xj -- середина j-го интервала.
Аналогично вычисляется «средняя средних». Допустим, перед социологом стоит задача вычисления средней продолжительности жизни мужчин в России по данным отдельных областей. Эти данные представляют собой среднюю продолжительность жизни мужчин по каждой области. Естественно, «среднюю средних» вычисляем с весами, равными численности мужчин в каждой области.
Все рассмотренные характеристики: мода, медиана, средняя арифметическая, среднее взвешенное -- являются средними. Они характеризуют центральные тенденции одномерного распределения. Есть и другие средние, но они в социологии применяются редко. Поэтому среднюю арифметическую называют просто средней, а мода и медиана сохраняют свои названия. Без процедуры усреднения социолог-эмпирик существовать не может. Другое дело, с помощью каких средних он проводит эту процедуру.
Сами по себе значения «средни » мало о чем говорят, если социолог не видит эмпирическую кривую распределения, например, на экране компьютера. В ситуации «невидения» ему помогают интерпретировать любые средние так называемые меры вариации, меры рассеяния объектов вокруг этих средних. Сначала мы рассмотрим меру вариации для случая метрической шкалы, а затем для порядковой и номинальной.
Прежде чем перейти к этой проблеме, заметим, что любая средняя характеризует центральную тенденцию распределения только тогда, когда объекты в основном сосредоточены вокруг этих средних, т.е. изучаемая совокупность объектов однородна относительно признака. Однородность -- это очень важное понятие для всех, кто работает с эмпирией. Социолог сталкивается с проблемой однородности в разных контекстах. Как раз вот здесь пара понятий «качество -- количество» очень важна. Разделение понятий качественная однородность и количественная однородность имеет огромный смысл. Например, разве есть смысл в среднем доходе или в среднем возрасте россиянина? Конечно же, нет. И в то же время есть смысл в средней заработной плате сельских врачей или в среднем возрасте мужчин-пенсионеров. Необходима качественная однородность для того, чтобы начать анализ количественных характеристик распределения признака.
Сами количественные характеристики могут указывать/показывать на отсутствие количественной однородности по анализируемому признаку. Это в свою очередь будет говорить о наличии качественной неоднородности.
Дисперсия
Рассмотрим меру вариации/рассеяния/разброса/изменчивости для метрической шкалы. По эмпирической кривой распределения или гистограмме на рис. 3.2.3 видим, что совокупность студентов неоднородна по продолжительности затрат времени на учебу. С одной стороны, очевидно, что средняя продолжительность учебы как характеристика имеет смысл, поскольку вполне правомерно сравнение средней продолжительности учебы для выделенны нами групп студентов: социологов, политологов, культурологов и т. д. С другой стороны, в ситуации неоднородности такое сравнение содержательно ни о чем не говорит.
Какова может быть мера неоднородности/однородности по продолжительности? Об этом можно судить по степени отклонения продолжительности затрат времени на учебу отдельного студента от средней продолжительности, которая в нашем случае равна 5,7 (в часах).
Индивидуальные отклонения (Xi - X) нельзя просто суммировать, чтобы
судить об общем отклонении. Отклонения в одну сторону будут погашаться отклонениями в другую. Чтобы этого не было, индивидуальные отклонения возводятся в квадрат, а затем складываются. Эта сумма делится на число респондентов, и получается характеристика, называемая дисперсией (у2). Это мера вариации значений признака в среднем и вокруг средней арифметической.
Ў (X, - X)
у= n
Следует заметить, что при небольшом числе объектов делить нужно не на n, а на (n --1). Для социолога это не принципиально, так как он работает обычно с достаточно большим числом объектов.
Корень квадратный из дисперсии называется среднеквадратическим отклонением (у -- сигма). По ней можно сравнивать меры рассеяния разных признаков, одного признака для различных совокупностей. Прямое сравнение дисперсий, среднеквадратически отклонений мало что дает. Рассмотрим пример из нашего исследования. Вычислим среднее арифметическое и среднеквадратическое отклонение продолжительности затрат времени на учебу для нескольки групп студентов. Допустим, что для социологов ( X = б, у = 4), психологов (X = 5,4, у =3,5), политологов (X =
4,5, у = 3,5), историков (X = 6, у = 2). Какие выводы можно сделать по этим данным?
Социологи и историки затрачивают на учебу в среднем одинаковое время, но совокупность социологов менее однородна, потому что среднеквадратическое отклонение больше. Пси ологи затрачивают на учебу в среднем больше времени, чем политологи, и они более однородны, чем группа политологов. Дисперсия одинакова в этих группах, относительно разных по значению средних. Когда средние и дисперсии в сравниваемых группах различны, на помощь приходит коэффициент вариации.
Коэффициент вариации
Этот коэффициент при наших обозначениях равен V = = * 100
Он представляет собой долю вариации в процентах (%), приходящуюся на единицу средней. В нашем случае соответственно четырем группам: V1 = 66,7% (для социологов), V2 = 64,8% (для психологов), V3 = 77,8% (для политологов), V4 = 33,3% (для историков). Таким образом, группа историков более однородна по продолжительности затрат времени на учебу, чем все остальные группы. Самая неоднородная группа -- политологи. Это означает, что среди них оказались и очень много, и очень мало занимающиеся.
Среднее арифметическое и дисперсия интерпретируются всегда вместе. Например, существует так называемое правило «трех сигм», очень важное при работе с эмпирией. Оно означает, что если все значения признака находятся в интервале от -3у до +3у, то считается, что закон распределения признака нормальный, т. е., как минимум, эмпирическая кривая имеет унимодальный характер (одна мода, один горб). На рис. 3.2.5 изображен идеальный нормальный закон распределения. Запомните его, ибо математический аппарат для анализа нормальных распределений очень богат. Для идеально нормального распределения мода, медиана и среднее арифметическое равны.
Если для анализа распределений использовать «язык» статистического анализа, то сами рассмотренные характеристики,
например X, являются величинами, имеющими свой собственный закон распределения. Представим себе, что каждый из вас для одного и того же исследования сформировал выборочную совокупность. Пусть у каждого будет самая из самых «хорошая» (репрезентативная) выборка. Если подсчитать, к примеру, средний возраст опрошенных по этим выборкам, то значения будут различны. Среднее этих значений и будет истинным значением среднего возраста в генеральной совокупности. Аналогичны рассуждения и в случае средней продолжительности затрат времени на учебу.
Отклонение средни от «истинной средней» будет носить случайный арактер. Оказывается, эту случайность можно оценить. На этом основан подсчет так называемых доверительных интервалов, т. е. интервалов, в которых находится истинное (для генеральной совокупности) значение признака. Но это только для тех величин (характеристик), для которых известен закон распределения. Они называются статистиками. Среднее арифметическое и является статистикой с нормальным законом распределения. Для нее легко определяется доверительный интервал.
Другие меры вариации
Рассмотрим меру вариации, меру отклонения, меру рассеяния значений признака вокруг медианы. Такой мерой является квартил ный размах, с которым мы встречались при построении шкалы Л. Терстоуна. Вспомним, что содержательно это интервал, в котором вокруг медианы сосредоточилось 50% экспертов. Это единственная мера вариации для порядковых шкал. На рис. 3.2.4 три пунктирные линии проведены для определения медианы и соответствующего ей квартильного размаха {он равен (Q3 - Q1)/2 }. Без сравнительного контекста трудно сказать, мало это или много. Для социолога познавательная возможность любого математического конструкта, а это пока простейшие формулы на уровне обыденного понимания, определяются только в сравнительном контексте, т. е. при сравнении значений, полученных в разных условиях.
Перейдем к самым трудным для понимания мерам -- мерам качественной вариации, т. е. мерам вариации для признаков, измеренны по номинальным шкалам. Самое главное, что любая такая мера характеризует степень отклонения распределения признака от равномерного, т. е. когда каждой градации признака соответствует одно и то же число объектов. Максимальное значение меры обычно соответствует ситуации равномерного распределения, а минимальное -- ситуации, когда все объекты сосредоточены в одной градации.
Как мы знаем, любой номинальный признак сводится к совокупности бинарны , ди отомически , т. е. принимающи значения 0 или 1. В этом случае столбец нашей исходной матрицы данных «объект-признак», соответствующий одному признаку, превращается как бы в несколько столбцов, каждый из которых соответствует отдельному свойству (быть социологом, быть политологом и т. д.). Анализировать мы должны теперь поведение «свойства», а не признака. По всем объектам это совокупность из нулей и единиц.
0000 1 1 1 1 1 1 ...00 1 1 1
Предположим, что этот ряд получен по свойству -- быть в будущем социологом. Если i-й студент -- социолог, то ему соответствует хi=1 , а если он не социолог, то хi = 0. Оказывается, для такого вида данных имеет смысл среднее арифметическое. Она равна X = k/n, где k -- число будущих социологов, a n -- число всех студентов-гуманитариев.
Почему имеет смысл средняя арифметическая для ди отомической
шкалы? Потому что она содержательно интерпретируется. Если X = 0, то это означает, что все студенты-гуманитарии в нашей выборке не социологи. Если X = 1, то все студенты -- социологи. Если X = 0,5, то половина студентов X будущие социологи, а половина -- не социологи. Продолжая наши рассуждения, можно сделать вывод и для случаев,_когда 0 < X < 0,5 и 0,5 < X < 1. Первый из них означает, что в совокупности меньше 50% студентов социологи. Второй -- в совокупности больше 50% социологов.
Таким образом, как это ни парадоксально, можно вычислять среднее арифметическое по признаку «пол». Только важно правильно интерпретировать полученный результат, исходя из того, каким образом закодирован этот признак. Разумеется, социологу нет никакого смысла в использовании такого рода средней, отражающей «центральную тенденцию». Он прекрасно работает с относительными частотами в %. Приведенная средняя интересна не для целей первичного анализа, а для анализа с применением сложных математических методов. К примеру, для такой средней можно подсчитать дисперсию. Если для дихотомических признаков имеет смысл использование характеристик метрической шкалы, значит, возможно использование и математических методов, работающих с метрическими данными. Дисперсия в данном случае равна:
Эта дисперсия и является мерой вариации для бинарного (дихотомического) признака. При этом она равна нулю, если все объекты либо обладают, либо не обладают анализируемым свойством. Что естественно, так как в эти случая разброса в данны не наблюдается. Максимальное значение этой дисперсии достигается в случае равномерного распределения (k = n/2), и оно равно 1/4. При этом 1 = 1/2, у = 1/2, V=100%.
Напомню вам одно правило из школьной арифметики. Если есть два целых числа, то среднее геометрическое этих чисел всегда меньше или равно среднему арифметическому. Равенство достигается, когда числа равны.
4ab <(а + b)/2
Этим соотношением и воспользуемся для введения коэффициента качественной вариации. Вначале предположим, что номинальный признак имеет только две градации, причем в первую градацию попало Ni объектов, а во вторую --N2 объектов {число всех объектов равно n = Ni + N2,). И если теперь в соотношение между средней арифметической и средней геометрической подставить
а = N2; b = N22, т получим N1 · N2 < (n12 + N22 )/2
Максимальное значение N, · N2 будет только в случае N1 = N2 , и оно будет равно з2 / 4. А это ведь случай равномерного распределения. Коэффициентом качественной вариации и будет отношение реального значения произведения ( N, * N2) к максимальному его значению, равному з / 4 .
Коэффициент равен нулю, если все объекты в одной градации, и единице, если распределение равномерное. Коэффициент легко обобщается на случай, когда число градаций равно k. Представим себе, что из всей
совокупности объектов мы образовали всевозможные пары. Вспомним метод парных сравнений Терстоуна и вычисление числа всевозможных пар для сравнения объектов. Здесь ситуация аналогичная. Пары не повторяются, объект сам с собой пару не образует. В случае двух градаций произведение (N1 · N2) есть не что иное, как число пар, различных между собой.
Если градаций три и по ним частоты равны (N1, N2, N3), то число различных пар будет равно (N1-N2 + N1-N3 + N2-N3). Число членов в этой сумме вычисляется как число парных сочетаний из трех элементов по два. Вспоминаем, что это число равно k(k-1)/2, когда число элементов равно k.
Тогда коэффициент вариации вычисляется как отношение:
€ реального числа различных пар, равного (N1-N2 + N1-N3 + N2-N3);
€ к максимальному (случай равномерного распределения), равному {(n2 / 9)(3 · 2 / 2)}. В первых круглых скобках -- то, во что превращается каждый член суммы, а во вторых -- число членов в этой сумме.
В общем случае для k градаций реальное число пар равно
Ўk-1 kЎГ 2 21
ЎЎ--Ў NiNj ? а максимальное - {(n /k )(k(k -1)/2)}. Таким образом,
Ў i =1 j=2Ў
формула для вычисления коэффициента качественной вариации приведена по частям, т. е. отдельно числитель (реальное) и отдельно знаменатель (максимальное).
Коэффициентом вариации (R) может служить и величина, равная среднему геометрическому из относительных частот в долях (частости) умноженному на число градаций, т. е.
Для вычисления этой величины необходимо избавиться от пустых градаций, иначе она обратится в нуль. R=1 при равномерном распределении.
Приведем еще один пример вычисления меры качественной вариации. В качестве такой меры служит энтропия, о которой мы упоминали в контексте «языка» анализа распределений, опирающегося на информационный подход. Энтропия -- это основное понятие так называемой теории информации. Распределение признака интерпретируется как некое сообщение, несущее определенный объем информации. Этот объемможнооценитьэнтропиейкакмерой
«определенности»/«неопределенности». Ее трудно объяснить и трудно понять без знания логарифмов и логарифмических законов распределения. Более того, замечательные свойства этой меры могут быть оценены только при многомерном анализе. Пока вам придется просто этому поверить. Итак, энтропия Н(х) при числе градаций равном k и при обозначении i-й частости (доли) через р; равна:
k
H(x) = -Ў Pi 1og р{
i=1
Логарифм может быть взят по любому основанию, ибо нетрудно перейти от одного основания к другому. Напомним, что есть натуральный логарифм (по основанию «е»), десятичный (по основанию «10»), двоичный (по основанию «2»).
Энтропия -- положительная величина, несмотря на то, что перед суммой стоит минус. Он погашается другим минусом, появляющимся за счет того, что логарифм берется от правильной дроби (это вам известно из школьной математики). Значение энтропии равно нулю, если все объекты сосредоточены в одной градации (но чтобы это показать, нужны знания о «пределах» -- lim). В самом деле, тогда мера неопределенности минимальная. Энтропия равна log k, если распределение равномерное, т. е. в этом случае максимальная неопределенность. Чтобы значение меры не зависело от числа градаций, можно использовать в качестве меры качественной вариации нормированную величину энтропии.
Термин нормировка будет дальше встречаться часто. Это процедура преобразования некоторой величины в необходимый для исследователя вид. Она нужна для того, чтобы какие-то показатели/коэффициенты/ индексы изменялись либо от 0 до 1, либо от -1 до +1. Тогда делается возможным сравнение их значений, полученных при разных условиях, например, для различных совокупностей объектов.
На практике пользуются в сравнительном контексте только одной мерой качественной вариации, ибо каждая мера отражает свое собственное понимание вариации. Потому значения, полученные по разным мерам, не имеет смысла сравнивать.
Анализ «поведения» динамических рядов
Коротко остановимся на анализе динамических рядов. Эмпирическая кривая распределения в этом случае строится по конкретным значениям признака. На рис. 3.2.9 изображен динамический ряд -- изменение коэффициента рождаемости за сто лет в некоторой стране X. По горизонтали обозначены 10 точек, каждая из которых соответствует пятилетнему интервалу. По вертикали отложены значения коэффициента рождаемости в среднем за соответствующую пятилетку. Пример модельный. Мы не знаем, какая это страна и какое это столетие.
1,5
2,5
0.5
О
Все рассмотренные выше меры центральной тенденции могут использоваться и для анализа временны рядов. Если изменения значения признака наблюдаются (как в нашем случае), то основным вопросом при анализе временных рядов является его «выравнивание» и определение «тренда», т. е. кривой, характеризующей общую тенденцию изменения признака, т. е. закон поведения коэффициента рождаемости. Другими словами, появляется необходимость в описании эмпирической кривой с помощью математической функции или определение теоретического закона распределения, максимально приближенного к эмпирической кривой. Только после определения тренда можно предсказать значение признака в следующих временных точках. Кстати сказать, найти закон не всегда удается. Тогда анализ проводится по отдельным частям эмпирической кривой распределения.
Если на эмпирической кривой распределения наблюдаются цикличности, то выравнивание заменяется сглаживанием «скользящей средней» из значений, число которых охватывает цикл. Можно изучать и «лаги». «Лаг» -- показатель опережения или отставания одного явления (в нашем случае коэффициента рождаемости) от другого. Например, от мероприятий, принятых для повышения рождаемости.
Существует целая область науки, которая занимается проблемами анализа динамических рядов. В социологии такие ряды встречаются при работе с первым из пяти выделенных нами типов информации, а именно с государственной статистикой. В основном с временными рядами работают специалисты в области анализа социальны систем и социальной демографии.
Задание на семинар или для самостоятельного выполнения
Задание выполняется индивидуально и состоит из следующих этапов:
По данным первых двух таблиц, полученных каждым студентом в рамках предыдущего задания, необходимо построить гистограммы. Убедиться в том, что гистограммы построенные для признака по абсолютным частотам, долям и процентам, будут совпадать при выборе определенного масштаба.
Подсчитать для третьего признака плотность в каждом интервале. Построить гистограмму по плотности.
3.Изобразить на гистограммах эмпирическую кривую распределения.
Построить по накопленной частоте гистограмму для порядковой шкалы и изобразить кумуляту и геометрически определить медиану в медианном интервале. Геометрически определить квартальный размах.
Разбить метрическую шкалу на равные интервалы (порядка 15-ти интервалов). Вычислить плотность в каждом интервале и построить, гистограмму. Обозначить модальный интервал и в нем геометрически определить значение моды.
6.Подсчитать по метрической шкале среднее арифметическое значение и среднее взвешенное по распределению. Сравнить и значения.
Вычислить дисперсию и среднеквадратическое отклонение третьего признака для групп, выделенных при разных значениях первого признака.
Сравнить степень однородности этих групп (п. 7) по значениям коэффициента вариации.
Подсчитать энтропию первого признака для двух групп, выбранных по различным значениям второго признака.
10.Вычислить для этих же групп (п. 9) значение коэффициента качественной вариации. Провести сравнительный анализ.
3.3 Анализ взаимосвязи признаков
Условное распределение. Совместное «поведение» двух признаков. Таблица сопряженности. Показатели таблицы сопряженности. Маргинальные частоты. Сравнение структуры условных распределений. Типы задач, решаемых посредством таблиц сопряженности. Типологический синдром. Типологическая группа. Зависимый -- независимый признаки. Направленная -- ненаправленная связь. Статистическая зависимость -- статистическая независимость. Сильная -- слабая связь. Меры связи. Функциональная -- корреляционная связь. Линейная -- нелинейная связь. Локальные -- глобальные меры связи. Непосредственная --опосредованная связь. Истинное--ложное значения меры связи.
Независимо от выбранной стратегии анализа (восходящей или нисходящей) и после изучения, условно говоря, «поведения» отдельно взятых признаков, естественным образом возникает необходимость анализа взаимосвязи, взаимодействия между признаками. Будем рассматривать только случай двух признаков. Анализ «поведения» двух признаков -- совместного или относительно друг друга -- социологу необходим для поиска ответа на вопросы типа: существует ли связь между этими признаками; влияет ли один признак на другой; можно ли, зная значение одного из ни , сделать вывод относительно значения другого и т. д. Если гипотезы о взаимосвязя были предварительно сформулированы, то речь может пойти по проверке эти гипотез.
Является очевидным, что поиск ответов на подобные вопросы может осуществляться с помощью условных распределений. В самом простом случае сравниваются одномерные распределения одного из признаков, полученные для разных совокупностей объектов, на которых второй из признаков принимает одно из своих значений. Возможно также изучать и как бы совместное «поведение» этих признаков.
В качестве исходных для анализа признаков рассмотрим признаки «будущая профессия студента» и «степень удовлетворенности студента учебой». Одномерные распределения эти признаков нам уже известны. Мы будем иметь представление о совместном «поведении» или поведении эти признаков относительно друг друга, если получим так называемую таблицу сопряженности (корреляционную таблицу). Таковой является таблица 3.3.1. Строки в ней соответствуют шести будущим профессиям (политологи, социологи, культурологи, филологи, психологи и историки), пронумерованным по порядку (они соответствуют профессиональным группам 1, 2, 3, 4, 7, 8 из таблицы 3.2.1), а столбцы -- пяти степеням удовлетворенности учебой. Пересечения столбцов и строк образуют ячейки (клетки) таблицы. В нашем случае число таких ячеек равно 6 x 5 = 30. В ячейках таблицы могут содержаться значения различных показателей. Это
--арактеристики группы студентов, отнесенны к ячейке, т. е. студентов с определенной будущей профессией, имеющи определенную степень удовлетворенности учебой.
В последней строке представлено распределение (одномерное, простое) студентов по степени их удовлетворенности учебой (частоты обозначены как n0j), а в последнем столбце -- распределение студентов по их будущим профессиям (n,0). Для этих частот в контексте анализа таблиц сопряженности есть особое название. Эти частоты называют маргинальными частотами, и для их обозначения используется, как видите, двойной индекс. В последней строке -- маргинальные частоты по столбцам, а в последнем столбце -- маргинальные частоты по строкам. Естественно, они совпадают с данными таблиц 3.2.1 и 3.2.2. Сумма маргинальных частот обозначена (поо) и равна 1000, т. е. равна числу наших студентов -гу манитариев.
Любая ячейка таблицы, соответствующая группе объектов, удовлетворяющих условию строки и столбца, может содержать четыре показателя, характеризующих эту группу. К примеру, ячейка (1,2) соответствует 20-ти политологам со второй степенью удовлетворенности учебой (скорее неудовлетворен, чем удовлетворен). Точнее, тем, кто ответил на оба заданны вопроса. Как мы уже знаем, число ответивши может не совпадать с числом опрошенных. Чтобы не было путаницы, будем считать, что таблица сопряженности получена для некоторой идеальной подвыборки (в нашем случае каждый студент ответил на каждый вопрос). Для обозначения ее объема будем пользоваться понятием -- общее число объектов.
Таблица 3.3.1
Будущая |
Степени удовлетворенности учебой |
||||||
профессия |
1 |
2 |
3 |
4 |
5 |
||
студента |
|||||||
1. Политолог |
п13=20 |
ntJ»31 |
П14=30 |
п„=100 |
|||
2. Социолог |
з,,-М |
зї=40 |
п3,=60 |
п,4=60 |
пи = 10 |
Па>=200 |
|
3. Культуролог |
nJ(=90 |
п„=90 |
п33=60 |
т>м=45 |
яи=300 |
||
4. Филолог |
nJ(=3l |
пЧ1=30 |
ч«-» |
nJ4=15 |
|||
5. Психолог |
аи-15 |
п„=15 |
п„=2 |
nw=50 |
|||
6. Историк |
Не-1Ю |
1^=85 |
г^-13 |
||||
% |
Ч,, =200 |
п„г=300 |
щ3^Ш |
1^=250 |
п,,5=50 |
з,„=Й000 |
Для политологов, имеющи вторую степень удовлетворенности учебой, абсолютная частота равна п12. Кроме нее в ячейку (1,2) можно поместить и значения других показателей, а именно относительных частот либо в долях (частости), либо в процентах. При этом таких частот может быть три. Назовем абсолютную частоту первым показателем в ячейке таблицы сопряженности и будем ис одить из того, что относительные частоты рассчитываются в доля . Тогда второй показатель будет равен доле эти п12 студентов в общем числе п00, студентов-гуманитариев. Третий показатель -- доля эти же п12 студентов среди п10 студентов-политологов. Четвертый -- доля эти же п12 студентов среди п02 студентов, степень удовлетворенности учебой которых равна двум.
Таблица 3.3.2 Таблица сопряженности: относительные частоты
Теперь запишем все это в общем виде (в виде формул) для объектов любой природы и для любой (i, ])-й ячейки таблицы сопряженности. Число объектов, удовлетворяющих условию i -и строки и j -го столбца, равно nij общее число объектов равно n00. Маргинальные частоты по столбцам -- n0j, а маргинальные частоты по строкам -- ni0. Символ «нуль» обозначает, что по тому индексу, на месте которого он стоит, проведено как бы суммирование или усреднение или расчеты проведены без учета некоторого признака. Это очень удобный способ для обозначений частот разного вида, возникающих при анализе таблицы сопряженности. Вместо этого символа можно использовать и другой, например, точку или звездочку. «Точка», «звездочка», «нуль» -- общепринятые в литературе символы для обозначения маргинальных частот.
Таким образом, (i, j)^ ячейке таблицы сопряженности можно поставить в соответствие четыре показателя:
nij -- число объектов, удовлетворяющих условию i-й строки и j-ro столбца;
nij / n00 -- доля и в общей совокупности объектов;
nij / ni0 -- доля и в совокупности объектов, удовлетворяющи условию строки;
4.nij / n0j -- доля эти же объектов в совокупности объектов, удовлетворяющих условию столбца.
Социолог анализирует «поведение» одного признака относительно другого с помощью двух последних показателей. В таблице 3.3.2 приведены в каждой ячейке значения этих двух показателей для нашей задачи. Над чертой в ячейке доля по строке, а под чертой -- доля по столбцу. На основе этих данных социолог может решать два типа задач.
Во-первых, он может сравнивать структуру «удовлетворенности учебой» в различных профессиональных группах студентов. Мы упомянули новый в нашем курсе термин «структура». В самом простом случае под структурой «чего-то» понимается совокупность элементов этого «чего-то» и взаимосвязи между этими элементами. Это вам знакомо. В нашем случае элементами являются различные степени удовлетворенности учебой, а в качестве взаимосвязи между ними выступает различие в «доля », соответствующих этим степеням. Для того чтобы представить эти структуры графически, построим на одном и том же графике эмпирические кривые распределения по удовлетворенности учебой отдельно для каждой профессиональной группы студентов-гуманитариев.
На рис. 3.3.1 изображены шесть эмпирически кривы распределения, соответствующи шести профессиональным группам. На горизонтальной Оси отложены на равном расстоянии пять степеней удовлетворенности. Чтобы построить кривую распределения для политологов (первая наша профессиональная группа), по вертикальной оси откладываем следующие значения (0,14, 0,20, 0,31, 0,30, 0,05) из первой строки таблицы 3.3.2. Это доли политологов с соответствующей степенью. удовлетворенности (от 1 до 5) среди всех политологов. Аналогично поступаем и в случае остальных профессиональных групп. К примеру, чтобы построить кривую распределения для студентов-психологов, по вертикали откладываем следующие значения (0,16, 0,20, 0,30, 0,30, 0,04) соответственно пяти степеням удовлетворенности учебой.
Чисто визуально из рис. 3.3.1 можем сделать следующие выводы. Структура удовлетворенности «по ожа» у политологов, социологов и психологов. Эти группы образуют как бы один типологический синдром, составляют одну и ту же типологическую группу по структуре удовлетворенности. Структура удовлетворенности примерно одинакова у культурологов и филологов. Это уже второй типологический синдром. Таким образом, можно утверждать наблюдаем наличие трех типологических синдромов при анализе структуры удовлетворенности. Третий из ни -- специфическая и отличная от других структура удовлетворенности учебой студентов-историков. Эти синдромы, типологические образования и есть специфические эмпирические закономерности, требующие от социолога объяснения. В целом можно констатировать, что будущая профессия студента влияет на удовлетворенность учебой или детерминирует эту удовлетворенность. На вопрос, каким образом, мы тоже ответили пока без каких-либо количественных оценок. Как видите, в этом случае визуализация распределений имеет для социолога огромное значение.
Выше упоминали два типа задач, решаемы с помощью таблицы сопряженности. Первый тип мы с вами рассмотрели. Формально мы анализировали третий показатель таблицы сопряженности. Другой из эти типов задач для нашего примера заключается в сравнении профессиональной структуры в различных по степени удовлетворенности учебой группах студентов. На рис. 3.3.2 изображены пять эмпирических кривых распределения в соответствии с этими
Структура удовлетворенности учебой в различных
профессиональных группах
12345
удовлетворенность учебой
Рис. 3.3.1
Профессиональная структура в различных группах по
"удовлетворенности учебой
политолог социологкультурологфилолог"психолог
"будущая профессия студента Рис. 3.3.2.
группами. Для построения этих кривых используем четвертый показатель таблицы сопряженности. В таблице 3.3.2 значения этого показателя находятся под чертой. Для того чтобы построить, к примеру, эмпирическую кривую распределения студентов по их будущим профессиям для третьей группы по степени Удовлетворенности (частично удовлетворенные и частично неудовлетворенные), из таблицы 3.3.2 выделим столбец со значениями (0,16, 0,30, 0,30, 0,10, 0,08, 0,08). Это доли шести профессиональных групп в
совокупности удовлетворенны учебой на тройку. Аналогичным образом строятся и другие четыре кривые распределения.
Из визуального сравнения пяти построенны нами эмпирически кривы распределения видим следующее. По ожесть профессиональны структур наблюдается только для третьей и четвертой групп по удовлетворенности учебой. Практически в, каждой группе, кроме этих двух, по удовлетворенности своя собственная профессиональная структура. Из этого делаем следующий вывод: что признаки «будущая профессия» и «удовлетворенности учебой» статистически (по данным) связаны. Обратите внимание, что формально можно говорить о влиянии удовлетворенности на профессию, но содержательно это не имеет никакого смысла.
Это пример того, как выбор «языка» интерпретации эмпирической закономерности обусловлен содержанием признаков. В первом типе задач «язык» влияния, «язык» детерминации имеет смысл а во втором типе не имеет смысла. Соответственно в первом случае имеет смысл понятие направленной связи. Поэтому иногда очень важно заранее определить, какой из признаков может содержательно зависеть от другого. Отсюда возникают понятия зависимый (целевой) и независимый признак. Дихотомия «направленная -- ненаправленная» связь является важной в понимании свя3и.
Деление на зависимые -- независимые признаки в социологии не всегда содержательно обосновано. Зачастую такое деление необходимо в процессе анализа и носит функциональный характер. В том смысле, что один и тот же признак независимо От его содержания в одной задаче может выступать в роли зависимого, а в другой -- в роли независимого. Причем в рамка одного и того же исследования. Разумеется, присутствующая в каждом опросе «объективка» (пол, возраст, образование, происхождение и т. д.) порождает признаки, трактуемые как независимые.
Если вернуться к рис. 3.3.1 и к рис. 3.3.2, то можно заметить следующее. Представим себе, что все кривые на каждом из рисунков по ожи между собой. Что это означает для социолога? Во-первых, это значит, что профессиональная структура в группах студентов с различной степенью удовлетворенности учебой одинакова и не зависит от этой степени. При этом она (структура) такая же, как и профессиональная структура для всей совокупности студентов-гуманитариев (маргинальные частоты по строкам). Во-вторых, это значит, что структура удовлетворенности во всех профессиональных группах одинакова и не зависит от будущей профессии студента. При этом эта структура такая же, как во всей совокупности (маргинальные частоты по столбцам). Тогда связь между феноменами «профессия» и «удовлетворенность» отсутствует, статистическая связь не наблюдается. Наши признаки статистически независимы. Нетрудно догадаться, что в исследованиях такая ситуация практически не встречается, и не потому, что отсутствие связи не наблюдается, а совсем по другим причинам. Основная причина -- специфика наших социологических данных. Это их неустойчивый характер. Например, это проявляется в неточности измерения того же феномена, как удовлетворенность учебой. Причин тому множество. Это и несовершенство
методик измерения, и неустойчивость ответов респондента, и пло ая выборка. Ясно одно, всегда имеет место влияние многи случайны и неслучайных факторов на конкретные значения изучаемого нами признака. С неслучайными факторами социолог может бороться, а случайные будут иметь место всегда. Поэтому социолог делает выводы с учетом этой ситуации. Задается уровнем «ошибиться». Статистическая независимость констатируется не в идеальном случае, а в случае, близком к идеальному.
Представим себе противоположную ситуацию, когда на каждом из рисунков все кривые непохожи, несхожи. Для социолога это означает, что в каждой группе с разной степенью удовлетворенности учебой своя собственная профессиональная структура. В каждой профессиональной группе своя собственная структура удовлетворенности. Из этого следует, что будущая профессия студента связана с его удовлетворенностью учебой, наблюдается сильная статистическая зависимость. Естественно, такая ситуация в исследованиях тоже практически не встречается.
Реальные рисунки трудно поддаются визуальной интерпретации. К тому же в исследовании их бывает очень много. Отсюда и возникает необходимость в количественных оценках степени взаимосвязи между признаками, в определении, сильное или слабое влияние признаков друг на друга. Это можно сделать с помощью различных мер взаимосвязи. Мы подошли к важным понятиям меры связи, или коэффициенты связи. Таких мер много, так как много различны интерпретаций понятия «связь». Другими словами, связь может пониматься по-разному. Это во-первы . Во-вторы , даже в рамка одного и того же понимания связи существуют различные способы ее математической формализации. Отдельно взятый коэффициент -- математическая формализация некоторого понимания связи.
...Подобные документы
Подготовка эмпирических данных к обработке и анализу. Сущность и виды группировок, понятие рядов распределения. Графическое представление информации в анализе социологических данных. Структура и требования к отчету о социологическом исследовании.
контрольная работа [320,8 K], добавлен 05.04.2011Понятие социологического исследования. Подготовка эмпирических данных к обработке и анализу. Сущность и виды группировок. Таблицы и графики: их роль в анализе социологических данных. Структура отчета об исследовании. Основные требования к его составлению.
контрольная работа [542,4 K], добавлен 10.11.2010Отношение математики и социологии. Понятие эмпирических и математических систем. Примеры наблюдаемых и латентных переменных. Социологический опрос как инструмент сбора информации об объекте. Применение математических методов при измерении в социологии.
эссе [75,8 K], добавлен 02.10.2014Элементы индексного анализа. Социологический индекс – инструмент классификации, сравнения и измерения. Аналитические индексы в социометрическом исследовании. Индексы социального статуса. Индексы социальной экспансии. Групповые и персональные социоиндексы.
доклад [43,2 K], добавлен 16.12.2008Интервью - распространенный метод сбора информации в социологии. Сбор данных методом формализованного интервью называют анкетированием. Он подразумевает стремление к максимальной стандартизации и унификации процедур сбора данных, их обработки и анализа.
контрольная работа [13,3 K], добавлен 29.12.2008Тесты в социологическом исследовании, шкалирование при сборе и анализе социологической информации. Проблема качества социологического измерения, надежность и валидность измерения. Конструирование индексов и шкал, метод построения гутмановской шкалы.
курсовая работа [58,8 K], добавлен 15.02.2011Специфические черты визуальной социологии, история ее зарождения. Фотография как инструмент исследования в социологии. Определение базовых характеристик метода символического анализа фотографии и опыт его применения в социологических исследованиях.
реферат [22,0 K], добавлен 20.04.2012Понятие и этапы проведения социологического исследования, требования к нему. Исследование и оценка влияния индустрии fashion на студентов ВГУ. Определение исследуемой совокупности. Обоснование метода сбора эмпирических данных. Этапы анализа информации.
курсовая работа [56,6 K], добавлен 08.01.2013Анализ марксистской школы в социологии. Классический этап развития социологии, основные научные концепции и теоретические основы изучения социальных явлений. Методология К. Маркса при анализе проблем общественного труда, теория социального конфликта.
контрольная работа [30,5 K], добавлен 03.04.2012Обзор методов проведения эмпирических исследований социально-экономических и политических процессов. Особенности анализа документов как метода проведения социологических исследований. Специфика методики массового опроса, эксперимента и наблюдения.
курсовая работа [78,7 K], добавлен 31.01.2014Основные виды социологических исследований: теоретические (разведывательные, описательные, аналитические) и эмпирические (международные, общенациональные, региональные, локальные, отраслевые). Обработка результатов и анализ эмпирических данных социологии.
контрольная работа [32,3 K], добавлен 02.08.2011Общие принципы измерения в социологии. Использование математических методов сбора и обработки первичной социальной информации для измерения социального неравенства. Концепции прожиточного минимума и относительной бедности. Методы измерения бедности.
курсовая работа [181,1 K], добавлен 25.01.2016Методологические проблемы социологических исследований. Функции социологии. Разработка программы социологического исследования. Обобщение и анализ данных, полученных в процессе его проведения. Описание и применение разных методов и методик в социологии.
учебное пособие [339,5 K], добавлен 14.05.2012Понятие социологии как прикладной науки, основные проблемы современной социологии, анализ предмета. Характеристика основных задач социологии, рассмотрение методов объяснения социальной действительности. Функции и роль социологии в преобразовании общества.
контрольная работа [137,6 K], добавлен 27.05.2012Сущность, значение и методика социологического исследования. Развитие эмпирических исследований, обогащающих теорию и позволяющих разрабатывать механизмы регулирования социальных процессов. Обработка и анализ результатов социологического исследования.
курсовая работа [30,3 K], добавлен 18.12.2009Общая характеристика основных понятий социологии; изложение основ науки. Рассмотрение структуры социологического знания о системе и развитии общества. Выявление классификации данных знаний. Определение структуры и программы проведения исследования.
реферат [27,7 K], добавлен 06.11.2014Причины применения информационные технологии в социологических исследованиях. Телефонизация как инструмент социологии. Технология проведения опросов в Интернет-форумах, SMS-опросы, вопросник на компьютере. Инструменты для компьютерной обработки данных.
презентация [2,8 M], добавлен 15.05.2019Особенности изучения общественного мнения блогосферы методом контент-анализа. Специфика социологических методов сетевых сообществ. Методики измерения отчуждения в современной социологии. Психиатрическая изоляция как практика социального отлучения.
контрольная работа [23,5 K], добавлен 16.11.2009Причины возникновения социологии. Сформированные идеологии индивидуализма. Объект социологии, ее структура и функции. Характеристика ее предметной зоны. Информация об обществе как разновидность социальной реальности. Развитие мировой социологии.
контрольная работа [15,0 K], добавлен 13.04.2009Предмет, объект, функции и методы социологии, виды и структура социологического знания. Объекты и сущность предмета экономической социологии. Социологическое понимание экономической сферы социальной жизни. Уровни и роль развития экономической социологии.
реферат [23,3 K], добавлен 14.11.2010