Использование параданных при прогнозировании участия респондентов в исследовании (на примере данных EVS)

Возможности параданных в прогнозировании исхода интервью. Построение предсказательной модели неответов, основанной на анализе параданных и наблюдений интервьюеров. Оценка эффективности показателя собственных оценок интервьюеров в предсказании неответов.

Рубрика Социология и обществознание
Вид дипломная работа
Язык русский
Дата добавления 28.08.2018
Размер файла 351,6 K

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

§2.3 Методы анализа данных

Для решения всех задач исследования будет использован регрессионный анализ, а именно бинарная логистическая регрессия с фиктивными переменными. Выбор данного метода обоснован тем, что (1) зависимая переменная является дихотомической; (2) независимые переменные определены на абсолютных, порядковых и номинальных шкалах.

Модель бинарной логистической регрессии основывается на логистическом преобразовании функции. Основное отличие логистической регрессии от множественной линейной регрессии состоит в способе ее интерпретации, так как в бинарной логистической регрессии интерпретируются шансы, а не значения предикторов. Шанс - это соотношение вероятности того, что событие произойдет, к вероятности того, что оно не произойдёт.

Так как в данном исследовании будет использована модель регрессии с фиктивными переменными, необходимо понимать специфику интерпретации результатов. В регрессионной модели с фиктивными переменными в первую очередь описывается контрольная группа. Далее интерпретация отталкивается от характеристик контрольной группы. Для того чтобы контрольная группа была реальной, а не виртуальной, все предикторы должны проходить через значение "0". Поэтому при построении всех моделей те значения переменных, которые не проходят через ноль, будут сдвинуты на необходимое значение.

Всего будет построено семь моделей. Для прогнозирования исхода первого визита будут построены три модели с последовательным добавлением следующих групп переменных: тип города, контактная информация, а также наблюдения интервьюеров. Во второй модели, которая предсказывает исход второго визита интервьюера в домохозяйство, будут использованы те же независимые переменные, что и на первом шаге, а затем в модель будет добавлен предиктор "предсказания интервьюеров". Для анализа третьего исхода визита будет проделана аналогичная операция - на первом шаге будут использованы три группы (тип города, контактная информация, наблюдения интервьюеров), на втором шаге будет добавлены предсказания интервьюеров третьего визита, а затем предсказания интервьюеров второго визита, для того чтобы можно было сравнить, какое из предсказаний является более точным.

Помимо этого, все построенные модели пройдут проверку на качество, которая будет предоставлена в Приложении 1. Проверка на качество включает в себя проверку на следующие характеристики модели: устойчивость, несмещенность остатков, гомоскедастичность, а также мультиколлинеарность.

Устойчивость - это важная характеристика модели, которая является индикатором того, что модель является воспроизводимой и, следовательно, имеет высокое качество. Модель считается устойчивой, если она одинаково успешно предсказывает зависимую переменную на тестовой и обучающей выборке. Для того чтобы проверить модель на устойчивость, будет создана случайная переменная с помощью распределения Бернулли. Данная переменная разделит выборку на две группы, сформированные случайным образом. Далее будет рассчитан процент правильных предсказаний для успешного и неуспешного исхода интервью для двух выборок - обучаемой и тестируемой. Модель можно считать устойчивой, если процент правильных предсказаний в двух выборках имеет близкие значения. В качестве порогового значения устойчивости будем считать разницу в правильных предсказаниях не более 10 %.

Несмещенность регрессионных остатков подразумевает, что математическое ожидание остатков равно нулю. Свойство несмещённой позволяет сравнивать полученные модели между собой. Модель считается несмещенной, если ее нестандартизованные остатки равны нулю.

Если модель гомоскедастична, это значит, что нет связи между величиной остатков и значениями регрессионных коэффициентов. Для того чтобы провести проверку, для каждой модели будет проведен дисперсионный анализ, в котором в качестве зависимой переменной будут использованы стьюдентизированные остатки регрессионной модели, а в качестве независимых переменных все предикторы, которые остались в финальной модели. Если значимых переменных нет, значит модель гомоскедастична.

Последняя проверка модели на качество - мультиколлинеарность. Для определения наличия мультиколлинеарности независимых переменных будет рассчитана корреляция Пирсона. В качестве порогового значения наличия мультиколлинеарности между переменными будем использовать значение 0.7.

§2.4 Описание переменных

В качестве основной зависимой переменной будет использована переменная "исход визита", которая отражает, удалось ли интервьюеру собрать интервью при текущем интервью или нет. Данная переменная является дихотомической, то есть принимает только два значения.

Все независимые переменные можно поделить на четыре категории: тип города, данные о контакте, наблюдения интервьюеров и предсказания интервьюеров. Рассмотрим каждую категорию подробнее.

Переменная тип города построена на основе наименования поселения, в котором проживает респондент, и имеет 5 градаций, рассчитанных по численности населения: большой город, крупный город, небольшой город, поселение и деревня.

Данные о контакте получены из контактной формы, которую заполняет интервьюер при каждом визите и содержит информацию о дне недели и времени визита (в 24 часовом формате). Наблюдения интервьюеров содержат пять переменных, которые интервьюеры заполняют при каждом визите в домохозяйство (анкету наблюдений интервьюеров см. в Приложении 2):

· Количество этажей в доме;

· Состояние дома в сравнении с окружающими;

· Оценка чувства собственной безопасности в районе;

· Препятствия попадания в домохозяйство:

1) Дверь подъезда закрыта - домофон;

2) Дом находится в закрытом дворе - закрытые ворота, калитка;

3) Дом находится на огороженной охраняемой территории;

4) Вход в дом охраняется консьержкой, другой службой охраны;

5) Другие препятствия.

Предсказания интервьюеров также входят в блок наблюдений интервьюеров, однако они выделяются в отдельную переменную, так как являются не наблюдением, а попыткой интервьюера самостоятельно предсказать исход последующего интервью. Данную переменную интервьюеры заполняли только в том случае, если респондент лично отказался от участия в интервью текущем этапе, поэтому ввести ее в анализ можно только на этапе анализа исхода второго визита, так как для первого визита данная информация отсутствует.

§2.5 Уточнение и интерпретация основных понятий

Параданные - данные, собранные параллельно с основным массивом данных, полученным при прохождении опроса. В данном исследовании это данные, полученные из заполнения контактной формы, а также анкеты наблюдений интервьюера при каждом визите. К данным контактной формы относится:

· информация о контакте (точная дата и время визита, день недели визита);

· тип контакта (личный визит, предварительный телефонный звонок);

· результат визита (было ли собрано интервью, если нет, заполняется причина отказа).

К наблюдениям интервьюеров относятся пять вопросов о количестве этажей, состоянии дома в сравнении с окружающими, состояние домов в районе, оценка чувства безопасности, препятствия попадания в домохозяйство и предсказание исхода последующего визита (анкету наблюдений интервьюеров см. в Приложении 2). Таким образом, переменная "тип города", созданная на эмпирическом этапе, не относится к параданным, так как она создана исследователями на этапе формирования выборки, и не является данными, собранными интервьюерами в процессе сбора данных. Тем не менее, данная переменная также будет включена в анализ, так как на этапе обзора литературы было отмечено 6 что тип города позволяет прогнозировать исход интервью.

Исход интервью - переменная, которая принимает два значения - (0) если интервью не было собрано и (1), если интервью было собрано при текущем визите интервьюера в домохозяйство.

Неответ - неполучение от отобранного для опроса респондента (или более крупной единицы отбора) всех или почти всех запрашиваемых сведений" (Юдин, 2008, с. 49).

Глава 3. Анализ эффективности параданных в предсказании неответов

§3.1 Построение общей предсказательной модели исхода интервью

Одной из задач исследования является построение общей предсказательной модели исхода интервью. Данная задача довольно широкая, поэтому перед ней ставится две гипотезы, которые будут проверяться последовательно:

1) Данные о контакте с респондентом имеют значимый эффект при предсказании исхода интервью.

2) Наблюдения интервьюеров имеют значимый эффект при предсказании исхода интервью.

Для проверки перечисленных гипотез необходимо построить бинарную логистическую регрессию с фиктивными переменными.

Преобразование переменных. Перед тем как приступить к построению модели, подробно рассмотрим зависимую и независимые переменные. В качестве зависимой переменной используется переменная об исходе визита интервьюера в домохозяйство. Информация об исходе визита представлена в десяти переменных, каждая из которых соответствует номеру визита в домохозяйство.

Переменная об исходе визита интервьюера в домохозяйство имеет 7 значений:

1) Завершенное интервью

2) Частично завершенное интервью

3) Контакт с кем-то, респондент не выбран

4) Контакт с респондентом, интервью не собрано

5) Контакт с другим человеком, респондент не достигнут

6) Нет контакта

7) Неправильный адрес.

В данной работе в первую очередь представляет интерес то, насколько успешным оказался визит интервьюера в домохозяйство. В качестве успешного визита будут рассматриваться первые два значения переменной ("Завершенное интервью", "Частично завершенное интервью"). Второе значение "Частично завершенное интервью" также рассматривается как успешный визит интервьюера в домохозяйство. Во-первых, это предполагает, что интервьюер достиг респондента и смог собрать часть данных. Во-вторых, миссинги, или частичный неответ, как отмечалось ранее, имеют другую природу, и не могут быть решены предложенным в данной работе методом. Остальные переменные (3-7) мы рассматриваем как неуспешный визит в домохозяйство.

Для дальнейшего анализа перекодируем переменную в дихотомическую. Новая бинарная переменная об исходе первого визита имеет два значения: "0" - интервью не собрано, и "1" - интервью собрано. При первом визите первая группа (интервью не собрано) имеет 1915 наблюдений (62,1 % от всей выборки, Таблица 1), а вторая - 1170 наблюдений (37,9 % от всей выборки, Таблица 1). Учитывая размер выборки, обе группы достаточно наполнены для того чтобы использовать переменную для дальнейшего анализа.

Таблица 1. Количество собранных интервью для каждого визита

Номер визита

Интервью собрано

Интервью не собрано

Сумма

Количество

Процент

Количество

Процент

1

1170

37,9

1915

62,1

3085

2

453

14,7

973

31,5

1426

3

186

6,0

536

17,4

722

4

34

1,1

313

10,1

347

5

5

0,2

51

1,7

56

6

0

0,0

16

0,5

16

Далее подробно рассмотрим независимые переменные. Исходя из структуры данных, независимые переменные можно поделить на три категории: тип поселения, данные о контакте, наблюдения интервьюеров.

Рассмотрим первую категорию переменных "тип поселения". В базе данных содержится информация о названии города, поселка или деревни, в которых было собрано интервью. Как отмечалось ранее, данная переменная не относится к параданным, так как в анализируемой базе данных она не собирается интервьюерами, а имеется у исследователя еще на этапе формирования выборки. Тем не менее, она также будет включена в анализ, так как является одной из важнейших переменных в прогнозировании исхода интервью. Так как населенных пунктов много (в базе данных содержится информация о 130), их невозможно напрямую использовать в анализе. Поэтому создадим на основе данной переменной новую, которая будет отражать размер населенного пункта по численности населения. Новая переменная "тип города" будет имеет пять значений:

· Большой город - включает в себя два города - Москву и Санкт-Петербург. Данные города выделены отдельно, так как они, во-первых, занимают значимую часть базы данных - 563 наблюдения (18,2 %, Таблица 2), а во-вторых, являются городами с наиболее высоким социально-экономическим уровнем развития в России (В. Самарина, 2010).

· Крупный город - данная переменная включает в себя города, население которых более 700 000 жителей. Количество жителей крупных городов в базе - 491 (15,9 %, Таблица 2).

· Небольшой город - остальные города, численность населения которых менее 700 000 жителей. В базе данных содержится 672 жителя из небольших городов (21,8 %, Таблица 2).

· Поселение - поселения, которые отмечены в базе данных (без уточнения конкретных названий и численности населения). Количество жителей поселений в базе - 683 (22,1 %, Таблица 2).

· Деревня - деревни, которые отмечены в базе данных (без уточнения конкретных названий и численности населения). Количество наблюдений в базе - 676 (21,9 %, Таблица 2).

Перейдем к рассмотрению второй категории зависимых переменных - "данные о контакте". Даная категория содержит две переменные - день недели и час визита. Для начала рассмотрим номинальную переменную "День недели". Данная переменная обозначает день недели первого визита в домохозяйство. Исходя из таблицы-2, наибольшее количество визитов в домохозяйство было совершено в выходные дни - 40,8 % (в субботу - 726 визитов, или 23,5 %; в воскресенье - 534 визита, или 17,3 %, Таблица 2). В будние дни количество визитов было приблизительно одинаковым, увеличиваясь до и после выходных дней. Общее количество визитов в будние дни составляет 1825 визитов (59,1 %, Таблица 2).

Создадим переменные "будни" и "выходной", которые будут отражать визит в будние или выходные дни соответственно. Данная переменная несет меньше информации, нежели переменная, которая учитывает все дни недели по отдельности. Тем не менее, именно она будет использоваться в построении регрессионной модели, так как ее интерпретируемость и возможность дальнейшего применения намного шире, чем использование каждого дня недели по отдельности.

Далее рассмотрим переменную "время визита". Визиты в домохозяйства совершались с 8 до 22 часов, то есть переменная имеет 15 значений. Для удобства поделим ее на три категории - "утро" - с 8 до 12 часов, "день" - с 13 до 17 часов и "вечер" - с 18 до 22 часов. Наибольшее количество визитов было совершено днем - 1399 (45,3 %, Таблица 2). Другие значения переменной "утро" и "вечер" распределены довольно равномерно. Утром было совершено 911 визитов (29,5 %, Таблица 2), а вечером немного меньше - 775 (25,1 %, Таблица 2).

Третья категория независимых переменных "наблюдения интервьюеров" имеет 5 переменных. Первая из них, количество этажей в доме - это переменная с порядковой шкалой, которая содержит значения от 1 до 23 этажей. В базе преобладают дома с 1, 5 и 9 этажами, так как дома именно с такой этажностью представляют типичную застройку в России. Так как данная переменная принимает значения начиная с "1", для возможности интерпретации реальной контрольной группы, а не фиктивной, вычтем из всех значений переменной 1 таким образом, чтобы данная переменная пересекала 0.

Переменная "состояние домов в районе" имеет порядковую пятибалльную шкалу от "очень хорошего" до "очень плохого" состояния. Стоит отметить, что ни один интервьюер ни разу не выбрал вариант "очень плохое" для описания состояния дома. В основном в данной переменной преобладают оценки "хорошее" (1368, 44,3 %, Таблица 2) и "удовлетворительное" состояние (1476, 47,8 %, Таблица 2). Так как данная переменная имеет обратную шкалу, необходимо ее перекодировать таким образом, чтобы "очень хорошее" состояние домов в районе соответствовало максимальной оценке (5).

Следующая переменная, в которой оценивается состояние выбранного дома в сравнении с окружающими, имеет всего три градации - "лучше, чем дома в округе", "примерно такое же" и "хуже, чем дома в округе". Примечательно, что подавляющее большинство домов оценены как находящиеся в таком же состоянии, что и окружающие - 2571 (83,3 %, Таблица 2). Можно предположить, что при построении регрессионной модели данная переменная не будет значимой, так как в основном сконцентрирована на одном значении. Так как рассматриваемая переменная также имеет перевёрнутую шкалу, перекодируем переменную таким образом, чтобы лучшее состояние дома соответствовало более высокому значению переменной (3).

Рассмотрим переменную, которая описывает чувство собственной безопасности интервьюера в районе. Данная переменная имеет четырехбалльную шкалу. Ответы информантов смещены в сторону положительной оценки чувства безопасности в районе ("довольно безопасно" отметили 2212 интервьюеров или 71,7 %; "в полной безопасности" отметили 634 интервьюера или 20,6 %, Таблица 2). Отчасти это может объясняться тем, что, как правило, интервьюеры проживают в регионах, в которых они собирают интервью, и для них состояние какого-либо района является привычным, поэтому они чувствуют себя в них безопасно. Аналогично двум предыдущим переменным из категории наблюдений интервьюеров, оценку безопасности необходимо перекодировать, перевернув шкалу.

Далее интервьюеры отмечали те факторы, которые относятся к домохозяйству. Им предложено было отметить, если встречаются следующие четыре препятствия: запертая дверь в подъезд; закрытый двор; огораживаемая охраняемая территория; а также если вход в домохозяйство охраняется консьержем (или другой службой охраны). При первом визите интервьюеры чаще всего отмечают закрытую дверь подъезда (2108, 68,3 %, Таблица 2), а также с гораздо меньшей частотой вариант "Дом заходится в закрытом дворе" (410, 13,3 %, Таблица 2). Последние два варианта практически не встречаются - "дом находится на огороженной охраняемой территории" отметили только 0,5 % интервьюеров, а "вход охраняется консьержкой или другой службой охраны" - 1,3 %. На фоне общей выборки данные переменные встречаются крайне редко, поэтому включать их в модель нерационально. Преобразуем переменные с первыми двумя препятствиями в отдельные бинарные переменные, которые будут отражать наличие или отсутствие каждого препятствия.

Таблица 2. Распределение зависимых переменных для первого контакта

Количество

Процент

Тип поселения

Большой город

563

18,2

Крупный город

491

15,9

Небольшой город

672

21,8

Поселение

683

22,1

Деревня

676

21,9

Данные о контакте

День недели

Понедельник

392

12,7

Вторник

346

11,2

Среда

337

10,9

Четверг

328

10,6

Пятница

422

13,7

Суббота

726

23,5

Воскресенье

534

17,3

Время визита

Утро

911

29,5

День

1399

45,3

Вечер

775

25,1

Наблюдения интервьюеров

Состояние домов в районе

Очень хорошее

182

5,9

Хорошее

1368

44,3

Удовлетворительное

1476

47,8

Плохое

59

1,9

Очень плохое

0

0

Состояние дома в сравнении с окружающими

Лучше, чем дома в округе

375

12,2

Примерно такое же

2571

83,3

Хуже, чем дома в округе

139

4,5

Оценка безопасности

В полной безопасности

634

20,6

Довольно безопасно

2212

71,7

Не очень безопасно

234

7,6

Совсем небезопасно

5

0,2

Препятствия попадания в домохозяйство

Дверь подъезда закрыта

2108

68,3

Дом находится в закрытом дворе

410

13,3

Построение модели. После рассмотрения и приведения переменных в необходимый для анализа вид, перейдем к построению бинарной логистической регрессии с фиктивными переменными. Модель построена в три шага - на первом этапе в качестве зависимых переменных использован "тип города", затем переменные из категории "данные о контакте", и на третьем этапе в модель добавлены наблюдения интервьюеров.

Таблица 3. Логистическая регрессия: предсказание исхода для первого визита

Модель 1.1

Модель 1.2

Модель 1.3

B (ср. кв. ошибка)

Exp (B)

B (ср. кв. ошибка)

Exp (B)

B (ср. кв. ошибка)

Exp (B)

Константа

,250**(,078)

1,284

,293**(,103)

1,341

,663*(,331)

1,940

Тип поселения. Контрольная группа - Деревня

Большой город

-1,711***(,133)

,181

-1,721***(,134)

,179

-1,158***(,165)

,314

Крупный город

-,922***(,123)

,398

-,937***(,125)

,392

-,567***(,146)

,567

Небольшой город

-,818***(,112)

,441

-,843***(,113)

,430

-,507***(,131)

,602

Поселение

-,644***(,110)

,525

-,675***(,111)

,509

-,392*(,127)

,676

Данные о контакте

День недели. Контрольная группа - выходные

Будни

-,226**(,081)

,798

-,277**(0,82)

,758

Время суток. Контрольная группа - утро

День

,169(,091)

1,185

,199*(,092)

1,220

Вечер

,112(,111)

1,119

,166(,012)

1,181

Наблюдения интервьюеров

Количество этажей

-,048***(,013)

,953

Состояние домов в районе

-,149*(,069)

,861

Состояние дома в сравнении с окружающими

,131(,106)

1,140

Чувство безопасности

-,021(,078)

,979

Дверь подъезда закрыта

-,176(,112)

,838

Закрытый двор

,093(,141)

1,098

R2 Кокса и Снелла

,061

,065

,076

R2 Нэйджелкерка

,083

,088

,104

Значимость коэффициентов: *p<0.05; **p<0.01; ***p<0.001.

Проинтерпретируем полученные результаты. Константа значима во всех трех моделях. Исходя из данных таблицы-3, псевдо R2 Кокса и Снелла модели 1.1 составляет 6,1 %, а псевдо R2 Нэйджелкерка - 8,3 %. Стоит отметить, что псевдо R2 в первую очередь предназначен для оценки того, насколько хорошо модель предсказывают менее представленную группу. В данном случае, он оценивает, насколько хорошо модель предсказывает, что интервью будет собрано при первом визите интервьюера в домохозяйство.

При использовании регрессии с фиктивными переменными необходимо проинтерпретировать контрольную группу. Контрольная группа модели 1.1 из таблицы-3 - россияне, проживающие в деревне. Все значения предикторов значимы, поэтому их можно проинтерпретировать:

· Проживание в большом городе уменьшает отношение шансов удачного и неудачного исхода интервью в 0,18 раза по сравнению с жителями деревни при прочих равных;

· Проживание в крупном городе уменьшает отношение шансов удачного и неудачного исхода интервью в 0,40 раза по сравнению с жителями деревни при прочих равных;

· Проживание в небольшом городе уменьшает отношение шансов удачного и неудачного исхода интервью в 0,44 раза по сравнению с жителями деревни при прочих равных;

· Проживание в поселении уменьшает отношение шансов удачного и неудачного исхода интервью в 0,53 раза по сравнению с жителями деревни при прочих равных.

Отметим, что для корректной интерпретации результатов регрессии необходимо также учитывать доверительные интервалы коэффициентов (Таблица 4). Исходя из данных таблицы, на уровне доверительного интервала 95 % мы можем утверждать, что только большой город отличается от остальных типов городов, в то время как остальные коэффициенты могут быть равны между собой.

Таблица 4. Доверительный интервал регрессионных коэффициентов модели 1.1

95 % доверительный интервал для EXP(B)

Нижняя

Верхняя

Большой город

,139

,234

Крупный город

,313

,506

Небольшой город

,355

,549

Поселение

,423

,651

Таким образом, можно сделать вывод о то, что тип поселения позволяет предсказать исход интервью. Причем, чем больше поселение по численности населения, тем меньше вероятность того, что интервью будет собрано.

Модель 1.2, которая построена на базе первой модели с добавлением данных о контакте, увеличивает процент объясненной дисперсии на 0,4 % (R2 Кокса и Снелла) и на 0,6 % (R2 Нэйджелкерка) (Таблица 3). Данная разница в проценте объясненной дисперсии первой и второй модели не является большой, из чего можно сделать вывод о том, что данные о контакте позволяют предсказывать исход интервью, однако имеют невысокую предсказательную способность. Гипотезу о том, что данные о контакте с респондентом позволяют предсказать исход интервью можно считать подтвержденной, однако исходя из полученных результатов нельзя говорить о том, что данные переменные обладают большой объяснительной силой.

Регрессионный коэффициент при предикторе "будни" значим на 95 % уровне доверительного интервала, поэтому его можно проинтерпретировать: Визит интервьюера в будний день уменьшает отношение шансов удачного и неудачного исхода интервью в 0,8 раза по сравнению с визитом интервьюера в выходной день.

Стоит также отметить, что переменная "время суток" для первого визита оказалась незначима. Это говорит о том, что нет разницы между контрольной группой (визит утром), а также визитом днем или вечером.

Рассмотрим третью модель, которая была построена на базе второй модели с добавлением наблюдений интервьюеров. Исходя из данных модели 1.3 таблицы-3, процент объясненной дисперсии данной модели возрастает на 1,1 % (R2 Кокса и Снелла) и 1,6 % (R2 Нэйджелкерка) по сравнению со второй моделью - что значительно больше, чем прирост процента объясненной дисперсии в случае со второй моделью. В модели использовалось шесть новых предикторов из категории наблюдения интервьюеров, однако только два из них оказались значимыми - "количество этажей" и "состояние домов в районе". Мы можем проинтерпретировать полученные коэффициенты:

· При увеличении высотности здания на один этаж уменьшается отношение шансов удачного и неудачного исхода интервью на 1 %;

· При улучшении состояния домов в районе уменьшается отношение шансов удачного и неудачного исхода интервью на 3,5 %.

Гипотезу о том, что наблюдения интервьюеров позволяют предсказать исход интервью, можно считать подтвержденной. Тем не менее, стоит учитывать, что четыре переменные наблюдений интервьюеров оказались незначимыми. В случае с переменной "состояние домов в сравнении с окружающими" это может объясняться тем, что данная переменная имеет всего три градации, и наибольшее количество наблюдений содержит промежуточный вариант. Подобным образом, переменная "чувство безопасности" также имеет довольно смещенную оценку в пользу положительного ответа, поэтому данный результат довольно ожидаем. Тем не менее, другие переменные "дверь подъезда закрыта" и "закрытый двор" являются дихотомическими. Возможно, они оказались незначимыми, так как переменные "дверь подъезда закрыта" и "количество этажей" коррелируют друг с другом. Их связь не является сильной (Корреляция Пирсона равна 0,54, см. Приложение 1, Таблица 2), однако за счет того, что переменная "количество этажей" имеет большую объяснительную способность, "дверь подъезда закрыта" оказалась незначимой.

§3.2 Оценка эффективности предсказаний интервьюеров

Еще одной задачей данного исследования является оценить, насколько эффективен показатель собственных оценок интервьюеров в предсказании неответов. Основная гипотеза звучит следующим образом: "Оценка интервьюеров исхода повторного визита имеет значимый эффект при предсказании исхода интервью". Для проверки данной гипотезы построим еще одну модель бинарной логистической регрессии с фиктивными переменными. Так как эффективность трех групп переменных уже была проверена на базе исхода первого интервью, повторно процедура повторяться не будет. Модель будет построена в два шага - на первом будут включены переменные, которые использовались в модели первого визита (тип города, данные о контакте, наблюдений интервьюеров), а на втором этапе будут включены предсказания интервьюеров.

Как отмечалось ранее, переменные, которые содержатся в базе, можно условно поделить на две группы - постоянные и изменчивые. Постоянные переменные - это те, которые не меняются от визита к визиту. Например, тип города, в котором проживает респондент, или количество этажей в доме. Тем не менее, есть также изменчивые переменные, которые меняются для каждого повторного визита (например, время визита). Таким образом, при построении модели для второго визита некоторые переменные будут такими же, как в модели первого визита, а другие будут только содержательно дублировать первую модель, однако их значения будут другими. Способ перекодировки изменчивых переменных (таких как день недели, час визита), остается таким же, как и для первой модели.

Также в модель будет включена переменная оценки интервьюером вероятности того, что респондент согласится сотрудничать при следующем визите. Переменная заполнялась только по тем респондентам, которые лично отказались от прохождения интервью при первом визите. Шкала имеет 4 градации, а также вариант "трудно сказать". После совершения первого визита в домохозяйство, было получено следующее распределение оценок интервьюеров:

Таблица 5. Распределение переменной "Предсказания интервьюеров" для второго визита

Предсказания интервьюеров

Количество

Процент

Точно нет

396

21,5

Скорее всего нет

123

6,7

Возможно, будут

431

23,4

Очень вероятно, что будут

151

8,2

Трудно сказать

737

40,1

Сумма

1838

100

Анализируя таблицу-5, видно, что переменная имеет высокую долю вариантов ответа "трудно сказать" (40 % от всех наблюдений). Это говорит о том, что в целом интервьюеры затрудняются давать собственную оценку вероятности согласия респондента пройти опрос при последующем визите. Для того чтобы данную переменную было возможно использовать в регрессионной модели, перекодируем вариант ответа "трудно сказать" в промежуточный таким образом, чтобы он находился между значениями "возможно, будут" и "скорее всего нет".

Стоит отметить, что количество наблюдений в модели равно 1426 (Таблица 1), так как только для них содержится информация об исходе второго визита. Данное количество наблюдений приблизительно в два раньше меньше чем то, которое использовалось при построении моделей для исхода первого визита (3085, Таблица 1).

Таблица 6. Логистическая регрессия: предсказание исхода для второго визита

Модель 2.1

Модель 2.2

B (ср. кв. ошибка)

Exp (B)

B (ср. кв. ошибка)

Exp (B)

Константа

-2,186***(,537)

,112

-3,936***(,625)

,020

Тип поселения. Контрольная группа - Большой город

Крупный город

,803***(,211)

2,233

,873***(,215)

2,351

Небольшой город

,989***(,198)

2,688

1,094***(,202)

2,877

Поселение

,871***(,199)

2,389

,990***(,203)

2,610

Деревня

1,436***(,236)

4,203

1,534***(,242)

4,396

Данные о контакте

День недели. Контрольная группа - выходные

Будни

-,036 (,122)

,964

-,016(,123)

,984

Время суток. Контрольная группа - утро

День

-,067 (,166)

,935

-,065(,168)

,937

Вечер

-,020 (,167)

,981

-,046(,170)

,957

Наблюдения интервьюеров

Количество этажей

-,020 (,016)

,980

-,016(,017)

,984

Состояние домов в районе

,129 (,106)

1,138

,160(,108)

1,173

Состояние дома в сравнении с окружающими

-,104 (,162)

,901

-,092(,164)

,912

Чувство безопасности

,176 (,118)

1,193

,164(,119)

1,178

Предсказания интервьюеров

Предсказание интервьюеров

,450***(,073)

1,568

R2 Кокса и Снелла

,053

,079

R2 Нэйджелкерка

,074

,110

Значимость коэффициентов: *p<0.05; **p<0.01; ***p<0.001

Проинтерпретируем полученные результаты. Константы в двух моделях значимы. При анализе исхода второго визита, переменная "тип поселения" остается значимой, как и впервой модели. Другие переменные, которые были значимы при анализе исхода первого визита (данные о контакте и наблюдения интервьюеров), стали незначимыми как в модели с предсказаниями интервьюеров, так и без них. Стоит отметить, что в данной модели была изменена контрольная группа при переменной "тип города". В качестве контрольной переменной в моделях 2.1 и 2.2 выступает "большой город", в то время как в модели для анализа исхода первого визита контрольной переменной является "деревня". Данное изменение привело к росту значимости регрессионных коэффициентов некоторых предикторов.

При добавлении предсказаний интервьюеров в модель, ее объяснительная способность существенно повышается. Исходя из данных таблицы-6, R2 Кокса и Снелла повышается на 2,6 %, а R2 Нэйджелкерка на 3,6 % в модели 2.2 по сравнению с моделью 2.1. Учитывая общий R2 модели, данное повышение является существенным. Переменная предсказаний интервьюеров является значимой, и ее можно проинтерпретировать: увеличение переменной предсказание интервьюером исхода повторного интервью повышает отношение шансов удачного и неудачного исхода интервью в 1,57 раза при прочих равных. Таким образом, гипотеза о том, что оценки интервьюеров исхода повторного визита позволяют предсказать исход интервью, подтверждается.

§3.3 Анализ эффективности повторных предсказаний интервьюеров

Следующая задача сформулирована следующим образом: "выявить, являются ли эффективными последующие оценки интервьюеров по предсказанию исхода интервью". Гипотеза данной задачи заключается в том, что последующие предсказания интервьюеров уточняют те, которые уже имеются и становятся более точными в предсказании исхода интервью.

Для того чтобы проверить данную гипотезу, построим модель бинарной логистической регрессии. В качестве зависимой переменной будет использован исход третьего интервью. Это обусловлено тем, что к третьему интервью собираются два предсказания интервьюеров, а не одно, как в случае со вторым интервью. В базе данных содержится 722 наблюдения с исходом третьего интервью (Таблица 1). В качестве независимой переменной на первом шаге будут использованы переменные тип поселения, данные о контакте, наблюдения интервьюеров. Затем добавим в модель предсказания интервьюеров исхода третьего визита для того чтобы оценить процент объясненной дисперсии, который они добавляют в модель.

Таблица 7. Распределение переменной "Предсказания интервьюеров" для третьего визита

Предсказания интервьюеров

Количество

Процент

Точно нет

226

23,5

Скорее всего нет

140

14,6

Возможно, будут

170

17,7

Очень вероятно, что будут

61

6,4

Трудно сказать

363

37,8

Сумма

960

100

Предсказания интервьюеров для третьего визита также имеют большой процент тех, кто затрудняется дать свое предсказание - 38 % (Таблица 7). Тем не менее, вариант ответа "затрудняюсь ответить" приближается ближе к негативной оценке, нежели положительной. Иными словами, для респондентов, которым интервьюер дал неопределенное предсказание, больше характерен неудачный исход последующего интервью, нежели удачный.

На третьем шаге в модель будет добавлены предсказания второго визита. Это необходимо для того, чтобы оценить, является ли предсказание интервьюеров исхода третьего визита более точным, чем второго визита, и нужно ли таким образом каждый раз заново заполнять анкету наблюдений интервьюеров. Важно отметить, что корреляция между этими переменными не сильная (0,48, см. Таблица 4, Приложение 1), что позволяет использовать их в одной модели.

Таблица 8. Логистическая регрессия: предсказание исхода для третьего визита

Модель 3.1

Модель 3.2

Модель 3.3

B (ср. кв. ошибка)

Exp (B)

B (ср. кв. ошибка)

Exp (B)

B (ср. кв. ошибка)

Exp (B)

Константа

-2,121** (,763)

,120

-6,410***(1,33)

,002

-5,643***(1,58)

,004

Тип поселения. Контрольная группа - Большой город

Крупный город

,403(,290)

1,496

,872*(,431)

2,392

-,120(,542)

,887

Небольшой город

,688*(272)

1,989

1,289**(,413)

3,629

,612(,511)

1,844

Поселение

,644*(,271)

1,904

1,413**(,431)

4,108

1,396**(,493)

4,041

Деревня

1,240***(,342)

3,455

2,120***(,512)

8,328

1,852**(,570)

6,373

Данные о контакте

День недели. Контрольная группа - выходные

Будни

-,139 (,189)

,871

,112 (,278)

1,118

,074 (,335)

1,077

Время суток. Контрольная группа - утро

День

-,332(,252)

,718

-,327 (,364)

,721

,248(,430)

1,281

Вечер

,057(,235)

1,058

-,071 (,331)

,932

-,009(,408)

,991

Наблюдения интервьюеров

Количество этажей

-,010(,023)

,990

,004 (,033)

1,004

,014(,040)

1,014

Состояние домов в районе

,225(,159)

1,253

,532*(,239)

1,703

,305(,291)

1,357

Состояние дома в сравнении с окружающими

,004(,243)

1,004

-,205 (,344)

,815

-,080(,429)

,923

Чувство безопасности

-,020(,175)

,981

-,042 (,253)

,959

-,043(,312)

,958

Предсказания интервьюеров.

Предсказание третьего визита

1,134***(,186)

3,109

,975**(,282)

2,650

Предсказание второго визита

,066(,288)

1,069

R2 Кокса и Снелла

,033

,180

,154

R2 Нэйджелкерка

,048

,257

,223

Значимость коэффициентов: *p<0.05; **p<0.01; ***p<0.001.

Модель 3.1 имеет низкий процент объясненной дисперсии (R2 Кокса и Снелла равен 3,3 %; R2 Нэйджелкерка равен 4,8 %, модель 3.1, Таблица 8). Помимо этого, все переменные наблюдений интервьюеров и данных о контакте оказались незначимы. Значимы только предикторы переменной "тип города" - небольшой город, поселение, деревня. Несмотря на это, переменная "крупный город" незначима, что говорит о том, что нет разницы между жителями крупного города и контрольной группой (жителями большого города).

Перейдем к интерпретации моделей других двух моделей. Добавление переменной "предсказание интервьюеров" добавило модели 3.2 почти 15 % объясненной дисперсии (R2 Кокса и Снелла) и почти на 21 % вырос R2 Нэйджелкерка. Столь большое увеличение объяснительной способности модели говорит о том, что предсказания интервьюеров удачно справляются с предсказанием неответов третьего визита. Третья модель оказалась не столь успешной - процент объясненной дисперсии понизился при включении в модель предсказания исхода второго визита. Следовательно, можно сделать вывод о том, что предсказания интервьюеров являются более точными при последующих визитах.

Проинтерпретируем модель 3.2. Во второй модели из таблицы-8 значимы все коэффициенты при переменной "тип города", в то время как данные о контакте оказались незначимы. Переменные из категории "данные о контакте" оказались незначимы для обоих моделей. Из наблюдений интервьюеров в данной модели значим предиктор "состояние домов в районе". Переменная "количество этажей", которая была значима при построении модели исхода первого визита (1.3), оказалась вовсе незначимой. Тем не менее, значимой остается переменная "состояние домов в районе". Коэфициент переменной "предсказания интервьюеров" значимы, можно его проинтерпретировать. Увеличение значения переменной предсказания интервьюера на один увеличивает отношение шансов удачного и неудачного исхода интервью в 3,1 раза.

Гипотезу о том, что последующие предсказания интервьюеров исхода интервью являются более точными, подтверждается. Следовательно, можно сделать вывод о том, что заполнение оценок интервьюеров при каждом последующем визите в домохозяйство не является бессмысленным и позволяет уточнять уже собранные оценки.

Заключение

В заключение, хотелось бы еще раз подчеркнуть, что увеличивающаяся доля неответов является серьезной угрозой качеству современных социальных исследований. В данной работе был предпринят первый шаг одного из возможных способов решения этой проблемы с помощью использования параданных. Цель работы заключалась в том, чтобы оценить возможности параданных в предсказании вероятности участия респондентов в исследовании. Для достижения цели были построены модели бинарной логистической регрессии с фиктивными переменными, которые оценивали эффективность параданных в предсказании первого, второго и третьего визитов интервьюеров в домохозяйство в "Европейском Исследовании Ценностей" для Российской выборки.

В данной работе удалось доказать, что параданные и, в частности, наблюдения интервьюеров, позволяют предсказывать исход интервью. С данной задачей лучше всего справляются наблюдения интервьюеров "количество этажей в доме", а также "состояние домов в районе". Обе переменные при увеличении своих показателей на единицу уменьшают отношение шансов того, что интервью будет собрано к тому, что интервью не будет собрано. Данные о контакте также позволяют предсказать исход интервью, причем день недели визита в большей степени влияет на исход интервью, в то время как переменная "время суток" оказалась в моделях незначимой. Исходя из анализа исхода первого визита можно сделать вывод о том, что визит в будний день уменьшает отношение шансов того, что интервью будет собрано к тому, что оно не будет собрано. Таким образом, визиты в выходные дни являются более успешными.

Важным результатом данного исследования является то, что предсказания интервьюеров являются эффективными при предсказании неответов. Несмотря на то, что переменная с предсказанием содержит много ответов "затрудняюсь ответить", что является одним из ограничений данного исследования, она является более эффективной, нежели остальные наблюдения и контактные данные. Более того, анализ исхода третьего интервью показал, что предсказания интервьюеров являются более точными с каждым визитом. Этот результат говорит о том, что необходимо собирать наблюдения интервьюеров не только на первом визите, но также и при каждом последующем, так как они дают более точные оценки. Следовательно, несмотря на то, что некоторые исследователи отмечают низкое качество наблюдений и предсказаний интервьюеров, они все же позволяют предсказывать неответы. Таким образом, все задачи исследования были выполнены, и можно определенно говорить о том, что удалось достигнуть поставленную цель данного исследования.

Важно отметить основные ограничения данного исследования. Пожалуй, самым значимым ограничением параданных в предсказании исхода интервью является их низкая предсказательная способность. Несмотря на то, что переменные являются значимыми и прибавляют процент объясненной дисперсии моделям, их общие предсказательные способности варьируются в пределах от 10 до 30 процентов в зависимости от номера визита. Тем не менее, такие результаты были ожидаемы еще на теоретическом этапе, так как авторы многих работ на подобную тему также отмечают низкие предсказательные способности параданных и наблюдений интервьюеров (Blom, 2009; Sturgis 2011; Kreuter, 2011; Kaminska and Lynn, 2009).

Как отмечалось ранее, переменная "предсказания интервьюеров" имеет высокую долю ответов "трудно сказать". Помимо этого, данный вопрос задавался только в том случае, если респондент лично отказался от участия в исследовании, в то время как интервьюеры не давали предсказание в случае, если при визите никого не оказывалось в домохозяйстве. Таким образом, в дальнейшем можно было бы использовать данную оценку для всех случаев, когда интервьюер не может собрать интервью.

Также необходимо учитывать, что при построении моделей использовалась переменная "тип города". Формально, данная переменная не является параданными, так как она не собирается интервьюерами, а имеется у исследователя на этапе формирования выборки. Тем не менее, для решения проблемы неответов исследователи используют все доступные для анализа данные, и переменная, описывающая тип города, является одним из наиважнейших инструментов, который позволяет предсказывать неответы, что и подтвердили результаты данного исследования.

Стоит отметить, что данная работа носит разведывательный характер, поэтому в ней используется только метод бинарной логистической регрессии, в то время как структура данных такова, что позволяет в дальнейшем использовать более сложные методы анализа, такие как модели со случайными эффектами и путевой анализ. Таким образом, построение более сложных моделей может быть рассмотрено как одно из направлений дальнейших исследований развития данной темы. Еще одним из возможных направлений дальнейшего анализа может рассматриваться создание единой предсказательной модели для всех визитов, так как в данной работе все визиты рассматривались по отдельности. Тем не менее, стоит понимать, что данный метод также будет иметь ряд ограничений.

Библиографический список

1. Ипатова А.А. Использование параданных в анализе телефонных опросов // Телескоп: журнал социологических и маркетинговых исследований. 2014. №. 6. С. 34-41.

2. Когаловский М.Р. Метаданные, их свойства, функции, классификация и средства представления. Труды 14-й Всероссийской научной конференции "Электронные библиотеки: перспективные методы и технологии, электронные коллекции"-RCDL-2012, Переславль-Залесский, Россия, 15-18 октября 2012 г.

3. Мавлетова А.М. Использование параданных в опросах для корректировки и оптимизации полевых работ в адаптивном дизайне // Мониторинг общественного мнения: Экономические и социальные перемены. 2017. № 5. С. 105-119.

4. Самарина В.П. Анализ проблем регионального развития применительно к типам регионов // Региональная экономика: теория и практика. 2010. №. 42. с. 12-20.

5. Сидоров Н. Использование параданных в социологических исследованиях // Социология: теория, методы, маркетинг. 2011. 4. С. 198-208.

6. Юдин Г.Б. Территориальная локализация и уровень неответов в массовом опросе // Социологический журнал. 2008. №. 1. С. 49-72.

7. Biemer P.P. Total survey error: Design, implementation, and evaluation // Public Opinion Quarterly. 2010. Vol...


Подобные документы

  • Проблема определения критериев эффективности теоретических и практических результатов социологического исследования. Познавательные возможности отчетов интервьюеров. Глубинное интервью и его использование в изучении репродуктивного поведения молодежи.

    контрольная работа [15,5 K], добавлен 26.11.2009

  • Проектирование нейронной сети для прогнозирования исхода выборов президента России, содержание обучающей и тестовой выборки. Построение модели персептрона. Зависимость погрешности обучения и обобщения. Зависимость результатов от возраста кандидатов.

    презентация [316,5 K], добавлен 14.08.2013

  • Понятие метода и методики социологических исследований. Метод опроса в социологическом исследовании. Методы механической, серийной, гнездовой и квотной выборки. Создание широких сетей интервьюеров. Качественные методы анализа социологических данных.

    курсовая работа [32,4 K], добавлен 27.05.2015

  • Особенности применения поискового и нормативного подходов в социальном прогнозировании. Методика расчета прогнозных показателей с их использованием. Основные направления совершенствования системы социальных норм и нормативов в Российской Федерации.

    курсовая работа [775,0 K], добавлен 14.09.2015

  • Системное изучение социальных процессов и явлений. Виды социологического исследования, типы анкет. Методы и процедуры сбора, обработки, анализа и обобщения фактов. Компьютерные программы для сетевых опросов, онлайн-интервью и интерактивного анкетирования.

    реферат [592,0 K], добавлен 13.10.2015

  • Природа метода опроса в социологическом исследовании. Два основных класса опросных методов: интервью и анкетирование. Принципы построения анкеты по В. Ядову. Контент-анализ: возможности использования; техника проведения; преимущества; недостатки.

    курсовая работа [35,4 K], добавлен 09.01.2011

  • Интервью - распространенный метод сбора информации в социологии. Сбор данных методом формализованного интервью называют анкетированием. Он подразумевает стремление к максимальной стандартизации и унификации процедур сбора данных, их обработки и анализа.

    контрольная работа [13,3 K], добавлен 29.12.2008

  • Анкетирование в социологическом исследовании. Интервью как один из видов общения, его применение. Метод опроса как основной метод получения социологической информации, его разновидности, особенности и условия использования. Правила составления вопросов.

    курсовая работа [40,4 K], добавлен 25.09.2011

  • Подготовка эмпирических данных к обработке и анализу. Сущность и виды группировок, понятие рядов распределения. Графическое представление информации в анализе социологических данных. Структура и требования к отчету о социологическом исследовании.

    контрольная работа [320,8 K], добавлен 05.04.2011

  • Понятие, специфика и достоинства метода интервью как вида социологического исследования. Классификация форм интервью. Процедура и цели проведения интервью, факторы его успешности. Характеристика действий интервьюера. Особенности интервью-ситуации.

    курсовая работа [30,5 K], добавлен 18.07.2011

  • Понятие социологического исследования. Подготовка эмпирических данных к обработке и анализу. Сущность и виды группировок. Таблицы и графики: их роль в анализе социологических данных. Структура отчета об исследовании. Основные требования к его составлению.

    контрольная работа [542,4 K], добавлен 10.11.2010

  • Методы, используемые при прогнозировании демографических процессов. Построение регионального прогноза демографических показателей: численности постоянного населения, естественного и миграционного прироста (убыли) населения, используя методы экстраполяции.

    курсовая работа [2,2 M], добавлен 10.02.2011

  • Верификация прогноза как метод повышения эффективности решений. Восемь основных методов верификации прогноза, их сущностная характеристика. Этапы проверки прогноза на точность и достоверность. Последовательность операций разработок рекомендаций.

    контрольная работа [22,7 K], добавлен 26.02.2012

  • Классификация интервью. Виды интервью по степени стандартизации, характеру получаемой информации, отношению опрашиваемого к беседе. Подготовка к интервью. Психологическая подготовка. Вопросы в интервью. Проведение интервью.

    реферат [23,1 K], добавлен 06.12.2006

  • Понятие о методе науки. Правила формирования доверия в отношениях между коммуникатором и аудиторией. Специфика интервью, его формы, достоинства, условия успешного проведения. Возможности беседы как диалога. Ее виды и этапы. Значение невербального общения.

    курсовая работа [40,9 K], добавлен 14.03.2015

  • Представление об Интернете как о виртуальной реальности. Типология респондентов в исследовании: "активные пользователи", "пассивные пользователи", "non-пользователи Интернета". Открытый контент в сети Интернет. Интернет: новые возможности ведения бизнеса.

    реферат [20,9 K], добавлен 23.11.2009

  • Этапы планирования и проведения выборки, их сложность и правильная реализация. Способ систематического сбора данных о поведении, установках людей посредством опроса специально подобранной группы респондентов. Основные разновидности статистической выборки.

    контрольная работа [19,8 K], добавлен 07.09.2015

  • Интервью – метод получения первичной социологической информации путем непосредственной целенаправленной беседы интервьюера и респондента. Специфика и методы интервью. Человек - источник первичной социологической информации. Стандартизированное интервью.

    контрольная работа [19,7 K], добавлен 15.12.2008

  • Интерес общества к социальному прогнозированию как технологии социальной работы. Анализ объекта и субъекта проектирования, создание "информационного массива" как источника социального проектирования, его цели как специфической управленческой деятельности.

    контрольная работа [64,1 K], добавлен 24.08.2015

  • Исследование понятия, основных видов и этапов проведения метода экспертной оценки в социальном прогнозировании. Характеристика дельфийской техники коллективной генерации идей, методов "мозговой атаки", "сценариев", "деловых игр", "совещаний" и "суда".

    реферат [30,4 K], добавлен 12.07.2011

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.