Построение оптимальной кластерной выборки с учетом дизайн-эффекта
Кластерная выборка как один из самых популярных методов формирования выборки, применяемых для проведения социологических исследований. Знакомство с основными особенностями и способами построения оптимальной кластерной выборки с учетом дизайн-эффекта.
Рубрика | Социология и обществознание |
Вид | статья |
Язык | русский |
Дата добавления | 08.04.2019 |
Размер файла | 670,8 K |
Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже
Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.
Размещено на http://www.allbest.ru/
Построение оптимальной кластерной выборки с учетом дизайн-эффекта
Объем ресурсов, выделяемых на реализацию выборки любого исследования, весьма ограничен. Поэтому исследователь заинтересован в том, чтобы наилучшим образом использовать имеющиеся ресурсы и получить выборку с наименьшей погрешностью. В случае простой случайной выборки выполнение такой задачи тривиально -- самой лучшей будет выборка наибольшего объема. Но в практике социологических исследований работать с простой случайной выборкой обычно не приходится. В итоге используют более сложные методы отбора респондентов. Таким образом, данная статья посвящена вопросу построения оптимальной кластерной выборки с учетом дизайн-эффекта.
Выборочный метод служит основанием, на котором базируются социологические исследования. И каждый исследователь пытается построить такую выборку, которая будет как можно более точной, но при этом не слишком дорогой. То есть существует задача максимально эффективно использовать ресурсы, выделенные на реализацию исследования, чтобы получить наилучший возможный результат.
Кластерная выборка -- один из самых популярных методов формирования выборки, применяемых для проведения социологических исследований. Формируется она, как правило, в два этапа. Сначала следует описать генеральную совокупность исследования как совокупность определенных
кластеров. В роли кластеров в Украине могут выступать населенные пункты, избирательные участки, почтовые отделения и т.п. Затем из этой совокупности кластеров случайным образом отбирают определенное количество таких кластеров, из которых в дальнейшем формируется окончательная выборка респондентов. Однако кластерная выборка имеет один существенный недостаток -- полученная таким образом выборка, как правило, менее точная, чем простая случайная выборка такого же объема. Исследователи связывают это явление с высокой дисперсией средних, то есть с различиями средних значений для определенного признака в каждом кластере. Если, например, исключить из кластерной выборки определенные кластеры, то в результате получим сдвиг выборочной оценки среднего по всей совокупности. То есть кластерная выборка слишком чувствительна к тому, какие кластеры в нее попадут. Итак, мы непосредственно подошли к рассмотрению такого явления, как дизайн-эффект.
Дизайн-эффектом является отношение дисперсии оценки, полученной при таком дизайне выборки, к дисперсии оценки, полученной при условии простого случайного отбора. Этот показатель был предложен еще Лесли Кишем в 1965 году [Kish, 1965: р. 162]. То есть этот показатель можно интерпретировать как меру точности, утраченную или приобретенную вследствие применения текущей выборки по сравнению с применением про стой случайной выборки.
Для кластерной выборки дизайн-эффект определяется следующим образом (см.: [Kish, 1965: р. 162]):
выборка социологический кластерный
где
m -- объем кластера в выборке;
р -- коэффициент межкластерной корреляции. В литературе можно также
встретить такой вариант обозначения, как ICC (Intraclass correlation coefficient).
Вычисления р проводят по формуле (см.: [Fisher, 1925: р. 178]):
где
N -- общее количество кластеров;
Xn -- среднее в кластере;
X -- среднее в совокупности;
s2 -- дисперсия.
То есть чтобы вычислить ICC значения, необходимо знать значения признака для каждого кластера.
Зная коэффициент межкластерной корреляции, мы можем определить дизайн-эффект от кластеризации.
Поскольку для того, чтобы вычислить дизайн-эффект при условии кластерного отбора, необходимо знать значения признака в каждом кластере (даже у тех, которые не попадут в выборку), поэтому понятно, что по результатам самого исследования дизайн-эффект от кластерного отбора определить невозможно из-за отсутствия информации о тех кластерах, которые не попали в выборку.
Как видно из формулы (1), дизайн-эффект при условии кластерного отбора не возникает в двух случаях: или р = 0, или m=1. Если кластер состоит всего из 1 единицы, то выборка фактически сводится к простой случайной. Дисперсия между кластерами уже не будет иметь значения. Если же коэффициент межкластерной корреляции составляет 0, это свидетельствует о том, что кластеры между собой не различаются. Поэтому не имеет значения, какое количество и какие кластеры по па дут в выборку, поскольку каждый из них может репрезентативно представлять генеральную совокупность.
Но обычно кластеры между собой определенным образом разнятся, поэтому коэффициент межкластерной корреляции больше 0. Поэтому на практике кластерная выборка будет тем более точной, чем больше кластеров она будет включать (при условии одинакового общего объема).
Используем результаты выборов к Верховную Раду Украины 2012 года, чтобы оценить дизайн-эффект в зависимости от количества кластеров в выборке. В роли кластеров будут выступать территориальные избирательные участки. Сначала необходимо вычислить коэффициент межкластерной корреляции для каждой партии. Он определяется по формуле (2). Не приводя поэтапно расчет это го коэффициента, укажу только, какие данные были использованы. В качестве общего количества кластеров использовано общее количество территориальных избирательных участков. Среднее значение признака в кластере -- это доля голосов за данную партию на данном территориальном избирательном участке. Сред нее значение в совокупности -- общая доля голосов заданную партию. Результаты вычислений приведены в таблице 1.
выборка социологический кластерный
Таблица 1. Коэффициент межкластерной корреляции для каждой партии
Пусть объем на шей выборки будет составлять 1200 респондентов. Применим полученный коэффициент межкластерной корреляции к формуле (1), чтобы выяснить, как влияет на дизайн-эффект количество кластеров в выборке. Средний объем кластера примем от 1 до 20, поскольку он линейно связан с количеством кластеров (объем выборки = количество кластеров х средний объем кластера; см. табл. 2).
Очевидно, что чем меньше будет объем кластера и чем больше, соответственно, будет этих кластеров в выборке, тем ниже будет дизайн-эффект.
Но на практике, разумеется, мы столкнемся с тем, что выборка объемом 1200 респондентов из 60 городов по 20 респондентов в каждом кластере будет значительно дешевле, чем выборка объемом 1200 респондентов из 120 городов по 10 респондентов в каждом. Дело в том, что каждый новый кластер в выборке ведет к существенному удорожанию полевых работ, поскольку транспортные затраты значительно превышают оплату проведения интервьюером дополнительных интервью.
Таблица 2. Зависимость дизайн-эффекта от количества кластеров в выборке для каждой партии
Поэтому при определенном фиксированном объеме ресурсов мы можем провести исследование по большей выборке, но с небольшим количеством городов в выборке; а также опросить большое количество городов, но тогда выборку придется уменьшить.
Именно здесь мы оказываемся перед проблемой: как распределить ресурсы на исследование, чтобы получить наилучший результат? Самая большая выборка респондентов не означает самой низкой погрешности. Если провести опрос 1200 респондентов только в Киеве, Львове и Донецке, это будет значительно хуже в плане репрезентативности, нежели опросить в целом 800 респондентов, но в 10 разных городах Украины.
Для начала нам нужно знать, как вычисляется стоимость полевого этапа исследования, то есть как влияет на стоимость дополнительное интервью для интервьюера и дополнительный населенный пункт, до которого интервью придется добраться, что бы про вести свои интервью. Иными словами, следует установить, как задается функция затрат, определяющая, как затраты ре сур сов на исследование связаны с другими факторами. Разумеется, каждая исследовательская компания будет по-своему вычислять стоимость реализации конкретной выборки, и на эту стоимость может влиять множество факторов: расстояние населенного пункта до ближайшего областного центра, расстояние до железной дороги, расположение опросных центров и т.п. При желании все их можно учесть и построить довольно сложную функцию затрат, но в данном исследовании будем считать, что на стоимость реализации выборки влияет только два фактора: транспортные затраты (одинаковые для всех кластеров) и оплата за одно интервью. То есть на стоимость будет влиять количество респондентов в выборке и количество кластеров. Эту функцию затрат можно выразить следующей формулой:
С = kccl + пср
где
k -- количество кластеров;
сс1 -- транспортные расходы на один кластер;
п -- объем выборки;
cr -- стоимость одного интервью.
Поскольку количество кластеров в выборке определяется как k = n/m, где m -- объем кластера, то можно записать следующую формулу:
С = (nccl /m) + ncr .
Решим теперь это уравнение для п:
(ccl /m) + cr
Итак, если знать транспортные затраты на один кластер и стоимость одного интервью и задать общую сумму затрат, то можно сравнить, как это повлияет на объем выборки.
Пусть, например, стоимость одного интервью -- 32 денежные единицы, а транспортные затраты -- 200. При этом общий объем ресурсов, выделенных на полевой этап исследования, составляет 60000 денежных единиц. В зависимости от размера кластера мы получим определенный объем выборки (табл. 3).
Если бы дизайн-эффекта от кластеризации не существовало, то очевидно, что наибольший объем выборки давал бы самую низкую погрешность. На основании таблицы 2 мы уже убедились в том, что дизайн-эффект увеличивается по мере увеличения размера кластера, поскольку дизайн-эффект связан с объемом выборки следующим образом (см.: [Kish, 1965: р. 162]):
Neff = N / deff
То есть если эффективный объем выборки равен реальному объему, разделенному на дизайн-эффект, то вычислить погрешность текущей выборки можно по формуле:
Данные касательно дизайн-эффекта для каждой из партий приведены в таблице 1. Отсюда вычислим погрешность выборки для каждой партии в зависимости от заложенного в выборке объема кластера (см. табл. 4).
Таблица 3. Зависимость объема выборки от размера кластера и погрешность для простой случайной выборки такого же объема
Таблица 4
Рис.1
выборка социологический кластерный
Как видим, связь между объемом выборки и погрешностью нелинейная, и каждая партия достигает минимальной погрешности при определенном объеме кластера. Причем эта точка оптимума у каждой партии своя и зависит от коэффициента межкластерной корреляции (см. табл. 5).
Как видим, чем ниже был коэффициент межкластерной корреляции, тем больший размер кластера является допустимым и, соответственно, тем больше будет общий объем выборки. В Партии регионов коэффициент межкластерной корреляции на и больший, по э тому для того, что бы выборка была как можно более репрезентативной для нее, она должна состоять из большого количества кластеров, что обусловливает сокращение общего объема выборки.
Таблица 5
Итак, чтобы рассчитать оптимальное количество кластеров в выборке, необходимо знать коэффициент межкластерной корреляции и функцию затрат.
Воспользуемся данными из нашего примера, чтобы продемонстрировать расчет оптимального количества кластеров.
Если в формулу (6) подставить (1), то увидим, что полностью формула вычисления погрешности выборки выглядит так:
d _ 1,96^/0,25/nj ` + p(m -1). (7)
Если вместо n подставить формулу (4), то получим:
d _ 1,96 0,25 C Х>/ 1+p(m-1). (8)
V / (ccl/m) + Cr
Пусть мы оптимизируем выборку для достижения минимальной погрешности для ГО “Свобода”. Коэффициент межкластерной корреляции для нее равен 0,137. Стоимость одного интервью -- 32 денежные единицы, транспортные затраты -- 200, общий объем ресурсов -- 60000 денежных единиц.
Подставим эти значения и получим:
d _ `'“f25/®^ А1+о,ш<„ - ».
Теперь необходимо найти минимум этой функции. Для этого найдем для нее про из вод ную по m:
0,00876983m2 -0,345272 d (т)
л/0,137 т+0,863m %/32 + (200/т)
При рав ня ем ее к 0:
0,00876983т2 -0,345272 _ 0
л/0,137 т + 0,863т %/32 + (200/ т) '
В качестве решения этого уравнения получим: т` = -6,27459, т2 = +6,27459.
Мы нашли минимум рассматриваемой функции и теперь знаем, что самую низкую погрешность выборки получим, если размер кластера будет равен 6.
Выводы
выборка социологический кластерный
Наибольшее влияние на погрешность кластерной выборки оказывают следующие факторы: общий объем выборки, количество кластеров в выборке и коэффициент межкластерной корреляции.
При условии ограниченности ресурсов на проведение исследования от объема этих ресурсов и функции затрат зависят общий объем выборки и количество кластеров в выборке. Для создания кластерной выборки с самой низкой возможной погрешностью исследователь должен определить, из какого количества кластеров должна состоять его выборка и какого объема она должна быть, чтобы не превышать пределов имеющихся ресурсов.
Сначала рассчитывают коэффициент межкластерной корреляции исследуемого признака, или при знака, который можно использовать вместо него. Потом выводят функцию затрат, которая должна показать, как связаны общие затраты на исследование с объемом выборки и количеством кластеров в ней. В каждом случае это может быть своя функция, но в целом она должна показывать эти связи. Далее выводят общую формулу, которая связывает погрешность с размером кластера. Размер кластера, при котором погрешность выборки будет самой низкой, будет равняться минимуму рассчитанной функции.
Источники
выборка социологический кластерный
1.Черняк О.І. Техніка вибіркових досліджень / Черняк О.І. -- К. : МІВВЦ, 2001. -- 248 с.
2.Чурилов Н. Типология и проектирование выборочного социологического исследования (история и современность) / Чурилов Н. -- К. : Факт, 2008. -- 366 с.
3.Hansen M.H. Sample Survey Methods and Theory / Hansen M.H., Hurwitz W.N., Madow W.G. -- N.Y. : John Wiley and Sons, Inc., 1953. -- Vol. 1.
4.Kish L. Survey sampling / Kish L. -- N.Y. : John Wiley & Sons, 1965. -- 642 p.
Размещено на Allbest.ru
...Подобные документы
Возникновение задачи построения выборки в социологических исследованиях. Вероятностная (случайная) выборка как наилучшая модель отбора. Типы и размеры вероятностных выборок, их реализация. Целевой отбор: выборка доступных, типичных и критических случаев.
курсовая работа [52,0 K], добавлен 16.02.2011Задача построения выборки и стратегии ее решения. Выборочный метод как один из аспектов социологического исследования, его основные цели и задачи. Ознакомление с типами выборки, выявление их достоинств и недостатков. Определение достоверности наблюдений.
контрольная работа [33,6 K], добавлен 14.12.2010Этапы планирования и проведения выборки, их сложность и правильная реализация. Способ систематического сбора данных о поведении, установках людей посредством опроса специально подобранной группы респондентов. Основные разновидности статистической выборки.
контрольная работа [19,8 K], добавлен 07.09.2015Понятие метода и методики социологических исследований. Метод опроса в социологическом исследовании. Методы механической, серийной, гнездовой и квотной выборки. Создание широких сетей интервьюеров. Качественные методы анализа социологических данных.
курсовая работа [32,4 K], добавлен 27.05.2015Виды, структура и функции социологического исследования, его классификация и этапы. Роли программы в социологическом исследовании. Понятие и виды выборки. Характеристика наиболее распространенных методов сбора информации. Структура анкеты и вопросы.
презентация [682,7 K], добавлен 18.03.2014Суть выборочного метода и его роль в социологии. Понятие случайной и систематической ошибки. Генеральная и выборочная совокупность. Случайные и неслучайные выборки в социологии. Стратификация и кластеризация, определение параметров дизайн-эффекта.
контрольная работа [130,9 K], добавлен 06.08.2013Основные виды, структура и функции социологического исследования. Роль программы в исследовании. Наиболее распространенные методы сбора информации. Этапы социологического исследования. Собственно-случайная, механическая, серийная и гнездовая выборки.
презентация [682,7 K], добавлен 11.04.2013Основа выборки - это описание (перечень) всех единиц наблюдения исходной совокупности, который используется для отбора единиц отбора и наблюдения. Чаще всего понятие применяется к единице наблюдения. Объем - количественный параметр выборочной совокупности
доклад [6,1 K], добавлен 09.01.2006Понятие социологического исследования, его виды и характеристики. Этапы прикладного обществоведческого эксперимента: методологический и процедурный. Проблема выборки и ее основные типы. Фундаментальные методы сбора первичной социологической информации.
реферат [25,9 K], добавлен 06.12.2010Основные структурные компоненты выборочного исследования состояния успеваемости студентов. Вычисление объемов повторной и бесповторной выборки, определение дисперсии и допустимой погрешности. Разработка опросного листа по изучению состояния успеваемости.
контрольная работа [595,0 K], добавлен 01.11.2012Методологические проблемы социологических исследований. Функции социологии. Разработка программы социологического исследования. Обобщение и анализ данных, полученных в процессе его проведения. Описание и применение разных методов и методик в социологии.
учебное пособие [339,5 K], добавлен 14.05.2012Понятие и типы социологических исследований, этапы их проведения, подготовительные и основные. Методы эмпирических социологических исследований, анализ и оценка, интерпретация полученных результатов, существующие проблемы и их решение, управление.
контрольная работа [22,8 K], добавлен 14.06.2015Опрос - метод сбора социологической информации. Устный и письменный опросы. Анкетирование, интервью, тесты. Простая и сложная выборки при интервьюировании. Тест как инструмент получения информации о склонностях, предрасположенностях и реакциях индивидов.
контрольная работа [15,8 K], добавлен 25.03.2010Формирование исходной выборки. Статистические распределения рядов признаков-факторов и результирующего признака. Проверка однородности и нормальности. Вывод зависимостей результирующего-признака от факторов-признаков. Определение доверительного интервала.
курсовая работа [987,0 K], добавлен 13.05.2009Методологическая и методическая составляющие программы социологического исследования. Определение объекта исследования, генеральная и выборочная совокупность. Методы выборки, разработка инструментария социологического исследования, основные понятия.
контрольная работа [28,3 K], добавлен 29.09.2010Теоретическое обоснование проблемы интерпретации результатов социологических исследований. Определение и виды социологических исследований, процедура анализа их результатов. Практическое применение интерпретации данных социологических исследований.
курсовая работа [52,3 K], добавлен 10.01.2011Опрос как основной статистический метод изучения общественного мнения. Сущность выборочного метода, принципы и приемы, решаемые задачи. Определение необходимого объема выборки. Пример вычисления средней ошибки для доли бесповторного отбора единиц.
курсовая работа [333,1 K], добавлен 08.11.2014Понятие и сущность выборочного метода маркетинговых исследований, его основные ошибки. Практическое применение метода в работе предприятий социокультурной деятельности. Определение необходимого объема выборки в исследовании клиентов службы занятости.
курсовая работа [106,4 K], добавлен 21.05.2014Структурный анализ как один из методов интерпретации и обобщения социологических исследований. Объект, предмет, методы, этапы проведения и функциональные возможности cтpyктypнoгo aнaлизa. Особенности применения структурной методологии в книговедении.
реферат [48,9 K], добавлен 17.05.2011Роль социологических знаний в прогнозировании и их воздействие на различные слои населения. Характеристика явлений и процессов в системе социальных связей с точки зрения их соотношения с обществом. Методология проведения социологических исследований.
реферат [22,6 K], добавлен 04.09.2011