Пропуски в лонгитюдных сетевых данных и методы их восстановления
Изучение пропусков различной природы в несетевых и сетевых данных и соответствующих им методов восстановления. Обзор процесса генерации пропусков разных типов. Разбор спецификации моделей и процедуры восстановления методом множественной импутации.
Рубрика | Социология и обществознание |
Вид | дипломная работа |
Язык | русский |
Дата добавления | 28.08.2018 |
Размер файла | 1,7 M |
Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже
Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.
Размещено на http://www.allbest.ru/
ФЕДЕРАЛЬНОЕ ГОСУДАРСТВЕННОЕ АВТОНОМНОЕ ОБРАЗОВАТЕЛЬНОЕ УЧРЕЖДЕНИЕ ВЫСШЕГО ОБРАЗОВАНИЯ
«НАЦИОНАЛЬНЫЙ ИССЛЕДОВАТЕЛЬСКИЙ УНИВЕРСИТЕТ
«ВЫСШАЯ ШКОЛА ЭКОНОМИКИ»
Факультет Санкт-Петербургская школа социальных и гуманитарных наук Национального исследовательского университета
«Высшая школа экономики»
ПРОПУСКИ В ЛОНГИТЮДНЫХ СЕТЕВЫХ ДАННЫХ И МЕТОДЫ ИХ ВОССТАНОВЛЕНИЯ
Выпускная квалификационная работа - БАКАЛАВРСКАЯ РАБОТА
по направлению подготовки 39.03.01 «Социология»
образовательная программа «Социология»
Головченко Анна Антоновна
Руководитель: к.б.н.
Иванюшина Валерия Александровна
Санкт-Петербург 2018
Оглавление
Введение
1. Обзор литературы
1.1 Восстановление пропусков в несетевых данных
1.2 Восстановление пропусков в сетях
1.3 Восстановление пропусков в лонгитюдных сетях
2. Методология
2.1 Данные
2.2 Создание данных с пропусками
2.2.1 Совершенно случайные пропуски (MCAR)
2.2.2 Случайные пропуски (MAR)
2.2.3 Неслучайные пропуски (MNAR)
2.3 Спецификация модели
2.4 Процедура восстановления и ее ограничения
2.5 Оценка и сравнение моделей
3. Результаты
Заключение
Литература
Приложения
Введение
Количественные исследования довольно часто сталкиваются с проблемой пропусков в данных вне зависимости от научной дисциплины. Исследователи в социальных науках наиболее часто встречаются с неполнотой данных, так как преимущественно работают с данными опросов, которые по природе своей более склонны к неполноте. В качестве яркого примера можно представить масштабный панельный опрос респондентов на какую-либо сенситивную тематику (например, употребление наркотиков), который проходит ежегодно с 2012 по 2018 год. Респонденты не только будут склонны пропускать особо неудобные для них вопросы, но и ожидаемо будут выпадать из исследования на какой-то период или насовсем. Поэтому часто возникает вопрос: «как поступить с неполными наблюдениями?»
В общей сложности существует три основных подхода к работе с пропусками. Наблюдения с множеством пропусков, могут быть опущены (удалены), взвешены внутри будущей модели или восстановлены таким образом, что набор данных окажется полным. Все три подхода можно встретить в современных исследованиях. Например Браунин и коллеги (2004) использует взвешивание для работы с пропусками в данных о делинкветности подростков; восстановление применяется в сетевых данных о дружбе подростков в работе Стеглиха и коллег (2006), в исследовании о делинкветном поведении Виирман (2011). Макглоин (2005) исключает 1415 неполных наблюдения из 7415 и одну переменную с большой долей пропусков, чтобы продолжить анализ на полных наблюдениях для изучения связи самоконтроля и сети дружбы сверстников. Хайни и Осгуд (2005) также исключают одну из переменных из-за неполноты, которую изначально намеревались включить в модель.
Очевидно, что многие исследователи даже не рассматривают вариант восстановления данных, а сразу исключают наблюдения, в которых они содержатся вместо того, чтобы реконструировать их. В лучшем случае исследователи предоставляют количественное описание пропусков и исключенных наблюдений по отношению к изначально собранным данным. По факту, только в 15% статьях в социальных науках присутствует анализ или сводка по неполным наблюдениям (Saunders et al., 2006). Такие практики борьбы с неполнотой ведут к значительной потере информации и, следовательно, приводят к падению статистической мощности моделей и скошенным результатам из-за устойчивости паттерна возникновения пропусков (Huisman & Krause, 2017). Результаты и исследовательские выводы по таким моделям (даже при их статистической значимости) не могут быть распространены на генеральную совокупность, если они были построенных на данных с большим количеством пропусков.
Одним из возможных объяснений выбора в пользу стратегии игнорирования миссингов является заметное влияние трех мифов относительно восстановленых данных, которые сформировались еще до революции в этой области в 1987 году (Graham, 2009), когда впервые был предложен метод множественной импутации (Rubin, 1987). Во-первых, некоторые исследователи верят, что восстановление данных это в каком-то смысле «выдумка» несуществующих данных. Во-вторых, существует мнение, что даже если вариант восстановления независимых переменных рассматривается как приемлемый, восстановление зависимой переменной может привнести дополнительный скос в результаты моделей. В-третьих, восстановление рассматривается как вариант только тогда, когда пропуски появились в данных абсолютно случайным образом, в противном случае предпочитают считать модели только на полных наблюдениях. Эти три мифа справедливы только для так называемых «старых процедур» импутации (восстановления), включая такие простые методы, как замена пропусков на среднее или самый частый ответ. Современные процедуры предполагают использование множественной импутации, которая превосходит предыдущие решения благодаря тому, что предоставляет стабильную оценку стандартных ошибок и доверительные интервалы.
Данная работа вносит вклад в современные исследования методов импутации для лонгитюдных социальных сетей. В работе дана оценка недавно разработанному методу множественной импутации, предложенному Краузе и коллегами (2017). Оценка проходит на наборе данных, собранными Лабораторией Социологии Образования и Науки, с искусственно созданными пропусками различной природы в зависимости от их ассоциации с другими переменными в данных. Была исследована взаимосвязь между механизмами, которые приводят к возникновению пропусков, и скошенностью, которые они привносят в модели типа SAOM (Stochastic Actor-Oriented Model). Были поставлены следующие исследовательские вопросы:
Если пропуски в данных не случайны, а зависят от других наблюдаемых переменных, приведет ли процедура множественной импутации к дополнительной неуверенности в результатах итоговых моделей по сравнению с моделью на полных данных?
Если пропуски в данных не случайны, а зависят от самого пропущенного значения, приведет ли процедура множественной импутации к дополнительной неуверенности в итоговых моделях по сравнению с моделью на полных данных?
Работа устроена следующим образом. В первой главе приведен обзор литературы о пропусках различной природы в несетевых и сетевых данных и соответствующим им методам восстановления. Во второй главе дается описание данных, описывается процесс генерации пропусков разных типов, подробно разобран процесс спецификации моделей и процедура восстановления методом множественной импутации, а также объяснен процесс сравнения моделей. В третьей главе описаны основные результаты. Четвертая глава представляет собой заключение с небольшим методологическим замечанием.
пропуск сетевой множественный импутация
1. Обзор литературы
Первые попытки объяснить механизмы, вызывающие неполноту данных, были предприняты Рубином (1976). Он критикует тенденцию игнорировать процессы, приводящие к пропускам в данных, которая наблюдалась в литературе по статистике того времени. В некоторых статьях, которые он упоминает, пропуски игнорируются под предлогом того, что каждое значение имеет одинаковую вероятность отсутствовать или, другими словами, предполагая, что пропущенные значения никаким образом не зависят от других значений в данных. В действительности, Рубин был первым, когда предложил статистическое обоснование трех механизмов возникновения пропусков, который сегодня известны как MCAR, MAR, и MNAR. Пропуски типа Missing Complete at Random (MCAR) не зависят ни от одной из переменных в данных, как например, пропуски, сгенерированные случайным образом. Пропуски типа Missing at Random (MAR) зависят от другой наблюдаемой переменной в данных, как, например, если в опросе женщины предпочитают не отвечать на вопросы о своем весе чаще, чем мужчины, тогда пропуск в вопросе о весе будет ассоциирован с другой переменной - полом респондента. Пропуски типа Missing not at Random (MNAR) зависят от самого пропущенного значения. Например, если люди старше 60-ти предпочитают не отвечать на вопрос про возраст, пропущенное значение будет зависеть от самого значения. Этот тип миссингов вносит наибольший вклад в скошенность статистических результатов, потому что есть систематическое различие между теми, кто ответил, и теми, кто вопрос пропустил.
1.1 Восстановление пропусков в несетевых данных
Понимание механизмов возникновения пропусков необходимо для разработки более точных техник для работы с неполными данными. Грэам (2009) приводит обширный обзор работ, касающихся анализа данных с миссингами. Он также упоминает разделение на «старые и новые» подходы к миссингам. К «старым» относится анализ полных наблюдений, попарное удаление строк и столбцов в случае с матрицей корреляции, и импутация средним (проставление среднего значения по переменной). Грэам не рекомендует использовать эти методы. К «современным» методам относится набор алгоритмов максимизации математического ожидания (Expectation-Maximization), методы множественной импутации (multiple imputation methods), и метод Максимального правдоподобия (Maximum Likelihood). Он также упоминает еще более «старый» метод с использованием SEM (Structural Equation Modelling).
В книге Литтла и Рубина (1989) дается определение трем основным стратегиям для анализа данных с неполными наблюдениями: импутация (восстановление), взвешивание и прямой анализ неполных данных, указывая что импутация предпочтительнее. Позже более сложные и устойчивые методы были предложены этими же авторами. В работе Рубина (1996) автор сформулировал идею множественной импутации, которая сделала возможным получение стабильных и избавленных от скошенности оценок параметров и стандартных ошибок. При множественной импутации каждое пропущенное значение восстанавливается несколько раз значениями, случайно набранными из эмпирического распределения, основанного на наблюдаемых данных. Таким образом получается множество сгенерированных наборов данных, которые идентичны друг другу за исключением импутированных значений. На каждом сгенерированном наборе данных отдельно считается модель, к примеру, линейная регрессия, а результаты складываются (combined) согласно правилу Рубина для оценок параметров и стандартных ошибок. Позже этот метод приобрел популярность и стал неотъемлемой частью функционала современных приложений для статистического анализа (Allison, 2000, p. 200). Кинг и коллеги (2001) описывают значительное количество достоинств и недостатков множественной импутации, с которыми они столкнулись на практике. Более исчерпывающее обсуждение множественной импутации может быть найдено в работе Ландермана, Лэнда и Пайпера (1997).
Метод множественной импутации имеет несколько требований. Во-первых, миссинги должны быть случайными (MAR, а не MNAR), то есть могут зависеть от другой переменной, но не от самого пропущенного значения. Во-вторых, модель импутации должна быть «корректной» (корректность модели обсуждается далее, в разделе о методологии). И наконец, модель для анализа должна быть эквивалентом модели импутации (Rubin, 1987, 1996). Эти ограничения имеют статистическое обоснование, но часто не соответствуют реальности работы с данными социологических опросов. Эллисон (2000) указывает на то, как просто ненароком нарушить эти требования из-за того, что пропуски в данных социологического опроса часто зависят от третей ненаблюдаемой переменной. Барнард и Менг (1994), и Робинс и Ванг (2000) в качестве альтернативы предлагают метод оценки вариации и относительного распределения (reference distributions), но этот метод также имеет недостатки.
1.2 Восстановление пропусков в сетях
Анализ социальных сетей - популярное направление современных эмпирических исследований благодаря развитию всевозможного программного обеспечения для анализа такого типа данных. В социологических исследованиях чаще всего встречаются опросные сетевые данные, которые также страдают от проблем с пропусками. Согласно Бёрту (1987) пропуски в данных - двойное проклятье для анализа социальных сетей. Сеть -- это сложная структура, состоящая из взаимосвязанных элементов -- акторов (также называются агентами или узлами). Связи между акторами представляют собой социальные интеракции или аффилиацию агентов. Удаление одного агента из сети неизбежно повлияет на остальных агентов, связанных с ним, и тем самым и на структуру сети в целом (Borgatti, 2005). Анализ социальных сетей как самостоятельное методологическое направление возник в результате синтеза теории графов и социометрических исследований Морено и Дженнингс (1938). Однако проблема пропусков в сетевых данных не была изучена вплоть до начала 21-го века, когда исследователи начали адаптировать статистические подходы, разработанные для «обычных» неполных данных, для восстановления сетевых данных. Боргатти и Молина (2005), Бёрт (1987) и Коссинетс (2006) подчеркивают исключительную чувствительность сетевых данных к пропускам. Боргатти (2005) утверждает, что неполная сетевая структура представляет собой важную проблему для исследователя, поскольку ведет к скосам и потере мощности.
В сетях пропуски принимают слегка иные формы, нежели в несетевых данных. Неполнота социальной сети может быть результатом неответа респондента, дизайна анкеты с ограниченным выбором других участников опроса и результатом обозначения границ сети (Kossinets, 2006). Исследователи (Huisman, 2009; Kossinets, 2006; Robins, Pattison, & Woolcock, 2004), которым приходится иметь дело с неответами в сетевых данных, придерживаются разделения миссингов на два типа: (1) неответ на вопрос (отсутствие связи, item/tie non-response) и (2) неответ агента (unit/actor non-response) (Huisman, 2009). В то время как первый случай поддается восстановлению как в обычных, так и в сетевых данных опроса, второй случай в контексте обычных (несетевых и не лонгитюдных) данных невозможно восстановить, потому что предполагается, что респондент не ответил ни на единый вопрос и таким образом наблюдается его полное неучастие в исследовании. Однако в сетях, в ситуации, когда респондент отсутствуют, но другие участники имеют представление о его существовании, такое восстановление становится возможным при использовании информации о структуре сети в целом, входящих связей и других наблюдаемых переменных, описывающих самих агентов. Больше деталей касательно механизмов возникновения пропусков в сетевых данных можно найти у Смита и коллег (2017), а формальное статистическое определение дано у Хэдкока и Джила (2010).
Возвращаясь к «старым» методам восстановления, стоит упомянуть, что они нереалистично предполагают, что данные в сетях отсутствуют абсолютно случайно (MCAR), что может быть правдой только в том случае, когда есть весомые причины утверждать, что отсутствующие агенты в сети статистически ничем не отличаются от присутствующих. Строго говоря, это можно доказать только одним способом: найти отсутствующих агентов и собрать информацию о них. Среди устаревших методов восстановления миссингов в сетевых данных представлен метод проставления нолей (то есть фактическое признание отсутствия связей, но «присутствия» агента), что по сути - вариант импутации средним (социальные сети обычно имеют маленькую плотность, поэтому «в среднем» связь скорее отсутствует, чем присутствует); а также метод реципрокного восстановления, предложенный Строком и Ричардсом (1992), основанный на проставлении ответных связей на входящие связи к отсутствующему агенту. «Современные» методы восстановления сетей предполагают, что данные отсутствуют случайно (MAR), что является более мягким допущением и к тому же поддается проверке (Graham, 2009).
Отметим также, что существует множество структур социальных сетей разной сложности: от единственной социальной сети до многослойных (multi-layer, multilevel) и лонгитюдных сетей, которые состоят из нескольких типов социальных отношений (дружба и совместная работа, например) или нескольких наблюдений во времени. Существуют также динамические сетевые модели, в которых зафиксировано каждое изменение структуры и состава сети во времени. При этом подходы к восстановлению сетей различной структуры (простые сети, многослойные, лонгитюдные, динамические сети) различаются не значительно. Более того, восстановление единственной сети, хоть и кажется более простой задачей, на деле имеет меньше шансов на успех и является чуть более сложным процессом, чем восстановление множественной сети, так как множественные сети несут в себе больше информации. Робинс и Ванг (2000) утверждают, что многослойные и лонгитюдные сети имеют больший потенциал к полному восстановлению.
1.3 Восстановление пропусков в лонгитюдных сетях
Одним из важных моментов в истории анализа лонгитюдных сетевых данных является появление SIENA (Ripley, Boitmanis, & Snijders, 2016) в открытом доступе. SIENA является самостоятельным приложением с пользовательским интерфейсом, поэтому имеет довольно низкий порог вхождения, но также имеет реализацию на языке программирования R (пакет RSiena). В SIENA используются стохастические агентно-ориентированные модели (SAOMs) для симуляции динамики сетей, эволюции поведения агентов, процессов социальной селекции и влияния.
SAOM (Snijders, 1996, p. 20) представляет собой класс статистических моделей, которая воспринимает переход во времени от «наблюдения 1» к «наблюдению 2» как результат ряда последовательных изменений. Каждое последовательное изменение, на котором изменяется только одно значение связи, называется мини-шагом. SIENA успешно применялась для анализа алкогольного потребления (Aspy et al., 2012) и распространения практик курения среди подростков (Lakon et al., 2015; Mercken, Steglich, Sinclair, Holliday, & Moore, 2012; Simons-Morton & Farhat, 2010). Интересно, что сети для SAOM не всегда получают методом опроса. Так, например, в очень заметной работе Шэфера и коллег (2010) сети -- это социальные взаимодействия между детьми дошкольного возраста, зафиксированные исследователями в детском саду путем наблюдений за детьми. На основе анализа этих наблюдений удалось выявить фундаментальные принципы формирования социальной сети нескольких малых групп детей дошкольного возраста. А в работе Фишера и коллег (2017) модели SAOM были использованы в экологии для исследования социальных сетей животных; данные также были собраны посредством наблюдений интеракций между животными.
В то время, как стохастические агентно-ориентированные модели для анализа лонгитюдных сетей приобретают популярность, довольно активно развивается и направление, отвечающие за восстановление данных для таких моделей. Шафер и Грэам (2002) различают два основных подхода к восстановлению миссингов в лонгитюдных социальных сетях: (1) оценка на основе правдоподобия (Maximum Likelihood) при использовании полных наблюдений для восстановления неответа на вопрос (item/tie non-response) и (2) восстановление (imputation) для неответа агента (actor non-response). Работы Баттса (2003), Робинсона и коллег (2004), а также Снайдерса (2005) вносят заметный вклад в разработку второго подхода. Методы, которые они предлагают, являются модель-ориентированным (model-based) методами импутации на основе всех доступных данных, который реализуется с помощью ERGM (exponential random graph model). Что касается неответа на вопросы, Хуисман и Снайдерс (2003) также разработали специальную процедуру их восстановления. Если агенты в сети по каким-то внешним причинам не могут иметь связей между собой (например, студентов просили назвать только тех друзей, которые учатся с ними в одной группе), но позже исследователь решает анализировать несколько сетей групп как одну сеть, он должен ввести условие, что связь между группами невозможна). Для такого случая авторы предлагают использовать понятие «структурные ноли» (structural zeros) - специальный синтаксис, обозначающий невозможность связи. На данный момент в пакете RSiena существует возможность «восстановить» структурные ноли или же использовать их для обозначения изменения состава агентов от волны к волне.
Существует несколько методов восстановления неответа агента для SAOMs. Один из них встроен в последние версии SIENA (Ripley et al., 2016). Этот метод следует процедуре MoM (Method of Moments), когда недостающие связи определяются предыдущем значением (last value carried forward). К примеру, если агент А в первой волне имел связь только с агентами В и С, а во второй волне отсутствовал, то после восстановления этим методом во второй он также будет иметь связь только с В и С. Доказано, что этот метод вносит некоторый скос в данные при не очень большом соотношении отсутствующих и присутствующих агентов (до 20% отсутствующих в волне).
Альтернативный подход для борьбы с неполнотой данных в SAOMs, основанный на ERGMs, был предложен Хиппом и коллегами (2015). Он основан на однократной имппутации для первой волны. Краузе и коллеги (2017) в своей работе указывают, что несмотря на то, что в статье Хиппа метод был опробован только на неполных данных без сопоставления с результатами на изначально полном наборе данных, ожидается, что этот метод превосходит метод, встроенный в SIENA.
Недавно Хай и коллеги (2017) предложили новый метод множественной импутации для нескольких волн (больше двух). В этом методе используется выделение в сетях подгрупп агентов, о которых имеется полная информация. При этом повышается вероятность того, что модель SAOM сойдется (converge).
Одна из последних статей в рассматриваемой области предлагает метод множественной импутации для всех волн (Krause et al. 2017). В статье доработана идея, предложенная Хиппом и коллегами (2015), что выражается в следующем: (1) добавлена возможность множественного восстановления как первой, так и последующих волн; (2) используется Баесовская имплементация ERGMs (BERGMs) для восстановления первой волны, вместо обычных ERGMs. С использованием BERGMs получается множество версий восстановленных сетевых данных, что соответствует процедуре множественной импутации, формально описанной Рубиным (1987) для несетевых данных.
В рассматриваемой области нет работ, в которых предпринимались бы попытки понять эффект неслучайных пропусков в моделях импутации для лонгитюдных сетей. Возможно, эта ситуация - непрямое следствие того, что в реальной жизни очень сложно собрать или найти изначально полные сетевые лонгитюдные данные, которые являются необходимыми для такого рода исследования. Реальных лонгитюдных сетевых данных в открытом доступе совсем не много, а собирать их долго и затратно. Поэтому, к примеру, Хуисман и Стеглих (2008) в своей работе использовали сгенерированный набор данных, чтобы оценить чувствительность параметров SIENA на восстановленной модели.
Статья Краузе и коллег (2017), предлагающая новый метод импутации, который на данный момент превосходит аналоги, была опубликована совсем недавно, в 2017 году, и у исследовательского сообщества (которое, кстати, небольшое) еще не было ни времени, ни возможности его опробовать и оценить. Это исследование имеет одно значительное ограничение. Несмотря на то, что метод был апробирован на реальном, изначально полном, наборе данных, пропуски в данных были сгенерированы только одним способом: абсолютно случайным образом (MCAR). Хотя в работе отмечается, что метод также подходит для пропусков типа MAR, авторами это не было проверено.
Как уже было сказано выше, совершенно случайные пропуски типа MCAR встречаются довольно редко. Более того, практически невозможно доказать, что пропуски в данных социологического опроса являются совершенно случайными. Более того, даже пропуски, созданные с помощью генератора случайных чисел, с математической точки зрения также не совсем случайны, потому что не существует идеального генератора случайных чисел. В то же время случайные пропуски типа MAR более реальны, легко представить ситуацию, в которой они могут появиться, и проблема их появления хорошо исследована в современной литературе. С пропусками не случайного типа (MNAR) ситуация немного сложнее, так как сложно оценить, какое именно значение отсутствует, при условии, что оно никак не связано с другими переменными в наблюдаемых данных, а только с самим значением. Здравый смысл подсказывает, что такие пропуски тоже не редкость. Достоверно оценить их вклад в скошенность моделей возможно путем симуляций, то есть создавая пропуски этого типа намеренно в изначально полных данных и сравнивая результаты моделей на полных и неполных данных.
2. Методология
2.1 Данные
Данные были собраны в рамках лонгитюдного исследования «Здоровье и рисковое поведение подростков» проводимого Лабораторией Социологии Образования и Науки НИУ ВШЭ Лаборатория Социологии Образования и Науки, НИУ ВШЭ СПб. Ссылка: https://slon.hse.ru/ с 2016-го по настоящее время. Каждая волна опроса проходит раз в полгода. В ходе проекта было опрошены все учебные групп из 13 учебных учреждений СПО. На данный момент прошло уже четыре волны опроса учащихся, которым на момент начала исследования было по 16-17 лет. В работе используется база данных, состоящая из трех волн опроса Банковского колледжа, где в сумме было опрошено 157 учащихся, 124 из них присутствовали во всех трех волнах. Состав опросника менялся от волны к волне, но во всех трех волнах учащимся задавали вопросы касательно потребления алкогольной продукции и их дружеских связей. Участникам предлагалось указать до десяти имен одногруппников, с которыми они общаются чаще всего. Так как учащиеся наблюдались в шести учебных группах, исследователями было задано ограничение на выбор друзей только из своей группы. Наблюдалось несколько случаев, когда учащиеся переходили из группы в группу между волнами опроса, поэтому было принято решение использовать только те группы, между которыми не наблюдалось переходов и количество учащихся, пропустивших волну, было минимальным. Таким образом для анализа используются две учебные группы из 21 и 22 человек, объединенных в одну большую сеть с обозначением структурных нолей, то есть связей, которых быть не могло между учащимися разных групп. Этот метод был предложен Снайдерсом (2008) для анализа множества групп единовременно при условии, что у исследователей есть повод предполагать гомогенность в поведении и структуре групп. В данном случае группы имеют схожую сетевую динамику, выраженную в плотности и взаимности связей от волны к волне, а также схожую динамику по алкогольному потреблению.
2.2 Создание данных с пропусками
Изначально в нашем распоряжении была полная база данных, состоящая из 43 акторов, данные о связях, между которыми были собраны в 3 волнах. В связи с целью работы и исследовательскими вопросами было сгенерировано три новых (неполных) базы данных, каждая со своим типом пропусков, соответствующих механизмам их возникновения: совершенно случайные пропуски (MCAR), случайные пропуски (MAR), неслучайные пропуски (MNAR). В каждой волне по определенной процедуре было сгенерировано 20% отсутствующих данных; процедура для каждого типа миссингов описана ниже.
2.2.1 Совершенно случайные пропуски (MCAR)
Пропуск в данных является совершенно случайным, если пропущенное значение никоим образом не зависит от других наблюдаемых переменных. Такие пропуски были созданы искусственно. В каждой волне случайным образом выбирались учащиеся (примерно 20% от общего числа, или 9 из 43), для которых аннулировались все исходящие связи, имитируя ситуацию, как будто этих студентов не было в день опроса. Для того, чтобы множества «отсутствующих» учащихся не полностью совпадали по волнам, для каждой волны использовались разные значения случайного зерна (random seed).
2.2.2 Случайные пропуски (MAR)
Значение пропуска типа MAR зависит от какой-либо другой наблюдаемое переменной. Исходя из предположения о том, что ученики с низкой мотивацией более склонны пропускать учебные дни, а значит, с более высокой вероятностью могут отсутствовать в одной из или нескольких волн опроса, было принято решение использовать учебную мотивацию как основание для генерации случайных пропусков.
Вопросы о мотивации (10 утверждений на тему заинтересованности студентов в освоении выбранной профессии, учебных и карьерных планов на будущее) были заданы в первой волне. Ответы измерялись порядковой шкалой от 1 до 5, где 1 - совершенно не согласен, а 5 - полностью согласен. Показатель мотивации студента вычислялся как среднее по 10 утверждениям.
Для генерации пропусков выбирали студентов, уровень мотивации которых был ниже медианы. Из этих студентов случайным образом были сгенерированы по 20% пропусков для каждой волны. Стоит отметить, что множества «отсутствующих» по волнам в этом случае пересекаются сильнее, нежели в первом случае, что наводит на предположение о том, что результаты импутации будут менее стабильными.
2.2.3 Неслучайные пропуски (MNAR)
Миссинги типа MNAR зависят от самого пропущенного значения и вносят наибольший вклад в скошенность моделей. В случае с сетями неслучайные пропуски ассоциируются с сетевыми метриками центральности агентов, такими как количество входящих связей или популярность (indegree), количество исходящих связей или активность (outdegree), посредничество (betweenness) и другие. В статье Костенбадера (2003) было доказано, что только метрика indegree более-менее устойчива к возрастающему количеству пропусков в сети. Следовательно, изменение по другим метрикам центральности внесет заметный скос в данные. Исходя из этой предпосылки, а также из предположения о том, что студенты, у которых мало друзей в группе, имеют большую вероятность пропускать занятия, было принято решение использовать показатель outdegree (количество исходящих связей) для генерации неслучайных миссингов.
Основываясь на среднем показателе outdegree, для каждой волны было определено минимальное критическое количество исходящих связей. Соответственно таковыми были значения меньше или равно 4 для первой волны, меньше или равно 3 для второй и меньше или равно 3 связей для третьей волны. Далее были выявлены студенты с количеством связей ниже этих значений, из которых случайным образом «выбирались» отсутствующие, так чтобы в каждой волне было примерно 20% пропусков (9 человек).
Ниже приведена таблица с распределением количества исходящих связей по волнам.
Таблица 1 - Распределение исходящих связей по волнам
2.3 Спецификация модели
Прежде чем переходить к процедуре множественной импутации, как и к любой другой процедуре восстановления, необходимо убедиться в том, что будущая модель корректна. Как правильно отмечают авторы в своей работе (Krause et al., 2017), в реальном случае использования процедуры восстановления у исследователей не будет полного набора данных под рукой, поэтому оценка модели проходит сразу на данных с пропусками. С этого начинается долгий процесс подбора эффектов параметров оценки модели, которые должны соответствовать исследовательскому вопросу и гипотезам, а также не нести в себе мультиколлиниарности, из-за чего модель может не сойтись. Эффектами в SIENA называются статистики, описывающие эволюцию каждой зависимой переменной (в данном случае сети и поведения). При оценке параметров модели на данных с пропусками, пропущенные значения зависимых поведенческих переменных игнорируются, а в сетевых значениях восстанавливаются методом «last value carried forward». Он заключается в том, что при отсутствии исходящих связей в волне, они восстанавливаются значениями из предыдущей волны, если таковые имеются. В случае с первой волной пропущенные значения заполняются нолями, что означает отсутствие всех исходящих связей, но фактическое присутствие участника.
Стандартно в модель SIENA включаются следующие структурные эффекты:
Rate function, которая оценивает скорость изменения зависимых переменных от волны к волне. Если точнее, то это скорость, с которой каждый агент в сети получает возможность изменить свой показатель по зависимой переменной. Rate измеряется для сетей и для поведенческой зависимой переменной в каждом периоде.
Out-degree (density) для измерения тенденции агентов создавать новые связи
Reciprocity для измерения тенденции агентов отвечать на входящие связи.
Transitive triplets или иначе - оценка количества транзитивных триад, состоящие из трех агентов i, j и h. Триада транзитивна, если агент i направляет связь на агентов j и h, а агент j направляет связь к h.
Three-cycle или иначе - тройной цикл, состоящий из трех агентов i, j и h. Этот эффект описывает наличие или отсутствие тенденции к локальной иерархии.
In-degree popularity (sqrt) эффект, который отражает взвешенную относительно распределения связей тенденцию популярных участников, имеющих много входящих связей, получать больше входящих связей из-за своей «популярности» в данный момент.
Out-degree activity (sqrt) эффект, оценивающий взвешенную относительно распределения связей тенденцию агентов с высокой активностью создавать еще большее количество исходящих связей из-за своей высокой активности на данный момент.
Рисунок 1 Транзитивная триада (слева) и тройной цикл (справа)
В последние версии пакета RSiena недавно были включены новые эффекты, которые можно рассматривать как альтернативу транзитивным триадам. Изначально несколько разновидностей эффекта GWESP (geometrically weighted edgewise shared position) были представлены для работы с ERGM (Snijders et al, 2006). На рисунке схематично изображена схема действия двух разновидностей этого эффекта (gwespFF и gwespBB), которые было решено включить в модели в этой работе вместо классических эффектов транзитивности.
Эффект gwespFF следует воспринимать как многоуровневую транзитивность триад (многоуровневый аналог transitive triplets), а эффект gwespBB представляет собой многоуровневый цикл (многоуровневый аналог three-cycle). Под уровнями здесь подразумевается множество общих друзей агента i и j.
Рисунок 2 Геометрически взвешенное количество общих партнеров (друзей).
gwespFF (Forward - прямой эффект, транзитивность) и gwespBB (Backward - обратный эффект, цикличность)
Для описания эффектов гомофилии по тем или иным зависимым и независимым переменным используются следующие эффекты:
alterX эффект, который описывает тенденцию агентов с высокими показателями по независимой переменной или поведенческой переменной получать больше входящих связей
egoX эффект, который описывает тенденцию агентов с высокими показателями по независимой переменной или поведенческой переменной создавать больше исходящих связей
simX эффект гомофилии по независимой переменной
avSim усредненный эффект схожести поведения по зависимой поведенческой переменной (эффект социального избрания)
Для начала мы оценили модель на полных данных, чтобы убедиться в ее корректности. В модель были включены стандартные структурные эффекты с добавлением двух эффектов GWESP (прямой и обратный), эффекты для описания гомофилии по полу и алкогольному потреблению (egoX, alterX, simX). Для описания процесса социального избрания (social selection) на основе потребления алкоголя был также добавлен эффект avSim. Модель показала хорошую сходимость (все t-ratios < 0.05, максимальный показатель сходимости меньше 0.2), все показатели критерия согласия модели (Goodness of Fit) в пределах нормы - симулированные сети значимо не отличаются от настоящей.
Таблица 2 - Результаты модели на полных данных
В модели на полных данных довольно высокие показатели скорости изменения сети от волны к волне, что скорее всего связано с тем, что изначально в сетях были оставлены только те учащиеся, присутствующие во всех трех волнах. Причем, скорость изменения между первой и второй волной выше, чем между второй и третьей. Скорость изменения поведения - частота потребления алкогольной - продукции практически не отличается в период между волнами. Значимых эффектов гомофилии по потреблению алкоголя и социальной селекции по потреблению алкоголя не было обнаружено. Значимыми являются только структурные эффекты. Эффект реципрокности, который отвечают за взаимность связей, имеет положительный коэффициент, что типично для сетей дружбы. Это указывает на тенденцию учащихся образовывать взаимные социальные связи. GWESP эффекты также значимы. Положительный коэффициент при эффекте gwespFF (I -> K -> J) говорит о тенденции агентов создавать многоуровневые триады. Отрицательный коэффициент при gwespBB (I <- K <-J) означает, что многоуровневая цикличность дружбы со временем убывает. Эффекты популярности по входящим связям и активности по исходящим связям возведенные в квадрат (indegree популярность sqrt и outdegree активность sqrt) значимы и имеют отрицательный коэффициент. Для активности по исходящим связям это означает, что учащиеся с большим количеством связей со временем их обрывают, причем, чем больше друзей назвал учащийся, тем больше связей он обрывает со временем. В случае с популярностью по входящим связям, то, чем больше участников называли учащегося своим другом изначально, тем меньше участников называют его или ее другом со временем, причем, чем больше было количество входящих связей изначально, тем быстрее это происходит.
2.4 Процедура восстановления и ее ограничения
Процедура восстановления начинается с того, что производится оценка модели SIENA на данных с миссингами. Пропуски в этом случае игнорируются и модель считается только на наблюдаемых связях и переменных. При этом требуется, чтобы модель сошлась -- это будет показателем ее корректности. Модель, которая используется для восстановления данных, должна быть полным эквивалентом (по набору оцениваемых эффектов) модели, которую исследователь собирается строить на восстановленных данных. В данной работе модели на неполных данных полностью соответствуют модели на полных, так как далее все модели сравниваются между собой по оценкам эффектов.
После того, как модель на данных с миссингами сошлась, можно переходить к процедуре импутации. В данной работе был использован метод множественной импутации на основе стационарных SAOM для восстановления данных первой волны, когда вторая волна используется как диадный ковариат (независимая переменная) для симуляции первой волны. Для восстановления последующих волн также используются SAOMs, которые используют каждую предыдущую восстановленную волну. Восстановление проходит в 30 итераций Число итераций D должно быть равным или больше процента пропусков в данных (Krause, Snijders, & Huisman, 2017), то есть каждая сеть восстанавливается 30 раз, что соответствует рекомендации разработчиков данного метода.
Выбор в пользу восстановления первой волны путем множественных симуляций SAOM, а не с помощью метода Баесовских ERGM, также предложенного в статье Краузе и коллег, обусловлен несколькими причинами. Во-первых, восстановление первой волны с помощью BERGM на данный момент невозможно для сети, состоящей из нескольких групп, объединенных в одну сеть со структурными нолями потому, что в отличии от SAOM, пакет BERGM не воспринимает специальные обозначение структурных нолей. Во-вторых, при использовании BERGM две группы было бы необходимо анализировать по-отдельности, что вдвое увеличило бы затраченное время. В-третьих, решающим фактором стал тот факт, что в работе Краузе и коллег не было найдено значимых преимуществ того или иного способа перед другим. Оба способа работают одинаково хорошо по сравнению с предыдущими разработками в этой области.
Следующие шаг после восстановления - оценка моделей SIENA на восстановленных данных. Это означает, что для каждого из 30 восстановленных наборов волн строится модель и оцениваются эффекты. После этого оценки эффектов и стандартные ошибки складываются по правилу Рубина для получения итоговых результатов.
2.5 Оценка и сравнение моделей
Оценка моделей на восстановленных данных, которые имели пропуски типа MCAR, MAR и MNAR, проходит путем сравнения коэффициентов при эффектах и их стандартных ошибок с соответствующими статистиками модели на полных данных. При хороших результатах импутации они не должны значимо отличаться друг от друга. Также мы сравниваем результаты импутации с результатами моделей на данных с пропусками и полных данных. Результаты моделей на данных с пропусками и восстановленных данных в табличном виде представлены в Приложении 1-6.
3. Результаты
Результаты оценки моделей (Рисунок 3) на восстановленных данных с пропусками разной степени случайности показывают, что метод множественной импутации в целом адекватно справляется с восстановлением лонгитюдных сетей вне зависимости от механизма возникновения пропусков, будь то MCAR, MAR или MNAR. Модели на восстановленных данных с пропусками типа MNAR дают бульшие стандартные ошибки по таким эффектам, как скорость изменения сети в первом и во втором периоде (friends rate 1, 2), гомофилия по потреблению алкоголя (Alc. similar) и скорость изменения поведения по потреблению алкоголя в первом периоде (alcohol rate 1) по сравнению с моделями на восстановленных пропусках MAR и MCAR и моделью на полных данных (complete data). Значимой разницы по параметрам между моделями на MAR, MCAR и полных данных не было обнаружено - метод множественной импутации одинаково хорошо справляется с пропусками этих двух типов.
На Рисунке 4 представлены результаты моделей SIENA на полных данных, на восстановленных данных с разным типом пропусков и моделей на данных с пропусками разного типа, которые были оценены прежде, чем переходить к процедуре множественной импутации. Рисунок позволяет оценить скос, который привносят в оценки эффектов пропуски разного типа и качество восстановления методом множественной импутации.
Примечательно, что модели с пропусками типа MCAR имеют заметно бульший диапазон стандартных ошибок по всем оцениваемым эффектам. Наиболее заметные расхождения наблюдаются в оценке таких эффектов, как скорость изменения дружбы в первом и во втором периоде (Friends rate 1, 2), многоуровневая транзитивность триад (gwespFF), многоуровневые циклы (gwespBB) и эффект социального избрания по потреблению алкоголя (Ave. Alter Alc). Также средняя оценка эффектов модели с невосстановленными пропусками такого типа значимо отличается (не попадает в интервалы стандартных ошибок) от оценок эффектов в модели на изначально полных данных по следующим параметрам: скорость изменения в сети в первом периоде (friends rate 2), гомофилия по потреблению алкоголя (Alc. similarity), популярность из-за большого количества входящих связей (indegree popularity sqrt) и оба эффекта GWESP.
Что касается моделей с пропусками типа MCAR и MAR, то в них наблюдается заметно меньшая неуверенность в оценках эффектов по сравнению с MNAR. Значимых отличий в оценках моделей на данных с пропусками этих двух типов не было обнаружено.
Рисунок 3 - Результаты моделей на восстановленных данных и полных данных (complete data). Оценки эффектов +/- 1 s.e.
Рисунок 4 - Результаты восстановленных (SAOM imputation) и не восстановленных (default treatment) моделей с разными типами пропусков по сравнению с моделью на полных данных (complete data). Оценки эффектов +/- 1 s.e.
Заключение
В данной работе были изучены три механизма возникновения пропусков в лонгитюдных сетевых данных и было оценено качество процедуры множественной импутации на основе стационарных SAOM для каждого из них. Стояла задача изучить влияние природы возникновения пропусков на результаты восстановленных моделей. Были операционалированы и сгенерированы пропуски типов MCAR, MAR и MNAR для лонгитюдных сетей. Результаты исследования говорят о том, что в целом метод множественной импутации на основе стационарных SAOM, предложенный Краузе и коллегами (Krause et al., 2017), одинаково хорошо справляется с восстановлением значительного количества пропусков (в данном случае 20%) вне зависимости от природы их возникновения. Небольшие отклонения в моделях на восстановленных данных, как и ожидалось, наблюдаются только в случае, когда пропуски являются совершенно не случайными.
Данная работа имеет несколько ограничений. Во-первых, исходная сеть, которая была использована как полная, в реальности была не совсем полной. Для создания "полных данных" из реальной сети были удалены все исходящие и входящие связи 4х человек, которые пропустили хотя бы одну из трех волн опроса. Во-вторых, для более точных заключений о стабильности и надежности метода необходимо использовать больше одного набора эмпирических данных.
В процессе применения метода множественной импутации для лонгитюдных сетей, разработанного Краузе и его коллегами, было выявлено несколько серьезных практических недостатков. К сожалению, процесс импутации, реализованный в описанном методе, занимает очень значительное время и требует высокой вычислительной производительности процессора даже при использовании встроенной функции параллельных вычислений, о чем разработчики умалчивают в статье. Более того, восстановленные сети занимают много места на жестком диске. К тому же в программном коде, примененном в статье, было найдено как минимум два «костыля», если выражаться на языке разработчиков. С обоими можно столкнуться в процессе восстановления методом SAOM, который используется как в подходе с Баесовскими ERGM для первой волны, так и в подходе со стационарной SAOM для восстановления первой волны.
Во-первых, поскольку процесс стохастический, все вычисления начинаются от «случайной точки в пространстве». Если такая случайная точка (задается любым положительным целым числом), или иначе - зерно (random seed), не задано пользователем, оно определяется автоматически. Из программного кода становится очевидно, что исследователи вручную или перебором подбирали такие случайные зерна, при которых модель на их данных при каждой итерации сходится, что в корне неверно и наводит на мысли о том, что авторы сами не до конца понимают, как это работает. Конечному пользователю в итоге приходится самостоятельно подбирать случайное зерно после каждой незавершенной итерации. Грубо говоря, пользователи вынуждены заниматься оптимизацией по случайному зерну, а не по известным (в том плане, что известно, как они работают) параметрам функционала.
Во-вторых, в своей статье для импутации 2 и 3 волны исследователи используют результаты предварительно обученной модели на полных данных, что противоречит логике процесса, но понятны причины, по которым они так сделали. На результатах хорошей модели импутация происходит быстрее, чем происходила бы на результатах модели с пропусками. Однако, даже при использовании результатов модели на полных данных, вся процедура занимает очень много времени.
Допустим, исследователям необходимо восстановить 4 волны сетей с 30% пропусков в каждой. Процесс восстановления первой волны как минимум тридцатью, если ориентироваться на рекомендации, симулированными сетями занимает примерно 6 часов, при условии, что уже подобраны корректные параметры модели. Восстановление последующих волн займет еще 12 часов непрерывной работы, так как на основе каждой из 30 восстановленных первых волн будет восстанавливаться еще по 30 сетей для каждой волны, что иногда происходит не с первого раза - восстанавливающая SAOM может не сойтись, причем чем больше пропусков, тем вероятней, что модель сразу не сойдется. При использовании результатов обученной модели на неполных данных, что соответствует реальной ситуации, велика вероятность того, что сходимость не будет достигнута с первого раза, после чего результаты этой итерации передаются в следующую и так далее, пока модель не сойдется. После восстановления следует еще 30 раз оценить итоговую модель на восстановленных данных. При полной загрузке вычислительных мощностей средней мощности процессора восстановление такого набора данных займет сутки.
Проблемы со сходимостью, неоднозначной оптимизацией и вычислительной мощностью вызывают у практического исследователя желание обратиться к стандартным методам восстановления, встроенным в SIENA, которые, хоть и используют единственную, а не множественную импутацию, уже проверены временем и не вносят значительно большего скоса в данные. В то же время описанные нами проблемы метода импутации открывают широкое пространство для будущих исследований, в ходе которых процедура множественной импутации для лонгитюдных сетей может быть оптимизирована в плане затраченного времени и мощностей. К примеру, использование параллелизации могло бы значительно ускорить процесс, однако в силу особенностей вычислений Баесовских ERGM пока еще не было предложено способа их параллелизации.
В заключении хотелось бы сказать, что борьба с пропусками в данных социологического опроса может вестись и с другого фронта. Так, например, стоит уделить внимание разработке более совершенных инструментов опроса, таких как электронный опросник, который можно отослать респондентам в виде ссылки в случае, если он или она не может присутствовать в день опроса. Электронный опросник с выпадающим списком имен других участников опроса решит проблему возникновения пропусков из-за неразборчивого или некорректного написания имен и фамилий.
Благодарности
Автор данной работы выражает искреннюю благодарность сотруднице лаборатории СЛОН Вере Титковой и PhD студенту университета Грёнингера Роберту Краузе за помощь и отзывчивость в моменты отчаяния автора.
Литература
1. Allison, P. D. (2000). Multiple Imputation for Missing Data: A Cautionary Tale. Sociological Methods & Research, 28(3), 301-309.
2. Aspy, C. B., Vesely, S. K., Oman, R. F., Tolma, E., Rodine, S., Marshall, L., & Fluhr, J. (2012). School-Related Assets and Youth Risk Behaviors: Alcohol Consumption and Sexual Activity. Journal of School Health, 82(1), 3-10.
3. Barnard, J., & Meng, X. L. (1994). Exploring cross-match estimators ith multiply-imputed data sets. In j45j4 Proceedings of Survey Research Methods Section (pp. 894-899).
4. Borgatti, S. P. (2005). Centrality and network flow. Social Networks, 27(1), 55-71.
5. Borgatti, S. P., & Molina, J.-L. (2005). Toward ethical guidelines for network research in organizations. Social Networks, 27(2), 107-117.
6. Browning, C. R., Dietz, R. D., & Feinberg, S. L. (2004). The Paradox of Social Organization: Networks, Collective Efficacy, and Violent Crime in Urban Neighborhoods. Social Forces, 83(2), 503-534.
7. Burt, R. S. (1987). A note on missing network data in the general social survey. Social Networks, 9(1), 63-73.
8. Butts, C. T. (2003). Network inference, error, and informant (in)accuracy: a Bayesian approach. Social Networks, 25(2), 103-140.
9. de la Haye, K., Embree, J., Punkay, M., Espelage, D. L., Tucker, J. S., & Green, H. D. (2017). Analytic strategies for longitudinal networks with missing data. Social Networks, 50, 17-25.
...Подобные документы
Проблема пропусков в социологических данных. Методика статистического эксперимента для сравнения подходов к агрегированию результатов множественного заполнения пропусков. Характеристика сравнительного анализа подходов к агрегированию результатов.
дипломная работа [361,9 K], добавлен 31.10.2016Формирование и принципы конструирования сетевых сообществ в киберпространстве. Социологические доминанты коммуникации в сетевых сообществах. Уровни, каналы и средства коммуникации в сетевых сообществах. Коммуникативная система сетевого сообщества.
реферат [1022,2 K], добавлен 07.09.2015Системное изучение социальных процессов и явлений. Виды социологического исследования, типы анкет. Методы и процедуры сбора, обработки, анализа и обобщения фактов. Компьютерные программы для сетевых опросов, онлайн-интервью и интерактивного анкетирования.
реферат [592,0 K], добавлен 13.10.2015Особенности изучения общественного мнения блогосферы методом контент-анализа. Специфика социологических методов сетевых сообществ. Методики измерения отчуждения в современной социологии. Психиатрическая изоляция как практика социального отлучения.
контрольная работа [23,5 K], добавлен 16.11.2009Методологические проблемы социологических исследований. Функции социологии. Разработка программы социологического исследования. Обобщение и анализ данных, полученных в процессе его проведения. Описание и применение разных методов и методик в социологии.
учебное пособие [339,5 K], добавлен 14.05.2012Изучение методов сбора информации и обзор социологических исследований, социологических данных и публикаций на примере производства наружной, TV и интернет-рекламы. Медиапредпочтения россиян и их отношение к рекламе. Эффективность рекламы в метро.
контрольная работа [1,0 M], добавлен 20.04.2012Подготовка эмпирических данных к обработке и анализу. Сущность и виды группировок, понятие рядов распределения. Графическое представление информации в анализе социологических данных. Структура и требования к отчету о социологическом исследовании.
контрольная работа [320,8 K], добавлен 05.04.2011Понятие социологического исследования. Подготовка эмпирических данных к обработке и анализу. Сущность и виды группировок. Таблицы и графики: их роль в анализе социологических данных. Структура отчета об исследовании. Основные требования к его составлению.
контрольная работа [542,4 K], добавлен 10.11.2010Рассмотрение особенностей создания комфортной среды, которая помогала бы увеличить интенсивность восстановления и дать дополнительные эмоции для отдыха современного человека мегаполиса. Установление основных принципов разработки концепции ресторана.
дипломная работа [9,8 M], добавлен 23.06.2017Использование пожилыми людьми собственных ресурсов как один из перспективных способов социальной помощи. Применение технологии терапии воспоминаниями для успешного восстановления личности. Создание школы третьего возраста, приспособление к старости.
статья [19,9 K], добавлен 07.01.2011Изучение методов, с помощью которых проводятся эмпирические социологические исследования. Анализ способов обработки и обобщения социологической информации. Обзор особенностей составления анкеты и формулировки вопросов. Структура процесса интервьюирования.
контрольная работа [33,0 K], добавлен 09.06.2013Количественные приемы сбора социологических данных. Проведение социометрических исследований в малой общественной группе. Практика использования методов изучения в работе современного руководителя. Качественные способы сбора социологической информации.
реферат [56,2 K], добавлен 06.11.2011Немного о проблеме здоровья. Особенности питания и здоровья. Лечебное голодание как одна из форм сохранения и предупреждения, а также восстановления здоровья. Голодание так же старо, как и само человечество. Голодание и жизненная сила организма.
реферат [39,5 K], добавлен 30.01.2008Развитие социологии. Изучение и обладание навыками использования Интернет ресурсами. Интернет как источник информации. Интернет-опросы - новая техника работы. Сетевые социологические исследования. Технологии организации и проведения сетевых исследований.
контрольная работа [32,3 K], добавлен 25.11.2008Обзор методов проведения эмпирических исследований социально-экономических и политических процессов. Особенности анализа документов как метода проведения социологических исследований. Специфика методики массового опроса, эксперимента и наблюдения.
курсовая работа [78,7 K], добавлен 31.01.2014Интервью - распространенный метод сбора информации в социологии. Сбор данных методом формализованного интервью называют анкетированием. Он подразумевает стремление к максимальной стандартизации и унификации процедур сбора данных, их обработки и анализа.
контрольная работа [13,3 K], добавлен 29.12.2008Правовые и финансовые аспекты системы обязательного социального страхования профессиональных заболеваний в ФГУ ФСС Центра реабилитации "Вятские Увалы". Медицинские, психологические и социальные аспекты восстановления инвалидов в России и за рубежом.
дипломная работа [520,5 K], добавлен 21.02.2012Рассмотрение практики использования моделей регрессии. Анализ качества эмпирического уравнения парной и множественной линейной регрессии. Оценка адекватности тренда и прогнозирование (критерий Фишера). Показателей вариаций; статистика заработанной платы.
курсовая работа [742,6 K], добавлен 30.10.2014Обзор главных задач курса, содержащего основы теории вероятностей и дающего подготовку по математической статистике, преимущественно по тем разделам, которые используются при планировании и обработке экспериментов и измерений в педагогике и психологии.
методичка [19,4 K], добавлен 26.03.2010Сбор социологических данных. Диалектика общего, особенного и единичного. Качественные и количественные методы социологических исследований. Обработка полученных данных. Анализ социальной действительности. Механизм адаптации людей к социальным изменениям.
реферат [26,8 K], добавлен 27.01.2013