Использование метода группового учета аргументов для изучения восприятия личной безопасности
Изучение программ реализации метода группового учета аргументов для изучения зависимости восприятия личной безопасности от уровня убийств, индекса человеческого развития, доверия к правительству и людям. Современный индуктивный метод машинного обучения.
Рубрика | Социология и обществознание |
Вид | статья |
Язык | русский |
Дата добавления | 05.03.2019 |
Размер файла | 94,0 K |
Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже
Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.
Размещено на http://www.allbest.ru/
Государственного научно-исследовательского института МВД Украины
Использование метода группового учета аргументов для изучения восприятия личной безопасности
Бова Андрей Андреевич,
кандидат социологических наук,
начальник научно-исследовательского отдела
м. Київ
Аннотации
В статье рассматриваются программы реализации метода группового учета аргументов (МГУА) для изучения зависимости восприятия личной безопасности от уровня убийств, Индекса человеческого развития, доверия к правительству и людям. МГУА как современный индуктивный метод машинного обучения, основанный на принципах самоорганизации, позволяет генерировать полиномиальные регрессионные модели с учетом нелинейного взаимодействия предикторов, искусственные нейронные сети оптимальной сложности и их ансамбли, включать в анализ как очень малые, так и большие выборки, а также обрабатывать большое количество независимых переменных (от нескольких десятков до нескольких сотен). Благодаря использованию полиномиальной нейронной сети удалось повысить долю объясненной дисперсии зависимой переменной с 44 % до 60 %. Эмпирической базой исследования служат обобщенные результаты Всемирного опроса Гэллапа 2011 и материалы Доклада о человеческом развитии 2013 оОн по 115 странам мира. Точность моделей МГУА дополнительно проверена на данных, опубликованных в Докладе о человеческом развитии 2014 года.
Ключевые слова: машинное обучение, метод группового учета аргументов, восприятие личной безопасности, кросс-национальные исследования.
У статті розглядаються різноманітні програмні реалізації методу групового урахування аргументів (МГУА) для вивчення залежності сприйняття особистої безпеки від рівня вбивств, Індексу людського розвитку, довіри до уряду і людей. МГУА як сучасний індуктивний метод машинного навчання, що ґрунтується на принципах самоорганізації, дає змогу генерувати поліноміальні регресійні моделі з урахуванням нелінійної взаємодії пре дикторів, штучні нейронні мережі оптимальної складності та їхні ансамблі, включати до аналізу як дуже малі, так і великі вибірки, обробляти велику кількість незалежних змінних (від кількох десятків до кількох сотень). Завдяки використанню поліноміальної нейронної мережі вдалося збільшити частку поясненої дисперсії залежної змінної з 44% до 60%. Емпіричною базою дослідження слугують узагальнені результати Всесвітнього опитування Геллапа 2011 і матеріали Доповіді про людський розвиток 2013 ООН по 115 країнам світу. Точність моделей МГУА додатково перевірена на даних, оприлюднених у Доповіді про людський розвиток 2014 року.
Ключові слова: машинне навчання, метод групового урахування аргументів, сприйняття особистої безпеки, крос-національні дослідження, регресійний аналіз.
The article considers various program realizations of the method of Group Method of Data Handling (GMDH) for studying of dependency of perception of personal safety from level of homicides, Human Development Index, trust to the government and people. As empirical base of research, the generalized results of Gallup World Poll 2011 and materials of United Nations Human Development Report 2013 on 115 world countries are used. Machine learning techniques allow to build a more accurate and stable model, but substantive interpretation of these solutions, with some exceptions is limited. GMDH is a modern inductive method of adaptive machine learning can be regarded as advanced regression analyses, which formulizes relationship between the variables in the form of a polynomial. Being based on the principles of self-organization it can generate the polynomial regression models, taking into account the nonlinear interaction of the predictors, artificial neural networks of optimal complexity and its ensembles, to handle a large number of independent variables (from few tens to few hundreds), both very small and large samples. The advantage of the method is to obtain sustainable results on training and examination sample. Correlation analysis reveals a statistically significant positive relationship between the proportion of people who feel safety, who trust the government and other people, the Human Development Index and a negative relationship with level of homicides. Thanks to polynomial neural network it was possible to raise accuracy of the explained variation of dependent variable from 44 % to 60 %. Predictive value of the share of respondents who feel safe walking alone at night in the city or area in Ukraine was 50% with 48 % real. Accuracy of the GMDH models was also tested on data published in the Human Development Report 2014. Modern software implementation of GMDH algorithms as GMDH Shell 3, KnowledgeMiner 3, NeuroShell 2 and Varireg has various types of optimization parameters.
Keywords: machine learning, group method of data handling, perception of personal safety, crossnational research.
Основное содержание исследования
Регрессионный анализ является наиболее часто употребляемым методом в эмпирических социальных исследованиях. Практическому применению новых методов регрессионного анализа данных способствуют потребности в объяснении различных социальных явлений, а также рост коммерческого и свободно распространяемого программного обеспечения, который содержит набор различных методов моделирования, отбора информативных признаков, обработки большого числа предикторов и т.д. В ряде случаев нелинейные методы показывают большую прогностическую точность, чем линейная регрессия. Существуют разные подходы к построению нелинейных моделей, например, нелинейные преобразования признаков, выбор лучших аппроксимаций из библиотеки функций, обучение искусственных нейронных сетей, эволюционное моделирование из предварительно заданных грамматик, непараметрическое сглаживание. Исходя из актуальности совершенствования многомерной статистической обработки, автором подготовлен цикл научных статей с результатами тестирования различных методов регрессионного анализа на одних и тех же данных.
Обобщением регрессионных моделей, включающих как взаимодействие предикторов, так и нелинейность, является метод группового учета аргументов (разработчик А.Г. Ивахненко) - адаптивная техника машинного обучения на основе автоматической генерации многослойных полиномиальных зависимостей, объединение которых способно воспроизводить оптимальную структуру искусственной нейронной сети с использованием принципов эволюции (наследования и отбора) [1, 2]. Семейство алгоритмов МГУА решает также задачи классификации, прогнозирования временных рядов, выбора потенциальных экзогенных и эндогенных переменных. Самоорганизующиеся модели используются как на выборках небольшого объема (коротких временных рядах), так и на больших наборах данных, при малом или очень большом количестве независимых переменных. Реализация широкого спектра алгоритмов МГУА присутствует в отдельных программах и пакетах анализа данных наряду с другими методами Data Mining.
Настройка МГУА включает такие основные этапы.
Преобразование данных - логарифмирование, возведение в степень, взятие квадратного и кубического корня и др., а также масштабирование переменных, что позволяет получить более компактное решение (часто используется и в других топологиях искусственных нейронных сетей и классификации).
Формирование обучающей и экзаменационной выборки. Настройки некоторых алгоритмов позволяют включать в обработку объекты с пропущенными значениями как независимых переменных, так и отклика.
Выбор вида полинома или архитектуры нейронной сети, состоящей из количества слоёв (входной, внутренний, внешний) и функции активации - формулы, по которой производятся расчеты во внутреннем и выходном слое (линейная, полиномиальная, сигмоидная, радиально-базисные функции или их синтез, рациональная функция), максимальное количество нейронов слоя.
Выбор критерия, который необходимо оптимизировать, способа селекции переменных и желаемой сложности модели, определяемой числом параметров.
В результате получается схема нейронной сети с рассчитанными по регрессионному уравнению прогнозными значениями (ответ сети). Для улучшения точности и стабильности моделирования создают композитную модель, в которой прогнозное значение вычисляется как среднее, полученное из нескольких уравнений (ансамбль моделей).
Целью статьи является выявления статистической зависимости субъективного восприятия личной безопасности (PS) от Индекса человеческого развития (HDI), уровня доверия к национальному правительству (TNG) и людям (TP), коэффициента убийств (HR) с помощью МГУА, сравнение точности результатов некоторых программных реализаций алгоритма между собой и с линейными моделями. Данные результатов Всемирного опроса Гэллапа за 2007-2011 г., коэффициента убийств (2004-2011 г.) и интегрального индекса содержатся в Докладе о человеческом развитии 2013 Программы развития ООН, а показатели определялись таким образом [3, с.114-147, с.174-177].
Восприятие безопасности - процент респондентов, ответивших "да" на вопрос: "Чувствуете ли вы себя в безопасности, когда прогуливаетесь в одиночестве ночью в городе или районе, в котором вы живете?".
Индекс человеческого развития - комбинированный индекс, измеряющий среднюю величину достижений в трех основных измерениях человеческого развития: здоровье и долголетие, знания и достойные условия жизни. в, ответивших "да" на вопрос: "Доверяете ли правительству вашей страны?".
Доверие к людям - процент респондентов, ответивших "да" на вопрос: "В целом, считаете ли вы, что большинству людей можно доверять, или вы считаете, что следует проявлять осторожность, имея дело с людьми?".
Коэффициент убийств - число умышленных убийств, т.е. смертей, незаконно причиненных человеку другим человеком, в пересчете на 100 тыс. чел.
Полные данные доступны для 115 стран. При сравнении прогностической точности уравнений будем использовать коэффициент детерминации R2, который вычисляется как коэффициент корреляции между наблюдаемыми значениями и предсказанными по модели, возведенный в квадрат.
В Украине доля тех, кто чувствует себя ночью в безопасности на улице составляет 48 % (в среднем по выборке 60 %). Дескриптивные статистики свидетельствуют о значительной неоднородности информации. Так, коэффициент вариации для HR составляет 138 %, TP - 49 %, TNG - 39 %, HDI - 27 %, PS - 26 %. По показателю TP за границы 2а выходят 5 резко выделяющихся значений, 3а - 1; по показателю TNG за границы 2а - 5; по показателю HR за границы 2а - 4, 3а - 3, 4а - 2, по показателям HDI за границы 2а - 4, по показателю PS за границы 2<з - 2.
Корреляционный анализ обнаруживает положительную статистически значимую связь между долей людей, которые чувствуют себя в безопасности в ночное время с долей респондентов, которые доверяют правительству (0,4) и людям (0,43), Индексом человеческого развития (0,2) и отрицательную связь - с коэффициентом убийств (-0,4).
Для линейной регрессионной модели с оценкой параметров по методу наименьших квадратов R2 составляет 0,44.
^
PS = 27,4 - 0,31HR + 0,32TNG + 0,41TP + 14,8 HDI
Исходя из значений коэффициентов в стандартизованном масштабе, наибольший вклад в модель вносит колебания уровней доверия населения к национальному правительству (0,39) и людям (0,30), коэффициент убийств (-0,29) и, наконец, Индекс человеческого развития (0,17). Интерпретация направления связи коэффициентов регрессии аналогична коэффициентам корреляции.
Общая линейная модель с включением статистически значимых общих эффектов и эффектов взаимодействия увеличивает R2 до 0,54.
По величине бета-коэффициентов переменные расположились таким образом: TNG (1,6), HR (1,4), HDI*TNG (1,1), HDI (1), HR*HDi (1), TNG*Hr (0,8), TP (0,2). Заметим, в частности, что уменьшает долю людей, чувствующих себя в безопасности, одновременно высокие показатели убийств и Индекса человеческого развития, убийств и высокого доверия к национальному правительству.
Эмпирические данные могут описываться разнообразными нелинейными регрессионными уравнениями. Нейронная сеть производит объединение этих уравнений, моделируя сложную поверхность отклика. В программе Varireg построена двухслойная нейронная сеть (R2 = 0,52) с шаговым отбором переменных и Байесовским информационным критерием (Bayesian Information Criterion), которая представлена в едином полиномиальном уравнении.
PS = 49,94 + 0,003TNG2 + 0,008HR2 + 0,43TPHDI - 1,31HRHDI
Точность одной из возможных мультилинейных моделей МГУА программы KnowledgeMiner (yX) for Excel, при среднем иммунитете к шуму, R2 = 0,54. Алгебраическое выражение трехслойной сети с полиномиальным нейроном приведено ниже.
PS = 9,26 z11 + 14 z22 + 59,7 zn = 0,04TP - 0,88 Z22 = 0,82zn + 1,16z 12 + 1,42Z11Z12
zn = 0,06TNG + 4,71HDI - 0,06HDITNG - 4,5 Z12 = - 0,05HRHDI + 0,3
Исходя из зависимостей исходных переменных с переменными промежуточного слоя, увеличение в обществе межличностного доверия, доверия к государственным органам, длительности жизни, улучшение образования и материального уровня в целом способствует росту субъективного уровня безопасности.
С целью повышения надежности результатов регрессионной модели в программе GMDH Shell 3 общая выборка 115 стран была разделена на обучающую (80% или 92 объекта) и экзаменационную (20% или 23 объекта) и использован алгоритм МГУА с пошаговым смешанным отбором переменных, который показало соответственно такую точность на указанных выборках - R = 0,54 и R = 0,51.
PS = 48,96 + 0,12TNG 3jTP + 0,1HR 3JTf + 27HDI2 - 18,34HDI3HR
Значимость переменных определялась по степени влияния на среднеквадратическое отклонение модели: \ [HR (84%), TNG (35,7%), HR (12,8%), HDI (11,4%), \ItP (6%).
Для построения полиномиальной модели МГУА в программе NeuroShell 2 данные были масштабированы в интервале от - 1 до 1 по легенде: TPs=2 (TP-7) /53-1; TNGs=2 (TNG-11) /84-1; HRs=2 (HR-0,2) /91,4-1; HDIs= 2 (HDI-0,3) /0,63-1; PSs=2 (PS-29) /63-l. С учетом этого получена такая статистическая модель.
PSs = - 0,55 + 0,23TPs - 0,38HRs - 0,96HDIs + 0,37HRs2 + 0,8HDIs3 - 0,65HRsTNGs - 0,44HDIsTNGs - 0,62HRsHDIs - 0,18TPsHDIs
Точность полиномиальной сети из семи слоев, при заданной сильной нелинейности, низкой сложности, среднем разнообразии и "хитрой" оптимизации, рассчитанная по исходным и прогнозным значениям, составляет R2 = 0,60. Прогнозное точечное значение доли респондентов, чувствующих себя ночью в безопасности на улице, для Украины составило 50 %. Наиболее существенной переменной аналитического выражения является межличностное доверие и менее существенными - доверие к правительству, коэффициент убийств, Индекс человеческого развития.
В уравнении присутствуют члены, фиксирующие негативное влияние на изменение доли людей, чувствующих себя ночью на улице в безопасности, совместного взаимодействия факторов HR*TNG, HR*HDI, HDI*TNG, TP*HDI. Значения коэффициентов корреляции Пирсона нулевого порядка PS c переменными составляют: HR*TNG - 0,32, HR*HDI - 0,43, HdI*TNG - 0,45, TP*HDI - 0,45. Изменение знака коэффициентов регрессии по сравнению с коэффициентами парной корреляции происходит вследствие мультиколинеарности объясняющих переменных.
Модели МГУА, продуцируемые GMDH Shell и NeuroShell, валидизированы на частично обновленных данных, содержащихся в Докладе о человеческом развитии 2014 ООН [4, p.160-163, p. 204207, p.220-223]. Коэффициенты множественной детерминации на выборке из 116 стран составили соответственно R2 = 0,53 и R2 = 0,51.
На основе изложенного можно сделать не только такие частные, по отношению к исследуемым данным, но и общие, по отношению к анализу социологической информации, выводы.
1. Социальные явления не подвержены жесткому детерминизму, а скорее описываются мягкими закономерностями. Неоднородность выборки, погрешность измерения, поисковый характер многих исследований, недостаточная разработка теории, большое количество факторов и их нелинейное взаимное влияние на отклик, невозможность экспериментальной проверки, а также многие другие причины часто не позволяют достичь достоверных статистических результатов и существенно ограничивают точность прогнозов в социальных науках. Линейное регрессионное уравнение не всегда адекватно описывает эмпирические закономерности (особенно в ситуации проверки модели на новых наблюдениях).
2. Методы машинного обучения позволяют строить более точные и стабильные модели, устойчивые в том числе, и к резко выделяющимся наблюдениям, однако содержательная интерпретация таких решений, за некоторым исключением ограничена, поскольку совместное взаимодействие переменных носит достаточно сложный характер. Для искусственных нейронных сетей, например, фиксируется лишь направление влияния входных переменных на нейроны промежуточного слоя. Использование МГУА позволило повысить на обучающей выборке долю объясненной дисперсии зависимой переменной с 44 % до 60 %. Одновременно высокие показатели Индекса человеческого развития и доверия к правительству, а также Индекса человеческого развития и коэффициента убийств в некоторых обществах снижают чувство личной безопасности. Отметим также, что с МГУА могут конкурировать другие методы машинного обучения, позволяющие по новому взглянуть на ранее полученные результаты в области социальных наук. В частности, хорошим дополнением глобальных, релевантных для всей выборки, моделей являются регрессионные уравнения для типологических однородных групп, которые позволяют подробнее изучить найденные взаимодействия [5].
3. Обнаружен некий парадокс между точными моделями, которые не совсем соотносятся с объяснительной схемой из-за мультиколинеарности, и менее точной, но информативно правильной линейной моделью. Данные описываются одновременно различными аналитическими моделями, а важность переменных зависит от используемого метода или коллектива моделей. Выбор регрессионного уравнения может диктоваться желанием получить наиболее точную модель, понятную содержательную интерпретацию, которая соответствует развитию теории, или же модель, состоящую из переменных, измерение которых не несет ощутимых затрат. Своеобразный баланс между простотой и точностью модели может быть достигнут путем подачи в научной публикации, с одной стороны, матрицы корреляций факторов с откликом и, с другой - основных параметров и результатов работы сложных алгоритмов машинного обучения, в том числе, ансамбля моделей.
метод групповой учет аргумент
Литература
1. Ивахненко А.Г. Индуктивный метод самоорганизации моделей сложных систем. - Киев: Наукова думка, 1981. - 296 с.
2. Anastasakis L., Mort N. The Development of Self-organization Techniques in Modeling: A Review of the Group Method of Data Handling (GMDH). Research Report No.81
3. Department of Automatic Control & Systems Engineering,The University of Sheffield, United Kingdom. - 2001. - October. - 38 p.3. Доклад о человеческом развитии 2013. Возвышение Юга: человеческий прогресс в многообразном мире / [директор и основной автор Х. Малик]. - М.: Издательство "Весь Мир", 2013. - 202 с.
4. Human Development Report 2014. "Sustaining Human Progress: Reducing Vulnerabilities and Building Resilience" / Director and lead author Khalid Malik - Publisher: United Nations Development Programme, 2014 - 236 p.
5. Бова А.А. Страх перед злочинністю, кримінальна віктимізація та довіра до соціальних інститутів: результати порівняльного дослідження // Методологія, теорія та практика соціологічного аналізу сучасного суспільства. - 2013. - Випуск 19. - С.346-252.
Размещено на Allbest.ru
...Подобные документы
Наблюдение как метод сбора социальной информации путем непосредственного изучения социального явления в его естественных условиях. Разновидности метода наблюдения, их особенности и характеристика. Основные достоинства и недостатки метода наблюдения.
контрольная работа [30,5 K], добавлен 31.10.2010Динамика изменения индекса развития человеческого потенциала в мире и в России. Оценка ожидаемой продолжительности жизни, уровня грамотности населения страны и уровня жизни. Интегральные индексы физического качества жизни, гендерного неравенства.
контрольная работа [17,8 K], добавлен 18.03.2015Опрос как основной статистический метод изучения общественного мнения. Сущность выборочного метода, принципы и приемы, решаемые задачи. Определение необходимого объема выборки. Пример вычисления средней ошибки для доли бесповторного отбора единиц.
курсовая работа [333,1 K], добавлен 08.11.2014Анализ показателей индекса развития человеческого потенциала в Российской Федерации. Ожидаемая продолжительность жизни. Уровень образования (грамотности). Оценка материального уровня жизни. Расчет простого среднего индексов. Факторы позитивной динамики.
презентация [1,7 M], добавлен 28.09.2016Понятие и сущность эвтаназии, направления и особенности исследования данного явления на различных этапах развития человеческого общества. Исследование аргументов в защиту и против эвтаназии, их обоснование. Отношение к ней разных религиозных течений.
контрольная работа [47,6 K], добавлен 21.08.2014Примеры использования индексного метода для проверки эмпирических гипотез. Применение стратегии "Идеал" для развития критического мышления и формирования умения решать проблемы. Определение аналитического индекса и построение логического квадрата.
практическая работа [1,0 M], добавлен 20.12.2014Суть группового давления как социального феномена. Понятие социальной фасилитации и социальной ингибиции. Способы формулирования группового давления. Изменение взглядов или поведения под реальным или представляемым давлением группы (конформизм).
презентация [259,8 K], добавлен 18.03.2015Сущность социального капитала и концепции его понимания, а также сравнительный анализ с физическим и человеческим капиталами. Индекс межличностного и морального доверия в Украине, доверия Президенту, Верховной Раде, Правительству, милиции, прокуратуре.
контрольная работа [1,7 M], добавлен 24.02.2013Методы и алгоритмы расчетов индекса развития человеческого потенциала по показателям. Установление особенностей и закономерностей на основе статистики. Оценка регионов России по индексу развития человеческого потенциала и разработка рекомендаций.
реферат [56,1 K], добавлен 18.02.2011Аспекты управления современного бизнеса и его роль в общественном развитии России. Коррупция и теневая экономика как факторы дестабилизации общественных отношений и угроза безопасности. Социальные страхи как предмет изучения социологии безопасности.
реферат [15,5 K], добавлен 09.11.2009Типы исследовательских стратегий и специфика процедуры исследования с помощью метода кейс-стади. Практическое применение метода и его сущность. Изучение занятости и эффективности профессионального обучения и профориентации молодежи Рязанской области.
курсовая работа [49,7 K], добавлен 20.09.2009Понятие "уровень жизни населения", его составляющие. Социальные нормативы и потребности, основные индикаторы уровня жизни. Задачи изучения уровня жизни. Пирамида потребностей по Маслоу. Статистическая характеристика уровня жизни населения Волгограда.
курсовая работа [88,1 K], добавлен 10.06.2012Изучение понятия и функций социального контроля - группового одобрения или осуждения трудового поведения работника в зависимости от сложившихся в коллективе ценностей и правил трудового поведения. Особенности административного, общественного контроля.
реферат [22,2 K], добавлен 28.11.2010Определение и виды эксперимента, его использование в науке. Особенности использования метода эксперимента в политических, социологических исследованиях. Применение метода эксперимента при проведении опросов о политических ориентациях жителей г. Астрахани.
курсовая работа [49,2 K], добавлен 22.06.2015Основные направления применения контент-анализа как формализованного метода изучения текстовой и графической информации. Составление кодировальной матрицы для регистрации единиц анализа. Применение анализа в социально-психологических исследованиях.
реферат [46,2 K], добавлен 09.10.2012Основные направления и методология анализа феномена социального успеха. Метод "жизненного пути" как инструмент изучения современного российского общества. Сущность понятия "вторичный анализ". Социологический индикатор замера социальной безопасности.
реферат [19,5 K], добавлен 26.11.2009Понятие национальной безопасности, ее структура и состояние на современном этапе. Модели государственной политики в сфере безопасности. Роль гражданского общества в укреплении национальной безопасности. Риски безопасного развития в условиях глобализации.
контрольная работа [19,6 K], добавлен 26.11.2009Понятие и сущность индекса человеческого потенциала. Страны, не включённые в индекс. Индекс развития человеческого потенциала (ИРЧП) - индекс для оценки бедности, грамотности, образования, средней продолжительности жизни и других показателей страны.
реферат [27,2 K], добавлен 29.06.2009Биографические данные в социологических исследованиях - метод "жизнеописаний". Виды биографического интервью: лейтмотивное, нарративное, открытое, интенциональное, институциональное. Метод генеалогического исследования семьи в практике социальной работы.
курсовая работа [23,5 K], добавлен 22.07.2009Сущность биографического метода. Определение биографического метода в социологии. Истоки биографического метода. Сбор и обработка биографических данных. Сбор биографического материала. Анализ и интерпретация биографического материала.
курсовая работа [27,3 K], добавлен 13.04.2004