Выявление информативных параметров поведения пользователей социальной сети ВКонтакте как признаков депрессии
Выявление информативных лингвистических и поведенческих признаков депрессии у пользователей социальной сети ВКонтакте в сравнении с англоязычными респондентами других сетей. Применение машинного обучения, опорных векторов и алгоритма случайного леса.
Рубрика | Психология |
Вид | статья |
Язык | русский |
Дата добавления | 22.08.2020 |
Размер файла | 86,1 K |
Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже
Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.
Размещено на http://www.allbest.ru/
Федеральный исследовательский центр «Информатика и управление» Российской академии наук
Выявление информативных параметров поведения пользователей социальной сети ВКонтакте как признаков депрессии
Н.В. Кисельникова, М.А. Станкевич, М.М. Данина
Согласно отчету Европейского отделения ВОЗ (в которое входит Российская Федерация) за 2016 г., существующая система здравоохранения не вполне успешна в работе с депрессией, необходимо создание доказательных подходов к ее лечению с применением стратегии поддержки и профилактики общественного здоровья. Эффективность и доступность населению профилактических мер также должны быть существенно повышены. Существующие проблемы побуждают искать пути автоматизации проектов в области охраны психического здоровья и разрабатывать новые формы диагностики и информирования.
Исследования показывают, что анализ персональных страниц пользователей в социальных сетях может являться источником информации не только о социально-демографических характеристиках пользователя, но и о его текущем психологическом состоянии. Так, возникло целое направление исследований, связанное с изучением возможности предсказывать психологические состояния индивидов и уровень субъективного благополучия по анализу профилей в социальных сетях.
Такая методология диагностики позволяет решать сразу несколько задач:
раннего выявления признаков психологического неблагополучия для его своевременной диагностики и профилактики;
перехода от субъективных способов диагностики к объективным с опорой на реальные поведенческие признаки;
снижения расходов на психологическую диагностику за счет пассивного режима сбора данных;
получение доступа к группам населения, которые не обращаются за психологической помощью по разным причинам (социально-экономический статус, субъективные барьеры и стигматизация и др.).
Исследования возможности предсказывать психологические состояния, черты личности и прочее на основе анализа данных профилей в социальных сетях в большинстве своем выполнены зарубежными группами ученых. Главным образом они сосредоточены на анализе текстов, а по дизайну представляют собой корреляционные исследования.
Так, в работе по предсказанию депрессии по сообщениям в Твиттере (De Choudhury et al., 2013b) авторы анализировали сообщения людей, подтвердивших наличие у них клинической депрессии, написанные в течение года перед получением данного диагноза. Это позволило обнаружить характерные признаки появления и прогрессирования данного заболевания у пользователей. Так, у многих испытуемых наблюдались снижение активности в социальной сети, появление негативной тональности и религиозной увлеченности.
Г.А. Шварц (Shwartz et al., 2013) показали, что индивидуальное благополучие как комплексный показатель не только хорошего настроения, но и хорошего физического и психического здоровья предсказывается по анализу обновлений статуса Facebook. Оказалось, что негативные эмоциональные выражения, применяемые при обновлении статуса в социальных сетях на протяжении последних 9-10 месяцев, связаны с низкой удовлетворенностью жизнью и низким субъективным благополучием. При этом подобной связи не было выявлено для позитивных эмоциональных высказываний, они оказались не связаны с высокой удовлетворенностью жизнью и субъективным благополучием (Liu et al., 2015).
Один из крупнейших исследовательских проектов по разработке новых методов измерения показателей здоровья и психологического благополучия на основе текстового контента, публикуемого пользователями в социальных сетях, -- Проект всемирного благополучия (The World Well-Being Project - WWBP). Среди опубликованных результатов проекта - статья Шварца с соавт. (Schwartz et al., 2013). В исследовании приняли участие 75 000 добровольцев, они заполняли личностный опросник NEO PI-R (Revised NEO Personality Inventory) и предоставляли исследователям доступ к информации
на своих страницах в социальной сети «Фейсбук». На основании найденных общих качеств были сгенерированы предсказательные модели, которые с довольно высокой точностью предсказывали возраст, пол и индивидуальные черты. Некоторые результаты согласуются с результатами других исследований, например, люди с высокими показателями нейротизма чаще употребляют слова «надоел», «депрессивное». Другие связи оказались новыми, например, люди, живущие на большой высоте, чаще пишут про горы, а мужчины чаще употребляют притяжательное местоимение «моя» в отношении своих жен и подруг. Женщины, когда пишут про мужей или бойфрендов, используют местоимение «мой» реже.
Особое внимание исследователей направлено на изучение признаков депрессии на основе информативных параметров поведения пользователей Интернета. Депрессия - ведущее по распространенности заболевание, наблюдаемое у 9% мужчин и 17% женщин в Европе, что составляет около 33.4 миллиона людей. Данное состояние характеризуется подавленным настроением, когнитивной и двигательной заторможенностью, потерей интереса и мотивации к значимым для человека сферам жизни, поэтому является одной из основных причин нетрудоспособности в мире.
В обзоре тридцати эмпирических исследований (Baker, Algorta, 2016), ключевыми словами в которых являются «депрессия» («depression») и «социальные сети» («online social networking»), показано, что соотношение между активностью в социальных сетях и симптомами депрессии опосредовано множеством психологических, социальных, поведенческих и личностных факторов. В качестве параметров активности и их субъективной оценки пользователями выступает удовлетворенность от социальной поддержки в «Фейсбуке», позитивное социальное сравнение, число друзей, ощущаемая социальная связанность пользователей «Фейсбука», патологическая вовлеченность в социальные сети, самопрезентация в «Фейсбуке», зависть, вызванная просмотром страниц в «Фейсбуке», принятие от бывших партнеров приглашения стать «друзьями», произведение большего количества контента, возрастание участия в коммуникации в «Фейсбуке», обновление статуса, отметки о местоположении. Результаты показывают, что характер использования социальных сетей и определенные онлайн-действия (такие как частота обновлений, постов, добавление в друзья бывших партнеров или подписки на незнакомых людей) могут быть важными маркерами симптомов депрессии (Ibid.). Социальное сравнение и застревание в размышлениях негативного характера опосредуют связь использования социальных сетей и депрессии.
В открытом проекте CLEF/eRisk 2017 набор данных состоял из коллекций текстовых сообщений участников социальной сети Reddit. Выборка была разделена на две группы: 752 пользователя без симптомов депрессии и 135 пользователей с обнаруженными признаками депрессии. Был выполнен лингвистический анализ текстов сообщений пользователей и проведен статистический анализ полученных данных для выявления признаков. Все сообщения одного пользователя рассматривались как единый документ, а слова приведены к леммам. Для выявления лексических признаков все тексты были представлены в виде модели bag-of-words, на основе которой далее была рассчитана статистическая мера важности слов tf-idf.
Анализ списков самых информативных слов пользователей показал, что характеристики слов имеют большой потенциал для решения задачи автоматического выявления депрессии. В первую очередь, значимые признаки могут быть получены при анализе статей специализированных словарей. В текстах пользователей с депрессией регулярно встречается лексика, которая тем или иным образом связана с самим заболеванием. В среднем слово «депрессия» встречается 9 раз в тексте пользователя с депрессией и 1 раз в тексте здорового человека. Название психологических диагнозов, наименования медикаментов, упоминание специалистов в области психотерапии, термины болезненной тематики и слова негативной окраски значимо чаще встречаются в текстах людей с депрессией и могут быть служить признаками для последующего построения моделей выявления депрессии. Также были проанализированы результаты морфологического анализа теста. Так как рассматриваемый набор данных был не сбалансирован по классам и по количеству сообщений от каждого пользователя, морфологические признаки были получены путем расчета пропорций употреблений различных частей речи. Если приводить усредненную статистику для всего набора данных, различия между двумя группами людей наиболее сильно проявляются в пропорциональном количестве употреблений существительных (19% в группе людей с депрессией и 25% у здоровых), местоимений (14% и 10%) и глаголов (22% и 20%). Другие признаки были получены путем расчета итогового количества слов, сообщений и усредненных значений числа слов в одном сообщении, слов в одном предложении, предложений в одном сообщении. Основываясь на данных CLEF/eRisk 2017, пользователи с депрессией имеют тенденцию реже выкладывать сообщения в социальной сети Reddit (в среднем 371.7 сообщений у класса депрессивных и 655.5 у здоровых), однако эти сообщения в среднем содержат больше слов (41.3 против 27.7) и предложений (2.9 против 2), чем у здоровых пользователей.
В некоторых исследованиях анализируются не только текстовые сообщения, но и фотографии, а также проводится комплексный анализ поведения пользователя в социальных сетях. Например, исследовались маркеры депрессии на материале фотографий в Instagram (Reece, Danforth, 2017). Метод применялся для анализа фотографий людей с клинической депрессией до и после получения диагноза. Авторы показали, что по фотографиям пользователей Instagram можно предсказывать развитие заболевания у отдельных пользователей, анализируя характеристики самого изображения (цвет, яркость, наличие людей на фото, применение фильтров Instagram), а также метаданные, такие как время публикации, количество лайков и комментариев. Также появляются исследования, включающие дополнительные психологические переменные, например личностные черты. При изучении связи уровня депрессии и нейротизма была зафиксирована значимая связь между временем, проведенным в «Фейсбуке», и депрессией у людей с высоким уровнем нейротизма, который играет модерирующую роль (Giota, Kleftaras, 2013; Chow, Wan, 2017). В другом исследовании установлена положительная корреляция между депрессией и патологическим погружением в социальные сети (Baker, Algorta, 2016; Li et al., 2018).
В целом полезными в плане диагностики депрессии являются результаты, касающиеся следующих потенциально информативных параметров анализа данных, полученных из социальных сетей: 1) время, проводимое в социальной сети; 2) тексты постов, статусов, личной информации (в том числе графы «обо мне»); 3) фотографии профиля, фотоальбомы и фотографии на странице пользователя; 4) отметки на фотографиях других пользователей; 5) частота и количество постов, обновлений статуса, лайков и комментариев; 6) количество публичных страниц и групп, на которые подписан пользователь; 7) приложения, добавленные пользователем в свой профиль.
Целью настоящего междисциплинарного исследования стало выявление наиболее информативных признаков поведения русскоязычных пользователей социальной сети ВКонтакте для выявления их принадлежности к группам респондентов с высоким и низким уровнем депрессии.
Мы проверяли предположение о том, что модели машинного обучения способны выполнять классификацию людей с признаками и без признаков депрессии по различным параметрам активности и психолингвистическим маркерам их текстов в социальной сети ВКонтакте.
Практическая значимость исследования обусловлена разработкой инструмента объективной оценки психологического состояния испытуемого, основанная на анализе его поведения в социальной сети. Данный инструмент может быть способом оценки эффективности массовых профилактических программ и методом сбора данных для обширных эпидемиологических исследований. Научная значимость обусловлена выявлением поведенческих коррелятов депрессивного состояния, которые еще не освещены в клинической литературе в связи с отсутствием инструментов диагностики поведения человека в естественной среде.
Метод
Выборка и процедура. В исследовании использовались данные 1268 пользователей ВКонтакте, из которых 886 женщин и 421 мужчина в возрасте от 16 до 79 лет (М = 25). Пользователи знакомились с текстом информированного согласия, описывающим условия сбора, хранения и использования данных, предоставляли доступ к своей персональной странице и проходили опросник депрессии Бека через специальное приложение для социальной сети. Из них были сформированы три группы респондентов с разным уровнем выраженности признаков депрессии: 209 пользователей с низким, 780 пользователей со средним, 279 пользователей с высоким уровнем. лингвистический поведенческий депрессия сеть
Методики. Опросник депрессии Бека описывает наиболее значимые симптомы депрессии, объединенные в 21 категорию. Каждая категория включает 4-5 пунктов, соответствующих признакам депрессии разной степени выраженности.
Каждый пункт шкалы оценивается от 0 до 3 баллов по нарастанию тяжести симптома. Суммарный показатель проявления признаков депрессии варьирует от 0 до 63. Выделяется четыре уровня выраженности депрессии: 0-13 -- в пределе нормы, 14-19 -- легкая депрессия, 20-28 -- умеренная депрессия, 29-63 -- тяжелая депрессия
Доступная информация из личного профиля пользователей социальной сети ВКонтакте собиралась автоматически с разрешения владельцев посредством API. Для выгрузки данных было разработано собственное программное обеспечение. Вся информация, которая может раскрыть личность людей, была удалена из базы данных. Анализу подвергались данные с января 2017 по апрель 2019 г.
К анализируемым данным пользователей относятся следующие параметры: число друзей, подписок, групп, аудиозаписей, фотографий, видео, подарков, интересных страниц, постов на стене, лайков на персональной странице; указанных родственников, мест работы, школ, университетов; любимые книги, цитаты, фильмы, исполнители, основные интересы, статус, псевдоним и общая информация о себе, включая отношение к курению, отношение к алкоголю, главное в жизни и семейное положение.
Анализ данных. C помощью методов машинного обучения, а именно метода опорных векторов (SVM) и алгоритма случайного леса (Random Forest), было проведено выявление информативных признаков депрессии по различным показателям активности пользователей социальной сети ВКонтакте.
Метод опорных векторов применяется для классификации и позволяет осуществить перевод исходных векторов в пространство более высокой размерности. Затем осуществляется поиск разделяющей гиперплоскости с максимальным зазором в этом пространстве. За счет этого объекты разделяются оптимальным образом.
Алгоритм случайного леса также применяется в задачах классификации и заключается в использовании ансамбля решающих деревьев. Каждое из них в отдельности дает невысокое качество классификации, за счет их сочетания повышается точность.
Обучение проходило на выборках с крайними значениями по шкале А. Бека, поскольку такой подход дает возможность более точно определять связанные с ней поведенческие признаки. По аналогии с исследованием, в котором мы ранее анализировали текстовые данные (Stankevich et al., 2019a), в новом исследовании представлены результаты бинарной классификации пользователей на два класса: класс пользователей с выраженными признаками депрессии и класс здоровых пользователей. В класс здоровых пользователей вошли респонденты с итоговым баллом < 13 по шкале депрессии Бека (279 пользователей), а в класс депрессии вошли респонденты с результатом > 29 (209 пользователей). Данные пользователей с промежуточными результатами (слабой и умеренно выраженной депрессией не подвергались анализу). Для обучения работе с классификатором использовалась основная информация из профилей пользователей.
Количественные признаки. В данную группу входят показатели числа друзей, подписок, групп, аудиозаписей, фотографий, видео, подарков, интересных страниц, постов на стене, лайков на персональной странице, а также число указанных родственников, мест работы, школ, университетов и др.
Бинарные признаки. В качестве бинарных признаков привлекалась информация о факте наличия данных в персональном профиле, которая заполняется пользователем опционально: любимые книги, цитаты, фильмы, исполнители, основные интересы, статус, псевдоним и общая информация о себе.
Фиксированные ответы пользователей. ВКонтакте предоставляет возможность выбрать предопределенные ответы на несколько вопросов, которые отображаются в профиле пользователя. Например, отношение к курению, отношение к алкоголю, главное в жизни и семейное положение. Каждый из этих показателей представлялся в виде численного значения, который соответствует выбранному пользователем ответу.
Для определения нормальности распределения данных использовался метод Колмогорова-Смирнова. Для определения характера различий между группами -- непараметрический критерий Манна-Уитни, построение доверительных интервалов.
Результаты
Результаты классификации представлены в виде усредненного значения метрик классификации по пяти прогонам четырехкратного перекрестного скользящего контроля с указанием среднеквадратичного отклонения по усреднению (см. таблицу 1). Метрики precision (точность), recall (полнота) и Fl-мера (среднее взвешенное от precision и recall) представлены для класса депрессии. Метрика precision интерпретируется как доля объектов, названных классификатором положительными и при этом действительно являющихся положительными. Метрика recall показывает, какую долю объектов положительного класса из всех объектов этого класса нашел алгоритм. Также в таблице указана взвешенная Fl-мера по обоим классам (Fl-w) и метрика ROC AUC (площадь Лгеа Cnder Curve под кривой ошибок Receiver Operating Characteristic curve).
Учет основной информации о профиле пользователя (PI-r) позволяет получить до 65% Fl-меры для выявления пользователей с депрессией. Лучший результат классификации с психолингвистическими признаками (PM) равен 66.40% Fl-меры. Комбинация психолингвистических признаков и признаков активности пользователя (PI-r+PM) позволяет получить 67.57%, что на текущий момент является лучшим результатом для представленного набора данных.
В результате этого анализа была выстроена последовательность наиболее информативных для предсказания депрессии признаков (в порядке убывания):
количество друзей;
количество «интересных страниц» и групп;
количество указанных вузов;
количество указанных школ;
Таблица 1 Результаты разделения пользователей на классы «депрессия» и «здоровье»
Random Forest |
||||||
Set |
Precision |
Recall |
F1 |
ROC AUC |
F1-w |
|
PI |
56.83 ± 5.52 |
60.52 ± 6.82 |
58.45 ± 5.41 |
68.43 ± 4.90 |
63.27 ± 4.91 |
|
PI-r |
57.99 ± 4.91 |
63.89 ± 7.79 |
60.62 ± 5.52 |
68.90 ± 5.28 |
64.68 ± 4.66 |
|
PM |
62.60 ± 7.77 |
53.26 ± 7.88 |
56.59 ± 2.20 |
74.89 ± 4.05 |
69.16 ± 2.60 |
|
PM+PI-r |
65.14 ± 10.89 |
52.39 ± 6.22 |
57.74 ± 7.22 |
74.43 ± 5.25 |
70.64 ± 5.62 |
|
SVM |
||||||
PI |
57.29 ± 3.27 |
72.22 ± 3.61 |
63.84 ± 2.93 |
68.96 ± 4.20 |
65.03 ± 3.21 |
|
PI-r |
59.28 ± 1.45 |
73.67 ± 2.57 |
65.65 ± 1.02 |
70.11 ± 2.47 |
67.11 ± 1.11 |
|
PM |
58.40 ± 2.99 |
77.17 ± 1.88 |
66.40 ± 1.33 |
75.11 ± 3.24 |
71.42 ± 2.21 |
|
PM+PI-r |
61.08 ± 6.74 |
76.08 ± 2.17 |
67.57 ± 4.61 |
75.39 ± 3.58 |
72.95 ± 5.59 |
Примечание. PI -- набор признаков активности пользователей в социальной сети; Pl-r - наиболее информативные признаки из исходного пространства признаков PI; PM -- набор психолингвистических признаков, который использовался для выявления депрессии по текстам из социальных сетей и показал лучший результат (66% F1-меры). Также представлены результаты классификации на комбинации признаков Pl-r и PM. Стоит отметить, что классификация с использованием текстовых признаков (PM и PM+PI-r) проводилась на меньшей выборке, так как среди исходного набора данных из 1020 пользователей ВКонтакте не у всех пользователей были текстовые сообщения.
число лайков на постах пользователей;
количество аудио;
количество подарков;
количество фото;
количество подписок;
количество указанных родственников;
В целях определения характера различий по информативным признакам между группами был проведен сравнительный анализ и построены доверительные интервалы (рисунки 1, 2 и 3).
Результаты теста Колмогорова-Смирнова показали, что распределение данных отличается от нормального, p = 0.000, поэтому для сравнения признаков у людей без депрессии и с признаками тяжелой депрессии был использован непараметрический критерий Манна-Уитни для независимых выборок. Различия между двумя группами по всем информативным признакам (количеству аудиозаписей, друзей, интересов, лайков, интересных страниц, групп, родственников, информации о школе, университете) констатировались на уровне значимости от 0.000 до 0.027. Значимые различия по количеству подписок, подарков и фото отсутствуют, хотя и входят в число информативных признаков.
Рисунок 1
Доверительные интервалы по показателям «Количество друзей», «Интересные страницы»,
«Школа», «Университет»
Рисунок 2 Доверительные интервалы по показателям «Количество лайков», «Аудиозаписи», «Группы», «Родственники»
Рисунок 3 Доверительные интервалы по показателям «Подписки», «Количество фото», «Подарки»
Таким образом, наиболее значимыми содержательными характеристиками поведения пользователей социальной сети Вконтакте относительно уровня признаков депрессии можно назвать следующие:
общая активность в социальной сети;
коммуникативная активность и социальная вовлеченность;
активность в коммуникации: направленность и экстраверсия.
Также был сделан вывод о том, что по сравнению с отдельными признаками активности пользователя лучший результат предсказания на представленном наборе данных был получен при их комбинации с психолингвистическими признаками.
Обсуждение
Общая активность в социальной сети. В данном исследовании не анализировалось общее время, проводимое пользователями в социальной сети,- параметр, часто используемый в работах других авторов. Однако мы рассматривали другие показатели активности - количество добавленных друзей, полноты самопрезентации в профиле и пр.
Характер связи активности пользователей и симптомов депрессии неоднозначен: с одной стороны, на пользователях Twitter было показано снижение активности в связи с депрессией (De Choudhury et al., 2013b). С другой, связь активности в социальных сетях и симптомов депрессии может быть опосредована множеством психологических, социальных, поведенческих и личностных факторов (Baker, Algorta, 2016).
Так, например, было установлено, что в некоторых случаях именно при депрессии отмечается рост активного проблемного использования социальных сетей - навязчивого просмотра чужих страниц, видео и пр. (Gou, Zhou, Yang, 2014). Наше исследование содержит согласующиеся с этим данные: большее количество интересных страниц и групп, на которые подписан пользователь, является признаком, по которому можно предсказать принадлежность пользователя к группе людей с выраженной депрессией. В целом, не имея возможности проконтролировать все эти факторы, отметим, что депрессия характеризуется снижением активности в отношении широкого спектра поведения, вероятно, включая и использование социальных сетей как пространства для коммуникации и самопрезентации. Так, локальными маркерами, характерными для группы с признаками тяжелой депрессии, оказалась менее частая публикация статей на личной странице пользователя, альбомов, цитат, страниц, репостов чужого контента. При этом может возрастать пассивное использование социальных сетей для потребления информации и серфинга.
Коммуникативная активность и социальная вовлеченность. Самым информативным признаком, позволяющим установить принадлежность человека к группе с тяжелым или невыраженным уровнем депрессии, оказалось большее количество друзей у последнего. По этому признаку выводы других исследований противоречивы. Известно, что при высоком уровне депрессии люди стараются избегать общения в социальных сетях (De Choudhury et al., 2013a; Mashrura et al., 2016).
В то же время Д. Бейкер и Г. Алгорта (Baker, Algorta, 2016) показали, что добавление в друзья бывших партнеров или подписки на незнакомых людей могут рассматриваться как маркеры симптомов депрессии, т.е. в этом случае мы наблюдаем расширение социальной сети пользователя за счет определенной категории «друзей».
Наши результаты не дают возможности увидеть динамику добавлений новых друзей на платформе ВКонтакте, поэтому мы можем констатировать только статические, а не динамические поведенческие признаки. Можно предположить, что поведение, описанное Д. Бейкером и Г. Алгортой (Ibid.), является компенсацией общего снижения социальной активности, т.е. копинг-стратегией пользователя с депрессией. Также можно предположить обратное влияние количества друзей на уровень депрессии: известно, что риск депрессии выше у людей с переживанием одиночества и социальной изоляции (Cacioppo et al., 2006).
Так, более низкий уровень лайков на каждый пост пользователя, согласно данным настоящего исследования, также показал значимую связь с депрессией и отражает меньшую вовлеченность социальной сети пользователя в его жизнь и создаваемый им контент.
Активность в коммуникации: направленность и экстраверсия. Подробное описание своих интересов, любимых книг и музыки, а также данных об образовании и карьере в профиле социальной сети отражает большую коммуникативную направленность пользователей, что характеризует более высокий уровень экстраверсии (Ryan, Xenos, 2011; Seidman, 2013; de Zuniga et al., 2017). То, что эти параметры характеризуют пользователей с отсутствием признаков депрессии, может быть объяснено тем, что экстраверсия как личностная черта, согласно большому количеству исследований, негативно связана с депрессией (Klein et al., 2011).
Большее количество статусов и записок у людей из группы с признаками депрессии, вероятно, отражает обратную тенденцию ухода от прямой коммуникации с другими пользователями; в отличие от сообщений статусы нельзя комментировать, а записи, которые создал пользователь, не отображаются в общей ленте новостей. Таким образом, пользователь в меньшей степени использует социальную сеть как площадку для двусторонней коммуникации.
Возможно, таким же образом выраженность депрессии связана с количеством аудиозаписей -- функционал социальной сети используется преимущественно для доступа к бесплатному аудиоконтенту. С другой стороны, можно предположить, что пользователи, пребывающие в депрессивном состоянии, чаще слушают музыку в целях эмоциональной регуляции (Stewart et al., 2019). Оба предположения нуждаются в эмпирической проверке.
Как было отмечено, лучший результат предсказания на представленном наборе данных показан по комбинации психолингвистических признаков и признаков активности пользователя. Это согласуется с результатами другой нашей работы, где решалась задача выявления депрессии по текстам из социальных сетей (Stankevich et al., 2019a) и эссе на заданную тему (Stankevich et al., 2019b). Признаки активности пользователя мы подробно обсудили выше. Психолингвистические маркеры - это лингвистические особенности текста, раскрывающие характеристики автора и сигнализирующие о его психологическом состоянии. Психолингвистические маркеры рассчитываются по морфологической и синтаксической информации и отражают стиль письма автора. На этом наборе данных ранее было использовано более 30 маркеров (среднее количество слов в предложении, символов в слове, соотношение знаков препинания и количества слов, доля уникальных слов в лексике, средняя глубина синтаксического дерева, соотношение различных частей речи). Было установлено, что тексты пользователей из группы с признаками депрессии меньшего объема, а также у них отмечается меньшее количество сообщений, количество употребляемых слов и предложений, чем в контрольных группах. Данный результат соответствует данным, полученным в исследовании сообщений в Твиттере (De Choudhury et al., 2013b), и частично - данным проекта CLEF/eRisk 2017 в социальной сети Reddit. В последнем отмечается меньшее количество сообщений при большем количестве слов и предложений, чем у здоровых пользователей.
Ограничения исследования
Ограничения исследования связаны с методологией онлайнового сбора данных в социальной сети: мы не можем гарантировать достоверность информации по демографическим и иным характеристикам, которые указывают пользователи. Также мы не знаем, в какой среде происходит заполнение опроса, насколько серьезно пользователи относятся к процедуре исследования и в какой степени они в нее вовлечены, а также насколько внимательно они читают текст информированного согласия, вследствие этого, насколько точное представление и адекватные ожидания от исследования они имеют. Все это может быть факторами, снижающими надежность данных. Еще одним ограничением является то, что в исследовании анализируется статичный срез данных, соответственно, мы не можем строить динамические модели и делать выводы о причинно-следственных связях. Также предполагаем, что увеличение объема выборки в каждой из подгрупп увеличит точность результатов классификации.
Заключение
1. В исследовании оценивалась способность моделей машинного обучения выполнять классификацию людей с признаками и без признаков депрессии по различным параметрам активности в социальной сети ВКонтакте.
2. Комбинация психолингвистических признаков и признаков активности пользователя (количества друзей, подписок, лайков на постах, аудиозаписей и др.) позволяет получить наилучшие показатели классификации. Мы рассматриваем это исследование как первый шаг в распознавании депрессии на основе машинного обучения по параметрам пользовательского поведения в социальных сетях.
3. Анализ психолингвистических и поведенческих маркеров депрессии в постах социальных сетей может создать условия для своевременного выявления и профилактики депрессии у групп риска, кроме того, сделать диагностику и помощь более доступными для большого количества пользователей.
4. Кисельникова Наталья Владимировна -- заведующая лабораторией, лаборатория консультативной психологии и психотерапии, ФГБНУ ПИ РАО, кандидат психологических наук.
5. Сфера научных интересов: психологическое консультирование, психическое здоровье, big data.
6. Станкевич Максим Алексеевич -- инженер-исследователь, ФИЦ «Информатика и управление» РАН.
7. Сфера научных интересов: обработка естественного языка, машинное обучение, анализ социальных сетей.
8. Данина Мария Михайловна -- старший научный сотрудник, лаборатория консультативной психологии и психотерапии, ФГБНУ ПИ РАО, кандидат психологических наук. Сфера научных интересов: психологическое консультирование, психическое здоровье, big data.
9. Куминская Евгения Андреевна -- научный сотрудник, лаборатория консультативной психологии и психотерапии, ФГБНУ ПИ РАО.
10. Сфера научных интересов: психологическое консультирование, психическое здоровье, big data.
11. Лаврова Елена Васильевна -- научный сотрудник, лаборатория консультативной психологии и психотерапии, ФГБНУ ПИ РАО, кандидат психологических наук.
12. Сфера научных интересов: психологическое консультирование, психическое здоровье, big data.
Резюме
Настоящее междисциплинарное исследование направлено на определение информативных признаков поведения русскоязычных пользователей социальной сети ВКонтакте в связи с уровнем выраженности у них признаков депрессии. В исследовании анализировались результаты опроса 1268 пользователей ВКонтакте (опросник депрессии А. Бека), которые предоставили доступ к информации своих профилей. Из них были сформированы три группы респондентов с разным уровнем выраженности признаков депрессии.
C помощью методов машинного обучения, метода опорных векторов (SVM) и алгоритма случайного леса (Random Forest) были выявлены информативные лингвистические и поведенческие признаки депрессии у пользователей социальной сети ВКонтакте, сопоставимые с данными, полученными исследователями англоязычных респондентов других социальных сетей.
Ключевые слова: депрессия, социальные сети, big data, машинное обучение, психическое здоровье.
The objective of this interdisciplinary study was to identify informative signs of behavior of Russian-speaking users of the social network VKontakte in connection with the severity of their signs of depression. The study used data from 1268 VKontakte users who filled out the Beck Depression Inventory (BDI), and also provided access to their profiles information. There were three groups of respondents with different levels of severity of signs of depression.
Using machine learning methods, the support vector method (SVM) and the random forest algorithm (Random Forest), informative linguistic and behavioral signs of depression were revealed among users of the VKontakte social network, comparable to data obtained by researchers of English-speaking respondents from other social networks.
Keywords: depression, social networks, big data, machine learning, mental health.
Размещено на Allbest.ru
...Подобные документы
Сущность и функции общения, его уровни и невербальные средства. Типы и социально-психологические особенности участников социальных сетей. Выявление зависимости между коммуникативной социальной компетентностью пользователей и их активностью в интернете.
курсовая работа [645,2 K], добавлен 03.11.2013Значение психосоматической патологии в современной медицинской практике. Клинические проявления и патогенез соматизированной депрессии. Сущность и механизмы возникновения маскированной депрессии. Выявление и лечение болезни методом когнитивной терапии.
практическая работа [26,1 K], добавлен 04.12.2010Психологические основы подростковой депрессии. Симптомы депрессивного состояния. Причины депрессий в школе. Профилактика и лечение депрессий. Специфика поведения подростков, страдающих скрытой депрессией. Профилактика депрессий.
курсовая работа [40,6 K], добавлен 14.12.2006Биологические закономерности депрессии. Гамма-аминомасляная кислота (ГАМК), тревога и депрессия. Влияние депрессии и антидепрессантов на ГАМКергическую систему. Антидепрессантные эффекты ГАМК-активных анксиолитиков в экспериментальных моделях депрессии.
реферат [30,1 K], добавлен 14.10.2008Понимание депрессии с психологической стороны. Психологические и биологические симптомы депрессии, ее типы и причины. Исследование видов и характера депрессий. Шкалы Гамильтона, Бека для оценки депрессии. Самодиагностический контрольный перечень.
курсовая работа [51,3 K], добавлен 15.12.2008Психологические особенности проявления депрессии в зрелом возрасте. Ключевые понятия в определении депрессии. История изучения психологических аспектов депрессии. Психологические особенности депрессии бизнесменов и коррекция депрессивных состояний.
курсовая работа [72,7 K], добавлен 08.01.2010Общее описание феномена депрессии, а также рассмотрение его теории. Исследование связи депрессии с переживаемым стрессом и состоянием выученной беспомощности. Обозначение возможности системного подхода для снятия депрессивного синдрома у сотрудников.
дипломная работа [506,5 K], добавлен 25.05.2015Изучение понятия и структуры психологической культуры. Психологические особенности пользователей сети Интернет в контексте психологической культуры. Развитие русскоязычного Интернета: гендерные и возрастные аспекты. Мотивация пользователей Интернет.
дипломная работа [93,9 K], добавлен 27.07.2012Общее понятие об агрессивности, ее назначение, формы проявления. Исследование возможностей Интернет-сети как среды коммуникаций, в которой возможна демонстрация агрессивных действий. Интересы пользователей сети Интернет как фактор проявления агрессии.
реферат [34,9 K], добавлен 21.02.2015Описание феномена депрессии и ее происхождение. Теоретический анализ концепции личностно-типологических особенностей субъектной регуляции. Эмпирическое исследование особенностей переживания депрессии студентами, имеющими разные типы субъектной регуляции.
курсовая работа [76,9 K], добавлен 18.11.2010Рост депрессивных расстройств. Феноменология депрессии. Основные психологические подходы к изучению депрессии. Психоаналитический подход. Когнитивно-бихевиористский подход. Многофакторная модель аффективных расстройств А.Б. Холмогоровой и Н.Г. Гаранян.
курсовая работа [39,4 K], добавлен 24.03.2009Теоретические аспекты нейроинформатики. Этапы проектирования сети. Анализ применения персептрона для прогнозирования поведения человека в конфликтной ситуации. Определение входных и выходных параметров сети. Расчет оптимального количества нейронов.
презентация [4,5 M], добавлен 21.08.2013Сущность депрессии, причины ее возникновения, физиологические психосоциальные факторы, последствия. Применение интроспекции, наблюдения, тестирование и гештальттерапии. Условия конструктивного личностного изменения, психологические инструменты.
реферат [18,8 K], добавлен 15.03.2010Психологическое исследование мотивации пользователей Интернета. Интернет: воздействие на личность. Познавательная деятельность в Интернете. Хакинг. Игровая и коммуникативная деятельность в Интернете. Факторы, предрасполагающие к интернет-аддикции.
курсовая работа [52,4 K], добавлен 06.10.2006Одаренность и её компоненты. Определение понятий, видов, проявлений и признаков одаренности. Методы исследования показателей творческой одаренности. Особенности и виды детской одаренности, влияние социальной среды на ее формирование. Понятие гениальности.
курсовая работа [49,5 K], добавлен 05.11.2014Понятие и главные причины депрессии как психического расстройства, характеризующегося патологически сниженным настроением с негативной пессимистической оценкой самого себя, своего положения в окружающей действительности и будущего. Клиника и лечение.
презентация [224,1 K], добавлен 24.02.2015Общая характеристика, признаки, причины детской депрессии. Основные психиатрические синдромы. Проблемы депрессии в отечественной и зарубежной литературе. Нарушения в эмоциональной и физической сфере у подростка. Специфика и способы преодоления депрессий.
курсовая работа [76,4 K], добавлен 20.05.2009Что такое депрессия, ее признаки и последствия. Семь способов излечения от депрессии. Продукты, способные вывести из депрессивного состояния, их состав, описание действия веществ, способствующих преодолению тяжелого депрессивного периода в жизни.
статья [11,1 K], добавлен 08.12.2010Определение состояния шизоидного расщепления личности как следствия потери идентификации, разлада души и тела. Особенности проявления нарциссизма в визуальных образах. Анализ расщеплений психики и выделения субличностей, которые можно встретить в Сети.
статья [22,3 K], добавлен 24.07.2013Социальные причины психологических проблем в мегаполисе. Типология депрессивных состояний, их симптоматология. Проявления, свойственные периодическим депрессиям. Затяжные субдепрессии у ригидных личностей. Депрессии утраты или тяжелых болезней близких.
эссе [22,0 K], добавлен 22.05.2015