Автоматическое выделение признаков тревожных расстройств в текстах
Проведено исследование тревожности и тревожных расстройств на рабочем месте. Рассмотрено, какие понятия используют люди, описывая свои ощущения относительно работы. Показана роль компьютерной лингвистики в изучении психических расстройств и заболеваний.
Рубрика | Психология |
Вид | дипломная работа |
Язык | русский |
Дата добавления | 07.12.2019 |
Размер файла | 82,1 K |
Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже
Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.
Для анализа и построения тематической модели нам было необходимо присвоить текстам метки -- определить, относятся они к “тревожным” или нет, а также предобработать тексты.
3.1 Присвоение меток
Принимая во внимание тему нашего исследования и разнообразие имеющихся индексов и текстов, за основу для присвоения меток мы взяли индекс тяжести (GSI) по шкале JAS, описывающую тревожность из-за работы. Мы определили два способа присвоения меток:
· Выделение трех групп: нет тревоги, есть слабо выраженная, есть сильная (соответственно, значения шкалы от 0 до 1, от 1 до 2, больше 2)
· Выделение двух групп: нет явных признаков тревоги, тревоги явно выражена (от 0 до 1,5, от 1,5 и выше соответственно)
Таким образом, при разделении мы получили следующее соотношение людей в каждой группе:
Таблица 2. Распределение респондентов по группам тревожности
Тернарная классификация |
Бинарная классификация |
|||
Нет тревоги |
52 |
Нет выраженной тревоги |
85 |
|
Тревога выражена слабо |
59 |
Есть выраженная тревога |
59 |
|
Тревога выражена сильно |
33 |
3.2 Предобработка текстов
Предобработка и все последующая работа с текстами велась на языке Python. В рамках препроцессинга мы объединили ответы каждого пользователя в один текст (т.е. один пользователь = один текст), очистили от знаков препинания при помощи регулярных выражений, токенизировали и лемматизировали слова (привели к начальной форме) при помощи библиотеки myStem.
Отдельной задачей в нашем случае стало пополнение списка стоп-слов. Мы убрали стоп-слова, предлагаемые для русского языка библиотекой nltk (среди них -- частовстречаемые союзы, предлоги, местоимения, и т.д.) Но как показал анализ частотности, некоторые слова, такие как «работа», «задача», «коллега», с высокой вероятностью оказываются ключевыми во всех группах и тематических моделях (что, в целом, ожидаемо учитывая характер вопросов анкеты). Мы предположили, что если включить их в список стоп-слов, тревожное или нетревожное состояние будет лучше отслеживаться в результатах анализа. Таким образом, в результатах исследования приведены два варианта: с базовым и обновленным списком стоп-слов.
Кроме того, еще одной особенностью нашей предобработки стало то, что в ключевые слова для тревожного состояния попало слово «любить», хотя проверка первоисточников показывает, что на самом деле имелось в виду «не любить». Поэтому нам пришлось скорректировать предобработку таким образом, чтобы «не» и «любить», идущие рядом, не разделялись. Похожая проблема есть и со словом «хотеть», но в данном случае нет явной тенденции к употреблению его только с частицей «не»: встречаются как варианты «хотеть домой» так и «не хотеть работать». Поэтому для данного слова никакие исключения в предобработке не прописывались.
3.3 Извлечение ключевых слов
Ключевые слова являются полезным показателем для описания темы, тематической коллекции или текста. Изучение ключевых слов в каждой из групп текстов поможет нам лучше понять, насколько эти группы похожи друг на друга и какие слова являются для них наиболее репрезентативными. Более того, получившиеся списки ключевых слов впоследствии можно сравнить со словами, которыми описываются получившиеся в результате тематического моделирования топики.
Предобработка и очистка текста от стоп-слов играют важную роль для выделения ключевых понятий в текстах: если они сделаны недостаточно тщательно, в списках окажется много “мусорных” либо слишком общих терминов, не имеющих отношения к теме либо плохо ее описывающих. В нашем исследовании мы опирались на две основные техники выделения ключевых слов: TF-IDF и TextRank.
TF-IDF -- одна из наиболее популярных метрик в компьютерной лингвистике: она отбирает ключевые слова относительно их встречаемости в конкретном тексте и текстовой коллекции вообще (IDF -- `inverse document frequency', TF -- `term frequency') -- это позволяет отринуть слишком общие и частовстречаемые слова и убрать слишком редкие и незначительные понятия. Минимальный и максимальный порог встречаемости можно задать вручную в интерфейсе алгоритма. Мы использовали реализацию TF-IDF, предоставляемую библиотекой для машинного обучения scikit-learn.
Алгоритм TextRank происходит из PageRank -- способа индексирования веб-страниц в поисковых запросах сообразно их релевантности и “значимости”: чем больше ссылок на страницу, тем она важнее. Иначе это можно представить в виде графа: чем больше ребер идут в вершину из других, и чем выше значимость этих ребер, тем важнее рассматриваемая вершина. Схожим образом можно представить и слова или предложения в тексте (Mihalcea, Tarau 2004: 1). В случае с предложениями рассматривается, в каких из предложений текста сосредоточено наибольшее число слов, значимых для текста в целом. Если составлять граф со словами, как в нашем случае, то ребра графа определяются последовательностью слов или их совстречаемостью в рамках окна в обозначенный X слов. Мы использовали реализацию алгоритма TextRank, предоставляемую библиотекой для тематического моделирования gensim.
После «традиционного» удаления стоп-слов, без расширения списка, мы получили следующие результаты.
Таблица 3. Наиболее частотные слова для всей коллекции текстов
Слово |
Кол-во употреблений |
|
работа |
101 |
|
задача |
52 |
|
день |
43 |
|
работать |
34 |
|
время |
34 |
|
коллега |
33 |
|
сегодня |
25 |
|
рабочий |
24 |
|
усталость |
23 |
|
думать |
23 |
|
сделать |
22 |
|
хотеть |
22 |
|
отсутствие |
22 |
|
человек |
21 |
|
спать |
20 |
Ключевые слова и словосочетания, извлеченные при помощи TextRank, для двух типов классификации, выглядят следующим образом.
Таблица 4. Ключевые слова для тернарной классификации, извлеченные при помощи TextRank
Нет тревожного расстройства |
Тревога слабо выражена |
Тревога сильно выражена |
|
сделать работа |
выполнение работа очень |
надоедать работа |
|
задача |
коллега |
работать |
|
большой |
время |
коллега |
|
хороший день |
отсутствие |
постоянный |
|
сегодня |
думать |
выходной страх напряжение |
|
нужно работать быстро |
человек |
скоро |
|
время состояние |
работать |
человек хотеть |
|
рабочий |
рабочий день |
успевать |
|
заниматься |
задача напряжение сосредоточенность |
приходиться |
|
трудность |
общение |
задача |
Таблица 5. Ключевые слова для бинарной классификации, извлеченные при помощи TextRank
Нет выраженного тревожного расстройства |
Есть выраженные признаки тревожности |
|
сделать работа |
коллега |
|
задача |
работать |
|
хороший день |
отсутствие |
|
человек |
выполнение работа очень |
|
время состояние |
постоянный |
|
сегодня |
успевать |
|
рабочий |
скоро |
|
мало коллега |
домой день |
|
нужно работать быстро |
мои |
|
самочувствие думать план |
выходной страх напряжение |
Стоит отметить, что в случае с тернарной классификацией TextRank находит внятные различия между группами: даже без дополнительной очистки разница между тремя категориями видна достаточно хорошо. При этом при бинарной разметке ключевые для тревожного состояния слова оказываются вытесненными более общими, из-за чего получившийся набор слов трудно охарактеризовать как однозначно “тревожный”.
Таблица 6. Ключевые слова для тернарной классификации, извлеченные при помощи TF-IDF
Нет тревожного расстройства |
Тревога слабо выражена |
Тревога сильно выражена |
|
план |
проект |
злость |
|
заниматься |
решать |
заканчиваться |
|
интересно |
выполнять |
надеяться |
|
планирование |
решение |
невозможность |
|
целое |
помогать |
обед |
|
бывать |
прийти |
смена |
|
выполнять |
сонливость |
не любить |
|
комфортно |
спокойный |
подавленность |
|
приходить |
бывать |
помещение |
|
смена |
воздух |
деньги |
Таблица 7. Ключевые слова для бинарной классификации, извлеченные при помощи TF-IDF
Нет выраженного тревожного расстройства |
Есть выраженные признаки тревожности |
|
план |
увольняться |
|
некоторый |
идти |
|
ах |
злость |
|
тот |
требование |
|
бумажный |
весь |
|
быстрый |
деньги |
|
внешний |
обязанность |
|
концентрация |
болеть |
|
планирование |
вина |
|
целое |
дискомфорт |
Из списков слов, полученных при помощи TF-IDF, оказались автоматически исключены упомянутые выше слова “работа”, “коллега” и “задача”, поскольку алгоритм отсекает слишком частотные слова. Как следствие, словарь получился более эмоциональным, хотя различия между первой и второй группой прослеживаются слабо. Если же мы рассматриваем TF-IDF для данных, то слова, описывающие вторую группу оказываются довольно релевантными исследуемой проблемой, однако первая группа остается совсем непонятной.
Таким образом, мы можем сделать промежуточный вывод, что разбиение ответов респондентов на три, а не две группы по степени тревожности, позволяет более эффективно выделять слова, описывающие разные стадии психического состояния.
Проверим, насколько улучшатся результаты, если убрать из текстов слова, одинаково часто встречающиеся в текстовой коллекции и во всех группах: «работа», «задача», «работать», «время», «коллега».
Таблица 8. Ключевые слова для тернарной классификации, извлеченные при помощи TextRank после дополнительной предобработки текстов
Нет тревожного расстройства |
Тревога слабо выражена |
Тревога сильно выражена |
|
рабочий |
отсутствие |
постоянный |
|
сегодня |
думать |
скоро |
|
хороший день |
человек |
выходной страх напряжение |
|
большой |
общение |
человек хотеть |
|
заниматься |
нужно |
усталость злость |
|
трудность |
рабочий день |
все |
|
часто |
сделать |
приходиться |
|
интересно |
усталость |
домой день |
|
постоянный |
ощущение |
ожидание |
|
самочувствие думать план |
необходимость |
руководство |
Таблица 9. Ключевые слова для бинарной классификации, извлеченные при помощи TextRank после дополнительной предобработки текстов
Нет выраженного тревожного расстройства |
Есть выраженные признаки тревожности |
|
человек |
отсутствие |
|
хороший день |
постоянный |
|
рабочий |
скоро |
|
сегодня |
мои |
|
самочувствие думать план |
успевать |
|
трудность |
домой день |
|
заниматься |
необходимость |
|
сделать |
выходной страх напряжение |
|
делать |
усталость злость общение человек хотеть |
|
большой |
сделать |
Таблица 10. Ключевые слова для тернарной классификации, извлеченные при помощи TF-IDF после дополнительной предобработки текстов
Нет тревожного расстройства |
Тревога слабо выражена |
Тревога сильно выражена |
|
план |
проект |
скоро |
|
заниматься |
решать |
напряжение |
|
но |
выполнять |
страх |
|
интересно |
решение |
хотеть |
|
планирование |
тот |
день |
|
целое |
помогать |
постоянный |
|
бывать |
кто |
усталость |
|
выполнять |
прийти |
злость |
|
комфортно |
сонливость |
все |
|
приходить |
спокойный |
выходной |
Таблица 11. Ключевые слова для бинарной классификации, извлеченные при помощи TF-IDF после дополнительной предобработки текстов
Нет выраженного тревожного расстройства |
Есть выраженные признаки тревожности |
|
план |
весь |
|
тот |
увольняться |
|
некоторый |
идти |
|
ах |
злость |
|
но |
требование |
|
бумажный |
деньги |
|
быстрый |
все |
|
внешний |
болеть |
|
концентрация |
вина |
|
планирование |
дискомфорт |
В результате удаления некоторых наиболее частотных слов сегрегация тем в ключевых словах сохранилась, но, на наш взгляд, она не стала более явно выраженной, кроме того, в случае с TF-IDF стала выше доля общих слов, не несущих важной информации. В целом, за счет доработки списка стоп-слов эмоции в списках ключевых слов стали более выражены, особенно в бинарной классификации. Но и без дополнительной очистки результаты выделения ключевых-слов можно считать удовлетворительными и вполне описывающими разницу между состояниями наличия и отсутствия тревоги.
3.4 Тематическое моделирование
Тематическое моделирование -- относительно молодая область компьютерной лингвистики и обработки данных (она появилась в конце 90-х годов XX века), посвященная определению тематики текстов и текстовых коллекций. Например, тематическое моделирование позволяет отделять тексты о политике от текстов о медицине, тексты о литературе -- от текстов о кулинарии, и так далее. В рамках нашего исследования мы пытаемся построить тематическую модель, которая описывала бы отличия «тревожных» текстов от «нетревожных».
Тематическая модель не только “делит” тексты на заданное число тем, но и предлагает набор слов, описывающих каждую тему. Наиболее популярные сегодня алгоритмы основаны на вероятностном тематическом моделировании. В таких моделях документ рассматривается как “мешок слов”(bag-of-words), то есть последовательность слов не играет роли. Как указывал К. В. Воронцов, «вероятностная тематическая модель (ВТМ) описывает каждую тему дискретным распределением на множестве терминов, каждый документ -- дискретным распределением на множестве тем. Предполагается, что коллекция документов -- это последовательность терминов, выбранных случайно и независимо из смеси таких распределений, и ставится задача восстановления компонент смеси по выборке.» (Воронцов, 2013: 4). При таком подходе тема является скрытой переменной (латентной), а документы и слова в них -- наблюдаемыми.
Большинство современных вероятностных тематических моделей разрабатываются на основе латентного размещения Дирихле (LDE) -- генеративной графической вероятностной модели, предложенной Дэвидом Блеем и соавторами в 2003 году (Blei, Ng, Jordan 2003). Данная модель хорошо подходит для тематического моделирования, поскольку она позволяет обнаруживать неявные взаимосвязи между словами с учетом полисемии. Однако одним из недостатков LDA (помимо того, что в них нет лингвистических обоснований и крайне сложно совместить в одной модели много требований, когда речь идет об анализе большой коллекции (Воронцов, 2013: 5)) является ее тенденция к выделению слишком общих тем в тех случаях, когда наряду с основной концепцией в коллекции документов есть ряд аспектов. LDA может не выделять эти аспекты в отдельные темы, а смешивать их в одну. В таких случаях применяют иерархические модели, выделяющие как общие темы, таких и входящие в них более узкие (Blei, et al. 2003). Кроме того, существует еще один вариант LDA -- реализация Маллета, которая, как считается, работает быстрее и лучше выделяет темы. Основные публикации, посвященные тематическому моделированию, посвящены способам улучшения качестве сегрегации тем как в смысле оптимизации математическим параметров моделей, так и препроцессинга подаваемых на вход текстов.
В нашем исследовании для тематического моделирования мы использовали несколько моделей Дирихле, в частности, латентную, модель скрытого семантического индексирования, иерархическую и реализацию Маллета, предлагаемые библиотекой gensim. Для LDA мы, как и с ключевыми словами, ограничились выделением трех групп слов, а для иерархической модели запросили большее число тем, так как она заточена под нахождение более частных и редких тем. Наиболее удачные модели мы постарались оптимизировать и улучшить их качество.
Стоит обратить внимание на то, что тематическое моделирование в его классическом понимании используется, как правило, для больших коллекций текстов, включающих в себя тысячи и десятки тысяч вхождений. По сравнению с этим наша коллекция выглядит достаточно скромной, тем не менее, это типичный случай для большинство исследований в этой области: данных либо мало, либо есть серьезные сомнения в их качестве и достоверности.
Сначала рассмотрим, какие темы мы получаем, используя тексты, очищенные по стандартному списком стоп-слов, а затем изучим способы улучшения качества тематического моделирования.
Таблица 12. Результаты тематического моделирования при помощи LSI (скрытое семантическое индексирование) в реализации gensim
№ темы |
Ключевые слова, описывающие модель |
|
1 |
задача, работа, время, день, коллега, работать, рабочий, скоро, думать, общение |
|
2 |
задача, выходной, сложно, человек, общение, скоро, несколько, день, дело, злость |
|
3 |
долго, очень, ехать, надоедать, задача, высокий, тревога, сложно, сконцентрироваться, человек |
Таблица 13. Результаты тематического моделирования при помощи LDA в реализации gensim
№ Темы |
Ключевые слова, описывающие модель |
|
1 |
задача, хотеть, время, нужно, сделать, коллега, один, трудность, делать, хороший |
|
2 |
задача, коллега, время, работать, хороший, очень, рабочий, общение, постоянный, день |
|
3 |
усталость, задача, время, скоро, успевать, отсутствие, думать, проблема, дело, человек |
Таблица 14. Результаты тематического моделирования при помощи модели LDA Mallet в реализации gensim
№ Темы |
Ключевые слова, описывающие модель |
|
1 |
день, работать, рабочий, хотеть, постоянный, успевать, нужно, напряжение, делать, общение |
|
2 |
работа, задача, время, усталость, думать, сделать, который, спать, хороший, дело |
|
3 |
коллега, сегодня, отсутствие, человек, скоро, мой, мочь, часто, страх, необходимость |
Несмотря на то, что модель Маллета считается более серьезной и совершенной версией LDA, в нашем случае она показывает довольно низкие результаты: темы мало отличаются друг от друга, слова, передающие недовольство, тревогу, беспокойство и усталость встречаются во всех трех группах. LSI и LDA дают более понятные результаты: видно, что тема 1 в LSI и тема 2 в LDA отображают отсутствие тревоги, а другие две -- разные степени тревоги, причем в LSI сегрегация более очевидная.
Далее мы попробуем улучшить результаты этих моделей при помощи оптимизации параметров и исключения «общих» слов.
Таблица 15. Результаты тематического моделирования при помощи модели HDP (иерархическое представление) в реализации gensim
№ Темы |
Ключевые слова, описывающие модель |
|
1 |
домашний, увольнять, вечер, ощущаться, больной, сидячий, скучно, график, подряд, необходимый |
|
2 |
многое, страшный, город, отвлечи, коллективный, субординация, сталкиваться, азарат, место, приходить |
|
3 |
держать, непрерывно, три, регламентация, установка, ребенок, стратегия, освещать, настроение, виноватый |
|
4 |
веселый, хамство, ехать, унылый, тэмп, самочувствие, пушить, кипишьпаника, правило, мозг |
|
5 |
дискомуникация, надоедать, действие, близко, приходить, модель, иной, мелочь, сваливать, тревожноеподавленноеусталоенеомфортный |
Иерархическое распределение выделяет очень узкие темы, по всей видимости, просто извлекая содержание некоторых отдельных сообщений. По всей видимости, такой подход мог бы хорошо работать для поиска скрытых и частных тематик в объемных коллекциях, но для корпуса небольшого размера этот алгоритм оказывается бесполезным.
3.5 Оптимизация моделей тематического моделирования
В первой итерации мы улучшили не саму модель, но данные, которые даем ей на вход: убрали слова 'работа', 'задача', 'работать', 'время', 'коллега' и проверили, как с такими данными будут работать наиболее успешные ранее тематические модели, LDA и LSI.
Таблица 16. Результаты тематического моделирования при помощи LSI (скрытое семантическое индексирование) в реализации gensim после дополнительной предобработки текстов
№ Темы |
Ключевые слова, описывающие модель |
|
1 |
день, человек, рабочий, скоро, общение, очень, хотеть, усталость, сегодня, думать |
|
2 |
долго, сложно, очень, выходной, ехать, скоро, рабочий, сконцентрироваться, надоедать, тревога |
|
3 |
общение, заканчиваться, человек, место, нормальный, тревожность, некоторый, страх, рабочий, увольняться |
Таблица 17. Результаты тематического моделирования при помощи LDA в реализации gensim после дополнительной предобработки текстов
№ Темы |
Ключевые слова, описывающие модель |
|
1 |
день, отсутствие, рабочий, думать, хотеть, сегодня, сделать, человек, усталость, постоянный |
|
2 |
день, думать, усталость, хороший, сделать, человек, успевать, сложно, хотеть, дело |
|
3 |
день, сегодня, усталость, скоро, спать, мысль, рабочий, хотеть, сделать, человек |
В отличие от ключевых слов, на тематических моделях изменение подаваемых на вход текстов сказалось ощутимо плохо: теперь во всех выделенных темах есть отсылки к тревожности, усталости и стрессу, повторяются такие слова как «день», «думать», «сегодня». По всей видимости, удаленные слова все же играли важную роль для выделения “нейтральных” тем и влияли на вероятность появления других ключевых слов.
Другим способом оптимизации модели является настройка ее гиперпараметров. В случае с LSI это не дало значительного улучшения результатов: наборы слов остались прежними, изменились только их вероятности. Для LDA изменение такого параметра как `passes' и `iterations' в большую сторону делало темы более похожими друг на друга, а их понижение не меняло результатов. Эксперименты с другими параметрами также не дали значительных результатов -- можно предположить, что основной проблемой здесь все же является ограниченность корпуса. Тем не менее, даже с такими ограничениями удалось получить довольно внятное описание трех типов текстов. Это подтверждает идею, что в подобном корпусе можно найти тексты, содержание которых сигнализирует о повышенном уровне тревожности и стресса у его автора.
Ниже приведена таблица, сравнивающая ключевые слова из трех групп и соответствующие им темы из тематических моделей (мы взяли результаты, показавшиеся нам наиболее удачными).
Таблица 18. Сводная таблица результатов извлечения ключевых слов и тематического моделирования для трех групп, описывающих разные стадии тревожности. Курсивом в выделены слова, встречающиеся в двух и более списках (в рамках каждой из групп).
Метод, группа |
Нет признаков тревожного расстройства |
Тревога выражена слабо |
Тревога выражена сильно |
|
TF-IDF |
план заниматься интересно планирование целое бывать выполнять комфортно приходить смена |
проект решать выполнять решение помогать прийти сонливость спокойный бывать воздух |
злость заканчиваться надеяться невозможность обед смена не любить подавленность помещение деньги |
|
TextRank |
сделать работа задача большой хороший день сегодня нужно работать быстро время состояние рабочий заниматься трудность |
выполнение работа очень коллега время отсутствие думать человек работать рабочий день задача напряжение сосредоточенность общение |
надоедать работа работать коллега постоянный выходной страх напряжение скоро человек хотеть успевать приходиться задача |
|
LDA |
задача коллега время работать хороший очень рабочий общение постоянный день |
задача хотеть время нужно сделать коллега один трудность делать хороший |
усталость задача время скоро успевать отсутствие думать проблема дело человек |
|
LSI |
задача работа время день коллега работать рабочий скоро думать общение |
задача выходной сложно человек общение скоро несколько день дело злость |
долго очень ехать надоедать задача высокий тревога сложно сконцентрироваться человек |
3.6 Интерпретация результатов
Анализ текстовых данных психологического исследования о тревожности на рабочем месте, проведенный методами компьютерной лингвистики, дает неоднозначные результаты. С одной стороны, действительно, извлечение ключевых слов показывает, что между текстами из разных «групп тревожности» есть ощутимая разница: люди, чьи показатели, согласно шкале общей тяжести, отражают высокий уровень тревоги, употребляют слова вроде «злость», «тревога», «надоедать», «не любить» и т.д., которые наряду с их ответами на закрытые вопросы свидетельствуют о высоком уровне стресса и тревоги из-за работы. Тематические модели также позволяют выделить несколько групп текстов: как те, в которых о рабочих вопросах рассуждают спокойно или с приязнью, так и те, в которых встречаются признаки тревожности и усталости.
С другой стороны, серьезная проблема заключается в том, что слова, которые выделяются при помощи анализа уже размеченных групп и при описании тематических моделей, сильно разнятся. Сведем в одну таблицу слова, которые встречаются хотя бы в двух из приведенных списков для каждой группы.
Таблица 19. Общие слова из списков ключевых слов и описаний тематических моделей для каждой из групп.
Степень тревожности |
Общие слова для всех моделей |
|
Нет тревожного расстройства |
заниматься, работа, задача, хороший, день, работать, рабочий, время, коллега, общение |
|
Тревога выражена слабо |
выполнять, коллега, время, человек, задача, коллега, |
|
Тревожность выражена сильно |
надоедать, скоро, успевать, задача, человек |
Видно, что многие слова, которые встречаются и в результатах тематического моделирования, и при извлечении ключевых слов, являются общими для всех групп. Эти слова -- «задача», «работать», «человек», «коллега». Остальные общие слова довольно слабо характеризуют каждую из групп. Таким образом, главный вывод, который мы можем сделать в результате эксперимента по автоматическому извлечению признаков тревожности из текстов, сводится к тому, что сегрегация текстов по уровням тревожности действительно возможна, но главные способы для описания темы текста дают разные результаты; вследствие чего темы, извлеченные при помощи LDA или другой модели сложно поставить в соответствие ключевым словам из размеченных текстов.
Решений для этой проблемы может быть несколько. Во-первых, и прежде всего, это увеличение корпуса текстов -- оно позволит выделить слова, которые можно считать более надежными и статистически значимыми и, возможно, в таком случае термины для каждой группы будут более похожими. Другим решением может быть целенаправленная подгонка параметров тематических моделей и методов выделения ключевых слов таким образом, чтобы полученные списки слов были максимально похожими. Но нашей ситуации этот подход грозит переобучением модели: если данных станет больше, ключевые слова могут оказаться другими и итоговый результат снова покажет низкое совпадение списков. Как правило, данные для исследований подобно нашему, накапливаются годами -- можно предположить, что со временем, когда ответивших на анкету исследования респондентов станет больше (исследование было запущено в конце 2018 года), ключевые слова и описания тематических моделей будут более похожими, а подгонка моделей не приведет к их переобучению.
Заключение
В рамках нашего исследования мы изучили возможность исследования материала психологических анкет на русском языке при помощи методов компьютерной лингвистики. Подобные исследования широко распространены в англоязычном пространстве, но для русского языка их значительно меньше. Анализ данных из исследования, посвященного изучению тревожности на рабочем месте, показал, что для русского языка подобные исследования вполне воспроизводимы. Действительно, из текстов-ответов на вопросы анкеты можно извлечь признаки, свидетельствующие о том, что их автор находится в состоянии стресса, тревоги, переживаний из-за рабочих процессов и задач. Мы показали, что тексты людей, которые согласно данным анкеты, страдают или не страдают от тревожности, действительно различаются по словарному составу и ключевым словам. Кроме того, методы тематического моделирования, которые традиционно хороши в задачах выделения тем в корпусах новостей, научных текстов из разных сфер, оценке тональности высказываний и т.д., также неплохо проявляют себя даже в такой тонкой сфере как анализ психологических состояний.
Все это позволяет с уверенностью заявить, что междисциплинарные исследования на пересечении компьютерной лингвистики и психологической и психиатрической практики для русского языка являются перспективными и предоставляют большой спектр возможностей для улучшения качества клинической диагностики, а также ранней диагностики тревожных состояний. Главной проблемой подобных исследований по-прежнему остаются данные: специальные анкеты, как правило, предоставляют надежные результаты, но в небольшом объеме из-за трудностей со сбором материалов; в русскоязычном сообществе психические расстройства и заболевания все еще остаются стигматизированными -- это тоже затрудняет получение релевантных данных для исследований. Хотя, безусловно, стоит отметить, что в социальных сетях и медиа-изданиях публикации о психическом здоровье в последние несколько лет стали появляться значительно чаще, что несомненно работает в пользу повышения осведомленности населения о психических заболеваниях и способствует уменьшению стигмы и распространенности стереотипов и предубеждений о психических расстройствах (например, до сих пор можно часто встретить заявления о том, что депрессии не существует и это слово лишь прикрытие для лени и плохого настроения).
Тем не менее, даже в таких ограниченных условиях применение методов компьютерной лингвистики в области психических и психиатрических исследований может играть важную роль в постановке диагноза и профилактике критических состояний. Развитие вычислительных методов позволяет все точнее выделять важные элементы из текста, что позволяет уже сегодня создавать системы, определяющие настроение и эмоциональное состояние человека. И следующая большая задача в данной области (как для английского, так и для русского и других языков) -- это создание достаточно большого корпуса текстовых данных для разных психических заболеваний, на основании которого можно будет обучить классификатор с перспективой его применения как в клинической практике, так и в анализе данных из социальных сетей и других источников.
Литература
1. Воронцов 2013 -- К. В. Вероятностное тематическое моделирование (электронный документ). http://www.machinelearning.ru/wiki/images/2/22/Voron-2013-ptm.pdf. 2013.
2. Arseniev-Koehler, Mozgai, Scherer 2018 -- A. Arseniev-Koehler, S. Mozgai, S. Scherer. What type of happiness are you looking for? - A closer look at detecting mental health from language. // Proceedings of the Fifth Workshop on Computational Linguistics and Clinical Psychology: From Keyboard to Clinic. New Orleans, Louisiana, June 5, 2018. P. 1-12.
3. Asgari, Nasiriany, Mofrad 2016 -- E. Asgari, S. Nasiriany, M. R.K. Mofrad. Text Analysis and Automatic Triage of Posts in a Mental Health Forum // Proceedings of the 3rd Workshop on Computational Linguistics and Clinical Psychology: From Linguistic Signal to Clinical Reality. San Diego, California, June 16, 2016. P. 153-157.
4. Blei, Ng, Jordan 2003 -- D. Blei, A. Ng, and M. Jordan. Latent Dirichlet allocation // Journal of Machine Learning Research. January 2003. P. 993-1022.
5. Blei, et al. 2003 -- D. Blei, T. Griffiths, M. Jordan, and J. Tenenbaum. Hierarchical topic models and the nested Chinese restaurant process // Neural Information Processing Systems №16, 2003. P. 17-24.
6. Chung, Pennebaker 2007 -- C. Chung, J. Pennebaker. The psychological functions of function words // Social communication, DE GRUYTER POLAND: 2007. P. 343-359.
7. Conwaya, Daniel O'Connor 2016 -- M. Conwaya and D. O'Connor. Social Media, Big Data, and Mental Health: Current Advances and Ethical Implications // Current Opinion in Psychology. Elsevier, Jun 2016. P. 77-82.
8. Coppersmith, Dredze, Harman 2014 -- G. Coppersmith, M. Dredze, C. Harman. Quantifying Mental Health Signals in Twitter // Proceedings of the Workshop on Computational Linguistics and Clinical Psychology: From Linguistic Signal to Clinical Reality. Baltimore: Association for Computational Linguistics, Jun, 2014. P 51-60.
9. Coppersmith, et al. 2015 -- G. Coppersmith, M. Dredze, C. Harman, K. Hollingshead. From ADHD to SAD: Analyzing the Language of Mental Health on Twitter through Self-Reported Diagnoses // Proceedings of the 2nd Workshop on Computational Linguistics and Clinical Psychology: From Linguistic Signal to Clinical Reality. Denver, Colorado, June 5, 2015. P. 1-10.
10. Corcoran, et al. 2018 -- C. M. Corcoran, F. Carrillo, Fernбndez-Slezak D, Bedi G, Klim C, Javitt DC, Bearden CE, Cecchi GA. Prediction of psychosis across protocols and risk cohorts using automated language analysis // World Psychiatry. 17 (1) 2018. P. 67-75.
11. De Choudhury, Counts, Horvitz 2013a -- M. De Choudhury, S. Counts, and E. Horvitz. Predicting postpartum changes in emotion and behavior via social media // In Proceedings of the ACM Annual Conference on Human Factors in Computing Systems. Paris, April 2013. P. 3267-3276.
12. De Choudhury, Counts, Horvitz 2013b -- M. De Choudhury, S. Counts, and E. Horvitz. Social media as a measurement tool of depression in populations // In Proceedings of the Annual ACM Web Science Conference. Paris, 2013. P. 47-56.
13. De Choudhury, et al. 2013c -- M. De Choudhury, M. Gamon, S. Counts, and E. Horvitz. Predicting depression via social media // In Proceedings of the International AAAI Conference on Weblogs and Social Media (ICWSM). Paris, 2013. P. 128-137.
14. Gkotsis, et al. 2016 -- G. Gkotsis, A. Oellrich, T. J. P. Hubbard, R. J. B. Dobson, M. Liakata, S. Velupillai, R. Dutta. The language of mental health problems in social media // Proceedings of the 3rd Workshop on Computational Linguistics and Clinical Psychology: From Linguistic Signal to Clinical Reality. San Diego, California, June 16, 2016. P. 63-73.
15. He, Veldkamp, de Vries 2012 -- Q. He, B. P. Veldkamp, T. de Vries. Screening for posttraumatic stress disorder using verbal features in self narratives: A text mining approach. Psychiatry Research, 198, 3. 2012. P. 441-447.
16. Jamil, Inkpen, Buddhitha 2017 -- Zunaira Jamil, Diana Inkpen, Prasadith Buddhitha. Monitoring Tweets for Depression to Detect At-risk Users. // Proceedings of the Fourth Workshop on Computational Linguistics and Clinical Psychology.Vancouver, Canada, August 3, 2017. P. 32-40.
17. Ireland, Iserman 2018 -- M. E. Ireland, M. Iserman. Within and Between-Person Differences in Language Used Across Anxiety Support and Neutral Reddit Communities // Proceedings of the Fifth Workshop on Computational Linguistics and Clinical Psychology: From Keyboard to Clinic. New Orleans, Louisiana, June 5, 2018. P. 182-193.
18. Litvinova, Litvinova, Seredin 2018 -- Tatiana A. Litvinova, Olga A. Litvinova, Pavel V. Seredin. Dynamics of an Idiostyle of a Russian Suicidal Blogger. // Proceedings of the Fifth Workshop on Computational Linguistics and Clinical Psychology: From Keyboard to Clinic. New Orleans, Louisiana, June 5, 2018. P. 158-167.
19. Loveys, et al. 2018 -- K. Loveys, J. Torrez Qntfy, A. Fine, G. Moriarty, G. Coppersmith. Cross-cultural differences in language markers of depression online // Proceedings of the Fifth Workshop on Computational Linguistics and Clinical Psychology: From Keyboard to Clinic. New Orleans, Louisiana, June 5, 2018. P. 78-87.
20. Mihalcea, Tarau 2004 -- Rada Mihalcea and Paul Tarau. TextRank: Bringing Order into Texts. EMNLP. 2004.
21. Opitz 2016 -- Juri Opitz. Using Linear Classifiers for the Automatic Triage of Posts in the 2016 CLPsych Shared Task. // Proceedings of the 3rd Workshop on Computational Linguistics and Clinical Psychology: From Linguistic Signal to Clinical Reality. San Diego, California, June 16, 2016. P. 162-165.
22. Orabi, et al. 2018 -- A. H. Orabi, P. Buddhitha, M. H. Orabi, D. Inkpen. Deep Learning for Depression Detection of Twitter Users. // Proceedings of the Fifth Workshop on Computational Linguistics and Clinical Psychology: From Keyboard to Clinic. New Orleans, Louisiana, June 5, 2018. P. 88-97.
23. Paul, Dredza 2011 -- M.J. Paul, M. Dredze. You are what you tweet: Analyzing Twitter for public health // Artificial Intelligence, 38, 2011. P. 265-272.
24. Pedersen 2015 -- T. Pedersen.Screening Twitter Users for Depression and PTSD with Lexical Decision Lists. Ted Pedersen // Proceedings of the 2nd Workshop on Computational Linguistics and Clinical Psychology: From Linguistic Signal to Clinical Reality. Denver, Colorado, June 5, 2015. P. 46-53.
25. Poulin, et al. 2014 -- C.Poulin, B. Shiner, P. Thompson, L. Vepstas, Y Young-Xu, B. Goertzel, B. Watts, L. Flashman, T. McAllister. Predicting the risk of suicide by analyzing the text of clinical notes // PLoS One 9(1), 2014.
26. Preotiuc-Pietro, Eichstaedt 2015 -- D. Preotiuc-Pietro, J. Eichstaedt. The Role of Personality, Age and Gender in Tweeting about Mental Illnesses. // Proceedings of the 2nd Workshop on Computational Linguistics and Clinical Psychology: From Linguistic Signal to Clinical Reality. Denver, Colorado, June 5, 2015. P. 21-30.
27. Ramirez-Esparza, et al. 2008 -- N. Ramirez-Esparza, C. K. Chung, E. Kacewicz, J. W. Pennebaker. The psychology of word use in depression forums in English and in Spanish: Testing two text analytic approaches // In Proceedings of the International AAAI Conference on Weblogs and Social Media (ICWSM). Washington, March 30 - April 2, 2008 P. 102-108.
28. Remes, et al. -- O. Remes, C. Brayne, R. van der Linde, L. Lafortune. A systematic review of reviews on the prevalence of anxiety disorders in adult populations // Brain and Behavior. Vol. 6, Iss.7. 2016.
29. Resnik, Garron, Resnik 2013 -- P. Resnik, A. Garron, R. Resnik. Using topic modeling to improve prediction of neuroticism and depression // In Proceedings of the 2013 Conference on Empirical Methods in Natural, 2013. P. 1348-1353.
30. Shen, Rudzicz 2017 -- J. H. Shen, F. Rudzicz. Detecting anxiety on Reddit // Proceedings of the Fourth Workshop on Computational Linguistics and Clinical Psychology. Vancouver, Canada, August 3, 2017. P. 58-65.
31. Shickel, et al. 2016 -- Benjamin Shickel, Martin Heesacker, Sherry Benton, Ashkan Ebadi, Paul Nickerson, Parisa Rashidi. Self-Reflective Sentiment Analysis // Proceedings of the 3rd Workshop on Computational Linguistics and Clinical Psychology: From Linguistic Signal to Clinical Reality. San Diego, California, June 16, 2016. P. 23-32.
32. Taboada, et al. -- M. Taboada, J. Brooke, M. Tofiloski, K. Voll, M. Stede. Lexicon-based methods for sentiment analysis // Computational Linguistics, 37(2). 2011. P. 267-307.
33. Tausczik, Pennebaker 2010 -- Y. R. Tausczik, J. W. Pennebaker. The psychological meaning of words: LIWC and computerized text analysis methods // Journal of Language and Social Psychology, 29(1), 2010. P. 24-54.
Размещено на Allbest.ru
...Подобные документы
Отличительные черты невротических и личностных расстройств - психогенных заболеваний, возникающих из-за различных факторов, травмирующих психику. Обобщение факторов, влияющих на возникновение пограничных психических расстройств. Методы их профилактики.
дипломная работа [265,7 K], добавлен 21.01.2011Понятие "тревоги" и "тревожности" и их особенности в детском возрасте. Виды тревожных расстройств в детском возрасте. Факторы, влияющие на возникновение и поддержание тревожных состояний у детей и подростков. Семейные факторы тревожных состояний у детей.
курсовая работа [59,3 K], добавлен 16.12.2010Общая теория тревожности. Понятие и основные виды тревожных расстройств. Проявление тревожности у детей. Появление и развитие тревожности в возрастной динамике: в младшем школьном возрасте, у подростков. Исследование тревожности учащихся 3–7 классов.
дипломная работа [133,6 K], добавлен 28.06.2011Особенности психических расстройств несовершеннолетних осужденных. Понятие психических расстройств. Особенности подростковых психических расстройств. Понятие пенитенциарного стресса. Роль пенитенциарного стресса в формировании психических расстройств.
курсовая работа [88,8 K], добавлен 16.11.2008Понятие депрессивных, соматоморфных и тревожных расстройств. Анализ данных расстройств в силу того, что эти нарушения отражают основные эпидемиологические тенденции психических нарушений. Современное лицо эмоциональных нарушений и соматические симптомы.
контрольная работа [26,6 K], добавлен 13.02.2010Понятие и психологическое обоснование тревожности, ее основные причины и этапы развития. Оценка влияния данного состояния на профессиональную деятельность врачей. Бинауральная терапия как метод реабилитации тревожных состояний, сущность и эффективность.
курсовая работа [58,6 K], добавлен 12.10.2011Диагностические возможности патохарактерологического диагностического опросника. Взаимосвязь дискордантности черт характера и расстройств у подростков. Типы акцентуаций характера. Развитие психических и пограничных нервно-психических расстройств.
дипломная работа [500,2 K], добавлен 20.12.2010Психологическое исследование психосоматических расстройств у выборки онкобольных и здоровых людей. Фрустрация как реакция на смертельное заболевание. Рассмотрение тревожности и депрессии как наиболее распространенных негативных эмоциональных состояний.
курсовая работа [106,1 K], добавлен 01.04.2012Анализ теории возникновения расстройств личности от средних веков до современности. Типы расстройств личности. Особенности динамики и надежность диагностики расстройств личности. Этиология и патопсихология расстройств личности. Методы их лечения.
курсовая работа [43,9 K], добавлен 26.02.2012Общие воззрения на теорию неврозов. Основные формы расстройств. Методы нейропсихологической диагностики в изучении высших психических функций, поведения и их связи с мозговым субстратом. Применение нейропсихологического подхода к диагностике неврозов.
курсовая работа [49,0 K], добавлен 26.08.2011Истоки и содержание понятия "психосоматика". Эмоции как причина возникновения психосоматических расстройств. Роль эмоционального стресса в возникновении язвенной болезни двенадцати перстной кишки. Путь предотвращения психосоматических расстройств.
реферат [19,4 K], добавлен 05.11.2012Проблема лечения и реабилитации больных с церебральным инсультом. Тревожно-депрессивные расстройства в восстановительном периоде инсульта. Симптомы депрессии, тревожных расстройств и психологическая реабилитация. Проведение психологической коррекции.
дипломная работа [80,7 K], добавлен 08.07.2013Соматогенное и психогенное влияние болезни на психику человека, типы реакции на заболевание. Изучение личностных особенностей, тревожных расстройств и депрессий больных хроническим панкреатитом. Методы измерения уровня тревожности и акцентуированности.
курсовая работа [171,6 K], добавлен 08.08.2010Понятие депрессивного расстройства. Сравнение симптоматики депрессивного и тревожного расстройств. Диагностика и методы лечения различных видов депрессивных расстройств. Сравнительный анализ различных видов классификаций депрессивных расстройств.
курсовая работа [422,5 K], добавлен 11.09.2014Психолингвистические основы при изучении речевых нарушений. Использование психолингвистического подхода в изучении речевых расстройств. Группы речевых расстройств с учетом механизмов речевой деятельности. Методы исследования внутреннеречевой активности.
контрольная работа [27,5 K], добавлен 19.06.2014Вопросы соотношения телесного (соматического) и духовного (психического) здоровья. История возникновения психосоматической медицины. Влияние соматических расстройств на психическое состояние человека. Факторы патогенеза психосоматических расстройств.
реферат [25,9 K], добавлен 07.10.2014Анализ посттравматических стрессовых расстройств. Экспериментальное исследование посттравматических стрессовых расстройств у военнослужащих, участников боевых действий. Разработка программы психологической поддержки участников локальных конфликтов.
дипломная работа [205,5 K], добавлен 17.09.2011Диагностика и индивидуальное лечение расстройств личности методами когнитивной психотерапии. Влияние когнитивных схем на формирование расстройств личности. Убеждения и установки, характеризующие каждое из этих нарушений. Случаи из клинической практики.
книга [701,5 K], добавлен 30.05.2009Человек с отклонениями в психической деятельности и его микросоциальный мир. Влияние семейного фактора при индуцировании бредовых расстройств (в частности социальной фобии). Феномен взаимоисключающего принуждения. Анализ социальной фобии в Японии.
реферат [34,8 K], добавлен 22.02.2011Определение Ганнушкиным понятия "пограничных психических расстройств". Исследование пожилых людей и выделение всего спектра субклинических форм психической патологии. Предупреждение социально-психологической дезадаптации пациентов старческого возраста.
реферат [27,2 K], добавлен 01.04.2012