Автоматическое выделение признаков тревожных расстройств в текстах

Проведено исследование тревожности и тревожных расстройств на рабочем месте. Рассмотрено, какие понятия используют люди, описывая свои ощущения относительно работы. Показана роль компьютерной лингвистики в изучении психических расстройств и заболеваний.

Рубрика Психология
Вид дипломная работа
Язык русский
Дата добавления 07.12.2019
Размер файла 82,1 K

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Для анализа и построения тематической модели нам было необходимо присвоить текстам метки -- определить, относятся они к “тревожным” или нет, а также предобработать тексты.

3.1 Присвоение меток

Принимая во внимание тему нашего исследования и разнообразие имеющихся индексов и текстов, за основу для присвоения меток мы взяли индекс тяжести (GSI) по шкале JAS, описывающую тревожность из-за работы. Мы определили два способа присвоения меток:

· Выделение трех групп: нет тревоги, есть слабо выраженная, есть сильная (соответственно, значения шкалы от 0 до 1, от 1 до 2, больше 2)

· Выделение двух групп: нет явных признаков тревоги, тревоги явно выражена (от 0 до 1,5, от 1,5 и выше соответственно)

Таким образом, при разделении мы получили следующее соотношение людей в каждой группе:

Таблица 2. Распределение респондентов по группам тревожности

Тернарная классификация

Бинарная классификация

Нет тревоги

52

Нет выраженной тревоги

85

Тревога выражена слабо

59

Есть выраженная тревога

59

Тревога выражена сильно

33

3.2 Предобработка текстов

Предобработка и все последующая работа с текстами велась на языке Python. В рамках препроцессинга мы объединили ответы каждого пользователя в один текст (т.е. один пользователь = один текст), очистили от знаков препинания при помощи регулярных выражений, токенизировали и лемматизировали слова (привели к начальной форме) при помощи библиотеки myStem.

Отдельной задачей в нашем случае стало пополнение списка стоп-слов. Мы убрали стоп-слова, предлагаемые для русского языка библиотекой nltk (среди них -- частовстречаемые союзы, предлоги, местоимения, и т.д.) Но как показал анализ частотности, некоторые слова, такие как «работа», «задача», «коллега», с высокой вероятностью оказываются ключевыми во всех группах и тематических моделях (что, в целом, ожидаемо учитывая характер вопросов анкеты). Мы предположили, что если включить их в список стоп-слов, тревожное или нетревожное состояние будет лучше отслеживаться в результатах анализа. Таким образом, в результатах исследования приведены два варианта: с базовым и обновленным списком стоп-слов.

Кроме того, еще одной особенностью нашей предобработки стало то, что в ключевые слова для тревожного состояния попало слово «любить», хотя проверка первоисточников показывает, что на самом деле имелось в виду «не любить». Поэтому нам пришлось скорректировать предобработку таким образом, чтобы «не» и «любить», идущие рядом, не разделялись. Похожая проблема есть и со словом «хотеть», но в данном случае нет явной тенденции к употреблению его только с частицей «не»: встречаются как варианты «хотеть домой» так и «не хотеть работать». Поэтому для данного слова никакие исключения в предобработке не прописывались.

3.3 Извлечение ключевых слов

Ключевые слова являются полезным показателем для описания темы, тематической коллекции или текста. Изучение ключевых слов в каждой из групп текстов поможет нам лучше понять, насколько эти группы похожи друг на друга и какие слова являются для них наиболее репрезентативными. Более того, получившиеся списки ключевых слов впоследствии можно сравнить со словами, которыми описываются получившиеся в результате тематического моделирования топики.

Предобработка и очистка текста от стоп-слов играют важную роль для выделения ключевых понятий в текстах: если они сделаны недостаточно тщательно, в списках окажется много “мусорных” либо слишком общих терминов, не имеющих отношения к теме либо плохо ее описывающих. В нашем исследовании мы опирались на две основные техники выделения ключевых слов: TF-IDF и TextRank.

TF-IDF -- одна из наиболее популярных метрик в компьютерной лингвистике: она отбирает ключевые слова относительно их встречаемости в конкретном тексте и текстовой коллекции вообще (IDF -- `inverse document frequency', TF -- `term frequency') -- это позволяет отринуть слишком общие и частовстречаемые слова и убрать слишком редкие и незначительные понятия. Минимальный и максимальный порог встречаемости можно задать вручную в интерфейсе алгоритма. Мы использовали реализацию TF-IDF, предоставляемую библиотекой для машинного обучения scikit-learn.

Алгоритм TextRank происходит из PageRank -- способа индексирования веб-страниц в поисковых запросах сообразно их релевантности и “значимости”: чем больше ссылок на страницу, тем она важнее. Иначе это можно представить в виде графа: чем больше ребер идут в вершину из других, и чем выше значимость этих ребер, тем важнее рассматриваемая вершина. Схожим образом можно представить и слова или предложения в тексте (Mihalcea, Tarau 2004: 1). В случае с предложениями рассматривается, в каких из предложений текста сосредоточено наибольшее число слов, значимых для текста в целом. Если составлять граф со словами, как в нашем случае, то ребра графа определяются последовательностью слов или их совстречаемостью в рамках окна в обозначенный X слов. Мы использовали реализацию алгоритма TextRank, предоставляемую библиотекой для тематического моделирования gensim.

После «традиционного» удаления стоп-слов, без расширения списка, мы получили следующие результаты.

Таблица 3. Наиболее частотные слова для всей коллекции текстов

Слово

Кол-во употреблений

работа

101

задача

52

день

43

работать

34

время

34

коллега

33

сегодня

25

рабочий

24

усталость

23

думать

23

сделать

22

хотеть

22

отсутствие

22

человек

21

спать

20

Ключевые слова и словосочетания, извлеченные при помощи TextRank, для двух типов классификации, выглядят следующим образом.

Таблица 4. Ключевые слова для тернарной классификации, извлеченные при помощи TextRank

Нет тревожного расстройства

Тревога слабо выражена

Тревога сильно выражена

сделать работа

выполнение работа очень

надоедать работа

задача

коллега

работать

большой

время

коллега

хороший день

отсутствие

постоянный

сегодня

думать

выходной страх напряжение

нужно работать быстро

человек

скоро

время состояние

работать

человек хотеть

рабочий

рабочий день

успевать

заниматься

задача напряжение сосредоточенность

приходиться

трудность

общение

задача

Таблица 5. Ключевые слова для бинарной классификации, извлеченные при помощи TextRank

Нет выраженного тревожного расстройства

Есть выраженные признаки тревожности

сделать работа

коллега

задача

работать

хороший день

отсутствие

человек

выполнение работа очень

время состояние

постоянный

сегодня

успевать

рабочий

скоро

мало коллега

домой день

нужно работать быстро

мои

самочувствие думать план

выходной страх напряжение

Стоит отметить, что в случае с тернарной классификацией TextRank находит внятные различия между группами: даже без дополнительной очистки разница между тремя категориями видна достаточно хорошо. При этом при бинарной разметке ключевые для тревожного состояния слова оказываются вытесненными более общими, из-за чего получившийся набор слов трудно охарактеризовать как однозначно “тревожный”.

Таблица 6. Ключевые слова для тернарной классификации, извлеченные при помощи TF-IDF

Нет тревожного расстройства

Тревога слабо выражена

Тревога сильно выражена

план

проект

злость

заниматься

решать

заканчиваться

интересно

выполнять

надеяться

планирование

решение

невозможность

целое

помогать

обед

бывать

прийти

смена

выполнять

сонливость

не любить

комфортно

спокойный

подавленность

приходить

бывать

помещение

смена

воздух

деньги

Таблица 7. Ключевые слова для бинарной классификации, извлеченные при помощи TF-IDF

Нет выраженного тревожного расстройства

Есть выраженные признаки тревожности

план

увольняться

некоторый

идти

ах

злость

тот

требование

бумажный

весь

быстрый

деньги

внешний

обязанность

концентрация

болеть

планирование

вина

целое

дискомфорт

Из списков слов, полученных при помощи TF-IDF, оказались автоматически исключены упомянутые выше слова “работа”, “коллега” и “задача”, поскольку алгоритм отсекает слишком частотные слова. Как следствие, словарь получился более эмоциональным, хотя различия между первой и второй группой прослеживаются слабо. Если же мы рассматриваем TF-IDF для данных, то слова, описывающие вторую группу оказываются довольно релевантными исследуемой проблемой, однако первая группа остается совсем непонятной.

Таким образом, мы можем сделать промежуточный вывод, что разбиение ответов респондентов на три, а не две группы по степени тревожности, позволяет более эффективно выделять слова, описывающие разные стадии психического состояния.

Проверим, насколько улучшатся результаты, если убрать из текстов слова, одинаково часто встречающиеся в текстовой коллекции и во всех группах: «работа», «задача», «работать», «время», «коллега».

Таблица 8. Ключевые слова для тернарной классификации, извлеченные при помощи TextRank после дополнительной предобработки текстов

Нет тревожного расстройства

Тревога слабо выражена

Тревога сильно выражена

рабочий

отсутствие

постоянный

сегодня

думать

скоро

хороший день

человек

выходной страх напряжение

большой

общение

человек хотеть

заниматься

нужно

усталость злость

трудность

рабочий день

все

часто

сделать

приходиться

интересно

усталость

домой день

постоянный

ощущение

ожидание

самочувствие думать план

необходимость

руководство

Таблица 9. Ключевые слова для бинарной классификации, извлеченные при помощи TextRank после дополнительной предобработки текстов

Нет выраженного тревожного расстройства

Есть выраженные признаки тревожности

человек

отсутствие

хороший день

постоянный

рабочий

скоро

сегодня

мои

самочувствие думать план

успевать

трудность

домой день

заниматься

необходимость

сделать

выходной страх напряжение

делать

усталость злость общение человек хотеть

большой

сделать

Таблица 10. Ключевые слова для тернарной классификации, извлеченные при помощи TF-IDF после дополнительной предобработки текстов

Нет тревожного расстройства

Тревога слабо выражена

Тревога сильно выражена

план

проект

скоро

заниматься

решать

напряжение

но

выполнять

страх

интересно

решение

хотеть

планирование

тот

день

целое

помогать

постоянный

бывать

кто

усталость

выполнять

прийти

злость

комфортно

сонливость

все

приходить

спокойный

выходной

Таблица 11. Ключевые слова для бинарной классификации, извлеченные при помощи TF-IDF после дополнительной предобработки текстов

Нет выраженного тревожного расстройства

Есть выраженные признаки тревожности

план

весь

тот

увольняться

некоторый

идти

ах

злость

но

требование

бумажный

деньги

быстрый

все

внешний

болеть

концентрация

вина

планирование

дискомфорт

В результате удаления некоторых наиболее частотных слов сегрегация тем в ключевых словах сохранилась, но, на наш взгляд, она не стала более явно выраженной, кроме того, в случае с TF-IDF стала выше доля общих слов, не несущих важной информации. В целом, за счет доработки списка стоп-слов эмоции в списках ключевых слов стали более выражены, особенно в бинарной классификации. Но и без дополнительной очистки результаты выделения ключевых-слов можно считать удовлетворительными и вполне описывающими разницу между состояниями наличия и отсутствия тревоги.

3.4 Тематическое моделирование

Тематическое моделирование -- относительно молодая область компьютерной лингвистики и обработки данных (она появилась в конце 90-х годов XX века), посвященная определению тематики текстов и текстовых коллекций. Например, тематическое моделирование позволяет отделять тексты о политике от текстов о медицине, тексты о литературе -- от текстов о кулинарии, и так далее. В рамках нашего исследования мы пытаемся построить тематическую модель, которая описывала бы отличия «тревожных» текстов от «нетревожных».

Тематическая модель не только “делит” тексты на заданное число тем, но и предлагает набор слов, описывающих каждую тему. Наиболее популярные сегодня алгоритмы основаны на вероятностном тематическом моделировании. В таких моделях документ рассматривается как “мешок слов”(bag-of-words), то есть последовательность слов не играет роли. Как указывал К. В. Воронцов, «вероятностная тематическая модель (ВТМ) описывает каждую тему дискретным распределением на множестве терминов, каждый документ -- дискретным распределением на множестве тем. Предполагается, что коллекция документов -- это последовательность терминов, выбранных случайно и независимо из смеси таких распределений, и ставится задача восстановления компонент смеси по выборке.» (Воронцов, 2013: 4). При таком подходе тема является скрытой переменной (латентной), а документы и слова в них -- наблюдаемыми.

Большинство современных вероятностных тематических моделей разрабатываются на основе латентного размещения Дирихле (LDE) -- генеративной графической вероятностной модели, предложенной Дэвидом Блеем и соавторами в 2003 году (Blei, Ng, Jordan 2003). Данная модель хорошо подходит для тематического моделирования, поскольку она позволяет обнаруживать неявные взаимосвязи между словами с учетом полисемии. Однако одним из недостатков LDA (помимо того, что в них нет лингвистических обоснований и крайне сложно совместить в одной модели много требований, когда речь идет об анализе большой коллекции (Воронцов, 2013: 5)) является ее тенденция к выделению слишком общих тем в тех случаях, когда наряду с основной концепцией в коллекции документов есть ряд аспектов. LDA может не выделять эти аспекты в отдельные темы, а смешивать их в одну. В таких случаях применяют иерархические модели, выделяющие как общие темы, таких и входящие в них более узкие (Blei, et al. 2003). Кроме того, существует еще один вариант LDA -- реализация Маллета, которая, как считается, работает быстрее и лучше выделяет темы. Основные публикации, посвященные тематическому моделированию, посвящены способам улучшения качестве сегрегации тем как в смысле оптимизации математическим параметров моделей, так и препроцессинга подаваемых на вход текстов.

В нашем исследовании для тематического моделирования мы использовали несколько моделей Дирихле, в частности, латентную, модель скрытого семантического индексирования, иерархическую и реализацию Маллета, предлагаемые библиотекой gensim. Для LDA мы, как и с ключевыми словами, ограничились выделением трех групп слов, а для иерархической модели запросили большее число тем, так как она заточена под нахождение более частных и редких тем. Наиболее удачные модели мы постарались оптимизировать и улучшить их качество.

Стоит обратить внимание на то, что тематическое моделирование в его классическом понимании используется, как правило, для больших коллекций текстов, включающих в себя тысячи и десятки тысяч вхождений. По сравнению с этим наша коллекция выглядит достаточно скромной, тем не менее, это типичный случай для большинство исследований в этой области: данных либо мало, либо есть серьезные сомнения в их качестве и достоверности.

Сначала рассмотрим, какие темы мы получаем, используя тексты, очищенные по стандартному списком стоп-слов, а затем изучим способы улучшения качества тематического моделирования.

Таблица 12. Результаты тематического моделирования при помощи LSI (скрытое семантическое индексирование) в реализации gensim

№ темы

Ключевые слова, описывающие модель

1

задача, работа, время, день, коллега, работать, рабочий, скоро, думать, общение

2

задача, выходной, сложно, человек, общение, скоро, несколько, день, дело, злость

3

долго, очень, ехать, надоедать, задача, высокий, тревога, сложно, сконцентрироваться, человек

Таблица 13. Результаты тематического моделирования при помощи LDA в реализации gensim

№ Темы

Ключевые слова, описывающие модель

1

задача, хотеть, время, нужно, сделать, коллега, один, трудность, делать, хороший

2

задача, коллега, время, работать, хороший, очень, рабочий, общение, постоянный, день

3

усталость, задача, время, скоро, успевать, отсутствие, думать, проблема, дело, человек

Таблица 14. Результаты тематического моделирования при помощи модели LDA Mallet в реализации gensim

№ Темы

Ключевые слова, описывающие модель

1

день, работать, рабочий, хотеть, постоянный, успевать, нужно, напряжение, делать, общение

2

работа, задача, время, усталость, думать, сделать, который, спать, хороший, дело

3

коллега, сегодня, отсутствие, человек, скоро, мой, мочь, часто, страх, необходимость

Несмотря на то, что модель Маллета считается более серьезной и совершенной версией LDA, в нашем случае она показывает довольно низкие результаты: темы мало отличаются друг от друга, слова, передающие недовольство, тревогу, беспокойство и усталость встречаются во всех трех группах. LSI и LDA дают более понятные результаты: видно, что тема 1 в LSI и тема 2 в LDA отображают отсутствие тревоги, а другие две -- разные степени тревоги, причем в LSI сегрегация более очевидная.

Далее мы попробуем улучшить результаты этих моделей при помощи оптимизации параметров и исключения «общих» слов.

Таблица 15. Результаты тематического моделирования при помощи модели HDP (иерархическое представление) в реализации gensim

№ Темы

Ключевые слова, описывающие модель

1

домашний, увольнять, вечер, ощущаться, больной, сидячий, скучно, график, подряд, необходимый

2

многое, страшный, город, отвлечи, коллективный, субординация, сталкиваться, азарат, место, приходить

3

держать, непрерывно, три, регламентация, установка, ребенок, стратегия, освещать, настроение, виноватый

4

веселый, хамство, ехать, унылый, тэмп, самочувствие, пушить, кипишьпаника, правило, мозг

5

дискомуникация, надоедать, действие, близко, приходить, модель, иной, мелочь, сваливать, тревожноеподавленноеусталоенеомфортный

Иерархическое распределение выделяет очень узкие темы, по всей видимости, просто извлекая содержание некоторых отдельных сообщений. По всей видимости, такой подход мог бы хорошо работать для поиска скрытых и частных тематик в объемных коллекциях, но для корпуса небольшого размера этот алгоритм оказывается бесполезным.

3.5 Оптимизация моделей тематического моделирования

В первой итерации мы улучшили не саму модель, но данные, которые даем ей на вход: убрали слова 'работа', 'задача', 'работать', 'время', 'коллега' и проверили, как с такими данными будут работать наиболее успешные ранее тематические модели, LDA и LSI.

Таблица 16. Результаты тематического моделирования при помощи LSI (скрытое семантическое индексирование) в реализации gensim после дополнительной предобработки текстов

№ Темы

Ключевые слова, описывающие модель

1

день, человек, рабочий, скоро, общение, очень, хотеть, усталость, сегодня, думать

2

долго, сложно, очень, выходной, ехать, скоро, рабочий, сконцентрироваться, надоедать, тревога

3

общение, заканчиваться, человек, место, нормальный, тревожность, некоторый, страх, рабочий, увольняться

Таблица 17. Результаты тематического моделирования при помощи LDA в реализации gensim после дополнительной предобработки текстов

№ Темы

Ключевые слова, описывающие модель

1

день, отсутствие, рабочий, думать, хотеть, сегодня, сделать, человек, усталость, постоянный

2

день, думать, усталость, хороший, сделать, человек, успевать, сложно, хотеть, дело

3

день, сегодня, усталость, скоро, спать, мысль, рабочий, хотеть, сделать, человек

В отличие от ключевых слов, на тематических моделях изменение подаваемых на вход текстов сказалось ощутимо плохо: теперь во всех выделенных темах есть отсылки к тревожности, усталости и стрессу, повторяются такие слова как «день», «думать», «сегодня». По всей видимости, удаленные слова все же играли важную роль для выделения “нейтральных” тем и влияли на вероятность появления других ключевых слов.

Другим способом оптимизации модели является настройка ее гиперпараметров. В случае с LSI это не дало значительного улучшения результатов: наборы слов остались прежними, изменились только их вероятности. Для LDA изменение такого параметра как `passes' и `iterations' в большую сторону делало темы более похожими друг на друга, а их понижение не меняло результатов. Эксперименты с другими параметрами также не дали значительных результатов -- можно предположить, что основной проблемой здесь все же является ограниченность корпуса. Тем не менее, даже с такими ограничениями удалось получить довольно внятное описание трех типов текстов. Это подтверждает идею, что в подобном корпусе можно найти тексты, содержание которых сигнализирует о повышенном уровне тревожности и стресса у его автора.

Ниже приведена таблица, сравнивающая ключевые слова из трех групп и соответствующие им темы из тематических моделей (мы взяли результаты, показавшиеся нам наиболее удачными).

Таблица 18. Сводная таблица результатов извлечения ключевых слов и тематического моделирования для трех групп, описывающих разные стадии тревожности. Курсивом в выделены слова, встречающиеся в двух и более списках (в рамках каждой из групп).

Метод, группа

Нет признаков тревожного расстройства

Тревога выражена слабо

Тревога выражена сильно

TF-IDF

план

заниматься

интересно

планирование

целое

бывать

выполнять

комфортно

приходить

смена

проект

решать

выполнять

решение

помогать

прийти

сонливость

спокойный

бывать

воздух

злость

заканчиваться

надеяться

невозможность

обед

смена

не любить

подавленность

помещение

деньги

TextRank

сделать работа

задача

большой

хороший день

сегодня

нужно работать быстро

время состояние

рабочий

заниматься

трудность

выполнение работа очень

коллега

время

отсутствие

думать

человек

работать

рабочий день

задача напряжение сосредоточенность

общение

надоедать работа

работать

коллега

постоянный

выходной страх напряжение

скоро

человек хотеть

успевать

приходиться

задача

LDA

задача

коллега

время

работать

хороший

очень

рабочий

общение

постоянный

день

задача

хотеть

время

нужно

сделать

коллега

один

трудность

делать

хороший

усталость

задача

время

скоро

успевать

отсутствие

думать

проблема

дело

человек

LSI

задача

работа

время

день

коллега

работать

рабочий

скоро

думать

общение

задача

выходной

сложно

человек

общение

скоро

несколько

день

дело

злость

долго

очень

ехать

надоедать

задача

высокий

тревога

сложно сконцентрироваться

человек

3.6 Интерпретация результатов

Анализ текстовых данных психологического исследования о тревожности на рабочем месте, проведенный методами компьютерной лингвистики, дает неоднозначные результаты. С одной стороны, действительно, извлечение ключевых слов показывает, что между текстами из разных «групп тревожности» есть ощутимая разница: люди, чьи показатели, согласно шкале общей тяжести, отражают высокий уровень тревоги, употребляют слова вроде «злость», «тревога», «надоедать», «не любить» и т.д., которые наряду с их ответами на закрытые вопросы свидетельствуют о высоком уровне стресса и тревоги из-за работы. Тематические модели также позволяют выделить несколько групп текстов: как те, в которых о рабочих вопросах рассуждают спокойно или с приязнью, так и те, в которых встречаются признаки тревожности и усталости.

С другой стороны, серьезная проблема заключается в том, что слова, которые выделяются при помощи анализа уже размеченных групп и при описании тематических моделей, сильно разнятся. Сведем в одну таблицу слова, которые встречаются хотя бы в двух из приведенных списков для каждой группы.

Таблица 19. Общие слова из списков ключевых слов и описаний тематических моделей для каждой из групп.

Степень тревожности

Общие слова для всех моделей

Нет тревожного расстройства

заниматься, работа, задача, хороший, день, работать, рабочий, время, коллега, общение

Тревога выражена слабо

выполнять, коллега, время, человек, задача, коллега,

Тревожность выражена сильно

надоедать, скоро, успевать, задача, человек

Видно, что многие слова, которые встречаются и в результатах тематического моделирования, и при извлечении ключевых слов, являются общими для всех групп. Эти слова -- «задача», «работать», «человек», «коллега». Остальные общие слова довольно слабо характеризуют каждую из групп. Таким образом, главный вывод, который мы можем сделать в результате эксперимента по автоматическому извлечению признаков тревожности из текстов, сводится к тому, что сегрегация текстов по уровням тревожности действительно возможна, но главные способы для описания темы текста дают разные результаты; вследствие чего темы, извлеченные при помощи LDA или другой модели сложно поставить в соответствие ключевым словам из размеченных текстов.

Решений для этой проблемы может быть несколько. Во-первых, и прежде всего, это увеличение корпуса текстов -- оно позволит выделить слова, которые можно считать более надежными и статистически значимыми и, возможно, в таком случае термины для каждой группы будут более похожими. Другим решением может быть целенаправленная подгонка параметров тематических моделей и методов выделения ключевых слов таким образом, чтобы полученные списки слов были максимально похожими. Но нашей ситуации этот подход грозит переобучением модели: если данных станет больше, ключевые слова могут оказаться другими и итоговый результат снова покажет низкое совпадение списков. Как правило, данные для исследований подобно нашему, накапливаются годами -- можно предположить, что со временем, когда ответивших на анкету исследования респондентов станет больше (исследование было запущено в конце 2018 года), ключевые слова и описания тематических моделей будут более похожими, а подгонка моделей не приведет к их переобучению.

Заключение

В рамках нашего исследования мы изучили возможность исследования материала психологических анкет на русском языке при помощи методов компьютерной лингвистики. Подобные исследования широко распространены в англоязычном пространстве, но для русского языка их значительно меньше. Анализ данных из исследования, посвященного изучению тревожности на рабочем месте, показал, что для русского языка подобные исследования вполне воспроизводимы. Действительно, из текстов-ответов на вопросы анкеты можно извлечь признаки, свидетельствующие о том, что их автор находится в состоянии стресса, тревоги, переживаний из-за рабочих процессов и задач. Мы показали, что тексты людей, которые согласно данным анкеты, страдают или не страдают от тревожности, действительно различаются по словарному составу и ключевым словам. Кроме того, методы тематического моделирования, которые традиционно хороши в задачах выделения тем в корпусах новостей, научных текстов из разных сфер, оценке тональности высказываний и т.д., также неплохо проявляют себя даже в такой тонкой сфере как анализ психологических состояний.

Все это позволяет с уверенностью заявить, что междисциплинарные исследования на пересечении компьютерной лингвистики и психологической и психиатрической практики для русского языка являются перспективными и предоставляют большой спектр возможностей для улучшения качества клинической диагностики, а также ранней диагностики тревожных состояний. Главной проблемой подобных исследований по-прежнему остаются данные: специальные анкеты, как правило, предоставляют надежные результаты, но в небольшом объеме из-за трудностей со сбором материалов; в русскоязычном сообществе психические расстройства и заболевания все еще остаются стигматизированными -- это тоже затрудняет получение релевантных данных для исследований. Хотя, безусловно, стоит отметить, что в социальных сетях и медиа-изданиях публикации о психическом здоровье в последние несколько лет стали появляться значительно чаще, что несомненно работает в пользу повышения осведомленности населения о психических заболеваниях и способствует уменьшению стигмы и распространенности стереотипов и предубеждений о психических расстройствах (например, до сих пор можно часто встретить заявления о том, что депрессии не существует и это слово лишь прикрытие для лени и плохого настроения).

Тем не менее, даже в таких ограниченных условиях применение методов компьютерной лингвистики в области психических и психиатрических исследований может играть важную роль в постановке диагноза и профилактике критических состояний. Развитие вычислительных методов позволяет все точнее выделять важные элементы из текста, что позволяет уже сегодня создавать системы, определяющие настроение и эмоциональное состояние человека. И следующая большая задача в данной области (как для английского, так и для русского и других языков) -- это создание достаточно большого корпуса текстовых данных для разных психических заболеваний, на основании которого можно будет обучить классификатор с перспективой его применения как в клинической практике, так и в анализе данных из социальных сетей и других источников.

Литература

1. Воронцов 2013 -- К. В. Вероятностное тематическое моделирование (электронный документ). http://www.machinelearning.ru/wiki/images/2/22/Voron-2013-ptm.pdf. 2013.

2. Arseniev-Koehler, Mozgai, Scherer 2018 -- A. Arseniev-Koehler, S. Mozgai, S. Scherer. What type of happiness are you looking for? - A closer look at detecting mental health from language. // Proceedings of the Fifth Workshop on Computational Linguistics and Clinical Psychology: From Keyboard to Clinic. New Orleans, Louisiana, June 5, 2018. P. 1-12.

3. Asgari, Nasiriany, Mofrad 2016 -- E. Asgari, S. Nasiriany, M. R.K. Mofrad. Text Analysis and Automatic Triage of Posts in a Mental Health Forum // Proceedings of the 3rd Workshop on Computational Linguistics and Clinical Psychology: From Linguistic Signal to Clinical Reality. San Diego, California, June 16, 2016. P. 153-157.

4. Blei, Ng, Jordan 2003 -- D. Blei, A. Ng, and M. Jordan. Latent Dirichlet allocation // Journal of Machine Learning Research. January 2003. P. 993-1022.

5. Blei, et al. 2003 -- D. Blei, T. Griffiths, M. Jordan, and J. Tenenbaum. Hierarchical topic models and the nested Chinese restaurant process // Neural Information Processing Systems №16, 2003. P. 17-24.

6. Chung, Pennebaker 2007 -- C. Chung, J. Pennebaker. The psychological functions of function words // Social communication, DE GRUYTER POLAND: 2007. P. 343-359.

7. Conwaya, Daniel O'Connor 2016 -- M. Conwaya and D. O'Connor. Social Media, Big Data, and Mental Health: Current Advances and Ethical Implications // Current Opinion in Psychology. Elsevier, Jun 2016. P. 77-82.

8. Coppersmith, Dredze, Harman 2014 -- G. Coppersmith, M. Dredze, C. Harman. Quantifying Mental Health Signals in Twitter // Proceedings of the Workshop on Computational Linguistics and Clinical Psychology: From Linguistic Signal to Clinical Reality. Baltimore: Association for Computational Linguistics, Jun, 2014. P 51-60.

9. Coppersmith, et al. 2015 -- G. Coppersmith, M. Dredze, C. Harman, K. Hollingshead. From ADHD to SAD: Analyzing the Language of Mental Health on Twitter through Self-Reported Diagnoses // Proceedings of the 2nd Workshop on Computational Linguistics and Clinical Psychology: From Linguistic Signal to Clinical Reality. Denver, Colorado, June 5, 2015. P. 1-10.

10. Corcoran, et al. 2018 -- C. M. Corcoran, F. Carrillo, Fernбndez-Slezak D, Bedi G, Klim C, Javitt DC, Bearden CE, Cecchi GA. Prediction of psychosis across protocols and risk cohorts using automated language analysis // World Psychiatry. 17 (1) 2018. P. 67-75.

11. De Choudhury, Counts, Horvitz 2013a -- M. De Choudhury, S. Counts, and E. Horvitz. Predicting postpartum changes in emotion and behavior via social media // In Proceedings of the ACM Annual Conference on Human Factors in Computing Systems. Paris, April 2013. P. 3267-3276.

12. De Choudhury, Counts, Horvitz 2013b -- M. De Choudhury, S. Counts, and E. Horvitz. Social media as a measurement tool of depression in populations // In Proceedings of the Annual ACM Web Science Conference. Paris, 2013. P. 47-56.

13. De Choudhury, et al. 2013c -- M. De Choudhury, M. Gamon, S. Counts, and E. Horvitz. Predicting depression via social media // In Proceedings of the International AAAI Conference on Weblogs and Social Media (ICWSM). Paris, 2013. P. 128-137.

14. Gkotsis, et al. 2016 -- G. Gkotsis, A. Oellrich, T. J. P. Hubbard, R. J. B. Dobson, M. Liakata, S. Velupillai, R. Dutta. The language of mental health problems in social media // Proceedings of the 3rd Workshop on Computational Linguistics and Clinical Psychology: From Linguistic Signal to Clinical Reality. San Diego, California, June 16, 2016. P. 63-73.

15. He, Veldkamp, de Vries 2012 -- Q. He, B. P. Veldkamp, T. de Vries. Screening for posttraumatic stress disorder using verbal features in self narratives: A text mining approach. Psychiatry Research, 198, 3. 2012. P. 441-447.

16. Jamil, Inkpen, Buddhitha 2017 -- Zunaira Jamil, Diana Inkpen, Prasadith Buddhitha. Monitoring Tweets for Depression to Detect At-risk Users. // Proceedings of the Fourth Workshop on Computational Linguistics and Clinical Psychology.Vancouver, Canada, August 3, 2017. P. 32-40.

17. Ireland, Iserman 2018 -- M. E. Ireland, M. Iserman. Within and Between-Person Differences in Language Used Across Anxiety Support and Neutral Reddit Communities // Proceedings of the Fifth Workshop on Computational Linguistics and Clinical Psychology: From Keyboard to Clinic. New Orleans, Louisiana, June 5, 2018. P. 182-193.

18. Litvinova, Litvinova, Seredin 2018 -- Tatiana A. Litvinova, Olga A. Litvinova, Pavel V. Seredin. Dynamics of an Idiostyle of a Russian Suicidal Blogger. // Proceedings of the Fifth Workshop on Computational Linguistics and Clinical Psychology: From Keyboard to Clinic. New Orleans, Louisiana, June 5, 2018. P. 158-167.

19. Loveys, et al. 2018 -- K. Loveys, J. Torrez Qntfy, A. Fine, G. Moriarty, G. Coppersmith. Cross-cultural differences in language markers of depression online // Proceedings of the Fifth Workshop on Computational Linguistics and Clinical Psychology: From Keyboard to Clinic. New Orleans, Louisiana, June 5, 2018. P. 78-87.

20. Mihalcea, Tarau 2004 -- Rada Mihalcea and Paul Tarau. TextRank: Bringing Order into Texts. EMNLP. 2004.

21. Opitz 2016 -- Juri Opitz. Using Linear Classifiers for the Automatic Triage of Posts in the 2016 CLPsych Shared Task. // Proceedings of the 3rd Workshop on Computational Linguistics and Clinical Psychology: From Linguistic Signal to Clinical Reality. San Diego, California, June 16, 2016. P. 162-165.

22. Orabi, et al. 2018 -- A. H. Orabi, P. Buddhitha, M. H. Orabi, D. Inkpen. Deep Learning for Depression Detection of Twitter Users. // Proceedings of the Fifth Workshop on Computational Linguistics and Clinical Psychology: From Keyboard to Clinic. New Orleans, Louisiana, June 5, 2018. P. 88-97.

23. Paul, Dredza 2011 -- M.J. Paul, M. Dredze. You are what you tweet: Analyzing Twitter for public health // Artificial Intelligence, 38, 2011. P. 265-272.

24. Pedersen 2015 -- T. Pedersen.Screening Twitter Users for Depression and PTSD with Lexical Decision Lists. Ted Pedersen // Proceedings of the 2nd Workshop on Computational Linguistics and Clinical Psychology: From Linguistic Signal to Clinical Reality. Denver, Colorado, June 5, 2015. P. 46-53.

25. Poulin, et al. 2014 -- C.Poulin, B. Shiner, P. Thompson, L. Vepstas, Y Young-Xu, B. Goertzel, B. Watts, L. Flashman, T. McAllister. Predicting the risk of suicide by analyzing the text of clinical notes // PLoS One 9(1), 2014.

26. Preotiuc-Pietro, Eichstaedt 2015 -- D. Preotiuc-Pietro, J. Eichstaedt. The Role of Personality, Age and Gender in Tweeting about Mental Illnesses. // Proceedings of the 2nd Workshop on Computational Linguistics and Clinical Psychology: From Linguistic Signal to Clinical Reality. Denver, Colorado, June 5, 2015. P. 21-30.

27. Ramirez-Esparza, et al. 2008 -- N. Ramirez-Esparza, C. K. Chung, E. Kacewicz, J. W. Pennebaker. The psychology of word use in depression forums in English and in Spanish: Testing two text analytic approaches // In Proceedings of the International AAAI Conference on Weblogs and Social Media (ICWSM). Washington, March 30 - April 2, 2008 P. 102-108.

28. Remes, et al. -- O. Remes, C. Brayne, R. van der Linde, L. Lafortune. A systematic review of reviews on the prevalence of anxiety disorders in adult populations // Brain and Behavior. Vol. 6, Iss.7. 2016.

29. Resnik, Garron, Resnik 2013 -- P. Resnik, A. Garron, R. Resnik. Using topic modeling to improve prediction of neuroticism and depression // In Proceedings of the 2013 Conference on Empirical Methods in Natural, 2013. P. 1348-1353.

30. Shen, Rudzicz 2017 -- J. H. Shen, F. Rudzicz. Detecting anxiety on Reddit // Proceedings of the Fourth Workshop on Computational Linguistics and Clinical Psychology. Vancouver, Canada, August 3, 2017. P. 58-65.

31. Shickel, et al. 2016 -- Benjamin Shickel, Martin Heesacker, Sherry Benton, Ashkan Ebadi, Paul Nickerson, Parisa Rashidi. Self-Reflective Sentiment Analysis // Proceedings of the 3rd Workshop on Computational Linguistics and Clinical Psychology: From Linguistic Signal to Clinical Reality. San Diego, California, June 16, 2016. P. 23-32.

32. Taboada, et al. -- M. Taboada, J. Brooke, M. Tofiloski, K. Voll, M. Stede. Lexicon-based methods for sentiment analysis // Computational Linguistics, 37(2). 2011. P. 267-307.

33. Tausczik, Pennebaker 2010 -- Y. R. Tausczik, J. W. Pennebaker. The psychological meaning of words: LIWC and computerized text analysis methods // Journal of Language and Social Psychology, 29(1), 2010. P. 24-54.

Размещено на Allbest.ru

...

Подобные документы

  • Отличительные черты невротических и личностных расстройств - психогенных заболеваний, возникающих из-за различных факторов, травмирующих психику. Обобщение факторов, влияющих на возникновение пограничных психических расстройств. Методы их профилактики.

    дипломная работа [265,7 K], добавлен 21.01.2011

  • Понятие "тревоги" и "тревожности" и их особенности в детском возрасте. Виды тревожных расстройств в детском возрасте. Факторы, влияющие на возникновение и поддержание тревожных состояний у детей и подростков. Семейные факторы тревожных состояний у детей.

    курсовая работа [59,3 K], добавлен 16.12.2010

  • Общая теория тревожности. Понятие и основные виды тревожных расстройств. Проявление тревожности у детей. Появление и развитие тревожности в возрастной динамике: в младшем школьном возрасте, у подростков. Исследование тревожности учащихся 3–7 классов.

    дипломная работа [133,6 K], добавлен 28.06.2011

  • Особенности психических расстройств несовершеннолетних осужденных. Понятие психических расстройств. Особенности подростковых психических расстройств. Понятие пенитенциарного стресса. Роль пенитенциарного стресса в формировании психических расстройств.

    курсовая работа [88,8 K], добавлен 16.11.2008

  • Понятие депрессивных, соматоморфных и тревожных расстройств. Анализ данных расстройств в силу того, что эти нарушения отражают основные эпидемиологические тенденции психических нарушений. Современное лицо эмоциональных нарушений и соматические симптомы.

    контрольная работа [26,6 K], добавлен 13.02.2010

  • Понятие и психологическое обоснование тревожности, ее основные причины и этапы развития. Оценка влияния данного состояния на профессиональную деятельность врачей. Бинауральная терапия как метод реабилитации тревожных состояний, сущность и эффективность.

    курсовая работа [58,6 K], добавлен 12.10.2011

  • Диагностические возможности патохарактерологического диагностического опросника. Взаимосвязь дискордантности черт характера и расстройств у подростков. Типы акцентуаций характера. Развитие психических и пограничных нервно-психических расстройств.

    дипломная работа [500,2 K], добавлен 20.12.2010

  • Психологическое исследование психосоматических расстройств у выборки онкобольных и здоровых людей. Фрустрация как реакция на смертельное заболевание. Рассмотрение тревожности и депрессии как наиболее распространенных негативных эмоциональных состояний.

    курсовая работа [106,1 K], добавлен 01.04.2012

  • Анализ теории возникновения расстройств личности от средних веков до современности. Типы расстройств личности. Особенности динамики и надежность диагностики расстройств личности. Этиология и патопсихология расстройств личности. Методы их лечения.

    курсовая работа [43,9 K], добавлен 26.02.2012

  • Общие воззрения на теорию неврозов. Основные формы расстройств. Методы нейропсихологической диагностики в изучении высших психических функций, поведения и их связи с мозговым субстратом. Применение нейропсихологического подхода к диагностике неврозов.

    курсовая работа [49,0 K], добавлен 26.08.2011

  • Истоки и содержание понятия "психосоматика". Эмоции как причина возникновения психосоматических расстройств. Роль эмоционального стресса в возникновении язвенной болезни двенадцати перстной кишки. Путь предотвращения психосоматических расстройств.

    реферат [19,4 K], добавлен 05.11.2012

  • Проблема лечения и реабилитации больных с церебральным инсультом. Тревожно-депрессивные расстройства в восстановительном периоде инсульта. Симптомы депрессии, тревожных расстройств и психологическая реабилитация. Проведение психологической коррекции.

    дипломная работа [80,7 K], добавлен 08.07.2013

  • Соматогенное и психогенное влияние болезни на психику человека, типы реакции на заболевание. Изучение личностных особенностей, тревожных расстройств и депрессий больных хроническим панкреатитом. Методы измерения уровня тревожности и акцентуированности.

    курсовая работа [171,6 K], добавлен 08.08.2010

  • Понятие депрессивного расстройства. Сравнение симптоматики депрессивного и тревожного расстройств. Диагностика и методы лечения различных видов депрессивных расстройств. Сравнительный анализ различных видов классификаций депрессивных расстройств.

    курсовая работа [422,5 K], добавлен 11.09.2014

  • Психолингвистические основы при изучении речевых нарушений. Использование психолингвистического подхода в изучении речевых расстройств. Группы речевых расстройств с учетом механизмов речевой деятельности. Методы исследования внутреннеречевой активности.

    контрольная работа [27,5 K], добавлен 19.06.2014

  • Вопросы соотношения телесного (соматического) и духовного (психического) здоровья. История возникновения психосоматической медицины. Влияние соматических расстройств на психическое состояние человека. Факторы патогенеза психосоматических расстройств.

    реферат [25,9 K], добавлен 07.10.2014

  • Анализ посттравматических стрессовых расстройств. Экспериментальное исследование посттравматических стрессовых расстройств у военнослужащих, участников боевых действий. Разработка программы психологической поддержки участников локальных конфликтов.

    дипломная работа [205,5 K], добавлен 17.09.2011

  • Диагностика и индивидуальное лечение расстройств личности методами когнитивной психотерапии. Влияние когнитивных схем на формирование расстройств личности. Убеждения и установки, характеризующие каждое из этих нарушений. Случаи из клинической практики.

    книга [701,5 K], добавлен 30.05.2009

  • Человек с отклонениями в психической деятельности и его микросоциальный мир. Влияние семейного фактора при индуцировании бредовых расстройств (в частности социальной фобии). Феномен взаимоисключающего принуждения. Анализ социальной фобии в Японии.

    реферат [34,8 K], добавлен 22.02.2011

  • Определение Ганнушкиным понятия "пограничных психических расстройств". Исследование пожилых людей и выделение всего спектра субклинических форм психической патологии. Предупреждение социально-психологической дезадаптации пациентов старческого возраста.

    реферат [27,2 K], добавлен 01.04.2012

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.