Главная Коллекция "Revolution" Психология Автоматическое определение психотипа автора текста

Автоматическое определение психотипа автора текста

Определение понятия сознания и психотипа с позиции их взаимосвязи с языком. Ознакомление с современными психологическими классификациями типов языковой личности. Рассмотрение статистических речевых маркеров. Автоматическая классификация текстов.

Рубрика	Психология
Вид	дипломная работа
Язык	русский
Дата добавления	21.09.2018
Размер файла	94,0 K

посмотреть текст работы

скачать работу можно здесь

полная информация о работе

весь список подобных работ

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Страница:

Тексты логиков-интуитов отличает объективизм (рациональные предикаты), некатегоричность (вводные конструкции со значением неуверенности и предположительности, сослагательное наклонение глаголов, неопределенные местоимения), языковая креативность (средства художественной выразительности, словотворчество), диалогичность (вопросы и обращения к читателю), распространенность (наибольшая длина предложений).

Для этиков-интуитов характерен субъективизм (лексемы с оценочной коннотацией, предикаты чувства и отношения, уменьшительно-ласкательные суффиксы), языковая креативность (лексика разных стилей, средства художественной выразительности, словотворчество), некатегоричность (вводные конструкции со значением неуверенности и предположительности, сослагательное наклонение глаголов), непоследовательность (разнообразие тема-рематических конструкций, инверсия, расхождение синтаксического и актуального членения), диалогичность (вопросы и обращения).

Текстам этиков-сенсориков свойственна емкость (наиболее короткие предложения, парцелляция, обрывочные высказывания), субъективизм (личные местоимения, эмоционально-оценочная лексика, просторечия и жаргонизмы, наречия меры и степени, уменьшительно-ласкательные суффиксы, эмоционально окрашенные частицы, предикаты отношения), категоричность (конструкции с семантикой уверенности, определительные местоимения).

Для текстов логиков-сенсориков характерна емкость изложения (короткие предложения, эллиптические и парцеллированные конструкции, дополнительная нумерация текста), категоричность (предикаты со значением императивности, наречия с семантикой категоричности, определительные местоимения), последовательность (прямой порядок слов, номинативные предложения).

Однако не все из полученных признаков доступны для автоматической обработки. В рамках машинного анализа на морфемном уровне реально выделить уменьшительно-ласкательные суффиксы и суффиксы отглагольных существительных, характерные для научного стиля речи. Использование утилиты mystem, осуществляющей морфологический разбор каждого слова, позволило максимально задействовать уровень морфологии.

Так, оказалось возможным определить частотность целого ряда явлений: разряды местоимений; степени сравнения прилагательных и наречий; вид, наклонение и переходность глаголов; залоги причастий; типы союзов. Наконец, важно отметить соотношение в текстах служебных и знаменательных, именных и глагольных частей речи. Последняя характеристика также указывает на преимущественно номинативный или предикативный строй того или иного текста, а вслед за ним - на статичность или динамичность мышления: автор либо именует ситуацию, называет ее, либо описывает ее динамику, акцентируя внимание на происходящих событиях и их последовательности. С лингвистической точки зрения, это позволяет обратиться к уровню синтаксиса, который с помощью частотного машинного анализа затронуть непросто, особенно если речи идет о русском языке.

Впрочем, простейшие элементы синтаксиса проанализировать реально. В частности, возможно определить соотношение: восклицательных и невосклицательных, вопросительных и побудительных предложений; различных внутренних знаков препинания, а также - среднюю длину предложений текста. Кроме того, программа справится с подсчетом частотности некоторых экстралингвистических признаков: смайликов и дополнительных подпунктов, структурирующих текст.

Наконец, текст можно представить, например, как совокупность данных о частотности символьных (букв русского алфавита) и словесных униграмм (отдельных слов). Хорошие результаты могло бы показать и использование биграмм или триграмм, но это отразилось бы на скорости работы программы, не давая значительного прироста точности, поэтому ограничимся использованием униграмм.

Глава 4. Автоматическая классификация текстов

4.1 Предобработка и векторизация текстов

Поясним, что под векторизацией текста понимается его представление в виде набора чисел, доступного для машинной обработки.

Данная выпускная квалификационной работе предлагается два основных способа векторизации:

1) представление текста в виде списка чисел, каждое из которых характеризует частотность того или иного явления;

2) схожий с первым способ, в котором под явлениями понимаются все слова, хотя бы раз встречающиеся в корпусе, а их относительная частота определяется с помощью специальной метрики;

3) замена каждого слова текста на семантический вектор из произвольного количества чисел.

Итак, первый способ векторизации текстов - представление каждого из них в виде показателей относительной частотности явлений, описанных в предыдущем разделе.

Опытным путем было определен набор признаков из вышеперечисленных, при котором достигается компромисс между высокой точностью и оптимальным временем работы классификатора. В набор вошли следующие термины: знаки препинания, символьные униграммы, уменьшительно-ласкательные суффиксы, глаголы условного наклонения, средняя длина слова, средняя длина предложения, глаголы совершенного вида, именные части речи, служебные части речи.

Второй способ векторизации, использованный в работе, предполагает представление текста в форме так называемого “мешка слов”, который не учитывает порядок следования элементов. Для этого необходимо: 1) составить список всех слов, встречающихся в корпусе; 2) определить показатель TF-IDF для всех слов по каждому тексту. Метрика TF-IDF позволяет подсчитать частотность слова в тексте, учитывая степень его “уникальности” во всем корпусе:

TF-IDF = TF * IDF,

где TF - относительная частота слова в тексте, а IDF можно представить следующим образом:

IDF = log (n/a),

где n - размер корпуса, a - число текстов, в которых встречается текущее слово.

Третий способ основан на моделях “погружений” слов в векторное пространство. Векторным представлением слов называется отображение слов естественного языка в векторы произвольной размерности. В данной работе предлагается способ отображения с учетом семантической близости слов, т.е. требуется векторизовать слова таким образом, чтобы вектор более схожих в семантическом плане лексем оказались расположены близко друг к другу в некоем n-мерном пространстве.

Такой способ был предложен сотрудником Google Томасом Миколовым (Mikolov, 2013) и заключается в том, чтобы располагать тем ближе друг к другу вектора слов, чем более схожи контексты, в которых они употребляются. Для преобразования слов в векторы по технологии Миколова использовалась предобученная на национальном корпусе русского языка модель word2vec (http://rusvectores.org/ru), в которой представлены готовые векторные репрезентации в 300-мерном пространстве для 185 тысяч русских слов.

Векторные представления fastText основаны на технологии, использованной в word2vec, однако включают вектора не только слов, но и символьных n-грамм. За счет этого представляется возможным вычислить векторные представления неизвестных слов. Важно отметить, что данная модель была предварительно обучена на корпусе русской Википедии (https://github.com/facebookresearch/fastText).

Таким образом, в работе использовалось всего 4 способа векторного представления текста на русском языке: 1) представление в виде ряда статистических морфологических, синтаксических, экстралингвистических и некоторых других характеристик; 2) разреженная матрица TF-IDF на основе технологии bag-of-words; 3) модель погружений слов word2vec; 4) модель погружений слов fastText. Дальнейшая задача сводится к проверке эффективности каждого способа векторной репрезентации при классификации различными методами.

Стоит отметить, что перед переводом в векторное пространство каждый текст подвергся предобработке: все слова приведены к нижнему регистру, избавлены от посторонних символов и отделены от знаков препинания; затем слова подверглись лемматизации и грамматическому анализу с помощью морфологического анализатора mystem. В случае с языковыми моделями (методы векторизации 3 и 4) тексты были также очищены от стоп-слов, т.е. всех слов длиной менее 4 символов.

4.2 Методы машинного обучения

Ключевой момент практической части данного исследования - это проверка точности классификации текстов различными методами. Нас интересует, комбинация какого классификатора и способа векторизации показывает наиболее высокую точность определения той или иной психологической функции. В данном исследовании классификация осуществлялась способами, которые можно поделить на две группы: 1) случайный лес, метод ближайших соседей, машина опорных векторов; 2) LSTM, GRU, полносвязная многослойная нейронная сеть. В первую группу вошли классификационные методы собственно машинного обучения, во вторую - нейронные сети различной архитектуры.

Методы первой группы реализованы в библиотеке scikit-learn. Перед их применением вся текстовая база (выборка) делится на две части: тестовую и тренировочную. Далее методы функционируют поэтапно: сначала классификатор “обучается” на тренировочной выборке, выделяя ключевые признаки и соотнося их числовые значения с психотипом автора каждого текста, а затем тестируется на тестовых текстах, отсутствующих в базе данных. Соответственно, первый этап работы классификатора может быть назван тренировочным, а второй - тестовым.

Перед началом обучения значения, из которых состоят векторы, представляющие тексты, необходимо нормализовать, т.е. привести к единому виду. В данном исследовании использовалась минимаксная нормализация, т.е. нормализация каждого параметра по формуле V' = (V_i - V_min) / (V_max - V_min), где i - число всех параметров (в данном случае 30), V_i - значение текущего параметра, V_max - максимальное значение данного параметра среди вс ех текстов, V_min - минимальное значение данного параметра среди всех текстов. Результатом каждого преобразования становится “нормализованное”, т.е. принадлежащее промежутку [0,1] значение V'.

Следующий шаг - тестирование программы на новых текстах, не вошедших в базу данных, включающее определение значений тех или иных параметров, их нормализацию и основанное на полученных данных выдвижение гипотезы о принадлежности автора текста к тому или иному психотипу. В данном алгоритме тестирование на “новых” текстах осуществляется по методу кросс-валидации:

1) 240 текстов делятся на 6 частей по 40 текстов.

2) Каждая часть поочередно удаляется из базы данных, после чего программа заново обучается на измененной базе и выдвигает гипотезу о каждом из двух параметров психотипа автора: то есть, проводит бинарную классификацию по шкалам интуиции-сенсорики и логики-этики.

3) Успешность установления психологического параметра в каждом случае определяется по метрике F1.

Программа выдает гипотезу о классе, к которому принадлежит автор текста, сравнивая его с текстами из базы данных. Таким образом, задача классификации сводится к определению степени схожести числового вектора анализируемого текста с векторами текстов разных типов. В данном исследовании эта задача решена 3 методами машинного обучения:

1) Метод k ближайших соседей - простой метрический классификатор, который относит вектор текста к классу, к которому принадлежит большинство из k ближайших к нему векторов других текстов выборки (Larose, 2002). Алгоритм действует следующим образом: сначала вычисляется расстояние до каждого из объектов обучающей выборки; затем необходимо отобрать k объектов обучающей выборки, расстояние до которых минимально; наконец, объекту назначается класс, наиболее часто встречающийся среди k таких ближайших соседей.

Варьируемые параметры данного метода - число k ближайших соседей и метрика, по которой определяется расстояние между векторами. В данном исследовании для измерения дистанции использовалась метрика косинусного расстояния, а лучшие параметры k варьировались для разных моделей векторизации в рамках от 18 до 26.

2) В основе метода опорных векторов лежит выбор некой гиперплоскости, оптимально (т.е. с максимальной точностью) разделяющей точки/вектора, представляющие объекты, в пространстве (Cristianini, Shawe-Taylor, 2000). Для этого разделяющая гиперплоскость должна быть выбрана таким образом, чтобы расстояние между ближайшими точками (и соответствующими им объектами), расположенными по разные стороны от нее, было максимальным.

Основным варьируемым параметром данного классификатора является его ядро, выбор которого обычно осуществляется произвольно. Экспериментальным путем мы обнаружили, что изменения ядра влекут за собой незначительные колебания точности, но радиальное ядро во всех случаях работает более эффективно или, по крайней мере, не менее эффективно, чем другие.

3) Случайный лес - это ансамблевый метод машинного обучения, который представляет собой множество решающих деревьев, каждое из которых дает отдельный ответ, и класс объекта определяется с помощью мажоритарного голосования (Breiman, 2001). Деревья строятся по следующей схеме: выбирается подвыборка обучающей выборки, для которой строится дерево; для построения каждого расщепления в дереве просматриваются случайные признаки; выполняется расщепление по наилучшему признаку до исчерпания выборки.

Основные варьируемые параметры - количество решающих деревьев и число признаков для выбора расщепления. В зависимости от метода векторизации оптимальное число деревьев различается; можно сказать, что значения от 30 до 40 показали лучший результат. В этом случае число признаков для выбора расщепления подбиралось по формуле sqrt(n), где n - собственно, количество деревьев.

4.3 Нейронные сети для классификации текстов

В основе концепции нейронных сетей лежит модель обработки информации человеческим мозгом. Искусственная нейронная сеть состоит из нейронов - неких абстрактных ячеек, способных принимать на вход информацию в числовом виде, производить над ней те или иные арифметические операции, нормализовывать и передавать полученные значения дальше. В общем виде нейроны в структуре сети объединяются в слои нескольких видов: нейроны входного слоя принимают на вход обучающие данные и передают их в неизменном виде дальше - на вход нейронам скрытых слоев. Именно на уровне скрытых слоев происходят основные вычисления, позволяющие выявить закономерности между данными, с помощью которых возможно, например, осуществить их классификацию. В этом случае нейроны выходного слоя выдают информацию о принадлежности объекта к тому или иному классу.

Между нейронами разных слоев существуют связи, которые имеют некоторые веса. Соответственно, значения самих нейронов в ходе обучения умножаются на веса связей, и задача нейронной сети (как и, в сущности, любой другой системы машинного обучения) сводится к определению наиболее удачной комбинации весов, позволяющей достичь максимальной точности и минимальной ошибки классификатора. Если значение входных нейронов, т.е. обучающих данных, неизменно, то веса выступают в роли коэффициентов, значения которых меняются каждую итерацию (единичный обучающий цикл). Помимо коэффициентов по аналогии со свободным членом в других системах машинного обучения некоторые ячейки нейронной сети называются нейронами смещения и выполняют схожую функцию. Виды нейронных сетей выделяют в зависимости от их архитектуры, которая определяется числом, направлением, характером связей между нейронами разных слоев. В практической части работы применяются сети 3 типов:

1) Многослойная полносвязная сеть прямого распространения, в которой каждый нейрон соединен со всеми нейронами предыдущего слоя (Хайкин, 2006). Экспериментальным путем были выбраны следующие параметры, необходимые для задания и построения нейронной сети данного типа:

- 3 скрытых слоя;

- число нейронов на скрытых слоях 300, 250 и 150;

- функции активации чередуются по скрытым слоям: ReLu (блок линейной ректификации) по формуле f(x) = max(0,x); sigmoid (сигмоидальная функция активации), которая определяется формулой у(x) = 1 / (1 + e^(?x))

- 10 эпох обучения;

- 5 итераций на каждой эпохе;

- batch size (размер т.н. “батча”, т.е. единичного обучающего набора, пакета данных) 24;

- loss (функция потерь, т.е. функция вычисления ошибок классификации) - бинарная перекрестная энтропия. Если модель предсказывает значение p, тогда как истинное значение равно t, то бинарная перекрестная энтропия может быть вычислена по формуле ?tlog(p) ? (1?t)log(1?p)

- optimizer (функция оптимизации работы нейронной сети) - Adam (один из наиболее популярных встроенных оптимизаторов в keras).

2) Рекуррентная нейронная сеть, основанная на механизме обратного распространения ошибки - это означает, что информация, полученная на одном из скрытых слоев, в той или иной мере сохраняется и учитывается при вычислениях на последующих слоях. Такие сети используются при обработке последовательностей, в которых важен порядок следования элементов. Примером такой последовательности может служить текст на естественном языке, который как раз является объектом нашего исследования.

На самом деле существует несколько видов рекуррентных нейронных сетей, и в рамках данного исследования применяются biLSTM и GRU. Структура сети biLSTM (bidirectional long short-term memory - двунаправленная долгая кратковременная память) усложнена следующим образом: во-первых, каждый нейрон характеризуется дополнительными фильтрами/вентилями входа, забывания и выхода.

С помощью данных фильтров сеть учится определять, какую информацию с текущего предыдущих слоев сохранить и передать дальше, ориентируясь на особые параметры - постоянное и скрытое состояние каждой ячейки, т.е. каждого нейрона. Внутреннее скрытое состояние вычисляется на основе текущего входа и предыдущего скрытого состояния. Структура хранения информации о скрытых состояниях ячеек делает такую сеть устойчивой к проблеме исчезающего градиента (Hochreiter, 1997).

В нашем случае сеть LSTM также является двунаправленной - она обучается учитывать информацию и с предыдущих, и с последующих слоев, как бы производя обучение в обоих направлениях. Это реализовано с помощью обертки Bidirectional для LSTM-слоя из библиотеки keras. Помимо двунаправленного рекуррентного слоя, сеть имеет следующие характеристики:

- длина входной последовательности составляет 51 для частотных характеристик (по числу данных характеристик, перечисленных ранее) и 15091 для TF-IDF представления (по числу лексем в словаре);

- embedding size (глубина погружения) 128;

- 3 скрытых слоя с числом нейронов 256, 128, 64;

- dropout (“отбрасывание” некоторых случайных значений в процессе обучения для предотвращения переобучения) 0.3;

- 10 эпох обучения;

- 5 итераций на каждой эпохе;

- batch size (размер т.н. “батча”, т.е. единичного обучающего набора, пакета данных) 24;

- loss (функция потерь, т.е. функция вычисления ошибок классификации) - бинарная перекрестная энтропия. Если модель предсказывает значение p, тогда как истинное значение равно t, то бинарная перекрестная энтропия может быть вычислена по формуле ?tlog(p) ? (1?t)log(1?p)

- optimizer (функция оптимизации работы нейронной сети) - Adam (один из наиболее популярных встроенных оптимизаторов в keras).

3) Сеть GRU (gated rucurrent unit - вентильный рекуррентный блок) имеет более простое устройство для реализации механизма запоминания, чем LSTM и обучается быстрее, но также является устойчивой к проблеме исчезающего градиента. В ячейке GRU есть всего два вентиля: сброса и обновления. Вентиль обновления определяет, какую часть предыдущего запомненного значения сохранить, а вентиль сброса - как совместить с новым входом предшествующую память сети (Chung, 2014). Эта сеть задана параметрами, аналогичными параметрам LSTM, но она не является двунаправленной. Таким образом, при обучении учитывается только прямой порядок следования элементов.

4.4 Результаты классификации

Результаты классификации удобно представить в двух таблицах, каждая из которых относится к одному бинарному психологическому параметру: интуиция-сенсорика или логика-этика. Размерность обеих таблиц 4х5, в столбцах представлены методы векторизации, а строки относятся к методам классификации, т.е. техникам машинного обучения и типам архитектуры нейронных сетей, которые были применены в практической части исследования.

В таблицах выделены жирным кеглем те классификационные методы и способы векторной репрезентации текстов, при которых достигаются наивысшие показатели точности. Последние, соответственно, представлены на пересечении столбцов с методами классификации и строк с методами векторизации.

Таблица 1. Результаты классификации по шкале логики-этики

TF-IDF

Частотные черты

Word2Vec

FastText

kNN

0.55

0.49

SVM

0.4

0.54

Random forest

0.47

0.6

Dense

0.53

0.46

biLSTM

0.43

0.66

0.52

0.54

GRU

0.4

0.61

0.41

0.38

Как видно из таблицы, наилучший результат 66% достигается при использовании сети LSTM на материале текстов, преобразованных в числовые вектора путем выделения 50 грамматических, синтаксических и экстралингвистических характеристик и подсчета их частотных показателей. Следующий результат в 61% достигается при использовании сети GRU с тем же методом векторизации.

Вспомним полный список использованных характеристик: разряды местоимений; сравнительные и переходные степени прилагательных и наречий; вид, наклонение и переходность глаголов; залоги причастий; сочинительные и подчинительные союзы; знаки пунктуации; символьные униграммы; смайлы; средняя длина слов и предложений; соотношение глагольных и именных частей речи; соотношение служебных и самостоятельных частей речи.

Таким образом, перечисленные признаки (или, по крайней мере, некоторые из них) маркируют такой психологический признак, как логическая или этическая ориентированность сознания.

Таблица 2. Результаты классификации по шкале интуиции-сенсорики

TF-IDF

Частотные черты

Word2Vec

FastText

kNN

0.58

0.48

SVM

0.47

0.49

Random forest

0.72

0.54

Dense

0.69

0.49

biLSTM

0.57

0.45

0.7

0.61

GRU

0.54

0.42

0.66

0.62

Наивысшая точность классификации 72% достигается при классификации по алгоритму случайного леса с векторизацией текста методом TF-IDF. Следующий результат 70% показывает рекуррентная нейронная сеть LSTM с векторизацией по модели Word2Vec. Так, типирование по шкале интуиции-сенсорики возможно с более высокой точностью.

Известно, что методика Word2Vec позволяет сопоставить слово с некоторым вычисленным на основе контекста вектором в многомерном семантическом пространстве. Таким образом, на выходе мы получаем матрицу распределения семантических полей текста. Можно сделать вывод, что именно такое распределение маркирует признак интуиции-сенсорики.

Наконец, высокая точность метрики TF-IDF, ранжирующей слова по критерию информационной важности, т.е. его редкости в корпусе и частотности в конкретном тексте, указывает на корреляцию данной психической функции с вокабуляром автора, соотношением редких и уникальных для корпуса в целом слов, используемых им в тексте. Конечно, в данном случае стоит принять во внимание размер собранного корпуса и его возможную нерепрезентативность по указанному критерию.

Заключение

По итогам проведенного исследования можно сделать вывод, что психотип действительно коррелирует с языковой личностью индивида, поскольку тексты представителей каждого типа отличают характерные языковые и речевые маркеры. Исходя из результатов анализа, одни и те же сильные функции, которые, очевидно, должны сопровождаться сходными лингвистическими признаками, в действительно в речи проявляются по-разному - в зависимости от того, какая еще функция является развитой.

Возможно, результаты типирования на данном этапе оказались не слишком высоки из-за выделения не самых показательных маркеров. Стоит учесть тот факт, что, например, частотному анализу подвергался главным образом морфологический уровень. Известно, что он отличается гораздо меньшей индивидуализированностью, чем лексический, семантический и синтаксический. Так, основные перспективы усовершенствования данного исследования и разработанного в ходе него программного продукта находятся в сфере отбора более репрезентативных признаков для классификации. Стоит обратить внимание и на равномерность их распределения, выделяя одинаковое количество ярких признаков развитости каждой функции.

Правдоподобным объяснением относительно невысокой точности классификации может служить усложненная модель Юнга, которая учитывает две дополнительные функции темперамента, “окрашивающие” проявления основных четырех. Таким образом, более детальная классификация может повлиять на точность результатов в лучшую сторону, если отобрать достаточное количество репрезентативных речевых признаков для определения психотипа.

Важным ограничением выступает неопределенность самой Юнговской модели психики и не стопроцентная валидность тестов-опросников, направленных на определение психотипа. Разработка и применение более точных методов классификации по типам Юнга, которая относится к сфере психологии, позволит уточнить результаты и обучить классификатор на более надежных данных, что, несомненно, улучшит показатели точности. Кроме того, требуется более глубокое психологическое обоснование (или опровержение) правомерности Юнговской теории.

Итак, в ходе исследования были решены следующие задачи:

1) Рассмотрены подходы к определению сознания в различных научных областях; проанализированы существующие в современной лингвистике концепции языковой личности, взгляды на структуру и организацию данного феномена, его связь с феноменом языкового сознания.

2) Проанализированы основные психологические типологии, в частности такие, авторы которых относительно подробно описывают лингвистический аспект проявления психологических особенностей личности. Определена классификация, наиболее подходящая для проведения практического исследования феномена связи между психологическими и лингвистическими особенностями личности. Таковой оказалась классическая типология К.Г. Юнга.

3) Выявлено и теоретически доказано на основе исследований различных лингвистов и психологов существование корреляции некоторой степени между психотипом и языковой личностью человека, сделаны наметки к определению характера связи между особенностями мышления и письменной речи индивида.

4) С помощью компьютерной программы mystem произведен морфологический разбор материалов исследования с целью их подготовки для последующего компьютерного анализа.

5) Собрана база речевого материала разных психотипов, каждый текст из которой был подвергнут автоматическому анализу и разными способами преобразован в некий числовой вектор, состоящий из частотных значений различных лингвистических признаков или показателей неких абстрактных семантических измерений, кодирующих слова. Все значения были нормализованы для корректной последующей обработки.

6) Разработана программа, обрабатывающая и классифицирующая тексты по типологии Юнга. С ее помощью проведен практический анализ текстов обладателей различных психотипов, показавший, что речевое оформление может действительно отличаться в зависимости от психических особенностей, и в таком случае каждая различительная особенность имеет определенные вербальные корреляты.

7) Установлена точность разных алгоритмов классификации, определены наиболее эффективные. Кроме того, сделаны предположения о факторах, оказавших отрицательное влияние на результаты работы классификаторов.

8) Сделаны выводы о том, какие показатели маркируют реализацию в речи юнговских психических функций и, соответственно, какие признаки могут быть использованы для классификации по разным функциональным шкалам психотипов.

Таким образом, цель исследования можно считать достигнутой - на вопрос о возможности определения психотипа по тексту можно дать скорее положительный, чем отрицательный ответ, однако это тема требует более детальной дальнейшей проработки, особенно со стороны психологии.

Наконец, для усовершенствования собственно алгоритма и, как следствие, более точной классификации необходимо сделать несколько важных шагов: существенно расширить базу текстов; произвести тщательный отбор релевантных признаков для исследования; расширить методологическую базу до более точных языковых моделей в сочетании с новыми, более тонкими лексическими и синтаксическими признаками; опробовать другие алгоритмы классификации, например, нейронные сети более сложной архитектуры.

Библиографический список

1. Алферова Ю.И. Профессионально маркированные компоненты языкового сознания, репрезентированные единицами родного и изучаемого языков: дис. канд. филол. наук: 10.02.19. Омск, 2005. 220 с.

2. Аугустинавичюте А. Соционика. М.: “Чёрная белка”, 2008. 568 с.

3. Богин, Г.И. Концепция языковой личности: автореф. дис. д-ра филол. наук: 10.02.19. Л., 1982. 31 с.

4. Богин Г.И. Современная лингводидактика. Калинин: Калинин, гос. ун-т, 1980. 61 с.

5. Вайсгербер, Й.Л. Родной язык и формирование духа; пер. с нем. 2-е изд., испр. и доп. М.: Эдиториал УРСС, 2004. 232 с.

6. Виноградов В.В. Избранные труды: О языке художественной прозы. М.: Наука, 1980. 360 с.

7. Гумбольдт В. Избранные труды по языкознанию. М.: Прогресс, 1984. 400 с.

8. Гуссерль Э. Идеи к чистой феноменологии и феноменологической философии. Книга первая. М.: Академический проект, 2009. 486 с.

9. Ильичев Л.Ф., Федосеев П.Н. и др. Философский энциклопедический словарь. М.: Советская энциклопедия, 1989. 836 с.

10. Карасик В.И. Языковой круг: личность, концепты, дискурс. Волгоград: Перемена, 2002. 477 с.

11. Караулов Ю.Н. Русский язык и языковая личность. Изд. 7-е. М.: Изд-во ЛКИ, 2010. 264 с.

12. Красных В.В. Виртуальная реальность или реальная виртуальность? М.: Диалог-МГУ, 1998. 352 с.

13. Красных В.В. Основы психолингвистики и теории коммуникации. М.: ИТДГК “Гнозис”, 2001. 270 с.

14. Леонтьев А.Н. Избранные психологические произведения. М.: Педагогика, 1983. 320 с. Т. 2.

15. Лурия А.Р. Язык и сознание. М.: Изд-во Моск. ун-та, 1998. 336 с.

16. Ляпон М.В. Проза Цветаевой. Опыт реконструкции речевого портрета автора. М., Изд-во “Языки славянской культуры”, 2010. 528 с.

17. Петровский А.В. Общая психология. 2-е изд., перераб. и доп. М.: Просвещение, 1976. 479 с.

18. Подласый И.П. Педагогика. М., 1996. 432 с.

19. Розина Р.И. Человек и личность в языке // Логический анализ языка: культурные концепты. М.: Наука, 1991. С. 52-56.

20. Романова Т.В. Современная языковая личность с точки зрения лингвоконфликтологии // Науковий вiсник ПЕЧАТЬ Пiвденноукранiського нацiонального педагогiчного унiверситету iм. К.Д.Ушинського, № 13. Лiнгвiстичнi науки, 2011. С. 302-312.

21. Романова Т.В. Человек и время: Язык. Дискурс. Языковая личность. Нижний Новгород: Нижегородский государственный лингвистический университет им. Н.А. Добролюбова, 2011. 249 с.

22. Рубинштейн С.Л. Бытие и сознание. М., 1957. 328 с.

23. Седов К.Ф. Речевое поведение и типы языковой личности // Культурно-речевая ситуация в современной России. Екатеринбург: Изд-во Уральского университета, 2000. С. 298-311.

24. Сёрл Дж. Открывая сознание заново. М.: Идея-Пресс, 2002. 256 с.

25. Сухих С.А. Лингвопсихологические параметры языковой личности. Краснодар, 1997. С. 80-84.

26. Сухих С.А. Черты языковой личности // Коммуникативно-функциональный аспект языковых единиц. Тверь, 1993. С. 85-91.

27. Тарасов Е.Ф. Актуальные проблемы анализа языкового сознания // Языковое сознание и образ мира. М.: ИЯ РАН, 2000. С. 24-35.

28. Тарасов Е.Ф. Язык и сознание: парадоксальная рациональность. М.: Институт языкознания РАН, 1993. 174 с.

29. Хайкин С. Нейронные сети: Полный курс. М.: Вильямс, 2006. 1104 с.

30. Щерба Л.В. О трояком аспекте языковых явлений и об эксперименте в языкознании // Языковая система и речевая деятельность. Л., 1974. С. 24-39.

31. Юнг К. Психологические типы под общей редакцией. М.: Прогресс - Универс, 1995. 761 с.

32. Breiman L. Random Forests // Machine Learning 45 (1). 2001. P. 5-32.

33. Chalmers, D. J. Facing up to the Problem of Consciousness // Journal of Consciousness Studies. Vol. 2, № 3. 1995. P. 200-219.

34. Chung J., Gulcehre C., Cho K., Bengio Y. Empirical Evaluation of Gated Recurrent Neural Networks on Sequence Modeling // Deep Learning and Representation Learning Workshop. 2014. P. 1-9.

35. Cristianini N., Shawe-Taylor J. An Introduction to Support Vector Machines and Other Kernel-based Learning Methods. Cambridge University Press, 2000. 660 p.

36. Hochreiter S. Long short-term memory // Neural Computation 9 (8). 1997. P. 1735-1780.

37. Larose D. Discovering Knowledge in Data: An Introduction to Data Mining. 2002. 222 p.

38. Mikolov T., Sutskever I., Chen K., Corrado G., Dean J. Distributed representations of words and phrases and their compositionality // Advances in neural information processing systems. 2013. P. 3111-3119.

39. Документация mystem. URL: https://tech.yandex.ru/mystem/doc/ (дата обращения 04.10.2017).

40. FastText library // The world's leading developing platform Github. URL: https://github.com/facebookresearch/fastText/ (дата обращения 08.03.2018).

41. Python 3.6.5 Documentation. URL: https://docs.python.org/3 (дата обращения 12.11.2017).

42. RusVectors: семантические модели для русского языка. URL: http://rusvectores.org/ru (дата обращения 08.03.2018).

Приложение

Психологическая анкета

1. Что такое работа в Вашем представлении? Зачем вообще нужна работа? Какие есть параметры, по которым Вы можете определить, справитесь ли Вы с работой или нет?

2. Как принято определять качество работы? Как Вы определяете качество работы? Насколько хорошо Вы можете определить качественность покупаемой вещи, и обращаете ли на это внимание?

3. Рядом с Вами работает профессионал. Вы постоянно видите, что у Вас не получается так, как у него. Ваши ощущения, мысли и действия?

4. Если что-то делается с трудом, что можно сказать об этом деле? Ваши дальнейшие шаги. Приведите примеры. Сравните с тем, как ведут себя в такой ситуации другие.

5. Вам нужно построить пирамиду, такую, как в Египте. Ваши мысли, действия?

6. Что такое от общего к частному, что такое от частного к общему? Приведите примеры.

7. Что такое логично? Ваше понимание. Согласуется ли Ваше понимание логичного с общепринятым? Легко ли быть логичным?

8. Что такое иерархия? Приведи примеры иерархии. Нужно ли подчиняться иерархии, почему? Приведи пример иерархии систем, что это такое?

9. Необходимо выбрать одно из нижеприведенных заданий на своё усмотрение и дать развёрнутый ответ-пояснение. Поясните свой выбор.

- В каком отношении находятся понятия "столовый прибор" и "ложка"?".

- Если А не Б, а Б не С, то А есть С. Верно ли это? Почему?

Если А не равно Б, а Б не равно С, то А равно С. Верно ли это? Почему?

- Необходимо классифицировать (выбрать одно): музыкальные стили; транспортные средства; налоги; топливо; животных.

- Что такое классификация? Каким образом она осуществляется? Зачем она нужна и где применяется? Приведите пример.

- "Овощ" - это не то, что перед нами, потому что "овощ" существовал и за тысячу лет до нас, - а, стало быть, овощ перед нами - не овощ". (Диоген Лаэрский). Найдите логическую ошибку.

- Проанализируйте известное утверждение Сократа "Я знаю, что я ничего не знаю". Логично ли оно?

10. Часто ли у Вас возникает необходимость структурировать информацию? С какой целью? Как это принято делать? Как Вы это делаете?

11. Умеете ли Вы надавить на других? Какими методами?

12. Какие есть стратегии нападения? Можете ли Вы их применить? Когда нападение оправдано? Считаете ли возможным занять чужую территорию и когда?

13. Как принято защищать себя и свои интересы?

14. Расскажите, как Вы ведете себя в ситуациях противостояния, в ситуациях, когда нужно проявить силу?

15. Считают ли Вас сильным человеком? Считаете ли Вы сами себя сильным человеком?

16. Расскажите, что такое красота? Меняется ли Ваше представление о красоте? Насколько Ваше понимание красоты согласуется с общепринятым?

Что в таком понимании выходит за пределы общепринятого?

17. Как Вы думаете, есть ли общий для всех шаблон понимания красоты? Можно ли сказать, что есть классическая красота?

18. Как Вы создаете уют и комфорт? Как другие оценивают ваше умение в создании уюта и комфорта? Согласны ли Вы с ними?

19. Как Вы выбираете одежду? Следуете ли Вы моде? Почему? Как Вы понимаете, что нужно одевать при определенной фигуре?

20. Не могли бы Вы рассказать, как Вы оформили какое-либо помещение (комнату, например)? Делаете ли это сами или доверяете кому-либо другому, почему?

21. Допустимо ли в обществе выражать, проявлять свои эмоции? Приведите примеры неуместного выражения эмоций.

22. Вспомните такие негативные состояния как печаль, уныние, тоска.

- Можете ли вы сами по собственной воле войти в это состояние, если нет, то как в него попадаете?

- Как долго можете находиться в таком состоянии?

- Как из него выходите?

- Может ли оно быть приятным, облегчающим?

23. Как быстро Вы можете изменить эмоциональное состояние? В какую сторону?

24. Какое эмоциональное состояние для Вас обычное? Соответствует ли Ваше внутреннее эмоциональное состояние тому, что Вы показываете наружу?

25. Расскажите о своем настроении за прошедший день.

26. Расскажите о том, как складывались отношения с окружающими за прошедший день.

27. Что такое сочувствие. Как его надо проявлять, как не надо, как Вы его проявляете?

28. Есть ли в обществе нормы поведения, отношений между людьми? Если да, то придерживаетесь ли Вы их? Всегда ли нужно следовать нормам отношений? Почему?

29. Что можно назвать морально, а что аморально? Как Вы понимаете это, и как понимают другие (большинство)? Можете ли Вы оценить правильность своего понимания?

30. К Вам кто-то проявляет явно негативное отношение. Ваша реакция? Можете ли сами выразить (показать, проявить) человеку свое негативное отношение к нему? Если да, то как? Можете ли долго плохо относиться к человеку? Прощаете ли Вы обиды?

31. Как Вы думаете, есть ли смысл жизни и в чем он заключается?

32. Когда Вы встречаете незнакомого человека, что Вы можете сказать о нем сразу же? Как Вы понимаете, что из себя представляет человек? Долго ли Вам приходится разбираться в качествах человека?

33. Что такое фантазия? Все ли люди обладают фантазией? А какая у Вас фантазия?

34. Как Вы относитесь к тому, что кто-то (Вы) сильно выделяется на фоне других людей, отличается чем-либо? Какая мера такого выделения, в чем оно возможно, в чем нет?

35. Ideas do not have to be correct in order to be good (Идеи не обязательно должны быть правильными, для того чтобы быть хорошими). Ваше мнение по этому вопросу.

36. Расскажите, как люди меняются? Как Вы относитесь к этим изменениям? Видят ли другие эти изменения?

37. Что такое время? Как Вы его чувствуете? Можете ли его убивать?

38. Нуждаетесь ли в помощи со стороны в плане предсказания, чем дело кончится? Доверяете ли таким прогнозам?

39. Опаздываете ли Вы? Как относитесь к опозданиям других?

40. Представьте ситуацию, что Вы договорились с кем-то встретиться. Ваши ощущения и действия если:

a) осталось 20 минут до прихода,

b) осталось 5 минут до прихода,

c) время пришло, а его (ее) нет,

d) уже прошло 20 минут, а его (ее) нет.

Размещено на Allbest.ru
...

Страница:

дипломная работа "Автоматическое определение психотипа автора текста" скачать

Подобные документы

Психология индивидуальных различий
Выявление собственного психотипа. Психографический тест А. Либина. Определение психотипа по К. Юнгу. Способы коррекции нежелательных черт личности. Методика определения "Типа личности" и "Вероятностных расстройств" данного типа Дж. Олдхэма и Л. Морриса.

реферат [40,2 K], добавлен 03.06.2013
Использование научающе-бихевиоральной теории личности Б. Скиннера в юридической психологии. Акцентуированные типы личности
Возможность рецепции юридической психологией знаний научающе-бихевиоральной теории личности Б. Скиннера. Анализ типологии акцентуированных типов, особенности каждого психотипа. Воздействие на отдельные стороны личности осужденного с целью его исправления.

контрольная работа [20,6 K], добавлен 29.10.2012
Вторичная языковая личность
Уровни вторичной языковой личности. Совокупность способностей и характеристик человека, обуславливающих создание и восприятие им речевых текстов, которые различаются степенью структурно-языковой сложности, глубиной и точностью отражения действительности.

презентация [124,8 K], добавлен 13.04.2015
Основные подходы к анализу и коррекции истероидов
Истероидная структура психотипа. Сущность реабилитации созависимости методом гештальт-терапии у подростков. Анализ личностных и речевых изменений в процессе восстановления нарушенного речевого общения (на примере семейной групповой логопсихотерапии).

реферат [23,6 K], добавлен 12.04.2010
Психология профессиональной деятельности (на примере новосибирской областной организации профсоюза работников строительства)
Анализ предмета и задач психологии профессиональной деятельности. Виды психотипов личности, определение влияния наличия того или иного психотипа на трудовую деятельность. Эмпирическое исследование показателей стрессоустойчивости и коммуникативности.

курсовая работа [106,5 K], добавлен 28.03.2012
Особенности взаимосвязи типов и видов направленности личности с межличностными отношениями старшеклассников
Рассмотрение понятия и основных составляющих направленности личности. Особенности межличностных отношений старших школьников. Выявление доминирующих типов акцентуаций личности и установление корреляционных связей между межличностными потребностями детей.

дипломная работа [1,0 M], добавлен 31.01.2012
Взаимосвязь компонентов медиаповедения с индивидуально-психологическими особенностями личности
Медиаповедение человека - уникальный феномен, его социально-психологические функции. Экспериментальное исследование взаимосвязи статистики медиапредпочтений и медиапотребления с индивидуально-психологическими особенностями личности из студенческой среды.

дипломная работа [778,6 K], добавлен 18.11.2013
Особенности взаимосвязи свойств нервной системы и типов темперамента
Физиологическая и психологическая основа типов темперамента и их краткая характеристика. Классификация типов высшей нервной деятельности. Анализ взаимосвязи свойств нервной системы и типов темперамента человека. Основные свойства эмоциональности личности.

курсовая работа [188,2 K], добавлен 06.12.2010
Основы психосоциальной работы
Понятие нормы психического здоровья. Относительность границ психической нормы и патологии. Зависимость поведения и характера от психотипа личности. Основные этапы проведения психокоррекционной работы. Психогенные расстройства, их особенности и причины.

шпаргалка [188,0 K], добавлен 07.10.2009
Соционика как наука. Особенности психотипа "Горький"
История становления соционики как науки о 16-ти психологических типах личности, ее предмет, объект и значение. Возможные сложности при типировании. Общая информация о психотипе "Горький", характеристика его сильных и слабых сторон, основные функции.

реферат [17,7 K], добавлен 28.12.2011
Психолого-типологические подходы к комплектации команды
Обзор психических функций личности: экстраверсия - интроверсия, ощущения, способ принятия решений, результат. Варианты диагностики психотипа в групповой форме. Соционика, как направление об информационном метаболизме психики и соционной природе человека.

контрольная работа [20,6 K], добавлен 29.03.2011
Психология зрительного восприятия сложных текстов
Психологический анализ когнитивных процессов чтения текста: проблема взаимосвязи восприятия и понимания учениками иноязычного текста. Исследования движений глаз при чтении сложных текстов. Влияние билингвизма на развитие ВПФ: нейропсихологический анализ.

реферат [20,7 K], добавлен 18.03.2010
Психологические особенности личности. Темперамент и характер
Понятие личности в психологии; определение ее направленности и устойчивости. Классификация человеческих способностей; способы их развития. Характеристика основных типов темперамента.Признаки волевого акта. Ознакомление с ролью эмоций в жизни человека.

контрольная работа [46,0 K], добавлен 31.07.2014
Классификация видов общения
Общение порождается социальными, общественными и другими потребностями человека, проявляющимися в стремлении выполнять совместную деятельность. Понятия структуры и функций общения непосредственно связаны с разными классификациями видов и типов общения.

контрольная работа [39,8 K], добавлен 30.03.2008
Представления родителей подростков о характере своего ребенка
Ознакомление с психологическими аспектами подросткового возраста. Рассмотрение процесса разработки диагностического инструментария для изучения представлений родителей подростков о своем ребенке. Определение и характеристика сущности семейных сценариев.

дипломная работа [69,8 K], добавлен 26.06.2017
Зависимость темперамента от типа личности
Свойства темперамента, характеристика его типов. Особенности типов личности – экстраверсии и интроверсии, их отличия от типов темперамента. Анкетирование контрольной группы на основе методик Лэйни М., опросник Г. Айзенка на определение типа темперамента.

курсовая работа [96,0 K], добавлен 05.05.2010
Сознание и самосознание
Ознакомление с основами исторического развития сознания у человека. Изучение сознания как высшей ступени развития психики. Взаимодействие сознания и подсознания, роль сна. Рассмотрение Я-концепции как одного из базовых понятий гуманистической психологии.

презентация [1,2 M], добавлен 17.11.2014
Особенности мотивации новичков-дистрибьюторов как фактор профессиональной неуспешности (на примере сетевого маркетинга)
Определение понятия мотивации в зарубежной и отечественной психологии. Определение взаимосвязи между эффективностью профессиональной деятельности и особенностями мотивационной сферы личности новичка-дистрибьютора методом статистической обработки.

дипломная работа [158,5 K], добавлен 06.05.2011
Основы психологии
Основание первой психологической лаборатории в Лейпцигском университете. Введение понятия "онтогенез". Определение понятий сознания, восприятия, непроизвольного внимания, воображения, социализации человека. Изучение особенностей типов темперамента.

контрольная работа [17,2 K], добавлен 12.06.2015
Психология личности. Структура личности. Способности и задатки
Определение понятия "личность". Характеристика основных свойств личности. Особенности системы ее направленности. Сущность методов психологического изучения личности, анализ ее структуры. Определение понятий "способности" и "задатки", их отличия.

контрольная работа [43,8 K], добавлен 10.09.2011

Другие документы, подобные "Автоматическое определение психотипа автора текста"

весь список подобных работ

скачать работу можно здесь

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.

Автоматическое определение психотипа автора текста

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Глава 4. Автоматическая классификация текстов

4.1 Предобработка и векторизация текстов

4.2 Методы машинного обучения

4.3 Нейронные сети для классификации текстов

4.4 Результаты классификации

Заключение

Библиографический список

Приложение

Психологическая анкета

Подобные документы

	TF-IDF	Частотные черты	Word2Vec	FastText
kNN	0.55	0.49
SVM	0.4	0.54
Random forest	0.47	0.6
Dense	0.53	0.46
biLSTM	0.43	0.66	0.52	0.54
GRU	0.4	0.61	0.41	0.38