Исследование влияния пола и психологических характеристик автора на количественные параметры его текста с использованием программы Linguistic Inquiry and Word Count
Знакомство с основными проблемами моделирования личности по письменной речевой продукции. Особенности влияния пола и психологических характеристик автора на количественные параметры его текста с использованием программы Linguistic Inquiry and Word Count.
Рубрика | Иностранные языки и языкознание |
Вид | статья |
Язык | русский |
Дата добавления | 26.01.2019 |
Размер файла | 32,6 K |
Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже
Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.
Размещено на http://www.allbest.ru/
Исследование влияния пола и психологических характеристик автора на количественные параметры его текста с использованием программы Linguistic Inquiry and Word Count
Рассматриваются вопросы диагностирования психологических и иных характеристик личности автора письменного текста. Авторы берут за основу тезис о том, что в тексте на разных его уровнях отражаются характеристики его автора (пол, возраст, психологические особенности и т. д.). Приводятся результаты пилотного исследования текстов на русском языке с использованием программы Linguistic Inquiry and Word Count (LIWC). С ее помощью выявляются взаимосвязи между характеристиками личности автора и количественными параметрами текста (доля слов некоторых частей речи, лексико-тематических групп, частота знаков препинания и т. д.). Актуальность и новизна исследования обусловлены тем, что на русскоязычных текстах программа ранее не применялась. Исследование выполнено на материале специального корпуса текстов Personality, снабженного метаразметкой, содержащей информацию об их авторах. Авторы считают необходимым использовать для выявления языковых коррелятов тех или иных устойчивых психологических характеристик текста только стабильные параметры текста, то есть сохраняющие устойчивость в разных текстах одного и того же автора. Отмечается, что в целом результаты исследования согласуются с данными, полученными с использованием этой программы на материале английского языка.
Введение
В современной науке является общепринятым положение о том, что текст несет информацию о личности его автора, однако нет единого мнения по поводу того, какие именно уровни текста наиболее информативны в этом отношении.
В настоящее время в мировой науке наблюдается всплеск интереса к исследованиям проблемы атрибуции (установления авторства) и диагностирования личностных характеристик личности автора письменного текста, что во многом обусловлено активным развитием интернет-коммуникации и практической необходимостью получения информации об авторах интернет-текстов в криминалистике, маркетинге и пр. Этой тематике посвящены тысячи научных публикаций, проводятся конкурсы на самые точные методики атрибуции текста и диагностирования характеристик личности его автора [PAN 2015]. В большинстве зарубежных исследований (выполненных преимущественно на материале английского языка) проблемы атрибуции текста и диагностирования личности по ее речевым произведениям изучаются на большом корпусном материале - образцах естественной письменной речи (в том числе текстах интернет-коммуникации), которые анализируются с использованием различных программных средств (морфологических и синтаксических парсеров, программ для подсчета лексического разнообразия текста и т. д.) (см., например: [Gender…, 2003; Automatically profiling…, 2009; Author profiling…, 2007; Rangel et al., 2013 и мн. др.; см. краткий обзор: Литвинова, 2013а]). В дальнейшем, анализируя эти данные, ученые с применением методов математической статистики ищут корреляции между параметрами текста и разнообразными характеристиками его автора и строят математические модели, в которых входными параметрами служат параметры текста, а выходными - характеристики личности.
Подобный подход к решению задачи диагностирования пола и психологических особенностей автора текста на русском языке был применен нами в предыдущих работах [Литвинова, 2013б; Литвинова и др., 2014; Диагностирование…, 2015]. На материале специального созданного корпуса текстов Personality, содержащего метаразметку в виде информации об их авторах (пол, возраст, баллы по психологическим тестам и т. д.) [Корпусные исследования…, 2015], нами был выявлен ряд корреляций между формально-грамматическими параметрами текста и характеристиками личности его автора, и на основе этих корреляций построены математические модели, показавшие достаточно высокую точность определения той или иной характеристики автора.
Во многих зарубежных работах, посвященных моделированию личности по письменной речевой продукции, для анализа текстов используется компьютерная программа Linguistic Inquiry and Word Count [The Development...] (обзор исследований, выполненных с использованием данной программы, см. в работе [Tausczik et al., 2010]).
Программа Linguistic Inquiry and Word Count подсчитывает в тексте доли (что позволяет избежать зависимости от объема текста) слов некоторых частей речи (местоимений, наречий, предлогов, союзов), слов длиннее 6 букв, частотности знаков препинания, доли в тексте слов тех или иных лексико-семантических категорий (слов, обозначающих положительные и отрицательные эмоции, восприятие, когнитивные процессы и т. д.). Разработаны версии программы для английского, датского, китайского, арабского, французского, немецкого, итальянского, португальского, сербского, испанского, турецкого, русского языков.
Для анализа текстов на русском языке программа впервые была использована нами - для выявления стабильных характеристик идиостиля [Литвинова, 2015], установления статистически значимых различий между «ложными» и «правдивыми» текстами [Литвинова и др., 2015]. Для выявления корреляций между параметрами текста на русском языке и устойчивыми психологическими характеристиками личности его автора данная программа ранее не использовалась, чем и определяется научная новизна настоящего исследования.
личность текст психологический
1.Материал и методы
В качестве материала исследования использовался созданный нами корпус текстов Personality [Корпусные исследования…, 2015]. Корпус содержит как образцы естественной письменной речи, так и данные об их авторах - пол, возраст, образование, результаты психологического тестирования и т.д.
В настоящей работе нами использовались два подкорпуса указанного корпуса текстов: первый (назовем его К1) содержит 150 текстов 75 респондентов одного возраста и результаты тестирования авторов по пятифакторному личностному опроснику, второй (К2) - 958 текстов от 479 респондентов одного возраста и результаты тестирования респондентов по Фрайбургскому многофакторному личностному опроснику FPI.
Для анализа текстов нами была использована версия программы Linguistic Inquiry and Word Count (LIWC) 2007 года со встроенным словарем для русского языка, который был получен в результате перевода словаря, составленного для английского языка.
В качестве параметров текста для дальнейших расчетов нами были выбраны только те вычисленные LIWC параметры текста, которые показали стабильность в наших предыдущих исследованиях [Литвинова, 2015]. Насколько нам известно, такой подход к решению проблемы моделирования личности автора текста используется впервые. Мы считаем необходимым использовать для выявления языковых коррелятов тех или иных устойчивых психологических характеристик текста только стабильные параметры текста, то есть сохраняющие устойчивость в разных текстах одного и того же автора.
В указанной работе [Литвинова, 2015], посвященной определению степени стабильности тех или иных параметров в текстах одного автора, с помощью программы LIWC нами было проанализировано 1188 текстов от 594 респондентов (по два текста от каждого автора) из корпуса Personality. Для определения устойчивых параметров в разных текстах одного и того же автора мы рассчитали среднее абсолютное отклонение значений всех параметров от их средней величины для конкретного автора. Далее мы определили коэффициент вариации каждого параметра для всех авторов корпуса текстов, что позволило нам оценить степень разбросанности значений параметров текста и понять, насколько она велика относительно их среднего значения. Статистический анализ показал, что рассчитанный коэффициент вариации для выбранных параметров текста лежит в достаточно широких пределах. Принимая во внимание, что значение коэффициента вариации менее 33 % свидетельствует об однородности совокупности данных, можно заключить, что в нашем случае это означает устойчивость параметра в текстах одного автора.
В группе устойчивых параметров нами были выделены две подгруппы: 1) подгруппа параметров, имеющих низкий коэффициент вариации (до 17 %) (линейно-стабильные параметры); 2) подгруппа параметров с более высоким коэффициентом вариации (от 17 до 33 %) (рекуррентно-стабильные).
К подгруппе линейно-стабильных в проанализированных нами текстах относятся следующие параметры: 1) доля слов длиннее 6 букв; 2) доля строевых слов; 3) доля предлогов; 4) доля слов группы «Мыслительные процессы»; 5) доля слов группы «Пространство»; 6) доля знаков препинания.
К подгруппе рекуррентно-стабильных параметров относятся следующие параметры: 1) доля местоимений; 2) доля личных местоимений; 3) доля союзов; 4) доля слов группы «Эмоции»; 5) доля слов группы «Положительные эмоции»; 6) доля слов группы «Время».
Именно эти параметры и использовались нами для расчета корреляций с характеристиками личности авторов (в виде баллов по Пятифакторному личностному опроснику и Фрайбургскому многофакторному личностному опроснику FPI).
2.Результаты и обсуждение
Для первого исследовательского корпуса (К1) посредством корреляционного анализа с использованием критерия Пирсона при тесноте связи p = 0,05 были установлены корреляции для пола автора с такими параметрами, как доля в тексте строевых слов (служебных слов и местоимений) (r = -0.258, p = 0,0286), доля личных местоимений (r = -0,251, p = 0,0333), союзов (r = -0,357, p = 0,00208), доля слов, обозначающих мыслительные процессы (r = -0,368, р = 0,00145). У женщин все эти показатели в среднем выше, чем у мужчин, что согласуется с результатами, полученными на материале английского языка [Nini, 2014; Tausczik et al., 2010].
Из психологических характеристик, измеряемых при помощи Пятифакторного личностного опросника (теста, наиболее часто применяемого в зарубежных работах по моделированию личности на основе анализа текста), были найдены корреляции для характеристик «Экстраверсия» (доля слов длиннее 6 букв, r = -0,230, p = 0,0469; более высокие значения этого параметра характерны для интровертов), «Доброжелательность» (доля слов длиннее 6 букв, r = -0,222, p = 0,05; более высокие значения этого показателя характерны для людей с низкими показателями по этой шкале, то есть для людей, стремящихся к независимости, обособленности, малообщительных), «Добросовестность» (доля слов, обозначающих эмоции, r = 0,233, p = 0,459; более высокие значения этого показателя характерны для людей с низкими показателями по этой шкале, то есть для людей, характеризующихся рациональным, практичным подходом к жизни).
Для второго подкорпуса К2 были получены следующие корреляции. Для пола были выявлены корреляции с долей местоимений в целом (r = -0,258, p = 0,00000001) и личных местоимений в частности (r = -0,246, p = 0,00000005) (для женщин характерны более высокие значения этих показателей).
Из всех характеристик, которые измеряются при помощи Фрайбургского многофакторного личностного опросника, были найдены корреляции параметров текстов только с уровнем невротичности (доля местоимений, r = 0,131, p = 0,0039; доля личных местоимений, r = 0,138, p = 0,002; более высокие показатели характерны для лиц с более высокими значениями по этой шкале), депрессивности (доля местоимений, r = 0,127, p = 0,005; доля союзов, r = 0,141, p = 0,00194; более высокие показатели характерны для лиц с более высокими значениями по этой шкале), эмоциональной лабильности (доля местоимений, r = 0,157, p = 0,0005; доля личных местоимений, r = 0,137; p = 0,0026, доля союзов, r = 0,147, p = 0,001; для текстов эмоционально лабильных авторов характерны более высокие значения этих параметров; доля слов тематической группы «Пространство», r = -0,149; p = 0,00120; для эмоционально лабильных авторов характерны низкие показатели по этому параметру).
Полученные результаты во многом согласуются с данными, полученными на материале других языков (преимущественно английского) [Nini, 2014; Tausczik et. al., 2010]. Заметим, однако, что сам по себе факт корреляционной зависимости не даёт основания утверждать, что одна из переменных предшествует или является причиной изменений, или то, что переменные вообще причинно связаны между собой, а не наблюдается действие третьего фактора [Елисеева и др., 2002, с. 229]. Так, корреляции параметра «доля местоимений» с такими характеристиками автора, как пол, уровень депрессивности, невротичности, эмоциональной лабильности, могут иметь в основе разные причины.
Связь уровня личных местоимений и пола может быть опосредованной тем фактом, что среди женщин в среднем выше уровень депрессивности, невротичности, эмоциональной лабильности, что в свою очередь может быть связано с особенностями гормонального статуса [Nini, 2015, p. 34]. Заметим, что поиск причин устойчивых корреляций между параметрами личности и текста - отдельная сложная научная проблема (см. подробнее: [Диагностирование…, 2015]).
Выводы
личность текст психологический
Таким образом, впервые для текстов на русском языке с использованием программы LIWC, широко применяющейся в зарубежных исследованиях проблемы моделирования личности на основе анализа текста, на обширном корпусном материале был выявлен ряд корреляций между полом, психологическими характеристиками автора и параметрами его текста. Установлено, что в целом эти корреляции согласуются с результатами, полученными с использованием этой программы на материале английского языка. Однако выявленных корреляций было недостаточно для построения регрессионных моделей и диагностирования личностных характеристик автора на основе количественных параметров текста, как это было сделано в наших предыдущих работах [Литвинова, 2013б; Литвинова и др., 2014; Диагностирование…, 2015].
На наш взгляд, относительно небольшое число выявленных корреляций с использованием программы LIWC объясняется следующим:
1.Впервые в исследованиях проблемы моделирования личности по тексту в качестве параметров отбирались только продемонстрировавшие устойчивость в текстах одного автора.
2.Поскольку русскоязычный словарь программы LIWC был создан путем перевода английского словаря, требуется его независимая оценка и валидизация с привлечением русскоязычных респондентов.
Литература
1.Елисеева И. И. Общая теория статистики / И. И. Елисеева, М. М. Юзбашев ; под ред. И. И. Елисеевой. - 4-е изд., перераб. и доп. - Москва : Финансы и Статистика, 2002. - 480 с.
2.Диагностирование склонности автора письменного текста к аутоагрессивному поведению / Т. А. Литвинова, П. В. Середин, О. А. Литвинова, О. В. Загоровская, М. Е. Сердюк // Вестник Воронежского государственного университета. Серия: Лингвистика и межкультурная коммуникация. - 2015. - № 3. - С. 98-104.
3.Корпусные исследования письменной речи в решении задач судебного автороведения / Т. А. Литвинова, Е. В. Диброва, О. А. Литвинова, Е. С. Рыжкова // Филологические науки. Вопросы теории и практики. - 2015. - № 8. - Ч. 1. - С. 107-113.
4.Литвинова Т. А. Исследование лингвистических характеристик текстов, содержащих намеренно искаженную информацию, с помощью программы Linguistic Inquiry and Word Count / Т. А. Литвинова, О. А. Литвинова // Вестник МГОУ. Серия: Лингвистика. - 2015. - № 4. - С. 71-77.
5.Литвинова Т. А. К проблеме стабильности характеристик идиостиля / Т. А. Литвинова // Известия ЮФУ. Филология. - 2015. - № 3. - С. 98-106.
6.Литвинова Т. А. Профилирование автора письменного текста идиостиля / Т. А. Литвинова // Язык и культура. - 2013а. - № 3 (23). - С. 64-72.
7.Литвинова Т. А. Формально-грамматические корреляты личностных особенностей автора письменного текста / Т. А. Литвинова // Филологические науки. Вопросы теории и практики. - 2013б. - № 12 (30). - Ч. 1. - С. 132-135.
8.Литвинова Т. А. Частоты встречаемости последовательностей частей речи в тексте и психофизиологические характеристики его автора: корпусное исследование / Т. А. Литвинова, О. А. Литвинова, П. В. Середин // Вестник Иркутского государственного лингвистического университета. - 2014. - № 2. - С. 8-12.
9.Author profiling for English emails / D. Estival, T. Gaustad, S. B. Pham, W. Radford, B. Hutchinson // Proceedings of the 10th Conference of the Pacific Association for Computational Linguistics. - 2007. - Pp. 263-272.
Размещено на Allbest.ru
...Подобные документы
Определение коммуникативного намерения автора с опорой на собственную интуицию на примере отрывка из текста. Установление образа автора и характера дискурса. Ролевые отношения автора и адресата. Лексико-грамматический анализ ключевых слов текста.
курсовая работа [20,2 K], добавлен 23.07.2011Структура текста, морфологический уровень. Исследование текста с лингвистической точки зрения. Прямонаправленная и непрямонаправленная связность текста. Важность морфологического уровня текста в понимании структуры текста и для понимания интенции автора.
реферат [30,4 K], добавлен 05.01.2013Extra-linguistic and linguistic spheres of colour naming adjectives study. Colour as a physical phenomenon. Psychophysiological mechanisms of forming colour perception. The nuclear and peripherical meanings of the semantic field of the main colours.
реферат [193,7 K], добавлен 27.09.2013Definitiоn and features, linguistic peculiarities оf wоrd-fоrmatiоn. Types оf wоrd-fоrmatiоn: prоductive and secоndary ways. Analysis оf the bооk "Bridget Jоnes’ Diary" by Helen Fielding оn the subject оf wоrd-fоrmatiоn, results оf the analysis.
курсовая работа [106,8 K], добавлен 17.03.2014Style as a Linguistic Variation. The relation between stylistics and linguistics. Stylistics and Other Linguistic Disciplines. Traditional grammar or linguistic theory. Various linguistic theories. The concept of style as recurrence of linguistic forms.
реферат [20,8 K], добавлен 20.10.2014Etymology as a branch of linguistics. The term "folk etymology". Folk etymology as a productive force. Instances of word change by folk etymology. Articles that discuss folk etymologies for their subjects. Examples of folk etymology in common words.
реферат [11,7 K], добавлен 25.12.2010The theory and practice of raising the effectiveness of business communication from the linguistic and socio-cultural viewpoint. Characteristics of business communication, analysis of its linguistic features. Specific problems in business interaction.
курсовая работа [46,5 K], добавлен 16.04.2011Genre of Autobiography. Linguistic and Extra-linguistic Features of Autobiographical Genre and their Analysis in B. Franklin’s Autobiography. The settings of the narrative, the process of sharing information, feelings,the attitude of the writer.
реферат [30,9 K], добавлен 27.08.2011Finding the basic word order. Sentence word orders. Word order in different sentences: statements; questions; commands. Compound and complex sentences. Functions of sentence word order. Phrase word orders and branching. Normal atmospheric conditions.
реферат [24,2 K], добавлен 11.01.2011Word as one of the basic units of language, dialect unity of form and content. Grammatical and a lexical word meaning, Parf-of-Speech meaning, Denotational and Connotational meaning of the word. Word meaning and motivation, meaning in morphemes.
курсовая работа [29,6 K], добавлен 02.03.2011Проявление гендерной идентичности человека в ряде синтаксических конструкций его письменной и устной речи. Базовые различения маскулинности и феминности; исследование связи между синтаксическими особенностями речи и гендерными характеристиками человека.
дипломная работа [217,9 K], добавлен 25.08.2011General guidelines on word stress: one word has only one stress; stress vowels, not consonants. Origins of the word stress and the notion of accent. English accentuation tendencies. Typical patterns of stress of nouns, verbs, adjectives and adverbs.
курсовая работа [275,8 K], добавлен 12.04.2014Художественный текст как особый вид текста в переводческой практике, его структура и коммуникативная сущность. Особенности восприятия художественного текста. Примечания автора как вспомогательное средство в восприятии перевода произведения, его приёмы.
дипломная работа [63,9 K], добавлен 08.08.2012The general outline of word formation in English: information about word formation as a means of the language development - appearance of a great number of new words, the growth of the vocabulary. The blending as a type of modern English word formation.
курсовая работа [54,6 K], добавлен 18.04.2014The nature of English word stress - the key to excellent pronunciation and understanding of English. English speakers use word stress to communicate rapidly and accurately, even in difficult conditions. Word stress tendencies and functions, variation.
реферат [22,6 K], добавлен 06.02.2010Концепция Р.К. Миньяр-Белоручева. Основополагающие и вспомогательные компоненты коммуникации. Изучение действий и целей источника текста оригинала. Необходимость в переводе как речевой деятельности. Порождение и восприятие исходного и переводного текста.
презентация [360,3 K], добавлен 30.10.2013Понятие художественного текста как отражения картины мира. Когнитивно-эмоциональное единство мира героя текста, автора и концептуальной картины мира в целом. Сущность семы бытийности, категорий места, величины времени, субъективно-оценочной модальности.
реферат [40,2 K], добавлен 21.08.2010Обзор теоретических аспектов понимания иноязычного текста на слух, психологических основ аудирования как вида речевой деятельности. Описания контроля понимания услышанного, организации обучения аудированию на старшем этапе изучения иностранным языкам.
дипломная работа [105,4 K], добавлен 11.11.2011The description of neologisms: definition, diachronic analysis, cultural acceptance factor. The manor and major word building types, presents latest top 50 neologisms, analyzed and arranged in table according to their word building type, sphere of usage.
курсовая работа [43,5 K], добавлен 19.04.2011Выполнение перевода с английского языка на русский предложений с использованием форм притяжательного падежа, форм глаголов разных времен. Перевод текста о Великобритании и текста на тему экономического положения Великобритании, развитие ее коммуникаций.
контрольная работа [28,7 K], добавлен 17.11.2011