Главная Коллекция "Revolution" Иностранные языки и языкознание Типология и комбинаторика вербальных маркеров различных эмоциональных тональностей в интернет-текстах на русском языке

Типология и комбинаторика вербальных маркеров различных эмоциональных тональностей в интернет-текстах на русском языке

Обоснование понятия вербального маркера. Характеристика типологии вербальных маркеров восьми эмоций в русскоязычных интернет-текстах в соответствии с уровнем языковой системы, которому принадлежит маркирующая единица: лексические, морфологические.

Рубрика	Иностранные языки и языкознание
Вид	статья
Язык	русский
Дата добавления	30.09.2020
Размер файла	225,2 K

посмотреть текст работы

скачать работу можно здесь

полная информация о работе

весь список подобных работ

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Страница:

Размещено на http://www.allbest.ru/

ТИПОЛОГИЯ И КОМБИНАТОРИКА ВЕРБАЛЬНЫХ МАРКЕРОВ РАЗЛИЧНЫХ ЭМОЦИОНАЛЬНЫХ ТОНАЛЬНОСТЕЙ В ИНТЕРНЕТ-ТЕКСТАХ НА РУССКОМ ЯЗЫКЕ

маркер вербальный текст интернет

А.В. Колмогорова, А.А. Калинин, А.В. Маликова

Теоретически обосновывается понятие вербального маркера. Представлена типология вербальных маркеров восьми эмоций в русскоязычных интернет-текстах в соответствии с уровнем языковой системы, которому принадлежит маркирующая единица: лексические, морфологические, синтаксические, семантические, пунктуационные и текстовые. Приводятся примеры и статистика эффективности маркеров, рассматриваются их комбинаторные особенности.

Ключевые слова: эмоция; интернет-тексты; сентимент-анализ; вербальные маркеры; машинное обучение; когниция.

The Types and Combinatorics of Verbal Markers of Different Emotional Tonalities in Russian-Language Internet Texts

Anastasia V. Kolmogorova, Siberian Federal University (Krasnoyarsk, Russian Federation).

Alexander A. Kalinin, Siberian Federal University (Krasnoyarsk, Russian Federation).

Alina V. Malikova, Siberian Federal University (Krasnoyarsk, Russian Federation).

Keywords: emotion; Internet texts; sentiment analysis; verbal markers; machine learning; cognition.

The article aims to present theoretical grounds for the concept of the verbal marker, proposes a typology of such markers and summarizes observations about the impact of verbal marker combinations on the accuracy of the computer classifier designed to assign Internet texts in Russian to different emotional classes of texts. As a result of the complex analysis of the up-to-date information based on the international scholarship, the authors of the article give a definition of the term “verbal marker”. The latter is a unit or structure belonging to the one of the linguistic system levels, available to parametrization and appearing in the text as an indicator of processes, covert from direct observation, occurring in human cognitive system. According to the level of the linguistic system in which the unit or the structure with the marking function is localized, the authors propose to distinguish the following types of verbal markers relevant for the analysis of written texts: lexical markers, morphological markers, syntactical markers, semantic markers, punctuation markers and, finally, textual markers. To prove the practical viability of the conception, the authors applied it in their project conducted in the field of sentiment analysis and supposed to resolve the problem of attributing an Internet text in Russian to a particular class of emotions. The authors are deeply interested in the emotional tonality of Internet texts because they became one of the most common forms of texts in Russian, and the technology of their automatic assessment has the clearest commercial and social prospects. The concept of the classifier is based on eight emotions detected by Swedish neuroscientist H. Lovheim in relation to some specific combinations of the levels of monoamines in the limbic system of human brain. To build the classifier, the authors used the method of supervised machine learning which demands the sample selection and the extraction of features. As the data, the authors took 15,000 emotionally rich fragments of 60-80 words selected from the Russian social network VK public Podslushano [Overheard]. For sample extraction, firstly, the authors mapped eight emotional classes of Lovheim's model to a range of hashtags used by public group editors to publish users' posts. Secondly, each text from the sample was assessed by three informants on the crowdsourcing platform. After that, the preliminary classified data went through the expert linguistic analysis made by using multiple tools offered by the linguistic corpus manager Sketch Engine. This analysis led the authors to the extraction of a feature set for the SVM algorithm-based classifier. The analysis of eight texts classes by methods of corpus linguistics and the use of prototype of the classifier showed the dynamics of the weighted average fl-score while incorporating different verbal markers as the classifier features. Thus, the results of the research showed the greatest efficiency of lexical and punctuation markers. However, syntactical and morphological markers also proved to be effective for some classes of emotions. In addition, the authors stress the relevance of marker combinations for accuracy of the statistical models created by the classifier. At present, the fl-score of the classifier in different emotional classes of texts varies from 30% to 50%, which is comparable with the results showed by classifiers built for other languages.

Введение

Становление антропоцентрической парадигмы в языкознании способствовало изменению функционального статуса языковых данных в исследовательской деятельности. Так, если в системно-структурной лингвистике «показания» языкового материала служили для языковедов свидетельствами специфики устройства языковой системы, а исследователи- когнитивисты так называемой «первой волны» ставили своей целью объяснить различные языковые факты, опираясь на стоящие за ними ментальные феномены [1. С. 53], то сегодняшние лингвисты стремятся диагностировать скрытые от непосредственного наблюдения когнитивно-психологические процессы на основании установления корреляций между ними и употреблением в речи субъектом этих процессов тех или иных языковых единиц, структур.

Актуальность подобного подхода имеет под собой прагматические, теоретические и технологические основания.

Так, научные исследования, выполняемые при поддержке крупных корпораций, государственных и производственных структур, все более ориентированы на получение прагматически конкретных, ясных и применимых на практике результатов.

«Прорывной» с точки зрения теории явилась гипотеза о гипертекстуальном устройстве мозга, исходящей из постулата о том, что разум - это многослойная структура, сеть сетей нейронных сетей. Системной единицей функционирования такой гиперсети является ког - распределенная группа нейронов, сцепленная единым когнитивным опытом, в том числе - и опытом языковым [2]. Иными словами, если представить ког в виде снопа [Там же], то один или несколько его «колосьев», образующих в итоге единую вершину, представляют собой «следы» опыта взаимодействия со словом в некоторой когнитивно значимой для индивида ситуации. Следовательно, например, нейронные связи, сформированные в опыте переживания эмоции, отражают и опыт взаимодействия со словом в эмоционально маркированной ситуации таким образом, что, актуализировав первые, некий стимул актуализирует и вторые, и наоборот.

Наконец, технологический прорыв последних десятилетий дал возможность представителям всех наук, и в том числе лингвистам, использовать, во- первых, массивы «больших данных», а во-вторых, автоматизированные компьютерные приложения для обработки этих данных, в частности, в междисциплинарных исследованиях [3].

В лаборатории когнитивных исследований и прикладной лингвистики Института филологии и языковой коммуникации Сибирского федерального университета в течение нескольких лет ведется разработка теоретических оснований, сбор материала и создание технологического обеспечения для автоматического распознавания эмоциональной тональности интернет- текстов на русском языке.

Интернет-тексты в качестве объекта исследования имеют особую привлекательность, поскольку, во- первых, они формируют один из самых значимых сегментов речевой продукции носителей современного русского языка, а, во-вторых, разработка технологии автоматической оценки их эмоциональности имеет наиболее ясные коммерческие и социальные перспективы: она может быть использована для мониторинга субъективного эмоционального восприятия потребителями той или иной услуги, товара или события на основе оценки текстов форумов, чатов, паб- ликов, а также для мониторинга эмоциональной безопасности уязвимых социальных групп в социальных сетях (дети, подростки, пожилые люди).

Данная публикация ставит своей целью обобщить опыт установления корреляций между некоторым эмоциональным состоянием, переживаемым субъектом, и теми языковыми средствами, которые он использует в своей текстовой деятельности. В статье теоретически обосновывается понятие вербального маркера эмоций, приводится типология вербальных маркеров, делаются наблюдения о влиянии комбинации маркеров на точность работы классификатора, созданного в целях сентимент-анализа.

Понятие вербального маркера

Анализ научной лингвистической литературы, в которой используется понятие маркера, позволил сделать следующее обобщение: в лингвистике родовой термин «маркер» используется в ситуации, когда некоторая единица или структура наблюдается и фиксируется лингвистом на определенном отрезке речи / текста, продуцирование которого по времени совпадает с протеканием в сознании продуцента речи / текста недоступных прямому наблюдению коммуникативных, психических, когнитивных действий или процессов, косвенно указывая на них.

В зависимости от того, на каком уровне абстракции исследователь решается анализировать данные единицу и структуру, для их обозначения используются различные термины.

Так, анализируя интерпретативно-когнитивные процессы участников дискурсивного взаимодействия, оперируют терминами «дискурсивные маркеры» (discourse markers) [4, 5], «дискурсивные операторы» (discourse operators), «дискурсивные коннективы» (discourse connectives), а также «ключевые выражения» (cue phrases) [6].

В контексте средств реализации воздействующей функции языка указывается на важную роль прагматических маркеров, под которыми понимается перечень синтаксически разнородных лексем, обладающих свойствами индексальности, контекстной зависимости и многофункциональности, имеющих оценочную и метакоммуникативную функции, но лишенных концептуального значения [7].

Если исследователи сосредоточены на коммуникативно-жанровом аспекте речевого взаимодействия, то предпочтительным считают сочетание «речевой маркер». Например, в [8. С. 314] реплика «я не прокурор, чтоб с тобой по душам говорить» рассматривается как речевой маркер насмешливого отношения к жанру «разговор по душам», а описательное утверждение «я вчера разозлилась на тебя за то, что ты забыл про нашу годовщину» - как маркер установки на сотрудничество в ситуации бытового конфликта [9].

При рассмотрении корреляций между фонетическими и просодическими характеристиками речи (высотой основного тона, паузацией, акцентным выделением сегментов, ритмом речи, длительностью произнесения слов, звуков) и эмоциональным состоянием говорящего продуктивно используется терминологическое сочетание «речевые временные корреляты эмоций» [10], а для выявления специфической просодики кульминации в юмористических нарративах [11] - собственно «просодические маркеры».

Когда фокус внимания исследователя сосредоточен на лексических единицах, чаще всего в целях автоматической обработки и классификации текстов, то употребительной становится номинация «лексический маркер» [12].

В случаях, когда изучается совокупность единиц и структур разного уровня, совместная встречаемость которых указывает на некоторое неязыковое и недоступное наблюдению явление или феномен (правда и ложь, например [13]), используются обобщенные термины «лингвистические маркеры» или «вербальные маркеры». В работе [14] в качестве вербальных маркеров агрессии в рамках тактики возмущения рассматриваются и лексические (междометие ну, например), и синтаксические (неполные предложения), и пунктуационные (использование нескольких восклицательных знаков), и графические (запись всего предложения заглавными буквами) средства.

Представляется, что в качестве наиболее нейтральной родовой номинации следует использовать именно термин «вербальный маркер», поскольку, как показывает анализ лингвистической литературы, такая традиция уже сложилась - в случае, когда уровневая специфика маркеров не имеет значения, носит смешанный характер [15] или определяется уже post factum в результате исследования [16], авторы говорят об именно «лингвистических» или «вербальных маркерах».

С точки зрения своих онтологических характеристик, вербальные маркеры могут иметь качественное и количественное измерения. Так, для идентификации эмоционального состояния боязни, переживаемого персонажем художественного произведения, достаточным оказывается выявление в тексте такой качественной характеристики, как наличие лексем шепот, прятаться, бледный [17]. Но, например, для выявления и классификации текстов, написанных людьми, страдающими суицидальными мыслями, маркером является определенное статистически значимое количество так называемых «абсолютистских» слов (everyone, completely, never, etc.) [18]. А для исследования уровня манипулятивности политических текстов американских масс-медиа важным оказался не только статистически значимый порог частотности лексических маркеров манипуляции одного какого-то вида, но и степень полноты представленности в тексте различных маркеров из списка слов-предикторов [19]. Иными словами, можно говорить о трех измерениях маркеров: качественном, количественном интенсивном и количественном экстенсивном. В двух последних случаях маркер приобретает статус величины, которую можно измерить и, в соответствии с проведенным измерением, определить некую характеристику текста - маркер превращается в параметр [20. P. 3].

Таким образом, вербальный маркер - это единица или дискретная структура одного из уровней языковой системы, в ряде случаев поддающаяся параметризации, появление которой (а) само по себе или (б) в совокупности с другими релевантными единицами и / или (в) с определенной частотностью в сегменте речи / тексте косвенно указывает на некоторые сложные и недоступные непосредственному наблюдению процессы, феномены, фундированные в когнитивной деятельности, психической жизни продуцента речи / текста, способные при определенных условиях «запускать» аналогичные процессы во внутреннем мире реципиента речи / дискурса.

Методология выявления вербальных маркеров русскоязычных интернет-текстов различных эмоциональных классов

Ведущей методологией реализуемого нами проекта в целом является методология так называемого сентимент-анализа текстов. Это выявление эмоциональной тональности текста при помощи методов NLP (автоматической обработки естественного языка), статистики, машинного обучения [21]. Впервые этот термин был использован в статьях S.R. Das и M.Y. Chen [22], Pang, L. Lee и Sh. Vaithyanathan [23].

Существующие алгоритмы сентимент-анализа варьируются по критерию количества классов эмоций, к которым будут отнесены тексты в результате прохождения через классификатор: бинарные классификаторы определяют тональность текста как позитивную / негативную [24] или объективную / субъективную [25]; тернарные - как позитивную / нейтральную / негативную (например, при анализе тональности твитов, опубликованных на протяжении Чемпионата мира по футболу 2014 г.) [26]; многоклассовые осуществляют атрибуцию текста к конкретному классу эмоций, в соответствии с выбранной классификацией эмоций. Такова попытка итальянских исследователей распределить новостные статьи между тринадцатью классами эмоций, доминирующих в них [27]. Для русскоязычного материала используются преимущественно тернарные классификаторы [28, 29]. В нашем проекте решается задача создания многоклассового классификатора для русскоязычных текстов. На сегодняшний момент значение F-меры (гармоническое среднее между точностью и полнотой классификации) в различных эмоциональных классах текстов, а их 8 (+1 нейтральный), варьируется от 30 до 50%. Данный результат несколько лучше аналогичных показателей [30], где значение F-меры для семи эмоциональных классов текстов составило 47%, а для класса нейтральных текстов - 70%, однако еще не достигает показателей, типичных для бинарных классификаторов с точностью 60,6% для текстов с позитивной эмоциональной тональностью и 72,8 - с негативной [31].

Для выделения классов текстов согласно критерию ведущей эмоции, вербализованной в них, мы использовали классификацию эмоций Гуго Лёвхейма, который установил, что, хотя сами по себе эмоциональные состояния, являясь функцией от адаптивных систем человеческого организма, порождаются в лимбической системе и миндалевидном теле головного мозга, дальнейший сигнал об эмоции активируется и распространяется на другие отделы головного мозга благодаря действию трех моноаминов: серотонина, допамина и норадреналина. Такая система моноаминных медиаторов служит своеобразным «эмоциопроводом» для передачи информации об эмоции всем остальным отделам мозга [32. Р. 341]. Иными словами, изменение уровня того или иного моноамина является посланием для мозга об активируемой эмоции. Взяв за основу восьмичленную классификацию аффектов С. Томкинса, выявленную на основе анализа типов выражений лица, Г. Лёвхейм установил корреляцию каждой из восьми эмоций со специфической комбинацией уровней трех названных выше моноаминов. Исследователь визуализировал данную корреляцию в виде куба (рис. 1) на координатной плоскости с осями 5-НТ (серотонин), ИЕ (норадреналин), DA (дофамин). В зависимости от сочетания уровня данных гормонов в крови субъекта эмоции исследователь предложил восьмичленную классификацию эмоций, где первая номинация класса отражает наименее выраженную степень интенсивности эмоции-аффекта, а вторая - ее высшую точку (например, Злость - Гнев): Интерес / Возбуждение; Удовольствие / Радость; Удивление; Страдание / Тоска; Гнев / Ярость; Страх / Ужас; Презрение / Отвращение; Стыд / Унижение.

Данная модель представляется одной из наиболее объективных классификаций эмоций, существующих на сегодняшний день, поскольку она базируется на измеряемых физиологически фундированных параметрах, а количество выделяемых эмоций является удобным для дальнейшей работы с текстами.

Хотя существуют классификаторы для сентимент- нальностей, в качестве метода для нашего проекта мы анализа, построенные на использовании словарей то- выбрали технологию машинного обучения по прецедентам, основной принцип которой - по частным данным, представляющим набор пар «объект - ответ», выявить закономерности, присущие не только конкретной обучающей выборке, но и генеральной совокупности данных. Такой выбор обусловлен тем, что, как показывает анализ научных публикаций последних лет, методы машинного обучения существенно расширяют возможности обработки различного текстового материала. Существует два основных алгоритма машинного обучения - нейронные сети [33] и метод опорных векторов ^УМ) [34]. В нашей работе использован 8УМ алгоритм.

Рис.1

Для подобной технологии важнейшим этапом является этап формирования обучающей выборки - коллекции текстов, где каждому из них уже приписан эмоциональный класс: к примеру, некоторый текст вербализует эмоцию радости, а другой отмечен страданием.

Источником данных для обучающей выборки в нашем случае послужил паблик Подслушано в социальной сети ВКонтакте - проект, в котором пользователи анонимно делятся каждый день своими откровениями и жизненными ситуациями. Посты в паблике имеют объем 60-80 слов. По своей жанровой характеристике это нарративы, в которых объектом эмоции является, как правило, некоторая жизненная ситуация, переживаемая самим автором-нарратором в данный момент или пережитая в прошлом, а также ситуации, происходящие с другими людьми, но проецируемые нарратором, в силу эмпатии, на себя.

Для извлечения данных эмоциональные классы по Лёвхейму были соотнесены с хештегами, под которыми размещаются посты пользователей, поскольку именно хештеги в случае коммуникации в социальных сетях передают основной образ, идею [35] (табл. 1):

Таблица 1

Объем подкорпусов и их соотнесение с хештегами

Эмоциональный класс текстов (подкорпус)

Объем подкорпуса в токенах

Хештег в Подслушано

Страдание / Тоска

56 470

#Подслушано одиночество

Интерес / Возбуждение

184 074

#Подслушано успех

Удовольствие / Радость

85 117

#Подслушано счастье

Страх / Ужас

230 730

#Подслушано страшное

Брезгливость / Отвращение

45 868

#Подслушано фууу

Злость / Гнев

131564

#Подслушано БЕСИТ

Стыд / Унижение

70 232

#Подслушано стыдно

Удивление

288 272

#Подслушано наблюдения #Подслушано странное

Несмотря на то, что редакторы паблика самостоятельно категоризируют посты при помощи хештегов, тексты из каждого класса были рандомизированно оценены асессорами. В случае значительного разброса оценок асессоров данные подвергались повторной разметке информантами на одной из краудсорсинго- вых платформ. Так, например, произошло с корпусом текстов под хештегом #Подслушано_наблюдения#, в постах которого, по нашим оценкам, широко представлена эмоция удивления. Для проведения разметки асессорам в формате онлайн-опросника предлагалось поставить «галочку» напротив имени той эмоции, которую они чувствуют в данном текстовом фрагменте. В распоряжении информантов-асессоров было восемь двучленных имен эмоций и девятая номинация - нейтрально. Информанты не были ограничены в количестве приписываемых текстовому фрагменту эмоций. В итоге один и тот же текст оценивался тремя асессорами. Если в двух или трех ответах-оценках была указана эмоция удивления, то текст включался в класс текстов «Удивление», если подобная эмоция не была указана ни одним или всего одним информантом, он не включался в обучающую выборку.

Хотя классификатор способен самостоятельно строить статистические модели на основе закономерностей, устанавливаемых им на основе анализа обучающей выборки, но если «подать» ему на вход «лингвистические подсказки», т.е. языковые единицы, структуры, на присутствие которых или их частотность в текстах стоит «обратить особое внимание», то точность классификации значительно возрастает. Для того чтобы эти подсказки сформулировать, необходимо провести лингвистический анализ достаточно объемного массива текстов в каждой из категорий. Сделать это «вручную» чрезвычайно трудно, поэтому был использован инструментарий корпусной лингвистики, предлагаемый корпусным менеджером Sketch Engine. Корпусный менеджер - это специальная информационно-поисковая система, включающая программные средства для поиска данных в корпусе, получения статистической информации [36. С. 139]. В Sketch Engine мы загрузили восемь подкорпусов, каждый из которых соответствует одной из восьми эмоций, согласно Лёвхейму. Результаты, которые станут предметом обсуждения в следующей части статьи, были получены в ходе анализа данных восьми подкорпусов при помощи таких инструментов Sketch Engine, как анализ частотности лексемы / словоформы / синтаксемы, выявление комбинаторики лексем, создание конкордансов, тезаурусов для каждой лексемы из корпуса.

Приводимые далее данные об эффективности тех или иных вербальных маркеров для точности классификации получены в ходе работы с прототипом программы - классификатора текстов по их эмоциональной тональности, созданном на базе алгоритма Наивного байесовского классификатора с помощью языка программирования Python.

Типы вербальных маркеров эмоций и эффективность их применения в качестве параметров для работы классификатора

Лексические маркеры эмоции могут иметь различную экстенсивность: для атрибуции текста к определенному эмоциональному классу значимой может быть частотность как одной лексемы, так и коллока- ции. Кроме того, функцию маркирования эмоции может выполнять число различных лексем- репрезентантов какого-либо лексико-семантического поля (далее - ЛСП) или лексико-семантической группы (далее - ЛСГ), встречающихся в тексте.

Например, сравнительный анализ (1) относительной частотности, (2) статистической значимости по результатам TF / IDF взвешивания1 и (3) процентного соотношения текстов, содержащих хотя бы одну форму глагольной лексемы говорить, в восьми классах текстов из обучающей выборки показал, что в четырех эмоциональных классах текстов (Злость / Гнев, Удивление, Интерес / Возбуждение, Стыд / Унижение) значения всех трех параметров значительно выше, чем для оставшихся классов текстов. И наоборот, для класса текстов, передающих эмоциональную тональность Страдание / Тоска, лексема имеет самые низкие значения во всех трех типах измерений (столбцы 2-4, табл. 2).

Таблица 2

Относительная частотность и статистическая релевантность леммы говорить в восьми классах текстов

№

Название

Относ ительная частотность / ранг

Ранг в первой двадцатке и значение по результатам

TF / IDF взвешивания

% текстов в классе, содержащих говорить

1

Злость / Гнев

2,082.64 pm / 6

5

7.549767342194897

9,811

2

Удивление

1,765 pm / 6

11

7.09326299833163

13,138

3

Интерес / Возбуждение

1,684 pm / 3

3

7.432211883185744

12,361

4

Стыд / Унижение

1,580 pm / 6

6

7.915890436201671

12,528

5

Страх / Ужас

1,512.69 pm / 8

не входит в первые 20

13,078

6

Удовольствие Радость

1,186.6 pm / 10

не входит в первые 20

8,988

7

Брезгливость / Отвращение

1,046.48 pm / 13

не входит в первые 20

7,342

8

Страдание / Тоска

1,027.09 pm / 14

не входит в первые 20

5,030

Когда данный вербальный маркер был добавлен к уже показавшей свою эффективность базе параметров для автоматического анализа, точность классификации выросла на 1% для текстов из классов Брезгливость / Отвращение, Страх / Ужас и Удивление (см. табл. 4).

В ряду лексических маркеров эмоций важную роль играет частотность отдельных коллокаций. Так, кол- локация терпеть не могу оказалась маркером для класса текстов, передающих эмоцию гнева, злости (табл. 3), ее подача на вход классификатора в качестве параметра позволила на 0,5% улучшить точность классификации в классе Злость / Гнев (см. табл. 4):

(1) И я терпеть не могу, когда меня называют «человек с ограниченными возможностями» (Злость / Гнев).

Таблица 3

Абсолютная и относительная частотность коллокации терпеть не могу в восьми классах текстов

Класс /

коллокация

Страдание / Тоска

Интерес / Возбуждение

Удовольствие / Радость

Страх /

Ужас

Брезгливость / Отвращение

Злость /

Гнев

Стыд / Унижение

Удивление

Терпеть не могу

0

0

0

0

0

5/68.4 pm

1 /14.24 pm

1/1.73 pm

Наконец, анализ процентного соотношения текстов, содержащих 2 и более лексем из ЛСП «Смерть» (смерть, умирать, умереть, могила, похороны, кладбище, оплакивать, оплакать, скорбеть, хоронить, похоронить, скончаться, захоронить, погибнуть, погибать, кремировать, осиротеть и т.д.), в каждом из восьми классов показал, что наибольший процент таких текстов отмечается в эмоциональном классе Страх / Ужас (пр. 2) (27,153%), а наименьший - Брезгливость / Отвращение (0,6%). В результате добавления данного вербального маркера в качестве дополнительного к базовой группе параметров показатель weighted average f1-score, представляющий собой взвешенное по доле каждого класса гармоническое среднее значений точности и полноты классификации, вырос на 3% (см. табл. 4). Кроме того, в качестве параметров для работы классификатора свою эффективность показали ЛСП «Болезнь» (пр. 4) (weighted average f1-score + 4% (см. табл. 4)), «Одиночество» (пр. 3) (weighted average f1-score + 4% (см. табл. 4)), ЛСГ абсолютистских слов (нигде, никогда, ни с кем, всегда, все, везде и т.д.):

(2) У моей коллеги вчера во время похорон матери умер отец. Мать коллеги повезли на кладбище, а отца в морг. Врагу не пожелаешь такого (Страх / Ужас);

(3) Живу с молодым человеком. Он уехал в командировку на три недели. Я осталась в квартире одна. Думала, что это будет мой мини-отпуск, смогу больше времени посвятить уходу за собой и прочее.

Первые четыре дня было неплохо, но дальше стало сложнее. Завтракать одной, ложиться спать в пустой квартире... Я даже не представляла, как одиночество. пусть даже временное, может давить! В тот момент я задумалась о том, как люди живут совершенно одни. Особенно пожилые. Наверно, это крайне непросто, ведь человеку, как известно, нужен человек (Страдание / Тоска);

(4) У меня хронический гайморит, болею по два- три раза в год. Когда промываю нос морской водой и оттуда вываливаются большие зеленые сгустки... (Брезгливость / Отвращение).

Среди морфологических маркеров эмоций особо стоит отметить частотность сравнительной и превосходной степеней сравнения у наречий, которая оказалась важной для вербализации эмоции стыда. Наибольший разброс значений наблюдался у двух категорий: наречия в превосходной или сравнительной степени встречаются в 28,8% «стыдных» текстов, а в «гневных» текстах это значение минимально - 15,8%. При добавлении данного параметра точность классификации выросла на 4% именно в первом классе текстов (см. табл. 4).

Синтаксические маркеры представлены как определенными синтаксическими структурами, например, парцелляциями, так и доминированием у лексемы той или иной синтаксической функции или, наконец, специфической синтаксической комбинаторикой.

Наибольший процент текстов, содержащих парцелляцию, зафиксирован в эмоциональном классе Страх / Ужас (17,464%) (пр. 5), а наименьший - в классах Удивление (10,888%) и Унижение / Стыд (10,421%):

(5) Меня не стало, просто как будто и не было. Моя старенькая мама просто забыла, что я у нее есть. Она узнает всех - моего брата, своих сестер, даже бывшую одноклассницу. А меня - нет. После смерти папы она живет у меня, никто из родственников ее не навещает, брат даже не звонит спрашивать о ней. Но именно меня она забыла. Первую. И так обидно. Ощущение, что я и не жила вовсе (Страх / Ужас).

Использование частотности парцелляций в качестве одного из параметров для автоматической обработки текстов повысило точность атрибуции «удивительных» текстов на 1% (см. табл. 4).

Статистический анализ показал, что практически во всех классах текстов лексемы-соматизмы рука, нога, глаз входят в список из 20 лексем, имеющих наибольший статистический «вес» для текстов данного класса. Анализ синтаксических связей данных лексем выявил, что типичные синтаксические позиции данных соматизмов меняются в разных эмоциональных классах текстов. Например, среди всех классов текстов чаще всего (23% от всех синтаксических связей) соматизм рука занимает субъектную позицию в классах Злость / Гнев (например, руки чешутся, тянутся; рука устает, отекает) и Интерес / Возбуждение (19%) (руки затряслись (пр. 6), опустились, рука попала, повисла), а в классе текстов, маркированных эмоцией удивления, таких случаев вообще не зафиксировано, т.е. в «удивительных» текстах из нашего корпуса лексема рука никогда не играет роли агенса.

(6) Муж “сделал предложение” 5 лет назад. Вечер. Вхожу - темно, дорожка из свечей. Ванна с лепестками роз и коробочка в виде сердца. И он стоит, улыбается. У меня руки затряслись, слезы, а он не понимает, почему такая реакция. Беру коробочку, открываю - никак. Я сильнее. И тут она крошится, падает и ШИПИТ в ванной! Оказывается, он просто решил сделать мне сюрприз- релакс, а это была бомба для ванны. Знатных тогда пистонов отхватил, не понимая за что. А через неделю сделал предложение. Напсиховала)) (Интерес / Возбуждение).

А вот соматизм глаза наиболее часто занимает субъектную позицию как раз в текстах из подкорпуса Удивление - 21% от числа всех синтаксических связей лексемы в данном подкорпусе на фоне 7,8% в среднем по всем другим корпусам: глаза светятся, сияют, округляются, вылазят из орбит, радуются, выкатываются, дергаются, округляются и т.д.

Учет синтаксической комбинаторики также позволяет формировать новые достаточно эффективные параметры для атрибуции текстов. Например, синтаксема ЛБУинтенсификатор + ADJ оказалась характерна для текстов класса Удовольствие / Радость - 10,1% от всех текстов класса содержали данную синтаксему (пр. 7), а среднее значение по остальным классам не превышало 4,8%:

(7) Однажды я потеряла память: обнаружила себя на отдыхе в бунгало рядом с любимым мужчиной (помнила я только знакомство и то, что я влюбилась по уши). Может, это и странно, но никогда я не была так счастлива, как тогда. Ведь при знакомстве я была уверена, что такой мужчина мне, простушке, не светит, а тут я обнаружила, что мы молодожёны, что он меня любит. Будто бы мгновенное исполнение желания...

Синтаксема ЛБУинтенсификатор + ЛБУ присутствовала в 14,9% текстов из подкорпуса Унижение / Стыд (на фоне среднего значения по оставшимся подкорпусам 4,6%) (пр. 8):

(8) Все время злился на жену за то, что она непонятно куда тратит огромные суммы денег. Пилил ее за то, что не понимал, куда можно деть 2 000 гривен за день, и так регулярно. А потом заглянул в ее ноут по мелочи, увидел незакрытую вкладку и так узнал, что она постоянно перечисляет деньги в благотворительные фонды и на операции людям. Как же стыдно за свои слова. Я никогда в средствах не нуждался, за все 30 лет жизни даже и не думал помогать людям. Теперь понял, что живу с ангелом.

Совместное применение в качестве параметров для классификации вербальных маркеров, связанных с синтаксической позицией субъекта, у соматизмов и двух вышеописанных синтаксем дало увеличение гармонического среднего значений точности и полноты классификации на 1%, а по отдельным классам текстов - точность в классе Злость / Г нев увеличилась на 1%, а в классе Стыд / Унижение на 19% (см. табл. 4).

Наибольшую трудность для обнаружения и дальнейшей параметризации представляют семантические маркеры. Например, одним из таких маркеров для выявления эмоциональной тональности является использование соматизмов в каритивных конструкциях в подкорпусе текстов Страх / Ужас:

(9) Сестра очень много болеет. Не просто простудами, а потяжелее. Одной почки нет, легких 1,5 штуки, матку ей вырезали, кардиостимулятор на сердце, нет пальцев на правой ноге. Живет практически в больницах. На днях нашли лейкемию. А сегодня подошла ко мне и призналась, что рада. Рада, что больше не придется все это терпеть. Так больно мне ещё не было (Страх / Ужас);

Причем маркирующий характер в данном случае заключается не в частотности каритивных конструкций, а в их наличии, поскольку для остальных подкорпусов каритивные конструкции вообще не характерны. Хотя данный маркер, будучи использован изолированно, не показал своей эффективности в качестве параметра для работы классификатора, мы полагаем, что его значимость обнаружится при сочетании с другими маркерами.

Пунктуационные маркеры являются, пожалуй, наиболее простыми для выявления и параметризации. Так, например, пунктуационные знаки «?» и «!», а также «?!» характерны в наибольшей степени для текстов из эмоционального класса Злость / Гнев (26,6%; 64,5% и 7,2% текстов из подкорпуса содержат данные знаки соответственно), а в наименьшей - для эмоциональных классов Брезгливость / Отвращение (6,5% текстов содержат «?») и Страдание / Тоска (10,2% содержат «!» и 0,4% включают знак «?!»). Добавление данных маркеров в качестве параметров к уже показавшей свою эффективность группе параметров дало увеличение гармонического среднего значений точности и полноты классификации на 6%, что значимо (табл. 4).

Наконец, такой сложный маркер, как способ передачи чужого слова. По сути дела, этот маркер уходит своими корнями в нарративно-текстовую категорию диегезиса: если нарратив ведется от первого лица (го- мидиегезис), то доминировать будет передача чужой речи в форме косвенной, как правило, интегрированной в придаточное дополнительное предложение (говорит, что...); в случае гетеронарратива, где нарратор выдает себя за беспристрастного наблюдателя за действующими как бы по своей воле персонажами, доминирует передача слов другого в виде его прямой речи. При анализе текстов жанра интернет-откровений выяснилось, что тип диегезиса даже в текстах непрофессиональных авторов претерпевает влияние испытываемой эмоции: в текстах из подкорпуса Страдание / Тоска доминирует косвенная речь, а в текстах из подкорпусов Страх / Ужас и Удивление - прямая.

Таблица 4

Динамика значений гармонического среднего значений точности и полноты классификации при включении различных вербальных маркеров в качестве параметров, подаваемых на вход классификатору

Маркер

weighted average f1-score, %

% увеличения точности в отдельном классе

1

АО'У'интенсификатор + АОТ

+i

+1 Злость / Гнев +19 Стыд / Унижение

2

А0'^интеисификатор + АОА”

3

Соматизмы в субъектной позиции

4

?

+6%

+9 Страдание / Тоска +7 Страх / Ужас

5

!

+15 Злость / Гнев +2 Страдание / Тоска

6

?!

-

7

Парцелл.

без изменений

+1 Удивление

8

ЛСП болезнь

+4

-

9

ЛСП смерть

+3

-

10

ЛСП одиночество

+4

11

Терпеть не могу

без изменений

+0,5 Злость / Гнев

12

Степени сравнения наречий

без изменений

+4 Стыд / Унижение

13

Говорить

без изменений

+1 Брезгливость / Отвращение, Страх / Ужас, Удивление

Хотя данный маркер, будучи использован изолированно, не показал своей эффективности в качестве параметра для работы классификатора, мы полагаем, что его значимость будет ощутима при сочетании с другими параметрами, однако их набор еще предстоит установить.

Как видно из данных (табл. 4), наибольшую эффективность для увеличения гармонического среднего значений точности и полноты классификации имеют лексические и пунктуационные маркеры, но для отдельных классов (Стыд / Унижение) более эффективными оказываются, например, синтаксические и морфологические маркеры или пунктуационные (Страдание / Тоска).

Комбинаторика маркеров

Как показал анализ, маркеры эмоций чувствительны к синтагматическим отношениям: они вступают в различного рода комбинации с другими маркерами, что оказывает влияние на их значимость в качестве параметров, подаваемых «на вход» классификатору в целях увеличения точности производимой классификации - значимость может увеличиваться или нивелироваться.

Нами отмечено 3 типа комбинаторных отношений вербальных маркеров: 1) взаимное дополнение, приводящее к усилению маркирующей функции; 2) взаимная нейтрализация, сводящая маркирующую функцию к нулю; 3) конкуренция, обусловливающая появление амбивалентности контекстов и противоречивость их интерпретации, что также приводит к снижению точности классификации.

Рассмотрим три примера, иллюстрирующие каждый из вышеупомянутых типов отношений.

Так, последовательное добавление к базовым параметрам, подаваемым «на вход» классификатора, вербальных маркеров (1) частотность «ADVинтенсифика- тор + ADV», (2) присутствие ЛСГ «служебные слова со значением отрицания» (не, нет, ни), а затем (3) частотность пунктуационных знаков «!», «?» дало, соответственно, «прирост» гармонического среднего значений точности и полноты классификации на 1%, на 3% и на 3%, а по отдельным эмоциональным классам текстов - до 43%. Однако, когда к этой «успешной» комбинации был добавлен вербальный маркер ЛСГ «вопросительные наречия» (будучи задан изолированно, данный параметр показал значимый прирост), точность классификации в отдельных классах упала до 0 (Стыд / Унижение). Соответственно, именно первые три из упомянутых маркеров «работали» друг на друга, реализуя отношения дополнения. Четвертый же маркер полностью нивелировал маркирующую функцию первых трех. Иными словами, совокупный учет значений первых трех маркеров (параметров) позволил классификатору создать достаточно успешную статистическую модель, которая перестала работать с добавлением следующего.

Как пример конкуренции приведем, несмотря на то что в фокусе нашего внимания находятся вербальные маркеры, взаимодействие вербальных и невербальных маркеров - эмотиконов. Подобное логическое отступление обусловлено иллюстративной силой данных наблюдений. При использовании хорошо зарекомендовавшей себя базовой комбинации вербальных маркеров значение гармонического среднего значений точности и полноты классификации достигло 48%, но, когда к этим маркерам были добавлены эмотиконы, среднее значение упало до 46%, а для отдельных классов текстов «падение» составило около 5%. Анализ примеров таких текстов показал, что маркирующие функции эмотиконов вступают в конкурентные отношения с вербальными маркерами, что провоцирует противоречия, снижающие эффективность выстраиваемой классификатором статистической модели. Например:

(10) Где-то прочитала, что 15 февраля - день одиноких людей. Кажется, у меня сегодня будет пра- ааздникТ

В данном примере, иллюстрирующем феномен сарказма, мы имеем, с одной стороны, эффективный вербальный маркер эмоционального класса «Страдание / Тоска» - лексическую единицу-репрезентант ЛСП «Одиночество», а с другой - невербальный маркер. Это эмотиконы «праздничное конфетти» и «звон бокала», которые принадлежат семантическому полю «Праздник». Данный невербальный маркер получает и лексическую поддержку - у меня сегодня будет праааздник.

ЗАКЛЮЧЕНИЕ

Промежуточные итоги проводимого исследования демонстрируют, что в условиях технологической поддержки корпусного инструментария понятие вербального маркера становится основой для проведения автоматической классификации текстов по критерию их эмоциональной тональности. Вербальные маркеры, наблюдаемые на большой коллекции размеченных по принципу «объект - ответ» (текст - тональность) текстов, базируются на единицах и структурах, принадлежащих разным уровням языковой системы: лексическому, синтаксическому, морфологическому, пунктуационно-графическому, а также уровню текстовой реализации. Анализ показывает, что при учете их комбинаторных особенностей вербальные маркеры становятся статистически значимыми и эффективными инструментами для установления корреляций между речевым поведением человека, с одной стороны, и его эмоциональными переживаниями, «запускаемыми» на физиологическом уровне тремя моноаминами, согласно Г. Лёв- хейму, - с другой. Описание системы таких корреляций будет иметь не только практическое значение для создания технологии автоматической классификации интернет-текстов, но и теоретическую значимость, поскольку послужит доказательством единства когнитивной природы языка и эмоций, объединенных гиперсетью мозга.

ПРИМЕЧАНИЕ

Статистическая мера, используемая для оценки важности слова в контексте документа, являющегося частью коллекции документов или корпуса. Вес некоторого слова пропорционален количеству употребления этого слова в документе и обратно пропорционален частоте употребления слова в других документах коллекции.

ЛИТЕРАТУРА

1. Жаботинская С.А. Имя как текст: концептуальная сеть лексического значения (анализ имени эмоции) // Когниция, коммуникация, дискурс. 2013. № 6. С. 47-76. иЯЬ: http://sites.google.com/site/cognitiondiscourse/ (дата обращения: 04.03.2019). DOI: 10.26565/2218-29262013-06-04

2. Анохин К.В. Когнитом - гиперсетевая модель мозга // Материалы XVII Всероссийской научно-технической конференции Нейроинформатика - 2015. иЯЬ: http://neuroinfo.mephi.ru/conf7Content/Presentations/Anokhin2015.pdf (дата обращения: 14.02.2019).

3. Масевич А.Ц., Захаров В.П. Методы корпусной лингвистики в исторических и культурологических исследованиях // Компьютерная лингвистика и вычислительные онтологии : сб науч. ст. Труды XIX Междунар. объединённой науч. конф. «Интернет и современное общество» (IMS-2016). СПб. : Университет ИТМО, 2016. С. 24-43.

4. Подлесская В.И., Кибрик А.А. Дискурсивные маркеры в структуре устного рассказа: опыт корпусного исследования // Компьютерная лингвистика и интеллектуальные технологии : по материалам ежегодной Междунар. конф. «Диалог 2009». М. : РГГУ, 2009. Вып. 8 (15). С.390-395.

5. Fraser B. What Are Discourse Markers? // Journal of Pragmatics. 1999. 31 (7). P. 931-952.

6. Knott A., Sanders T. The Classification of Coherence Relations and Their Linguistic Markers: An Exploration of Two Languages // Journal of Pragmatics. 1998. 30 (2). P. 135-175. URL: https://doi.org/10.1016/S0378-2166(98)00023-X

7. Furko P. The Pragmatic Marker - Discourse Marker Dichotomy Reconsidered: The Case of `Well' and `Of Course'. Debrecen : Debrecen Univer

sity Press, 2007. 136 р.

8. Дементьев В.В. Теория речевых жанров. М. : Знак, 2010. 600 с.

9. Белова Е.В. Речевые маркеры бытового конфликта // Вестник ТвГУ. Сер. Филология. 2017. № 2. С. 157-161.

10. Потапова Р.К., Потапов В.В. Временные корреляты эмоции как специфические индивидуальные параметры идентификации говорящего в судебной фонетике // Акустика речи и прикладная лингвистика: Ежегодник Российского акустического общества / отв. ред. Р.К. Потапова. М., 2002. Вып. 3. С. 3-13.

11. Pickering L. et. al. Prosodic Markers of Saliency in Humorous Narratives // Discourse Processes. 2009. 46 (6). P. 516-540.

12. Зубова И.И. Автоматическая идентификация конфликтной речевой ситуации в письменном тексте // Инновации в науке и практике : сб. ст. по материалам VIII междунар. науч.-практ. конф. 2018. С. 35-42.

13. Arciuli J., Mallard D., Villar G. “Um, I can tell you're lying”: Linguistic markers of deception versus truth-telling in speech // Applied Psycholin- guistic. 2010. Vol. 31. P. 397-411.

14. Фомин А.Г., Якимова Н.С. Тактики и маркеры вербальной агрессии в коммуникативном поведении россиян и американцев (по материалам речеситуативного исследования) // Сибирский филологический журнал. 2012. № 2. С. 197-207.

15. Al-Mosaiwi M., Johnstone T. Linguistic markers of moderate and absolute natural language // Personality and Individual Differences. 2018. Vol. 134. P. 119-124. URL: https://doi.org/10.1016/j.paid.2018.06.004

16. Cohen K. et. al. Detecting Linguistic Markers for Radical Violence in Social Media // Terrorism and Political Violence. 2014. 26 (1). P. 246-256.

17. Колосов Я.В. Лингвистические корреляты эмоционального состояния «страх» в русской и английской речи: формирование базы данных : дис. ... канд. филол. наук. М., 2004. 214 c.

18. Al-Mosaiwi M., Johnstone T. In an Absolute State: Elevated Use of Absolutist Words Is a Marker Specific to Anxiety, Depression, and Suicidal Ideation // Clinical Psychological Science. 2018. Vol. 6, is. 4. P. 529-542. URL: https://doi.org/10.1177/2167702617747074

19. Колмогорова А.В., Горностаева Ю.А., Калинин А.А. Разработка компьютерной программы автоматического анализа и классификации поляризованных политических текстов на английском языке по уровню их манипулятивного воздействия: практические результаты и обсуждение // Политическая лингвистика. 2017. № 4 (64). С. 67-75.

20. Raza M.S., Qamar U. Understanding and Using Rough Set Based Feature Selection: Concepts, Techniques and Applications. Singapore : Springer, 2017. 194 p.

21. Сарбасова А.Н. Исследование методов сентимент-анализа русскоязычных текстов // Молодой ученый. 2015. № 8. С. 143-146.

22. Das S., Chen M. Yahoo! for Amazon: Extracting market sentiment from stock message boards // Proceedings of the Asia Pacific Finance Association Annual Conference (APFA). 2001. P. 1-16.

23. Pang B., Lee L., Vaithyanathan Sh. Thumbs up? Sentiment classification using machine learning techniques // Proceedings of the Conference on Empirical Methods in Natural Language Processing (EMNLP). 2002. P. 79-86.

24. Hogenboom A., Frasincar F., Jong F., Kaymak U. Polarity Classification Using Structure-Based Vector Representations of Text // Decison Support Systems. 2015. Vol. 74. P. 46-56.

25. Banea C., Mihalcea R., Wiebe J., Hassan S. Multilingual Subjectivity Analysis Using Machine Translation // Proceedings of the 2008 Conference on Empirical Methods in Natural Language Processing. 2008. P. 127-135.

26. Lucas G.M., Gratch J., Malandrakis N., Szablowski E., Fessler E., Nichols J. GOAALLL!: Using Sentiment in the World Cup to Explore Theories of Emotion // Image and Vision Computing. 2017. P. 58-65. doi:10.1016/j.imavis.2017.01.006

27. Staiano J., Guerini M. DepecheMood: A Lexicon for Emotion Analysis from Crowd-Annotated News // Proceedings of the 52nd Annual Meeting of the Association for Computational Linguistics (Short Papers). Baltimore, Maryland : Association for Computational Linguistics, 2014. P. 427-433.

28. Loukachevitch N.V., Blinov P.D., Kotelnikov E.V., Rubtsova Y.V., Ivanov V.V., Tutubalina E.V. SentiRuEval: Testing Object-Oriented Sentiment Analysis Systems in Russian // Computational Linguistics and Intellectual Technologies: Proceedings of the Annual International Conference “Dialogue 2015”. Moscow, 2015. Vol. 14 (2). P. 3-15.

29. Loukachevitch N.V., Rubtsova Y.V. SentiRuEval-2016: Overcoming Time Gap and Data Sparsity in Tweet Sentiment Analysis // Computational Linguistics and Intellectual Technologies: Proceedings of the Annual International Conference “Dialogue 2016”. Moscow, 2016. Vol. 15. P. 416-426.

30. Alm C.O., Rot D., Sproat R. Emotions from Text: Machine Learning for Text-based Emotion Prediction // Proceedings of Human Language Technology Conference and Conference on Empirical Methods in Natural Language Processing. Vancouver, 2005. P. 579-586.

31. Thelwall M., Buckley K., Paltoglou G., Cai D. Sentiment Strength Detection in Short Informal Text // Journal of the American Society for Information Science and Technology. 2010. Vol. 61 (12). P. 2544-2558.

32. Socher R., Perelygin A., Wu J.Y., Chuang J., Maning Ch. Ng A.Y., Potts Ch. Recursive Deep Models for Semantic Compositionality Over a Sentiment Treebank // Proceedings of the Conference on Empirical Methods in Natural Language Processing. 2013. P. 1631-1642.

...

Страница:

статья "Типология и комбинаторика вербальных маркеров различных эмоциональных тональностей в интернет-текстах на русском языке" скачать

Подобные документы

Интертекстуальность в художественных текстах и особенности ее реализации
Определение интертекста и интертекстуальности. Анализ маркеров интертекстуальности. Источники интертекстов и специфика их функционирования в художественных текстах. Виды языковой реализации в тексте. Применение аллюзии, цитации, афоризма и пародии.

курсовая работа [48,3 K], добавлен 04.10.2013
Языковые особенности Интернет-общения
Лексические, морфологические, синтаксические, графические особенности Интернет-текстов с сайта общения "Ответы@mail.ru" и никнеймов из Приложения для обмена короткими текстовыми сообщениями "Agent Mail.ru". Лингвокультура казахстанского Интернет-общения.

дипломная работа [119,8 K], добавлен 07.05.2014
Языковая игра в текстах современной рекламы
Реклама как форма массовой коммуникации. Основные виды рекламных текстов и их особенности. Роль языковой игры в заголовках и текстах. Фонетические, синтаксические средства и игровые приемы современной рекламы на лексическом уровне языковой системы.

дипломная работа [97,9 K], добавлен 08.10.2017
Метафора как способ создания языковой картины мира на примере англоязычной прессы
Понятие языковой картины мира и роль метафоры в ее создании. Анализ использования в текстах англоязычной прессы различных метафорических конструкций. Оценка употребления метафор в текстах англоязычной прессы и способов создания языковой картины мира.

дипломная работа [248,7 K], добавлен 24.03.2011
Метафоры в PR-текстах на примерах речи политиков и журналистов
Исследование метафоры как PR-приема в языке политики. Анализ понятия, особенностей структуры и функционирования метафоры на примере выступлений политиков. Изучение политического дискурса в России. Характеристика языковой агрессии в газетных публикациях.

курсовая работа [44,2 K], добавлен 19.12.2012
Интернет-лексика
Характеристика речевого поведения в Интернете. Структурные особенности, стилистика, механизмы формирования и функционирования Интернет-лексики в русском языке начала XXI века; становление технологий общения. Воздействие языка Рунета на повседневную речь.

курсовая работа [43,7 K], добавлен 18.01.2014
Специфика воспроизведения иронии в англо-русском переводе
Исследование языковых средств выражения иронии в художественных текстах. Определение критериев для отбора иронически маркированных стилистических средств. Характеристика лингвистических механизмов формирования иронического эффекта в английском языке.

курсовая работа [651,4 K], добавлен 21.06.2011
Проблема вербальных стереотипов в интернет-коммуникации
Зарубежные исследования в области гендера, в отечественном языкознании. Автороведение и интернет коммуникация. Молодежный сленг: история исследования и функционирование. Семантическая и стилистическая синонимия. Компьютерный жаргон как гендерный маркер.

аттестационная работа [148,1 K], добавлен 14.02.2011
Проблема перевода сленга в интернет-текстах
Формальная и неформальная речь в литературном английском языке. Понятие сленга, особенности английского языка web-коммуникаций и проблема его перевода на русский язык. Понятие, виды и классификации перевода, особенности перевода сленга в Интернете.

дипломная работа [84,1 K], добавлен 02.02.2014
Роль образно-выразительных средств русского языка в текстах различных функциональных стилей
Особенности функциональных стилей речи. Характеристика публицистического и научного стиля. Выявление образно-выразительных средств в текстах массовой коммуникации. Использование образно-выразительных средств в текстах различных функциональных стилях.

курсовая работа [43,5 K], добавлен 25.02.2011
Выражение сопричастности в древнерусских текстах
Определение сопричастности и наиболее регулярные средства ее выражения в современном русском языке. Функционирование сопричастности в древнерусских текстах. Сопричастность как семантическая категория. Языковые средства выражения сопричастности.

курсовая работа [29,7 K], добавлен 12.04.2013
Проявления языковой игры в текстах
Теоретические понятия языковой игры, политического текста и метафоры. Определение политической метафоры. Классификация примеров метафорического использования языковых единиц. Формирование негативного образа властных субъектов в сознании адресата.

курсовая работа [38,2 K], добавлен 23.08.2011
Языковые средства выдвижения актуальной информации в новостном интернет-дискурсе
Понятие и функции медиадискурса. Приемы актуализации информации в новостном интернет-дискурсе. Сходства и различия в использовании лингвистических средств выдвижения информации в англоязычных и русскоязычных интернет-публикациях, их языковые особенности.

дипломная работа [84,9 K], добавлен 03.07.2013
Способы реализации культурных концептов в русских и англоязычных рекламных текстах
Специфика структуры и элементов рекламных текстов, их классификация. Концепт как основная единица когнитивной лингвистики. Понятия и классификации культурных концептов. Способы и средства реализации концептов в русских и английских рекламных текстах.

курсовая работа [118,4 K], добавлен 16.05.2012
Коммуникативно-прагматических особенностей рекламных текстов
Исследование основных подходов к определению текста и дискурса. Дискурсивное пространство рекламного текста и его особенности. Языковые средства выражения коммуникативно-прагматической направленности в рекламных текстах. Употребление паремий в текстах.

дипломная работа [119,7 K], добавлен 03.02.2015
Языковые нормы и Интернет
Понятие и виды языковой нормы. Изменение речи, появление сленга. Проблема тотальной безграмотности и примеры типичных ошибок в языке Интернета. Рассмотрение слов, которые характеризуются как нормы в виртуальной среде.

курсовая работа [25,0 K], добавлен 07.02.2014
Отражение мира эмоций в лексике
Лексические средства обозначения эмоций в русском языке. Исследование основных классов эмотивной лексики. Дифференциально-эмотивные и коннотативно-эмотивные смыслы. Анализ эмотивных слов категории состояния. Функционирование эмотивной лексики в тексте.

курсовая работа [45,1 K], добавлен 01.06.2014
Категории эмоциональности в русском языке
Понятие эмоциональности в русском языке. Вопрос языкового выражения человеческих эмоций. Глаголы и междометия как средства выражения эмоций. Роль контекста в определении эмоциональности. Примеры позитивной и категоричность негативной оценки в контексте.

реферат [25,5 K], добавлен 17.10.2011
Лаборатория информационной безопасности: языковой аспект
Рассмотрение стилистических и системных изменений в русском языке в связи с его функционированием в Рунете. История и причины возникновения интернет-сленга. Изучение часто употребляемых эрративов; определение основных способов борьбы с безграмотностью.

курсовая работа [805,0 K], добавлен 25.03.2014
Влияние интернет сленга на современный русский язык
Роль интернет-сленга в системе языка, его характерные отличия и способы образования. Понятие мема, фонетические средства выражения эмоций в интернет-сленге. Лексика с ярко выраженным эмоционально-оценочным значением. Лексика с переносным значением.

дипломная работа [104,2 K], добавлен 08.10.2015

Другие документы, подобные "Типология и комбинаторика вербальных маркеров различных эмоциональных тональностей в интернет-текстах на русском языке"

весь список подобных работ

скачать работу можно здесь

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.

Эмоциональный класс текстов (подкорпус)	Объем подкорпуса в токенах	Хештег в Подслушано
Страдание / Тоска	56 470	#Подслушано одиночество
Интерес / Возбуждение	184 074	#Подслушано успех
Удовольствие / Радость	85 117	#Подслушано счастье
Страх / Ужас	230 730	#Подслушано страшное
Брезгливость / Отвращение	45 868	#Подслушано фууу
Злость / Гнев	131564	#Подслушано БЕСИТ
Стыд / Унижение	70 232	#Подслушано стыдно
Удивление	288 272	#Подслушано наблюдения #Подслушано странное

№	Название	Относ ительная частотность / ранг	Ранг в первой двадцатке и значение по результатам TF / IDF взвешивания	% текстов в классе, содержащих говорить
1	Злость / Гнев	2,082.64 pm / 6	5 7.549767342194897	9,811
2	Удивление	1,765 pm / 6	11 7.09326299833163	13,138
3	Интерес / Возбуждение	1,684 pm / 3	3 7.432211883185744	12,361
4	Стыд / Унижение	1,580 pm / 6	6 7.915890436201671	12,528
5	Страх / Ужас	1,512.69 pm / 8	не входит в первые 20	13,078
6	Удовольствие Радость	1,186.6 pm / 10	не входит в первые 20	8,988
7	Брезгливость / Отвращение	1,046.48 pm / 13	не входит в первые 20	7,342
8	Страдание / Тоска	1,027.09 pm / 14	не входит в первые 20	5,030

	Маркер	weighted average f1-score, %	% увеличения точности в отдельном классе
1	АО'У'интенсификатор + АОТ	+i	+1 Злость / Гнев +19 Стыд / Унижение
2	А0'^интеисификатор + АОА”
3	Соматизмы в субъектной позиции
4	?	+6%	+9 Страдание / Тоска +7 Страх / Ужас
5	!		+15 Злость / Гнев +2 Страдание / Тоска
6	?!		-
7	Парцелл.	без изменений	+1 Удивление
8	ЛСП болезнь	+4	-
9	ЛСП смерть	+3	-
10	ЛСП одиночество	+4
11	Терпеть не могу	без изменений	+0,5 Злость / Гнев
12	Степени сравнения наречий	без изменений	+4 Стыд / Унижение
13	Говорить	без изменений	+1 Брезгливость / Отвращение, Страх / Ужас, Удивление