Створення алгоритму для визначення маркерів вербальної агресії в дискурсі соціальних мереж: лінгвістичний підхід
Аналіз існуючих методів для автоматизованого визначення деструктивних настроїв у текстах соцмереж. Доцільність розроблення алгоритму для визначення маркерів вербальної агресії в дискурсі соціальних мереж, заснованого на словниках-масивах даних і правилах.
Рубрика | Иностранные языки и языкознание |
Вид | статья |
Язык | украинский |
Дата добавления | 08.02.2023 |
Размер файла | 516,7 K |
Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже
Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.
Размещено на http://www.allbest.ru/
Створення алгоритму для визначення маркерів вербальної агресії в дискурсі соціальних мереж: лінгвістичний підхід
Марія Малишева, аспірантка кафедри прикладної лінгвістики Одеського національного університету імені Мечникова
Розвідку присвячено вивченню вербальної агресії в мережевому дискурсі. Вербальна агресія як мовленнєве явище є відносно новим напрямом досліджень мовознавців, тому цей термін досі не має усталеної дефініції. Розглянуто низку підходів сучасних науковців до потрактування поняття вербальної агресії для окреслення цього явища. З'ясовано, що дослідження комунікативного простору соціальних мереж як майданчика для розгортання агресивної мовленнєвої поведінки вимагає залучення автоматизованих методів аналізу даних та інструментів для обробки природної мови (natural language processing, NLP), зокрема штучних нейронних мереж і машинного навчання. Проаналізовано низку існуючих методів для автоматизованого визначення деструктивних настроїв у текстах соціальних мереж і виявлено, що залучення нейронних мереж для пошуку агресії в мережевому дискурсі не надає переконливих результатів. Якість роботи нейронної мережі можливо поліпшити за допомогою створення додаткових правил і фільтрів, утім, проблему не можна вважати розв'язаною.
Обґрунтовано доцільність розроблення алгоритму для визначення маркерів вербальної агресії в дискурсі соціальних мереж, заснованого на словниках-масивах даних і правилах. Запропоновано створити низку словників (масивів даних) із маркерами вербальної агресії. Кожен маркер у масиві даних має низку характеристик (атрибутів), які можна використовувати для розв'язання інших завдань, наприклад для кількісного аналізу вживання певних видів інвектив тощо. Шляхом пошуку в масивах даних маркерів агресії алгоритм робить висновок про наявність агресії в заданому тексті та наводить типологію маркерів вербальної агресії. У подальшому буде розроблено нові типи масивів даних та вдосконалено атрибути маркерів, зокрема для визначення рівня агресивності заданого тексту.
Ключові слова: алгоритм пошуку агресії, вербальна агресія, маркери вербальної агресії, обробка природної мови, штучні нейронні мережі.
Creating the algorithm for detection of verbal aggression markers in the social network discourse: a linguistic approach
Mariia MALYSHEVA, Postgraduate Student at the Department of Applied Linguistics Odesa Mechnikov National University
The paper is dedicated to the study of verbal aggression in the social network discourse. Verbal aggression as a speech phenomenon is a relatively new field of research for linguists, thus the term is yet to have an established definition. A number of modern scientific approaches to interpreting the concept of verbal aggression were considered to help define this phenomenon. It has been discovered that the study of the communicative space of social networks as a platform for the development of aggressive speech behavior requires the use of automated data analysis methods and tools for natural language processing (NLP), including artificial neural networks and machine learning. A number of existing methods of the automated determination of destructive moods in social network texts were analyzed and it was understood that the use of neural networks to search for aggression in the social network discourse isnt convenient enough.
The quality of the neural network can be improved by creating additional precepts and filters, however, the problem cannot be considered solved. The viability of developing an algorithm for identifying markers of verbal aggression in the social network discourse, based on data dictionaries and rules, was vindicated. It was proposed to create a number of dictionaries (data arrays) with markers of verbal aggression. Each marker in the data set has a number of features (attributes) that can be used to solve other problems as well, for example, to quantitatively analyze the use of certain types of invectives and the like. Scanning data arrays for aggression markers, the algorithm concludes that there is aggression in a given text and provides a typology of verbal aggression markers. New types of data arrays will be developed in the future, and marker attributes will be improved, particularly to determine the level of aggression of a given text.
Key words: aggression detection algorithm, verbal aggression, verbal aggression markers, natural language processing, artificial neural networks.
маркер вербальний агресія мережа
Постановка проблеми
Дослідження комунікативного простору мережі Інтернет вимагає залучення відповідних автоматизованих методів аналізу даних, що змушує дослідників-гуманітаріїв набувати навичок програмування. Розвиток інформаційних технологій надає дослідникам-філологам нові можливості для обробки усних та письмових текстів. Цифрові методи обробки інформації дають змогу опрацьовувати великі обсяги даних і вирішувати завдання, що раніше потребували значних ресурсів. Одним із цих завдань є обробка природної мови (natural language processing, NLP). Серед актуальних сфер застосування обробки природної мови виокремлюємо створення аналітичних інструментів для розпізнавання деструктивного контенту, зокрема розроблення системи автоматизованого виявлення маркерів вербальної агресії в комунікативному просторі соціальних мереж як майданчику для розгортання деструктивної поведінки користувачів.
Аналіз досліджень
Проблеми обробки природної мови висвітлено в наукових розвідках українських (О. Гирин, Д. Дарчук, Н. Чейлитко) та зарубіжних (Д. Гордєєв, Л. Комалова, Р Потапова) дослідників. Здебільшого у центрі уваги науковців постають особливості обробки англійської мови (О. Гирин, Д. Гордєєв), проте наявні праці, присвячені питанням обробки української мови, зокрема автоматичному синтаксичному аналізу (Д. Дарчук, Н. Чейлитко), розпізнаванню синтаксичних фразеологізмів (Г. Ситар), можливостям сучасних аналітичних інструментів (О. Кислова, І. Кузіна, І. Дирда) тощо. Проблеми аналізу тональності тексту та виявлення стану агресії порушено в наукових розвідках Д. Гордє- єва, Л. Комалової та Р. Потапової. Для пошуку вербальної агресії в російськомовних текстах Р. Потапова та Д. Гордєєв використовували класифікатор Random forest і нейронні мережі (Потапова, Гордеев, 2016). Зазначимо, що якість роботи класифікатора оцінюють за допомогою точності або міри fl. Точність - це відношення правильно класифікованих елементів до їхньої загальної кількості; міра fl є середнім гармонійним значень влучності та повноти. Найвищим значенням міри f1 є 1, найнижчим - 0 (Гущин, Сич, 2018: 265). Отже, Р Потапова та Д. Гордєєв отримали результат із точністю від 59,13% до 66,68% (Потапова, Гордеев, 2016: 68). Схожі результати було отримано В. Лакустою на матеріалі української мови (міра fl - 0.6). Утім, за допомогою конструювання ознак (feature engineering), тобто залучення знань з галузі лінгвістики задля розроблення ознак, що поліпшують роботу алгоритму машинного навчання, результат було покращено до 0.77 (Лакуста, 2019). Вищевикладене закономірно приводить нас до думки, що використання нейронних мереж під час обробки української або російської мови дає задовільний результат, проте проблему не можна вважати розв'язаною.
Мета статті - створення аналітичного методу для визначення маркерів вербальної агресії в текстах соціальних мереж. Мета розвідки передбачила розв'язання таких завдань: 1) проаналізувати наявні підходи до автоматизованого розпізнавання агресивних настроїв у текстах мережі Інтернет; 2) запропонувати власний алгоритм для пошуку маркерів вербальної агресії в українськомовному комунікативному просторі соціальних мереж.
Об'єктом дослідження є конфліктний дискурс, розгорнутий у комунікативному просторі мережі Інтернет, а предметом - маркери вираження вербальної агресії в текстах соціальних мереж.
Джерельною базою слугують дописи і коментарі користувачів українськомовного сегменту Facebook, зібрані у період із початку квітня до кінця травня 2021 р., загальною кількістю понад 150 одиниць.
Виклад основного матеріалу
Автоматизоване розпізнавання деструктивного контенту є одним з актуальних завдань обробки природної мови. Серед можливих підходів до автоматизованого виявлення стану агресії найбільш частотним є використання штучних нейронних мереж. Штучні нейронні мережі є обчислювальними системами, що математично моделюють роботу мозку. Особливістю нейронних мереж є здатність до навчання за відсутності попередніх даних про суб'єкт навчання, інакше кажучи, для того щоб навчити нейронну мережу розпізнавати вербальну агресію в текстах, треба лише надати їй велику кількість прикладів текстів, розмічених як «агресія» і «неагресія». Якість роботи класифікатора оцінюють за допомогою точності або міри f1. Точність - це відношення правильно класифікованих елементів до їхньої загальної кількості; міра f1 є середнім гармонійним значень влучності та повноти. Найвищим значенням міри f1 є 1, найнижчим - 0 (Гущин, Сич, 2018: 265).
Яскравим прикладом застосування нейронних мереж для автоматизованого пошуку деструктивних настроїв в українськомовних текстах є спроба В. Лакусти розпізнати образливі дописи в Twitter. Набір даних налічував близько 3 000 твітів, що були власноруч класифіковані на нейтральні і на ті, що містять мову ненависті. Класифікатор було побудовано на основі попередньо натренованої моделі FastLine та отримано результат 0.6 для міри fl. Для поліпшення результату було застосовано низку додаткових моделей та інструментів мовного моделювання. Наприклад, після залучення моделі «торба слів» міра f1 досягла значення 0.66. «Торба слів» представляє текст у вигляді «торби», тобто множини слів, не враховуючи граматику та порядок слів, але беручи до уваги їхню кількість, що стає атрибутом для навчання класифікатора. Кінцевий результат було поліпшено до 0.77 за мірою f1 (Лакуста, 2019).
Іншу реалізацію автоматизованого розпізнавання вербальної агресії в текстах мережі Інтернет було запропоновано Д. Гордєєвим. Джерельною базою слугували англомовний іміджборд ^han.org та російськомовний іміджборд 2ch.hk. Для розпізнавання агресії було запропоновано алгоритм із застосуванням бібліотеки word2vec, бібліотеки Gensim та залученням власноруч натренованого класифікатора Random forest. Для навчання нейронної мережі було використано 654 047 дописів з 4chan.org та 1 148 692 дописів з 2ch.hk. Точність запропонованого методу для англійської мови становить 88%, для російської - 59,13% (Gordeev, 2016: 73). Згодом результат для російської мови було поліпшено до 66,68% після застосування нестатичної згортко- вої нейронної мережі (Потапова, Гордеев, 2016).
Вищезазначене дає змогу припустити, що застосування нейронних мереж для обробки природної мови має переваги і недоліки. Однією з переваг, на нашу думку, є значна економія людських ресурсів, оскільки значну частину роботи виконує комп'ютер. Утім, маємо відзначити, що отримана точність не є високою, навіть у разі застосування додаткових інструментів.
Ми пропонуємо метод пошуку маркерів вербальної агресії, заснований на словниках та правилах. Вивчення вербальної агресії привернуло увагу лінгвістів нещодавно, і загальноприйнята дефініція цього терміну відсутня, тому на підготовчому етапі нам потрібно чітко окреслити це явище. С. Форманова ототожнює вербальну агресію з інвективою і надає таке визначення: «Вербально виражене ставлення адресанта до адресата, яке має на меті різке звинувачення, осуд із метою образити, принизити й зганьбити опонента та дискредитувати його» (Форманова, 2018: 122). В. Апресян розуміє під вербальною агресією негативне або критичне ставлення мовця до адресата, виражене мовними засобами (Апресян: 1). Ю. Щербініна потрактовує вербальну агресію як особливо неприйнятне в поточній мовленнєвій ситуації вираження негативних почуттів, емоцій або намірів за допомогою слів (Щербинина, 2001: 6). Н. Кондратенко зазначає, що маркером мовної агресії може бути і нейтральна лексика (Кондратенко, 2019: 299).
Для створення масивів даних із маркерами вербальної агресії ми використовуємо власноруч розмічені агресивні коментарі із соцмережі Facebook, напр.: Бордель, а не (1) верховна рада! І от ці (2) курви (3) вирішують долю МОЄЇ УКРАЇНИ (4) ?????? (5) У цьому прикладі ми бачимо такі маркери агресії: (1) іменник з негативної конотацією + а не; (2) і от ці; (3) курви; (4) МОЄЇ УКРАЇНИ; (5) ??????. Також наявні різні типи маркерів: правила (1), сталі конструкції (2), лексичні маркери (3), графічні маркери, тобто зловживання великими літерами (4) або знаками оклику та/або питання (5) тощо.
Аналізуючи кожний приклад, додаємо кожний маркер до певного масиву даних. Масиви даних ми зберігаємо у csv-файлах, що надає можливість додавати елементам різноманітних атрибутів для подальшого використання. Першим атрибутом завжди є числове значення, що на поточному етапі вказує на наявність агресії в тексті, втім, у подальшому буде описувати її вагу. Наведемо приклад масиву лексем (рис. 1).
Кількість атрибутів не є регламентованою, додавати атрибути до елементів можна на будь-якому етапі роботи. У подальшому ці атрибути можна використовувати, наприклад, для кількісного аналізу вживання певних видів інвектив тощо. Роботу алгоритму проілюстровано схемою (рис. 2).
Рис. 1
На першому етапі ми надаємо програмі текст для аналізу. Програма перевіряє входження кожного з елементів поточного масиву (наприклад, масиву лексем LArray) у текст. Якщо поточний елемент масиву LArray наявний у тексті, програма додає його в новий масив LFound.
Рис. 2
Після аналізу тексту ми отримуємо масив LFound, що зберігає всі входження елементів масиву LArray у текст та їхні атрибути. Схожі дії проводимо з іншими наявними масивами. Деякі перевірки потребують попередньої обробки тексту, наприклад приведення регістру, лематизації, видалення стоп-слів тощо, тому за необхідності текст проходить обробку. Після перевірки тексту ми отримуємо стільки масивів NFound, скільки було залучено масивів NAarray для перевірки. На наступному етапі ми обчислюємо середнє арифметичне числових елементів кожного масиву окремо і середнє арифметичне отриманих значень. Це число є вагою агресії в заданому тексті. На фінальному етапі роботи алгоритму ми отримуємо вагу агресії в тексті і типологію наявних маркерів вербальної агресії.
Висновки
Методи для розпізнавання агресивних настроїв у письмових текстах, засновані на нейронних мережах, не є високоточними, тому було запропоновано алгоритм для пошуку маркерів вербальної агресії на основі словників-масивів даних та правил. Шляхом пошуку в масивах даних маркерів агресії алгоритм робить висновок про наявність агресії в заданому тексті. Перспективу дослідження вбачаємо в реалізації виявлення рівня агресивності тексту та в удосконаленні масивів даних для обробки текстів.
Список використаних джерел
1. Апресян В.Ю. Имплицитная агрессия в русском языке. Компьютерная лингвистика и интеллектуальные технологии.
2. Гущин І.В., Сич Д.О. Аналіз впливу попередньої обробки тексту на результати текстової класифікації. Молодий вчений. 2018. № 10(1). С. 264-266.
3. Кондратенко Н.В. Вербальна агресія у спілкуванні в соціальних мережах: актуалізація етнічних гетеростереотипів. Записки з українського мовознавства. 2019. Т. 2. № 26. С. 227-233.
4. Лакуста В. Конструирование признаков для распознавания оскорбительной речи для украинского языка в Twitter. Data Science fwdays'19. 2019.
5. Потапова Р.К., Гордеев Д.И. Определение состояния агрессии с помощью сверточных нейронных сетей. Речевые технологии. 2016. № 1(2). С. 65-70.
6. Форманова С.В. Інвектива в сучасних Інтернет-виданнях. Молодий вчений. 2018. № 9.1(61.1). С. 121-124.
7. Щербинина Ю.В. Вербальная агрессия в школьной речевой среде: автореф. дис. ... канд. пед. наук: спец. 13.00.02. Москва, 2001. 19 с.
8. Gordeev D. Automatic Detection of Verbal Aggression for Russian and American Imageboards. Procedia. Social and Behavioral Sciences. 2016. № 236. P 71-75..
References
1. Apresjan V.Ju. Implicitnaja agressija v russkom jazyke [Implicit aggression in language]. Komp'juternaja lingvistika i intellektual'nye tehnologii. [in Russian].
2. Gushin I.V., Sych D.O. Analiz vplyvu poperednoi obrobky tekstu na rezultaty tekstovoi klasyfikatsii [Analysis of the impact of text preproccessing on the results of text classification]. Molodyi vchenyi. 2018. № 10(1). pp. 264-266. [in Ukrainian].
3. Kondratenko N.V. Verbalna ahresiia u spilkuvanni v sotsialnykh merezhakh: aktualizatsiia etnichnykh heterostereo- typiv [Verbal aggression in communication in social networks: actualization of ethnic heterostereotypes]. Zapysky z ukrain- skoho movoznavstva. 2019. T 2. № 26. pp. 227-233. [in Ukrainian].
4. Lakusta V. Konstruirovanie priznakov dlja raspoznavanija oskorbitel'noj rechi dlja ukrainskogo jazyka v Twitter [Feature engineering for abusive language detection for the Ukrainian language on Twitter]. Data Science fwdays'19. 2019. [in Russian].
5. Potapova R.K., Gordeev D.I. Opredelenie sostojanija agressii s pomoshh'ju svertochnyh nejronnyh setej [Detection of the state of aggression with convolutional neural networks]. Rechevye tehnologii. 2016. № 1(2). pp. 65-70. [in Russian].
6. Formanova S.V. Invektyva v suchasnykh internet-vydanniakh [Invective in modern internet issues]. Molodyi vchenyi. 2018. № 9.1(61.1). pp. 121-124. [in Ukrainian].
7. Shherbinina Ju.V. Verbal'naja agressija v shkol'noj rechevoj srede [Verbal aggression in the school speech environment]: avtoref. dis. ... kand. ped. nauk: spec. 13.00.02. Moskva, 2001. 19 p. [in Russian].
8. Gordeev D. Automatic Detection of Verbal Aggression for Russian and American Imageboards. Procedia. Social and Behavioral Sciences. 2016. № 236. pp. 71-75. [in English].
Размещено на Allbest.ru
...Подобные документы
Поняття дискурсу в сучасній лінгвістиці. Методи дослідження дискурсу. Визначення поняття "текст". Аспекти створення образності і виразності. Аналіз використання стилістичних засобів у романі Джерома К. Джерома "Троє в одному човні (не рахуючи собаки)".
курсовая работа [456,2 K], добавлен 07.11.2013Визначення поняття гендеру, історія його дослідження. Прояви гендерної дискримінації у мові. Правила мовленнєвої поведінки в офіційних сферах. Проблема ідентифікації родових маркерів в сучасній англійській мові. Засоби лінгвістики у вираженні гендеру.
курсовая работа [65,8 K], добавлен 28.04.2014Аналіз механізму утворення фразеологічного значення, семантичної структури та семантичних властивостей фразеологічних одиниць. Визначення здатності дієслова керувати числом актантів. Розгляд особливостей одновалентних вербальних фразеологічних одиниць.
статья [23,2 K], добавлен 31.08.2017Визначення природи метафори з точки зору різних дослідників, її особливості. Основні засоби перекладу метафор та образних виразів з англійської мови на українську. Аналіз перекладу метафоричних термінів з науково-технічних текстів аграрної тематики.
курсовая работа [72,4 K], добавлен 16.12.2015Характеристика прикметників у французькій мові та їхня структура. Аналіз якісно-оцінних прикметників у науково-популярному дискурсі на матеріалі статей з журналів "Sсience et Vie" та "La Recherche". Роль якісних прикметників у французькому реченні.
курсовая работа [142,2 K], добавлен 27.02.2014Поняття та типи, принципи утворення та особливості вживання Conditionnel (prsent, pass), концептуальне та часове значення. Аналіз вживання Conditionnel у медійному дискурсі на матеріалі французьких видань, його комунікативно-прагматичний аспект.
курсовая работа [49,4 K], добавлен 03.01.2014Аналіз впливу особливостей культури на текст, що перекладається. Визначення значимості компонентного аналізу у перекладі. Стратегії подолання "культурного бар'єру" в перекладі. Визначення цілей форенізаційного та доместикаційного методів перекладу.
статья [43,2 K], добавлен 24.11.2017Вивчення теоретичних аспектів дослідження використання сленгу в розмовному дискурсі англійської мови. Характеристика відтворення сучасного варіанту сленгу кокні та жаргону у фільмах Гая Річі "Рок-н-рольщик", "Великий куш" та "Карти, гроші, два стволи".
дипломная работа [70,2 K], добавлен 03.05.2012Зміст і завдання загального мовознавства. Алгоритми автоматичного машинного перекладу. Провідні концепції визначення мови в лінгвістиці. Метод лінгвістичної географії. Соціолінгвістичні і психолінгвістичні методи. Застосування математичних методів.
шпаргалка [77,2 K], добавлен 23.03.2014Поняття "конфронтаційна просодика" та наявність її компонентів в дискурсі. Вираження негативної емоціональності за допомогою просодичних компонентів. Комунікативне значення конфронтаційних просодичних компонентів в організації діалогічного дискурсу.
курсовая работа [36,2 K], добавлен 23.04.2012Встановлення типів реакцій на мовленнєвий акт ассертив (МАА) у німецькомовному діалогічному дискурсі. Реактивне висловлення на МАА як підтвердження і заперечення висловленого в ініціальному ході стану справ. Форми імпліцитного ассертиву або директиву.
статья [18,8 K], добавлен 14.08.2017Основні напрямки вивчення метафори в політичному аспекті та механізм утворення метафори в політичному дискурсі. Особливості перекладу метафори на матеріалах промов президента США Барака Обами. Способи перекладу метафор з англійської мови на українську.
дипломная работа [386,4 K], добавлен 18.06.2014Характеристика явища паронімії в українській мові. Розкриття суті стилістичного вживання паронімів. Аналіз їх відмінності від омонімів. Визначення структурно-семантичних ознак паронімів. З’ясування особливостей їх використання в журналістських текстах.
курсовая работа [41,0 K], добавлен 18.02.2013Специфіка політичного дискурсу з погляду лінгвістичних досліджень. Характеристика метафори та метафоричного процессу. Особливості перекладу метафори та принципи відтворення метафоричних конструкцій в англомовному політичному дискурсі українською мовою.
курсовая работа [336,7 K], добавлен 27.07.2022Зміст поняття "емотивність", особливості та аналіз відповідної функції мови. Категорія емотивності у співвідношенні вербальної та зображальної складової коміксу. Принципи реалізації категорії емотивності коміксу, використовувані лексичні засоби.
контрольная работа [40,8 K], добавлен 01.11.2014Визначення та класифікація гумору як важливої частини спілкування між людьми. Дослідження теорій у цій сфері. Телесеріал "Теорії Великого вибуху" як культурно-лінгвістичний феномен, особливості гумору в цьому творі. Дослідження теорії релевантності.
курсовая работа [38,8 K], добавлен 27.05.2015Поняття перекладу; безособові форми дієслова. Граматичні особливості інфінітиву, синтаксичні функції; перекладацькі трансформації. Дослідження, визначення та аналіз особливостей перекладу англійського інфінітиву в функції обставини в газетних текстах.
курсовая работа [48,1 K], добавлен 06.04.2011Текст, категорії тексту у процесі комунікації та їх класифікація, лінгвістичний аналіз категорій тексту, виявлення його специфічних ознак. Особливості реалізації категорії ретроспекції, семантичні типи та функції ретроспекції, засоби мовного вираження.
курсовая работа [43,2 K], добавлен 14.09.2010Визначення поняття науково-технічного тексту. Характеристика лінгвістичних особливостей НТТ. Аналіз граматичних та синтаксичних особливостей перекладу з німецької на українську мову. Виявлення особливостей поняття науково-технічного тексту та дискурсу.
статья [23,2 K], добавлен 06.09.2017Визначення поняття "абревіатура". Проблема виокремлення абревіатурних морфем у сучасному українському мовознавстві. Структурно-семантичні особливості аброморфем та місце у структурі складноскорочених слів. Аналіз розходження складних слів з абревіатурами.
курсовая работа [1,2 M], добавлен 07.02.2012