Особливості застосування сентимент-аналізу (інтерпретація сарказму, багатозначності, заперечення та мультиполярності)
Розгляд проблем, що виникають під час застосування сентимент-аналізу. Розуміння, як проблеми впливають на якість класифікаторів настрою, які технології можна використати для вирішення задачі. Оцінюванням текстів, які містять слова в переносному значенні.
Рубрика | Иностранные языки и языкознание |
Вид | статья |
Язык | украинский |
Дата добавления | 22.02.2021 |
Размер файла | 22,2 K |
Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже
Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.
Размещено на http://www.allbest.ru/
Размещено на http://www.allbest.ru/
Національний університет «Львівська політехніка»
Особливості застосування сентимент-аналізу (інтерпретація сарказму, багатозначності, заперечення та мультиполярності)
Левченко О.П., Поворознік Н.М.
Анотація
Дані із соціальних мереж привертають увагу дослідників завдяки широкому використанню їх у повсякденному житті та чиннику новизни у поєднанні з доступністю, що слугує сильною мотивацією для досліджень аналізу тональності текстів. З огляду на це, постала низка технічних проблем, які ще не вирішили ні лінгвісти, ні NLP-спільнота. Часто у своїх публікаціях користувачі вживають саркастичні висловлювання, багатозначні слова, а в межах одного судження можуть бути наявні як позитивні, так і негативні настрої. Також це стосується і заперечних часток, які не завжди вказують на негативну тональність. У цій статті розглянуто чотири виклики, з якими стикаються дослідники під час проведення сен- тимент-аналізу, а саме: сарказм, заперечення, багатозначність та мультиполярність. Ці аспекти значно впливають на точність результатів під час визначення тональності. Також висвітлено сучасні підходи до розв'язання питання.
Ключові слова: сентимент-аналіз, сарказм, заперечення, багатозначність, му-льтиполярність.
Levchenko Olena, Povoroznik Nataliia
Lviv Polytechnic National University
Features of sentiment analysis implementation (interpretation of sarcasm, word ambiguity, negation, and multipolarity)
Summary
In the past decades, sentiment analysis has become one of the most active research areas in natural language processing, data mining, web mining, and information retrieval. The great demand in everyday life and the factor of novelty coupled with the availability of data from social networks have served as strong motivation for research on sentiment-analysis. A number of technical problems, most of which had not been attempted before, either in the NLP or linguistics communities have also generated strong research interests in academia. Sentiment analysis, also called opinion mining, is the field of study that analyzes people's opinions, sentiments, appraisals, attitudes, and emotions toward entities and their attributes expressed in written text. The entities can be products, services, organizations, individuals, events, issues, or topics. The field represents a large problem space. It improves not only the field of natural language processing but also management, political science, economics, and sociology because all these areas are related to the thoughts of consumers and public. User-generated content is full of opinions, because the main reason why people post messages on social media platforms is to express their views and opinions, and therefore sentiment analysis is at the centre of social media analysis. It turned out that user messages often contain plenty of sarcastic expressions and ambiguous words. Within one opinion both positive and negative sentiments can be present. This also applies to negative particles, which do not always indicate a negative tone. This article investigates four challenges faced by researchers while conducting sentiment analysis, namely: sarcasm, negation, word ambiguity, and multipolarity. These aspects significantly affect the accuracy of the results when we determine a sentiment. Modern ap-proaches to solving the problem are also covered. These are mainly machine learning methods, such as convolutional neural networks (CNN), deep neural networks (DNN), long short-term memory (LTSM), recurrent neural network (RNN), support vector machines (SVM), etc.
Keywords: sentiment analysis, sarcasm, negation, word ambiguity, multipolarity.
Постановка проблеми
Інтерес до чужої думки, мабуть, такий же давній, як і сама словесна комунікація, адже визначення того, що думають інші, завжди було важливою частиною збирання інформації та процесу ухвалення рішень [1]. У наш час активного розвитку інформаційних технологій люди використовують форуми, соціальні мережі, блоги та інші платформи, щоб ділитися своїми думками, тим самим генеруючи величезну кількість даних. Збирання інформації про згенерований користувачами контент вручну займає дуже багато часу. Саме тому з 2000-го року стрімко почав розвиватися й сентимент-аналіз. Він став однією з найбільш досліджуваних сфер опрацювання природної мови, глибинного аналізу даних та веб-майнінгу. Аналіз тональності текстів має широкий спектр застосування. Він вдосконалює не лише сферу опрацювання природної мови, а також постачає цінні дані для менеджменту, політології, економіки та соціології, адже всі ці сфери пов'язані з думками споживачів та громадськості [2]. Як і будь-який вид аналізу природної мови сентимент-аналіз має певні особливості. На перший погляд, проблема полягає лише у класифікації тексту, але якщо заглибитися в це питання, стає зрозуміло, що існує низка складних проблем, які впливають на точність сентимент-аналізу, як-от: автоматична ін-терпретація сарказму, різних типів заперечень, багатозначних слів та мультиполярності.
Аналіз останніх досліджень та публікацій
Дослідженням сентимент-аналізу, зокрема й особливостями його застосування займається багато закордонних науковців. У цьому дослідженні увагу зосереджено на працях: B. Pang, L. Lee, B. Liu, E. Camp, L. Kumar, A. Somani, P. Bhattacharyya, A. Ghosh, T. Veale, M. Dadvar, C. Hauff, F. de Jong, S. Pal, S. Ghosh, A. Nag, B. Agarwal, N. Mittal, P. Bansal, S. Garg, B. Wang, M. Liu.
Виділення не вирішених раніше частин загальної проблеми
На відміну від великого інтересу закордонних дослідників до проблем, що виникають під час застосування сентимент- аналізу, у вітчизняних працях їх розглядають та досліджують досить рідко. Оскільки ці чинники мають великий вплив на кінцевий результат аналізу тональності, в авторів виникла ідея виокремити та розглянути основні з них.
Мета статті
Мета цієї праці -- розглянути кожну із проблем та зрозуміти, як вони впливають на якість класифікаторів настрою, а також з'ясувати те, які технології можна використати для вирішення тієї чи іншої задачі.
Виклад основного матеріалу
Безумовно, виникають труднощі з оцінюванням текстів, які містять слова в переносному значенні, адже його неможливо визначити за окремими компонентами вислову. Зростає інтерес, відповідно й кількість досліджень, присвячених розпізнаванню різноманітних тропів, особливо сарказму. У «саркастичному» тексті люди виражають негатив, використовуючи позитивно забарвленні слова. Це значно ускладнює процес розпізнавання сарказму сентимент-класифікаторами, якщо вони не спеціально розроблені враховувати цей аспект.
Найчастіше сарказм трапляється в контенті, створеному користувачами соціальних мереж, як-от: коментарі в Facebook, Twitter тощо. Дуже складно розпізнати сарказм без хорошого розуміння ситуації, конкретної теми та оточення. Це стосується не лише машин, а й людей. Різноманіття тем, інтересів, культур, знань про світ, які автори вживають у своїх коментарях, також ускладнюють успішне тренування моделей сен- тимент-аналізу.
Для початку, розгляньмо сарказм із погляду лінгвістики, у якій він широко досліджений. Авторка однієї з найбільш цитованих праць у цій галузі E. Camp пропонує виокремлювати такі типи сарказму:
1. Propositional: На перший погляд здається, що текст не саркастичний, проте він вміщує в собі неявний сарказм. Наприклад: «Схоже на чудовий план!».
2. Embedded: У тексті наявна невідповідність настроїв у формі самих слів та фраз. Наприклад: «Люблю, коли мене перебивають».
3. Like-prefixed: Текст передбачає заперечення зробленого аргументу. Наприклад: «Так, наче ті хлопці вірять у те, про що вони говорять».
4. Illocutionary: Невербальне мовлення (мова тіла, жести), що вказує на саркастичність висловлювання [3].
Дослідження Elisabeth Camp опубліковано у 2012 році. У 2017 році дослідники Стенфорд- ського університету провели власне досить цікаве дослідження під назвою ««Having 2 hours to write a paper is fun!»: Detecting Sarcasm in Numerical Portions of Text», у якому йдеться про числовий сарказм. Цей тип сарказму дуже часто трапляється в соціальних мережах. Ідея, що стоїть за цим, пов'язана зі змінами числових значень, які потім впливають на полярність тексту. Наприклад:
1. «У цього телефона чудова батарея, заряд зберігається аж до 36 годин» (наявний сарказм).
2. «У цього телефона чудова батарея, заряд зберігається аж до 2 годин» (наявний сарказм).
3. «Надворі +30, мені так спекотно» (немає сарказму).
4. «Надворі --30, мені так спекотно» (наявний сарказм).
5. «Ми їдемо дуже повільно -- лише 30 км/год» (немає сарказму).
6. «Ми їдемо дуже повільно -- лише 165 км/год» (наявний сарказм).
Отже, ці речення відрізняються лише за використаним числом, це і є числовим сарказмом.
Існують різні підходи до автоматичного визначення сарказму, а саме:
-- на основі правил (rule-based);
-- статистичний (statistical);
-- алгоритми машинного навчання (machine learning algorithms);
-- глибоке навчання (deep learning) [6].
Підходи, засновані на глибинному навчанні, набувають все більшої популярності. L. Kumar, A. Somani, та P. Bhattacharyya у 2017 році дійшли висновку, що конкретна модель глибинного навчання (архітектура CNN-LSTM-FF) перевершує попередні підходи, досягаючи найвищого рівня точності виявлення числового сарказму. Однак глибинні нейронні мережі (deep neural networks) показали найкращі результати не лише під час визначення числового сарказму, вони також перевершили інші підходи до визначення сарказму загалом. A. Ghosh та T. Veale використовують комбінацію згорткової нейронної мережі (CNN), довгої короткочасної пам'яті (LSTM) та глибинних нейронних мереж (DNN). Свій підхід вони порівнюють із методом рекурсивних опорних векторів (SVM) та доходять висновку, що їхня архітектура глибинного навчання є більш досконалою [5; 6].
Другий аспект, який ускладнює сентимент- аналіз, це -- заперечення. У лінгвістиці заперечення -- це спосіб змінити полярність слів, фраз і навіть речень. Дослідники використовують різні лінгвістичні правила, щоб визначити наявність заперечення. Також важливо визначити діапазон слів, на які впливають заперечні слова. Немає усталеної кількості слів, які потрапляють під дію заперечення. Наприклад, у реченні «Шоу було не цікавим», під дію заперечення потрапляє лише одне слово. Однак у реченнях на кшталт «Я не вважаю цей фільм комедійним», заперечна частка не стосується всіх ужитих після неї слів.
Найпростіший підхід до роботи із запереченням у реченні, який використано в більшості сучасних методів сентимент-аналізу, це -- маркування всіх слів як заперечних, починаючи від заперечного слова до наступного знаку пунктуації. Ефективність моделі може варіюватися через специфіку мовних конструкцій у різних контекстах.
Існує кілька форм висловлення негативної думки в реченнях:
1. Заперечення може бути морфологічним, коли воно утворюється за допомогою заперечних словотвірних афіксів, як-от: не-, без-, обез-, зне-, ні, ані-, а-, анти-, ім, ін-, ір-, дис-, поза-, понад-, над-, недо-, небез-.
2. Заперечення може бути імпліцитним, як у реченні «З такою грою це буде його перша й остання вистава» -- воно передає негативні настрої, однак негативні слова не використовуються.
3. Заперечення може бути експліцитним, наприклад, «Це не смачно» [7].
Наявність вибірки різних типів описаних заперечень підвищить якість набору даних для навчання та тестування моделей сентимент-аналізу в межах заперечення. Згідно з останніми дослідженнями рекурентних нейронних мереж (RNN), різноманітні архітектури довгої короткочасної пам'яті (LSTM) перевершують усі інші підходи для виявлення типів заперечень у реченнях [8].
У статті «Effect of Negation in Sentiment Analysis» модель сентимент-аналізу оцінила 500 відгуків, які зібрали на сайтах Amazon та Trustedreviews. com. Автори порівнюють моделі з наявністю визначення заперечень та без неї. їхній аналіз демонструє наскільки врахування чинника заперечення може підвищити точність моделі [7].
Ще однією проблемою, яка постає перед дослідниками сентимент-аналізу, є багатозначність слів. Вона полягає в неможливості заздалегідь визначити полярність певних слів, адже вона залежить від контексту. Серед наявних методів популярними є підходи сентимент-ана- лізу, засновані на словниках тональності. Словник вміщує слова з вказанням їхньої полярності. Деякі словники тональності доступні в інтер- неті: SentiWordNet, General Inquirer, SenticNet та інші. Позаяк полярність слів відрізняється залежно від різних сфер, неможливо розробити універсальний лексикон, який подаватиме полярність кожного слова. Наприклад:
1. «Сюжет непередбачуваний».
2. «Це призвело до непередбачуваних витрат» [9].
Ці два приклади демонструють те, як контекст впливає на тональність судження. У першому прикладі, полярність слова непередбачуваний -- позитивна. У другому прикладі те саме слово має негативну полярність.
Ще однією проблемою є мультиполярність. Інколи текст, який ми хотіли б проаналізувати, демонструє мультиполярність. У таких випадках наявність лише загального результату аналізу може ввести в оману. Уявімо, статтю чи рецензію, у якій мовиться про різних людей, продукти або компанії (чи їхні аспекти). Дуже часто в межах одного такого тексту висвітлюють і позитив, і негатив. У такому разі сумарній тональності бракує ключової інформації. Тому треба виділити в реченні всі сутності чи аспекти з мітками тональності й лише тоді підрахувати загальну полярність, якщо це необхідно. Розгляньмо приклад, який складається з декількох полярностей: «їжа була смачною, а от обслуговування мені зовсім не до вподоби». Деякі моделі сентимент-аналізу визначать полярність, у цьому реченні як негативну або нейтральну. Для вирішення таких ситуацій, модель має визначати полярність кожного аспекту речення; тут їжа -- це аспект позитивної полярності, а обслуговування -- негативної [10]. Наприклад, у статті «Deep learning for aspect- based sentiment analysis», B. Wang та M. Liu зі Стенфордського університету пропонують підхід, що поєднує настрої з відповідними аспектами за допомогою синтаксичних дерев складових. Цей підхід продемонстрував конкурентоспроможність, а подекуди і кращу ефективність порівняно з найкращими результатами міжнародного семінару семантичної оцінки SemEval-2015 [10].
сентимент аналіз текст
Висновки
Отже, з аналізу випливає, що дослідження сентимент-аналізу привертають увагу великої кількості науковців. Існує низка аспектів, які ускладнюють його застосування. Найбільш поширені з них: сарказм, заперечення, багатозначність та мультиполярність. У дослідженнях сарказму найкращих результатів досягли за допомогою глибинних нейронних мереж, а також комбінації згорткових нейронних мереж (CNN) і довгої короткочасної пам'яті (LSTM). Популярним методом визначення заперечення є маркування всіх слів як заперечних, починаючи від заперечного слова до наступного знаку пунктуації. Однак на ефективність моделі впливають види конструкцій заперечення в різних контекстах, а щоб визначити тип заперечення найкраще використовувати архітектури довгої короткочасної пам'яті (LSTM). Щодо багатозначності, то поширеним є використання словників тональності, наприклад SentiWordNet, General Inquirer та інших. Належить зауважити, що такі словники не налаштовані на аналіз українсько- мовного контенту. Під час аналізу тексту, де наявна мультиполярність для отримання більш точних результатів важливо звертати увагу на кожен аспект у реченні. Хороші показники можна отримати за допомогою сентимент-аналізу на основі аспектів. Урахування вищезгаданих особливостей значно підвищує точність моделей класифікації сентимент-аналізу.
Список літератури
1. Pang B., Lee L. Opinion mining and sentiment analysis. Foundations and Trends in Information Retrieval. Vol. 2. No. 1-2. 2008. Pp. 1-135.
2. Liu B. Sentiment analysis: Mining opinions, sentiments, and emotions, 2015.
3. Camp E. Sarcasm, pretense, and the semantics/pragmatics distinction. Nous. 46. 2011.
4. Kumar L., Somani A., Bhattacharyya P. Approaches for computational sarcasm detection: A survey. ACM CSUR, 2017.
5. Ghosh A., Veale T. Fracking sarcasm using neural network. Proceedings of NAACL-HLT 2016. Association for Computational Linguistics, 2016.
6. Kumar L., Somani A., Bhattacharyya P. “Having 2 hours to write a paper is fun!”: Detecting sarcasm in numerical portions of text, 2017.
7. Dadvar M., Hauff C., de Jong F. Scope of negation detection in sentiment analysis. Dutch-Belgian Information Retrieval Workshop, 2011.
8. Pal S., Ghosh S., Nag A. Sentiment analysis in the light of LSTM recurrent neural networks. International Journal of Synthetic Emotions. Pp. 33-39. 2018.
9. Agarwal B., Mittal N., Bansal P., Garg S. Sentiment analysis using common-sense and context information. Computational intelligence and neuroscience, 2015.
10. Wang B., Liu M. Deep Learning for aspect-based sentiment analysis. Stanford University report, 2015.
References
1. Pang B., Lee L. (2008). Opinion mining and sentiment analysis. Foundations and Trends in Information Retrieval, vol. 2, no. 1-2, pp. 1-135.
2. Liu B. (2015). Sentiment analysis: Mining opinions, sentiments, and emotions.
3. Camp E. (2011). Sarcasm, pretense, and the semantics/pragmatics distinction. Nous, 46.
4. Kumar L., Somani A., Bhattacharyya, P. (2017). Approaches for computational sarcasm detection: A survey. ACM CSUR.
5. Ghosh A., Veale T. (2016). Fracking sarcasm using neural network. Proceedings of NAACL-HLT2016. Association for Computational Linguistics.
6. Kumar L., Somani A., Bhattacharyya P. (2017). “Having 2 hours to write a paper is fun!”: Detecting sarcasm in numerical portions of text.
7. Dadvar M., Hauff, C., de Jong F. (2011). Scope of negation detection in sentiment analysis. Dutch-Belgian Information Retrieval Workshop.
8. Pal S., Ghosh S., Nag A. (2018). Sentiment analysis in the light of LSTM recurrent neural networks. International Journal of Synthetic Emotions, pp. 33-39.
9. Agarwal B., Mittal N., Bansal P., Garg S. (2015). Sentiment analysis using common-sense and context information. Computational intelligence and neuroscience.
10. Wang B., Liu M. (2015). Deep learning for aspect-based sentiment analysis. Stanford University report.
Размещено на Allbest.ru
...Подобные документы
Побудова алгоритмів порівняльно-перекладацького та доперекладацького аналізу спеціальних текстів. Особливості синергетично-інформаційної методики перекладацького аналізу з огляду на два його типи: порівняльно-перекладацький та доперекладацький аналіз.
статья [77,5 K], добавлен 11.10.2017Огляд проблеми багатозначності англійської мови. Морфологічний та синтаксичний аналіз тексту. Правила контекстного аналізу, які дозволяють зняти морфологічну омонімію. Коротка характеристика головних особливостей алгоритму прихованої Марківської моделі.
курсовая работа [119,3 K], добавлен 06.06.2013Лінгвістичні ознаки науково-технічних текстів у німецькій мові. Особливості текстів науково-технічного стилю у перекладацькому аспекті. Проблеми перекладу науково-технічних текстів. Синтаксичні особливості речень та їх відтворення при перекладі.
курсовая работа [48,2 K], добавлен 21.06.2013У статті висвітлена історія й проаналізована інтерпретація термінів "акафіст" і "звертання", розглянуті основні теоретичні положення з проблеми акафістів і звертання. Дослідження проведено на основі вибраного матеріалу з богослужбових текстів УПЦКП.
статья [26,1 K], добавлен 19.09.2017Морфологічний рівень категорії заперечення в англійській мові. Способи вираження категорії заперечення. Вживання конструкцій з подвійним запереченням. Аналіз способів репрезентації категорії заперечення на прикладі твору Джерома К. Джерома "Троє в човні".
курсовая работа [86,9 K], добавлен 18.04.2015Предмет і задачі стилістики. Поняття мовного стиля, його види та форми, значення. Особливості розмовного стилю в лінгвістиці. Методика та інструменти для стилістичного аналізу уривку із роману Чарльза Діккенса "Посмертні записки Піквікського клубу".
курсовая работа [39,7 K], добавлен 08.12.2010Принципи вибору перекладацьких стратегій при перекладі текстів типу інструкцій до технічного обладнання. Сучасний стан лінгвістичного та перекладацького аналізу в галузі дослідження перекладу тексту-інструкції як особливого виду міжнародного документу.
курсовая работа [66,0 K], добавлен 29.11.2009Характеристика модальності як текстової категорії. З’ясування специфіки англомовних текстів та їхнього трактування мовою перекладу. Здійснення практичного аналізу передачі модальності при перекладі художніх творів з англійської мови на українську.
курсовая работа [44,4 K], добавлен 30.11.2015Проблеми фразеології у світлі наукових парадигм. Аспекти лінгвістичного аналізу фразеологічних одиниць у мовознавстві. Класифікація фразеологічних одиниць. Культурологічний аспект аналізу фразем, які не мають лексичних відповідників, у системі слів.
дипломная работа [105,4 K], добавлен 19.08.2011Українська літературна мова як вища форма загальнонародної національної мови, відшліфована майстрами слова, особливості її застосування при укладанні ділових паперів. Правопис та відмінювання прізвищ. Орфоепічні та синтаксичні норми української мови.
контрольная работа [1,1 M], добавлен 17.10.2012Дослідження німецької фразеології в германістиці та українському мовознавстві. Поняття внутрішньої форми фразеологізму. Семантичні особливості фразеологізмів. Семантичні групи німецьких фразеологізмів з компонентом заперечення та специфіка їх уживання.
курсовая работа [44,9 K], добавлен 17.01.2013Проблеми лінгвістичного аналізу художніх творів. Мета лінгвостилістичного тлумачення - вивчення засобів мови у тексті. Методи проведення лінгвістичного аналізу на прикладі оповідання класика американської літератури XX ст. Дж. Стейнбека "The Pearl".
курсовая работа [74,4 K], добавлен 28.10.2014Метод виділення епоніма-терміна. Параметри наукового тексту, як засобу міжкультурної комунікації у сфері науки. Лексичні особливості англійських науково-технічних текстів. Переклад епонімів на прикладі медичних текстів іноземних компаній British Medicine.
курсовая работа [86,0 K], добавлен 17.01.2011Розгляд фонових знань необхідних для перекладу текстів в галузі психології. Ознайомлення з положеннями перекладу та визначення особливостей перекладу текстів науково-технічної літератури. Систематизація і класифікація труднощів з метою їхнього подолання.
курсовая работа [67,5 K], добавлен 26.02.2012Загальна характеристика та жанрова специфіка англомовних економічних текстів. Аналіз навчальних економічних текстів і текстів спеціальної економічної комунікації, які використовуються при навчанні студентів, лексичні, граматичні, стилістичні особливості.
статья [29,5 K], добавлен 27.08.2017Проблема еліпсису та еліптичних речень. Методика позиційного аналізу речення. Семантичний критерій смислового заповнення. Використання методики трансформаційного аналізу. Функціонально-комунікативні особливості еліптичного речення англійської мови.
дипломная работа [51,4 K], добавлен 03.12.2010Лексика і лексикологія. Термінологія як наука про слова фахової лексики. Особливості перекладу термінів у професійному мовленні. Дослідження знань термінів напрямку "Машинобудування". Специфіка аналізу способів перекладу термінів технічної терміносистеми.
курсовая работа [63,4 K], добавлен 06.03.2015Інтерактивні технології і їх місце у процесі навчання іноземної мови у початкових класах. Використання римування (віршів, лічилок) у вивченні фонетики. Особливості організації навчання англійської мови на ранньому етапі. Формування пізнавальних інтересів.
дипломная работа [87,8 K], добавлен 18.06.2017Аналіз описових композиційно-мовленнєвих форм, їх реалізація в художньому тексті. Взаємодія ОКМФ з розповідними та розмірковувальними формами на прикладі текстів Прохаська "З цього можна зробити кілька оповідань" і "Як я перестав бути письменником".
курсовая работа [72,1 K], добавлен 14.04.2014Визначення та види термінологічної лексики. Соціокультурні аспекти англомовних текстів. Особливості функціонування та шляхи перекладу англійської юридичної термінології українською мовою. Труднощі відтворення у перекладі складних термінів-словосполучень.
курсовая работа [51,9 K], добавлен 21.06.2013