Анализ метода выявления синонимических рядов, соответствующих одинаковым понятиям

Оценка качества метода выявления синонимических рядов, описывающих одинаковые понятия на основании опроса носителей русского языка. Применение метода к данным открытого тезауруса русского языка. Необходимость в повышении качества синонимических рядов.

Рубрика Иностранные языки и языкознание
Вид реферат
Язык русский
Дата добавления 27.07.2017
Размер файла 26,6 K

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru/

Анализ метода выявления синонимических рядов, соответствующих одинаковым понятиям

Ю.А. Киселёв

Уральский федеральный университет

имени первого Президента

России Б.Н. Ельцина

Екатеринбург

Аннотация

В статье анализируется метод, позволяющий выявлять синонимические ряды, описывающие одинаковые понятия. Получена оценка качества этого метода на основании опроса носителей русского языка; точность анализируемого метода составляет 73 %. Применение данного метода к данным открытого тезауруса русского языка YARN выявило необходимость в повышении качества синонимических рядов этого ресурса.

Ключевые слова: лексический ресурс, словарь, Викисловарь, краудсорсинг, тезаурус, синонимия, синонимический ряд, семантические отношения, мера сходства, русский язык

Введение

Два выражения являются синонимичными, если замена одного выражения на другое никогда не меняет истинность утверждения, в котором была произведена такая замена. Понятно, что таких выражений (слов) существует немного. Поэтому понятие синонимии обычно уточняется: два выражения являются синонимичными в лексическом контексте С, если замена одного на другое в С не меняет истинности выражения [1]. Это позволяет более конструктивно интерпретировать слова и устанавливать синонимические отношения.

Отношение синонимии является чрезвычайно важным в языке. Например, оно служит основой для построения тезаурусов (далее под тезаурусом будем понимать особый вид словаря, отражающий семантические отношения между словами) - основной структурной единицей тезаурусов является синсет Синсет (от англ. synset - set of synonyms) - множество синонимов., т.е. синонимический ряд.

Считается, что синонимический ряд задаёт смысл, т.е. определяет некоторую концепцию [2]. В отличие от многих других лексических ресурсов входом в тезаурус является не слово, а понятие (или синсет). Понятно, что в тезаурусе концепции должны быть представлены уникальным образом. Однако в случае, если ресурс достаточно большой, убедиться в этом может быть весьма сложно. Тем не менее, существует предположение, что пара синонимов задаёт некоторый смысл [2]. Его использование может помочь выявить сходные синсеты с целью дальнейшей очистки лексических ресурсов от синсетов с одинаковыми значениями.

В этой связи в настоящей статье предлагается метод, позволяющий на основе анализа слов синсетов, сделать вывод о сходстве их значений, и анализ его точности.

Обзор ресурсов, содержащих в своём составе синонимические ряды

В словарях синонимов, как следует из названия, лексика сгруппирована с использованием отношения синонимии: слова формируют синонимические ряды, и каждому ряду, как определяющему некоторый смысл, даётся определение. Такая форма ресурса позволяет эффективно вводить отношения между понятиями (то есть синсетами), так как каждое понятие встречается в ресурсе только один раз. В отличие, например, от толковых словарей, где слова, описывающие одинаковые концепции, встречаются в разных статьях.

Словари синонимов создаются профессиональными коллективами экспертов-лексикографов, поэтому в них отсутствует проблема того, что одно понятие может встретиться несколько раз. Однако для многих других ресурсов эта проблема является чрезвычайно актуальной. Рассмотрим такой лексикографический ресурс как Викисловарь [3]. Это многоязычный электронный словарь и тезаурус. Он содержит разную словарную информацию о заголовочных словах: морфологические сведения, семантические свойства, в том числе, определения, синонимы и другие.

Важно отметить принцип наполнения этого ресурса: Викисловарь является краудсорсинговым ресурсом, то есть его пользователи совместно вносят изменения, связанные как с содержимым, так и со структурой ресурса. И хотя Викисловарь наполняется обычными пользователями, не-экспертами, он обладает достаточно высоким качеством, что было проанализировано в работе [4]. Русская версия Викисловаря по многим аспектам качества также не уступает традиционным лексическим ресурсам [5].

Тем не менее, анализ этого ресурса показал, что синсеты, входящие в его состав, могут описывать одинаковые понятия и при этом различаться. Например, в статье "Малодушие" есть синсет "малодушие, трусость, нерешительность, безволие". При этом в статье "Трусость" приведён другой синсет: "трусость, боязливость, малодушие". Эти синсеты описывают одинаковые понятия, но состоят из разного количества слов, часть из которых отличается. Очевидно, что на основании только этих двух имеющихся синсетов нужно было сформировать следующий более полный "трусость, боязливость, малодушие, нерешительность, безволие", который можно было включить в обе статьи.

Викисловарь не единственный ресурс, обладающий отмеченным недостатком. Рассмотрим другой краудсорсинговый ресурс: большой открытый электронный тезаурус (ЭТ) русского языка YARN [6]. Он создается в Уральском федеральном университете совместно с Высшей школой экономики с 2013г. Авторы ресурса разработали интерфейс, позволяющий его пользователям самим формировать синсеты [7]. Из-за особенностей интерфейса и того, что ресурс наполняется не-экспертами, в тезаурусе YARN тоже могут быть синсеты, описывающие одинаковые понятия.

В отличие от Викисловаря, наличие в YARN таких синсетов является существенной проблемой из-за того, что это осложняет дальнейшее введение семантических отношений в ресурс. (В Викисловаре отношения вводятся между отдельными словами (статьями), а не понятиями, поэтому наличие неполных синсетов, как и их дубликатов, хотя и является недостатком, но не столь существенным). При этом качество синонимических рядов само по себе важно для решения многих задач, где могут применяться синонимы, например, в задаче тематической классификации документов (см., напр., [8, 9]).

В этой связи необходимо разработать метод, который позволил бы выявлять синсеты, описывающие одинаковые понятия, и оценить его качество.

Метод выявления синонимических рядов, соответствующих одинаковым понятиям, и его оценка

Авторы первого ЭТ Princeton Wordnet [10], анализируя подходы к определению слов, отмечают, что в большинстве случаев для идентификации слова достаточно одного его синонима [2], то есть пара синонимов задаёт смысл. Это наблюдение широко используется в толковых словарях, где в качестве определений часто приводится ровно один синоним.

Следуя данному утверждению, сформулируем критерий эквивалентности синсетов: если синсеты содержат хотя бы два одинаковых слова, то они разделяют общий смысл, т.е. являются эквивалентными. Этот критерий использовался в работе [5] для определения доли общих смыслов, представленных в различных лексических ресурсах, таких как ЭТ и словари синонимов. Однако верификация данного критерия не была проведена.

Отметим, что данный критерий имеет практическую значимость, так как его применение может выявлять сходные синсеты в ресурсах. Это может помочь в удалении идентичных концепций, представленных различных образом и повысить полноту отображения соответствующих концепций за счёт слияния действительно сходных синсетов в один.

В этой связи задача проверки верности данного критерия является актуальной и осуществляется в статье далее. Для оценки точности критерия сходства синсетов был проведён следующий эксперимент.

Из тезауруса YARN были получены все синсеты Исходные данные доступны по адресу http://russianword.net/yarn-synsets.csv. и оставлены те из них, для которых есть эквивалентные. Согласно нашим расчётам, в YARN (по состоянию на 10 июля 2015г.) содержалось 44 тыс. синсетов, связывающих 54 тыс. слов. Из них почти 28 тыс. пар эквивалентных синсетов, среди которых 15,7 тыс. различных синсетов. Таким образом, YARN содержит до 35 % синсетов с одинаковым смыслом.

Случайным образом было выбрано 100 пар эквивалентных синсетов s и se, таких что:

s?S, se?Se, |s| < |se|,

где || обозначает мощность множества и соответствует количеству слов в синсете. Затем из большего синсета se каждой пары выбирались слова words, отсутствующие в меньшем s. Согласно критерию эквивалентности синсетов, эти слова являются кандидатами на включение в меньший синсет. Все отобранные синсеты содержали 3-7 слов включительно (нижняя граница гарантировала, что синсет формировался не "случайно", и он определяет некоторую концепцию; верхняя граница отфильтровывала в достаточной степени полные синсеты).

Затем был проведён опрос, в котором участникам (из числа носителей русского языка) предлагалось выбрать слова из words, добавление которых в синсет s не искажает смысл. Очевидно, что если участник выбирал какие-то слова, это означало, что синсеты действительно имеют общий смысл. Из-за того, что участники опроса не являлись экспертами, мы собрали 3 оценки для каждого синсета, т.е. всего было получено 300 оценок. Считалось, что слово необходимо добавить в синсет, если его выбрало более одного человека.

Хотя бы одно слово было добавлено в 73 синсета, при этом всего было добавлено 159 слов. Это говорит о том, что каждый синсет, который был пополнен, увеличился в среднем более, чем на 2 слова (159 / 73 ? 2,2). Это свидетельствует о том, что в 73 случаях из 100 синсеты, которые мы считаем эквивалентными, действительно описывают одинаковые понятия. В таких случаях синсет, из которого выбирались слова на добавление, может быть удалён из ресурса, как дубликат модифицированного синсета.

Заключение

Проведённый опрос носителей русского языка позволил сделать вывод о качестве предлагаемого метода определения синсетов, отражающих одинаковые концепции. Оценка точности метода получена на основе точности критерия эквивалентности синсетов, который формулируется следующим образом: синсеты, содержащие хотя бы пару одинаковых слов, разделяют общий смысл. Точность этого критерия составляет 73 %. На основании этой оценки и количества эквивалентных синсетов в тезаурусе YARN можно сказать, что до 25 % его синсетов описывают понятия, представленные в ресурсе неуникальным образом.

Важно отметить, что проведённый анализ качества был осуществлён без привлечения специалистов из числа профессиональных лексикографов. За счёт получения трёх оценок на один синсет и их последующего мажорирования оказалось достаточно участия одних лишь носителей языка.

Проведённое исследование выявило необходимость в очистке синсетов тезауруса YARN от синсетов-дубликатов. В этой связи метод повышения качества синсетов, созданных с помощью краудсорсинга, является предметом дальнейших исследований.

Благодарности

Исследование выполняется при финансовой поддержке РГНФ (проект № 13-04-12020 "Новый открытый электронный тезаурус русского языка") и научной группы "Разработка методов анализа, обработки, визуализации и прогнозирования многомерных данных для современных информационных систем" Уральского федерального университета им. первого Президента России Б.Н. Ельцина. опрос носитель русский тезаурус

Литература

1. Jarmasz M. Roget's Thesaurus and Semantic Similarity. Proc. of Conf. on Recent Advances in Natural Language Processing. Borovets: John Benjamins Publishing Company, 2003. 212-219 pp.

2. Fellbaum C. WordNet: An Electronic Lexical Database. Cambridge: 1998. 447 p.

3. Викисловарь URL: wiktionary.org.

4. Meyer C. M., Gurevych I. Wiktionary: A new rival for expert-built lexicons? Exploring the possibilities of collaborative lexicography. Electronic Lexicography. Oxford: Oxford University Press, 2012. 259-291 pp.

5. Kiselev Y., Krizhanovsky A., Braslavski P., et al. Russian Lexicographic Landscape: a Tale of 12 Dictionaries. Computational Linguistics and Intellectual Technologies: papers from the Annual conference "Dialogue". Moscow: RGGU, 2015. 254-271 pp.

6. Yet Another RussNet URL: russianword.net.

7. Braslavski P., Ustalov D., Mukhin M. A Spinning Wheel for YARN: User Interface for a Crowdsourced Thesaurus. Proc. of the Demonstrations at the 14th Conf. of the EACL. Gothenburg: ACL, 2014. 101-104 pp.

8. Киселёв Ю.А. Перспективы использования жанровой классификации Веб документов в поисковых системах. Инженерный вестник Дона. 2012. №4-2 URL: ivdon.ru/ru/magazine/archive/n4p2y2012/1425.

9. Красников И.А., Никуличев Н.Н. Гибридный алгоритм классификации текстовых документов на основе анализа внутренней связности текста. Инженерный вестник Дона. 2013. №3 URL: ivdon.ru/ru/magazine/archive/n3y2013/1773.

10. WordNet URL: wordnet.princeton.edu.

References

1. Jarmasz M. Roget's Thesaurus and Semantic Similarity. Proc. of Conf. on Recent Advances in Natural Language Processing. Borovets: John Benjamins Publishing Company, 2003. 212-219 pp.

2. Fellbaum C. WordNet: An Electronic Lexical Database. Cambridge: 1998. 447 p.

3. Vikislovar' [Wiktionary] URL: wiktionary.org.

4. Meyer C. M., Gurevych I. Wiktionary: A new rival for expert-built lexicons? Exploring the possibilities of collaborative lexicography. Electronic Lexicography. Oxford: Oxford University Press, 2012. 259-291 pp.

5. Kiselev Y., Krizhanovsky A., Braslavski P., et al. Russian Lexicographic Landscape: a Tale of 12 Dictionaries. Computational Linguistics and Intellectual Technologies: papers from the Annual conference "Dialogue". Moscow: RGGU, 2015. 254-271 pp.

6. Yet Another RussNet URL: russianword.net.

7. Braslavski P., Ustalov D., Mukhin M. A Spinning Wheel for YARN: User Interface for a Crowdsourced Thesaurus. Proc. of the Demonstrations at the 14th Conf. of the EACL. Gothenburg: ACL, 2014. 101-104 pp.

8. Kiselev Yu.A. Inћenernyj vestnik Dona (Rus), 2012, №4-2 URL: ivdon.ru/ru/magazine/archive/n4p2y2012/1425.

9. Krasnikov I.A., Nikulichev N.N. Inћenernyj vestnik Dona (Rus), 2013, №3 URL: ivdon.ru/ru/magazine/archive/n3y2013/1773.

10. WordNet URL: wordnet.princeton.edu.

Размещено на Allbest.ru

...

Подобные документы

  • Понятие о синонимах. Функции, значение синонимов в языке. Группировка слов и словосочетаний, носящая системный характер. Выявление значения синонимических средств. Принципы составления синонимических словарей английского языка. Активность. Двуязычность.

    научная работа [18,5 K], добавлен 25.02.2009

  • Понятие и определение синонимов, сущность критериев синонимичности. Богатство и выразительность синонимов в русском языке. Скрытое и открытое использование синонимических рядов. Особенности смыслового подобия и стилистических оттенков синонимов.

    реферат [22,9 K], добавлен 03.05.2012

  • Сущность синонимии и понятие текста как единицы лингвистики. Специфика словообразующих факторов и их роль в создании текстов. Функционирование синонимических парадигм в романе Лермонтова "Герой нашего времени": речемыслительного и описательного характера.

    дипломная работа [118,4 K], добавлен 26.02.2011

  • Регулирование процесса создания словаря синонимов. Словари синонимов как источник для анализа системных отношений в лексике. Анализ представления синонимов и синонимических рядов русской лексики в современных учебниках и словарях для средней школы.

    реферат [49,4 K], добавлен 03.06.2017

  • Причины и основные направления реформирования русского языка. Анализ и ключевые моменты основных реформ русского языка, оказавших влияние на современную речь и орфографию. Определение перспективы дальнейшего развития русского разговорного языка.

    курсовая работа [31,5 K], добавлен 19.03.2015

  • Русский язык в современном обществе. Происхождение и развитие русского языка. Отличительные особенности русского языка. Упорядочение языковых явлений в единый свод правил. Главные проблемы функционирования русского языка и поддержки русской культуры.

    реферат [24,9 K], добавлен 09.04.2015

  • Исследование истории возникновения языков. Общая характеристика группы индоевропейских языков. Славянские языки, их схожесть и отличия от русского языка. Определение места русского языка в мире и распространение русского языка в странах бывшего СССР.

    реферат [239,6 K], добавлен 14.10.2014

  • История появления русского языка. Специфические черты кириллицы. Стадии формирования алфавита в процессе становления русской нации. Общие черты, характерные для языка массовой коммуникации в современном обществе РФ. Проблема варваризации русского языка.

    реферат [25,3 K], добавлен 30.01.2012

  • Нынешняя реформа по упрощению русского языка уже третья по счету в этом веке. Каждая принесла значительные изменения в правописании. Исследование нового свода правил правописания русского языка и анализ возможных трудностей в обучении школьников.

    доклад [11,5 K], добавлен 24.02.2008

  • Краткие сведения из истории русской письменности. Понятие о лексике современного русского языка. Изобразительно-выразительные средства языка. Лексика русского языка. Фразеология современного русского языка. Речевой этикет. Типы словообразования.

    шпаргалка [34,4 K], добавлен 20.03.2007

  • Знакомство с процессом развития речи младших школьников. Характеристика основных лингвистических словарей русского языка. Нормированность речи как ее соответствие литературно-языковому идеалу. Анализ типов норм современного русского литературного языка.

    дипломная работа [130,1 K], добавлен 11.02.2014

  • Интеграция в новых государствах, возникших на постсоветском пространстве. Языковая ассимиляция русских. Проблемы русского языка на Кавказе и в странах СНГ. Экспансия русского языка. Сохранение и развитие русского языка на территории новых государств.

    курсовая работа [28,4 K], добавлен 05.11.2008

  • История и основные причины образования и распада древнерусского языка, его лексические и грамматические особенности. Место и оценка значимости русского языка в ряду других языков. Возникновение письменного языка у восточных славян, его течения и стили.

    курсовая работа [61,4 K], добавлен 15.07.2009

  • Порядок утверждения норм современного русского литературного языка при его использовании в качестве государственного языка Российской Федерации. Употребление слов "паразитов". Нарушение норм языка как вполне нормальное явление для любого языка.

    эссе [25,2 K], добавлен 16.11.2013

  • Социодиалект как культурная универсалия. Различие территориальных и социальных диалектов. Разновидности социодиалектов русского языка. Арго. Формы образования функциональных единиц социодиалекта. Арготизмы в литературном языке.

    курсовая работа [36,8 K], добавлен 31.07.2007

  • Основные аспекты культуры речи и средства ее выразительности, использование фразеологизмов и крылатых выражений. Необходимость выбора языковых средств и особенности функциональных разновидностей слова, формирование речевого этикета русского языка.

    реферат [28,4 K], добавлен 28.12.2010

  • Определение понятия "тезаурус", обзор идеографических словарей. Особенности выявления элементов (семантических групп) и ключевых слов предметной области тезауруса "горный и пешеходный туризм" в русском и испанском языках, приемы сопоставления элементов.

    курсовая работа [55,1 K], добавлен 26.10.2015

  • Общее понимание стиля и стилистическое расслоение языковых средств на функциональные стили русского языка. Их виы: научный, официально-деловой, газетно-публицистический, художественный и разговорно-обиходный. Взаимодействие стилей русского языка.

    реферат [34,7 K], добавлен 20.02.2009

  • Словообразовательная система русского языка XX столетия. Современное словопроизводство (конец ХХ века). Словарный состав русского литературного языка. Интенсивное образование новых слов. Изменения в семантической структуре слов.

    реферат [23,2 K], добавлен 18.11.2006

  • Современный русский язык - один из богатейших языков мира. Высокие достоинства и словарный запас русского языка. Особенности функционального, экспрессивного, разговорного, научного, книжного, публицистического, официально-делового стиля русского языка.

    реферат [69,2 K], добавлен 15.12.2010

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.