Словарь RuSLED как инструмент семантических исследований
Описание использования словаря русского жестового языка в качестве индикатора различных значений слов. Рассмотрение причин создания системы автоматизированного сурдоперевода жестового языка. Оценка правильного сопоставления слов и соответствующих жестов.
Рубрика | Программирование, компьютеры и кибернетика |
Вид | статья |
Язык | русский |
Дата добавления | 09.01.2016 |
Размер файла | 278,9 K |
Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже
Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.
Размещено на http://www.allbest.ru/
Словарь RuSLED как инструмент семантических исследований
Воскресенский А.Л. (avosj@yandex.ru),
Гуленко И.Е. (gig@yandex.ru),
Хахалин Г.К. (gkhakhalin@yandex.ru)
Введение
RuSLED dictionary as tool for semantic study
Описывается использование словаря русского жестового языка в качестве индикатора различных значений слов русского языка, что позволяет более целенаправленно вести анализ контекста для снятия омонимии.
Одним из необходимых свойств системы искусственного интеллекта должна быть способность поддерживать коммуникацию с другими интеллектуальными системами и людьми, для чего необходимо понимать воспринимаемые речь и тексты. Понимание текста необходимо также для осуществления обучения и самообучения системы.
Создаваемая система автоматизированного сурдоперевода [1], поскольку между жестами жестового языка глухих и словами речи слышащих во многих случаях нет однозначного соответствия, также должна обладать способностью понимать вводимый текст (который может быть результатом работы подсистемы распознавания речи), чтобы на его основе формировать адекватные жестовые высказывания. Но в случае перевода со словесного на жестовый язык проблемы снятия омонимии отличаются от подобных задач при переводе с одного словесного языка на другой. Некоторые понятия, однозначно воспринимаемые в словесном языке, в жестовом языке приобретают несколько значений, которые должны быть выделены и разделены для генерации правильного перевода.
Задача выбора семантического значения слова осложняется субъективным восприятием исследователя, на что мы обращали внимание ранее [2]. Как показано ниже, сопоставление слов русского языка и соответствующих жестов языка глухих России позволяет более объективно подойти к задаче снятия омонимии и использования контекста для ее решения.
1. Краткое описание словаря
Словарь русского жестового языка RuSLED (Russian Sign Language Explanatory Dictionary) включает в себя функции толкового словаря, как для введенного слова, так и для его жестового представления. На вход словаря подается произвольная форма слова, а на выходе демонстрируются варианты жестового толкования данного слова [3].
Словарь содержит 2372 слова (с толкованиями их значений) и 2537 видеоизображений жестов (включая различные варианты исполнения), передающих значения этих слов. Для 1592 жестов (63% от общего числа, вошедших в словарь) даны дополнительные пояснения, относящиеся к манере исполнения жеста или описывающие смысловые нюансы, передаваемые жестом.
В словаре представлены жесты, используемые в Санкт-Петербурге и его окрестностях. Частично представленные в словаре жесты совпадают с жестами, используемыми в Москве, но в целом расхождения достаточно велики, что дало повод назвать данный словарь "Петербургский диалект".
Видеоряд словаря составлен на основе видеокурса, изданного Межрегиональным центром реабилитации (МЦР), г. Павловск [4]. В данной версии словаря для демонстрации жестов используются оцифрованные фрагменты видеозаписи сурдопереводчиков, заимствованные из видеокурса.
Использование для просмотра жеста элемента ActiveX Windows Media Player позволяет:
- просмотреть этот же жест повторно, при нажатии кнопки плеера ,
- приостановить выполнение жеста в требуемом месте, при нажатии кнопки плеера ||,
- просмотреть любую фазу выполнения жеста, передвинув мышью движок плеера в соответствующую позицию (рис. 1).
Рис. 1. Экранная форма словаря RuSLED
Поставленная ранее цель: использование для демонстрации жестов виртуального персонажа (аватара) пока не достигнута из-за сложности представления мимики, сопровождающей жесты и выполняющей весьма важную роль в жестовом языке глухих. Так, например, слова "милый", "симпатичный" передаются одним жестом, но отличаются движенями губ, проговаривающих фрагменты соответствующих слов.
При составлении пояснений к некоторым жестам использовались пояснения из словаря "Говорящие руки" Фрадкиной [5], составленном на основе московского варианта жестового языка.
При составлении пояснений к словам использованы более 30 словарей и энциклопедий, доступ к которым осуществлялся через Интернет, используя в основном службу "Словари" портала Яндекс, за исключением одной из версий Толкового словаря русского языка Ушакова, размещенной на портале ГРАМОТА.РУ, и нескольких других словарей.
Программная оболочка словаря зарегистрирована Госкоорцентром информационных технологий (ОФАП Минообразования и науки РФ) №10727 от 30.05.2008.
По рекомендациям сурдопедагогов обеспечена возможность фильтрации словника словаря по грамматическим категориям (существительные, глаголы, прилагательные, наречия, предлоги, частицы, числительные, местоимения). Для просмотра всего содержимого словаря нужно выбрать категорию "Все слова".
Дистрибутив словаря на DVD выполнен и распространяется ООО НПП "Дериа графикс" (г. Санкт-Петербург).
2. Слова и их семантические значения
При разработке интеллектуальных систем для обработки текста во многих случаях явно или косвенно подразумевается, что слова, из которых состоят обрабатываемые тексты, имеют постоянное семантическое значение. Это значение может быть единственным или множественным для полисемичных слов (имеется много работ, которые посвящены выявлению того или иного значения слова). Используя процедуры снятия омонимии, можно определить действительные для данного контекста значения слов и, соответственно, фраз и текста в целом.
Соответственно, опираясь на фиксированные семантические значения ключевых слов (семантических примитивов), делаются попытки создать (или выявить) универсальный семантический код [6], оперирируя которым можно определить значение любого высказывания.
Однако еще в 1940 г. академик Л.В. Щерба пришел к выводу, что логически строго определенные понятия "не являются какими-либо факторами в процессе речевого общения" [7, цитируется по 8]. Поскольку тексты являются элементами письменной речи, это может быть отнесено и к фрагментам текста - словам.
Так, например, строя вероятностную модель языка, В.В. Налимов полагает, что "слова, на которых основана наша культура, не имеют и не могут иметь конкретных значений. Возможно, и даже необходимо, рассматривать слова как обозначения семантических полей с нечеткими границами, по которым строится функция распределения вероятностей…" [9]. жестовый язык автоматизированный сурдоперевод
В настоящее время разделение семантических значений слов в словаре RuSLED осуществлено вручную. Однако переход к обработке текста при сурдопереводе требует автоматизировать данную операцию. В связи с этим поставлена задача создать шаблоны контекста, приписываемые к отдельным жестам и/или жестовым выражениям, позволяющие выбрать жест, наиболее соответствующий слову (или группе слов) во входном тексте (который может быть результатом работы подсистемы распознавания речи).
Учитывая высокую флективность русского языка и разнообразные способы изложения, присущие разным авторам, возможность совпадения до идентичности контекстов шаблона и анализируемого фрагмента текста маловероятна. При этом один и тот же объект может описываться в тексте с использованием различных слов (терминов), либо даже не описываться, а упоминаться косвенно. Кроме этого, в различных текстах (и даже нередко - в одном) одинаковыми словами могут описываться различные объекты (различные экземпляры, подклассы и т.п.) [10].
Значения терминов (в общем случае - слов) зависят от предметной области. Таким образом, для определения значения термина следует отнести обрабатываемый документ (фрагмент текста) к соответствующей предметной области, а затем выбрать значение из соответствующего раздела словаря. Эту процедуру в терминах анализа данных можно описать как определение вероятности отнесения данного текста (или фрагмента текста) к определенному классу, что является одним из вариантов задачи распознавания образов [11]. При этом, учитывая отсутствие четких границ семантических полей, определяющих значения слов, формируемые семантические классы следует отнести к размытым множествам [12]. Разрабатываемая методика определения вероятности отнесения значения анализируемого слова к тому или иному семантическому классу, использующая один из методов кластерного анализа: метод динамических сгущений [13], описана в [14].
3. Примеры многозначности и соответствующие процедуры обработки контекста
Рассмотрим некоторые случаи неоднозначности словоформ, с которыми мы встречаемся, работая со словарем RuSLED. Примеры контекста, в которых встречаются эти словоформы, заимствованы из Национального корпуса русского языка (НКРЯ, www.ruscorpora.ru). Вариативность значений слов в приведенных ниже примерах ограничена наличием в словаре RuSLED жестов, передающих соответствующие значения. Так, например, для слова "земля" приведены примеры значений "планета", "почва", "берег". Не рассматриваются значения "страна", "родина" и пр.
3.1 Омография некоторых форм слов
Написания слов "вино" в родительном падеже единственного числа и "вина" в именительном падеже совпадают (примеры 1 - 4);
(1) Хорошим дополнением к празднику послужит бутылка красного полусладкого вина.
(2) Какая из свах успеет больше перелить вина, у той стороны будет больше преимущества в супружеской жизни.
(3) Общими условиями деликтной ответственности, как правило, являются: …, а также вина причинителя вреда (умысел или неосторожность).
(4) Но вина судьи подлежит доказыванию в особом порядке.
Также совпадают написания существительного "весть" в именительном падеже множественного числа, родительном падеже единственного числа и глагола "вести" (примеры 5-8):
(5) … возлагать венки к мемориалу пропавших без вести.
(6) …доносились вести про новые расстрелы и аресты.
(7) …будет проще вести дела.
(8) Она готова схватить меня за руку и куда-то вести…
Здесь для выявления нужного значения подчеркнутого слова достаточно использовать синтаксический анализ локального контекста (ближайшего окружения слова, зачастую меньшего, чем предложение в целом), позволяющий выбрать нужную лексему из вариантов, предлагаемых морфологическим анализатором. При этом учитываются согласованность прилагательных и существительных и связность предложения, включающего анализируемые цепочки слов [15].
3.2 Некоторые случаи омонимии
Словом "лук" в русском языке обозначаются как съедобное растение, так и вид метательного оружия (примеры 9-12):
(9) Мелко порубить белки, лук, каперсы, анчоусы и травы.
(10) Лук - это пучки длинных сизо-зеленых стрел, но лук - это и клубни, выложенные в ряд.
(11) Опять эти обрыдшие ей индейцы! Этот проклятый лук и стрелы.
(12) Человек освоил лук и стрелы задолго до изучения законов механики…
Словом "автомат" обозначаются как вид огнестрельного оружия, так и устройство, работающее по заданной программе (примеры 13-16)
(13) Дома тоже автомат бы не помешал. Опять орали всю ночь.
(14) Я сказал, что я его убью. У меня есть автомат.
(15) За два шиллинга автомат честно отпускает вожделенную порцию азарта.
(16) Обнаружил две копейки. Пошёл в автомат.
Здесь для выявления нужного значения подчеркнутого слова уже не достаточно использовать синтаксический анализ локального контекста. Необходимо использовать контекст, выходящий за пределы предложения [2]. При этом необходимо учитывать частотные характеристики встречаемости слов в рассматриваемом контексте [16, 14], не исключая из рассмотрения предлоги [14], которые часто относятся к категории "стоп-слов", не учитываемых при анализе. Таким образом, помимо достаточно обширного словаря и знания грамматики, система обработки текста должна иметь примеры употребления слов, входящих в ее словарь, имеющие ссылки на соответствующие семантические классы. Но, строго говоря, осуществляемая в этом случае обработка не может считаться "интеллектуальной".
3.3 Полисемия
Слово "земля" в русском языке имеет ряд значений, из которых в словаре RuSLED встречаются значения "планета", "почва", "берег". Рассмотрим последний случай.
Для соответствующего жеста, передающего значение "берег", в словаре [5] приводится пояснение: ""Земля!" - закричали матросы". Различные переводчики, доступные в Интернете, дают следующие варианты перевода (примеры 17, 18, 19):
(17) "Ground!" - sailors cried. (Cognitive Translator, http://cs.isa.ru:10000/ct/)
(18) "The Earth!" - sailors have cried. (PROMT© Translator, http://www.translate.ru/)
(19) "Land!" - cried the sailors. (Переводчик Google©, http://translate.google.com/)
Общаясь с помощью словесной речи, мы каждый раз решаем задачу распознавания информации, передаваемой нам собеседником. При этом происходит подстановка значений слов, хранящихся в нашей памяти, т.е. воспринятый смысл текста не является точным аналогом слов, составляющих фразы текста. Там, где это возможно, воспринятое содержание фразы внутренне дополняется (и корректируется) в соответствии с общим содержанием текста и имеющимися знаниями об окружающем мире, не вызывая проявляемых внешне затруднений и протеста. Поэтому варианты (17) и (19) могут быть признаны допустимыми для случая словесного языка, а вариант (18) - нет, поскольку "The Earth" означает планету Земля, которую матросы не могут увидеть как цельный объект ни при каких обстоятельствах.
Но отметим, что ни в одном из случаев не получено значение "coast" ("берег"), необходимое для задачи сурдоперевода. Т.е. система сурдоперевода должна самостоятельно решать задачу выбора и подстановки нужных значений слов, исходя из общего содержания текста. Эти значения не всегда, как показывают приведенные примеры (17) - (19), будут очевидными, поэтому такая задача с полным основанием может считаться интеллектуальной.
Поясним ход "рассуждений" системы в данном случае, приводящих к распознаванию ситуации [17]: матросы находятся на корабле, находящемся в открытом море корабль со всех сторон окружен водой граница воды и суши (земли) называется берег если матросы закричали "Земля!", это означает, что они увидели границу между водой и сушей (землей), т.е. берег.
Представленные "рассуждения" соответствуют традиционной системе логических умозаключений, известной со времен Аристотеля. Из известных прототипов систем искусственного интеллекта, использующих подобный подход, можно назвать, например, системы NARS и Novamente [18].
Для выполнения подобных рассуждений система должна иметь обширные знания об окружающем мире (или, по крайней мере, о тематике обрабатываемых текстов), формирующие внутреннюю онтологию системы [19]. Эти знания могут пополняться не только за счет содержания обрабатываемых текстов, но и из внешних источников, например из сети Интернет.
При этом система должна иметь "собственное мнение" об окружающем мире и значениях слов, описывающих этот мир, поскольку семантическая разметка внешних источников информации может не отвечать требованиям решаемой задачи. Как видно из рис. 2, 3, семантическая разметка в НКРЯ не позволяет принять решение о конкретном значении слова в текущем контексте, хотя и имеется пометка, что омонимия снята.
Заключение
Обращение к иной модальности представления информации, например, к жестовому языку, позволяет выявить значения, приобретаемые словами в конкретном контексте, причем эти значения могут не выявляться явно при сопоставлении словесных языков. Подобный подход может быть полезен при определении функций автоматизированной системы обработки текста.
Рис. 2. Слово "земля" в значении "земельный участок".
Рис. 3. Слово "земля" в значении "берег, край суши".
Литература
1. Voskressenski A. Signs and speech: two forms of human communication // Proceedings of the Ninth International Conference "Speech and Computer" SPECOM'2004. Saint-Petersburg, Russia, 2004, P. 666-669.
2. Воскресенский А.Л., Хахалин Г.К. Средства семантического поиска. // Компьютерная лингвистика и интеллектуальные технологии: Труды международной конференции "Диалог 2006" (Бекасово, 31 мая - 4 июня 2006 г.). - М.: Изд-во РГГУ, 2006. - С. 100-104.
3. Воскресенский А.Л. Сопоставительное лексикографическое описание слов русского языка и жестов языка глухих россии в словаре RuSLED // Компьютерная лингвистика и интеллектуальные технологии: По материалам ежегодной Международной конференции "Диалог" (Бекасово, 4-8 июня 2008 г.). Вып. 7 (14). - М.: РГГУ, 2008. С. 91-96.
4. Специфические средства общения глухих: Видеокурс: В 3 частях // СПб - Павловск: МЦР, 2002.
5. Фрадкина Р.Н. Говорящие руки: Тематический словарь жестового языка глухих России // М.: Изд-во "Сопричастность" ВОИ, 2001. - 598 С.
6. Мартынов В.В. Основы семантического кодирования. Опыт представления и преобразования знаний. // Мн.: ЕГУ, 2001. - 140 С.
7. Щерба Л.В. Опыт общей теории лексикографии. // "Изв. АН СССР, ОЛЯ", №3, 1940, С. 100.
8. Степанов Ю.С. Методы и принципы современной лингвистики. // М.: Едиториал УРСС, 2003. - 312 С.
9. Vasily Nalimov. Realms of the Unconscious; The Enchanted Frontier. // ISI Press, 1982.
10. Елашкина А., Красноусова А., Максимова Н., Русин А. Тема-рематическая лингвистическая модель для машинной обработки текстов // Электронный документ: http://www.noolab.ru/articles/article09.asp.
11. Фу К.С. Лингвистический подход к распознаванию образов // Классификация и кластер / Ред. Дж. Вэн Райзин. - М.: Мир, 1980. - С. 167-207.
12. Заде Л.А. Размытые множества и их применение к распознаванию образов и кластер-анализе // Классификация и кластер / Ред. Дж. Вэн Райзин. - М.: Мир, 1980. - С. 208-247.
13. Прикладная статистика: Классификация и снижение размерности: Справ. изд. / С.А. Айвазян, В.М. Бухштабер, И.С. Енюков, Л.Д. Мешалкин; Под ред. С.А. Айвазяна. - М.: Финансы и статистика, 1989. - 607 С.
14. Воскресенский А.Л., Хахалин Г.К. Кластерный анализ контекста // Математическая теория систем: Материалы конференции МТС-09 (Москва, 26-30 января 2009 г.). - В печати.
15. Хахалин Г.К., Воскресенский А.Л. Контекстное фрагментирование в лингвистическом анализе // Десятая национальная конференция по искусственному интеллекту с международным участием КИИ-2006 (25 - 28 сентября 2006 г., Обнинск): Труды конференции. В 3 т. Т. 2. - М.: Физматлит, 2006. - С. 479 - 488.
16. Жигалов В.А., Жигалов Д.В., Жуков А.А., Кононенко И.С., Соколова Е.Г., Толдова С.Ю. Система ALEX как средство для многоцелевой автоматизированной обработки текстов // Компьютерная лингвистика и интеллектуальные технологии: Труды Международного семинара Диалог'2002. Т.2: Прикладные проблемы. - М.: Наука, 2002. - С. 192-208.
17. Леонтьева Н.Н. Автоматическое понимание текстов. Системы, модели, ресурсы. - М.: Издательский центр "Академия", 2006. - 304 С.
18. Artificial General Intelligence / B. Goertzel, C. Pennachin (eds). - Springer, 2007.
19. Voskresenskij A. Text Disambiguation by Educable AI System // The First Conference on Artificial General Intelligence / P. Wang et al. (Eds.), AGI-08, 1-3 March, 2008, Memphis. IOS Press, 2008.
Размещено на Allbest.ru
...Подобные документы
Первые системы синтеза речи. Расстановка ударений в неизвестных словах и занесение слов в словарь. Библиотека классов и пространства имен. Общеязыковая среда исполнения. Автоматическое управление памятью. Формирование эталонного ритмического рисунка.
дипломная работа [920,2 K], добавлен 29.03.2015Отличие исконных слов от заимствованных и установление времени, причины заимствований и их роль для развития языка. Алгоритм подсчета обработанных слов приложением "Подсчет частоты введенных слов в текстовом файле". Отладка и тестирование программы.
курсовая работа [1,1 M], добавлен 13.06.2012Необходимость создания словаря по технологии для школьников. Основные этапы, требования и особенности создания электронного словаря. Использование морфологического анализа для оформления и дизайна. Принципы создания веб-страниц в Microsoft Publisher.
творческая работа [2,0 M], добавлен 17.11.2009Словарь — книга, содержащая собрание слов, расположенных по определённому принципу. Электронный словарь – компьютерная база данных, содержащая особым образом закодированный словарные статьи. Возможности электронных словарей, достоинства и недостатки.
статья [178,0 K], добавлен 11.11.2010"Метод ключевых слов" как один из распространенных методов перехода к математической модели документа. Закономерности распределения частоты слов, отраженные в законе Ципфа. Экспериментальная оценка статистического анализа текста по модели TF*IDF.
реферат [591,7 K], добавлен 24.06.2009История создания языка Java. Основные принципы объектно-ориентированного программирования. Структура, особенности синтаксиса и примеры прикладных возможностей использования языка Java, его преимущества. Перспективы работы программистом на языке Java.
курсовая работа [795,9 K], добавлен 14.12.2012Изучение особенностей структурного программирования и процесса применения многомодульности оконного интерфейса приложения. Описание внутренних переменных модуля. Рассмотрение и характеристика преимуществ современных интегрированных сред разработки.
контрольная работа [487,0 K], добавлен 05.07.2017Необходимость разработки технологий для оптимального использования компьютерных возможностей. Эффективность гипертекста в экономике на примере словаря экономических терминов, возможности Excel, ознакомление с языком программирования Visual Basic.
курсовая работа [391,3 K], добавлен 14.01.2009Мотивы и особенности лексики произведений "О дивный новый мир" О. Хаксли и "1984" Дж. Оруэлла. Анализ, сравнение и обобщение ключевых слов и воссоздание художественного мира романов. Создание веб-приложения "Словарь ключевых слов британских антиутопий".
дипломная работа [2,6 M], добавлен 21.06.2016Изучение истории создания языка Турбо-Паскаль, важнейшего инструмента для обучения методам структурного программирования. Анализ меню управления всеми ресурсами интегрированной инструментальной оболочки, зарезервированных слов, символьных переменных.
презентация [989,7 K], добавлен 06.12.2011Анализ нейронных сетей и выбор их разновидностей. Модель многослойного персептрона с обучением по методу обратного распространения ошибки. Проектирование библиотеки классов для реализации нейросети и тестовой программы, описание тестирующей программы.
курсовая работа [515,4 K], добавлен 19.06.2010Основные теоретические положения объектно–ориентированной технологии программирования. Характеристика языка и словарь моделирования UML. Представление управления моделью. Построение диаграммы классов и описание функционирования предметной области.
курсовая работа [859,4 K], добавлен 11.05.2015Этапы разработки синтаксических и лексических анализаторов, семантических процедур для сканера, а также проектирование алгоритма, реализующего синтаксический анализ методом простого предшествования с помощью языка программирования высокого уровня.
курсовая работа [286,6 K], добавлен 24.09.2010Компиляторы - инструменты для решения вычислительных задач с использованием бинарного кода. Проблема выбора "правильного" компилятора. Применение компиляторов языка С++. Оценка MinGW, Borland Builder, Intel C++ Professional Edition, Watcom и Visual Studi.
контрольная работа [4,5 M], добавлен 05.10.2012Описание синтаксиса и семантики входного языка. Описание типов лексем, определение их синтаксиса. Построение диаграммы лексического анализатора, а также его таблицы, тестирование. Построение КС-грамматики входного языка. Описание промежуточного языка.
курсовая работа [83,0 K], добавлен 23.01.2014Методика разработки и частичная реализация транслятора для языка "С" с использованием языка "С++", производящего разбиение на минимальные неделимые конструкции языка исходной цепочки символов основываясь на лексике языка. Анализ работы программы.
курсовая работа [841,3 K], добавлен 19.03.2012Описание языка программирования Java: общие характеристики, главные свойства, краткий обзор. Надежность и безопасность, производительность и базовая система программы. Разработка программы поиска по словарю, алгоритм её работы. Общий вид кода программы.
курсовая работа [20,3 K], добавлен 28.10.2012Создание электронного филологического словаря. Использование не реляционной базы данных. Средства JavaScript для создания интерактивности на странице. Серверный язык программирования PHP. Специфика словарной статьи. Взаимодействие с базой данных.
курсовая работа [689,9 K], добавлен 26.02.2015Ознакомление с основами расширяемого языка разметки Extensible Markup Language. Изучение основных правил создания XML-документа. Рассмотрение набора элементов языка, секций CDATA, директив анализатора, комментариев, спецсимволов, текстовых данных.
презентация [400,9 K], добавлен 21.12.2014Разработка программы на языке программирования C++ с функциями считывания словаря в начале работы программы из текстового файла и записи словаря в файл перед завершением работы. Основные элементы программного продукта: данные абонента телефонной сети.
контрольная работа [12,9 K], добавлен 07.04.2015