Планирование диалога для речевого интерфейса системы управления интерактивной робототехнической системой

Механический и речевой интерфейс при взаимодействии человека и робота. Функциональная структурная схема речевого интерфейса в составе робототехнической системы. Анализ решения задачи управления диалогом. Прогнозирование последующих действий оператора.

Рубрика Программирование, компьютеры и кибернетика
Вид статья
Язык русский
Дата добавления 19.01.2018
Размер файла 31,4 K

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

6

Размещено на http://www.allbest.ru/

Московский государственный техническитй университет им. Н.Э. Баумана

Планирование диалога для речевого интерфейса системы управления интерактивной робототехнической системой

Морозов Д.Н., аспирант

1. Введение

При взаимодействии человека и робота основными видами интерфейса являются механический и речевой. При всей простоте первого, существует рад приложений, когда речевое взаимодействие является более предпочтительным. К таким случаям относится использование роботов при выполнении ответственных и сложных задач (спасательные операции, медицинское обслуживание и др.), а также использование роботов в повседневной деятельности человека (робот-официант, робот-компаньон и др.) В первом случае использование речевого интерфейса продиктовано необходимостью разнесения каналов передачи информации для человека-оператора, а во втором - необходимостью обеспечить максимальную естественность взаимодействия для человека. В последнем случае такая естественность делает задачу создания речевого интерфейса чрезмерно сложной, из-за высокой вариативности реализаций речевой деятельности человека. Под вариативностью здесь понимается языковой процесс, отражающий способность говорящего человека к экспрессии, к свободе выражения своих мыслей и чувств в звучащей речи. Это обстоятельство диктует необходимость наложения ограничений на речевое взаимодействие, и привидению его к форме управляемого диалога между человеком и модулем речевого взаимодействия робота. Такие ограничения относятся как способу реализации единиц диалога, так и к определению конкретной предметной области, для которой создается сам робот, и которой - следовательно - ограничивается лексическое наполнение языка.

В результате, формируется близкий в естественному проблемно-ориентированный язык. Используя этот язык, человек-оператор формулирует команды управления на верхнем уровне. Задача планирования действий из элементарных операций возлагается уже на робота, а точнее - робототехническую систему. На нее же возлагается и задача управления диалогом, что позволяется называть ее интерактивной робототехнической системой (ИРТС). Ниже рассмотрен ряд вопросов, связанный с задачами понимания естественно-языковой (ЕЯ) команды и управления диалогом.

2. Структура речевого интерфейса

Функциональная структурная схема речевого интерфейса в составе ИРТС представлена на рисунке 1.

Рис. 1. Функциональная схема речевого интерфейса.

На вход системы поступает речевая команда на проблемно-ориентированном языке. Подробное описание структуры и принципа формирования команд можно найти в [1]. После обработки в модуле распознавания речи данные передаются в модуль понимания речи в виде последовательности отдельных слов. Модуль понимания речи представляет команду в виде фрейма, структура которого основана на вербоцентрическом подходе и более подробно также описана в нашей предыдущей работе. В зависимости от результатов заполнения слотов фрейма-команды, она может быть передана из речевого интерфейса в модуль планирования операций, или - в случае возникновения проблем - использована для формирования уточняющего запроса к оператору. В модуль формирования ответа передается фрейм-запрос, на основе которого строится ЕЯ-запрос оператору. Этот запрос воспроизводится модулем реализации ответа.

3. Задача управления диалогом

Как уже отмечалось выше, определенной предметной области функционирования робота соответствует ограниченная модель мира. Наличие у робота определенных функций в рамках такой модели обуславливает конечное число целей коммуникации человек-ИРТС. Требования к структуре командного языка управления в совокупности с вышеуказанными факторами сводят возможное многообразие реализаций диалога к нескольким сценариям. Под сценарием диалога здесь понимается совокупность состояний диалога от начального до конечного (целевого) и переходов между ними. В основе исходного состояния диалога лежит первая команда человека-оператора как инициирующее действие для начала фактической работы ИРТС. Целевым состоянием диалога, в данном случае, является обретение информации, необходимой ИРТС для выполнения действий в соответствии с коммуникативным замыслом оператора.

В зависимости от полноты и корректности данных, предоставляемых оператором в виде команды, необходимость в ведении диалога может и не возникать. В этом случае ИРТС получает достаточно данных для немедленного планирования и выполнения операции. С точки зрения построения диалога, такая ситуация является вырожденной. То же самое относится и к командам безусловного выполнения (например, "стоп"). Еще один вид операций, характерный для ИРТС, работающей в недоопределенной среде, это гностические операции. Он также может сопровождаться выдачей речевых команд, но диалогичность в данном случае отсутствует, поскольку основным источником внешней информации является сенсорная система робота. Команды оператора - даже в речевой форме - являются принципиально схожими с другими способами задания действий, включая механические, и не представляет интереса в данном контексте. Таким образом, диалогу в данной задаче отводится роль корректирующего средства. В этом случае возможно развитие диалога по одному из следующих сценариев: (1) уточнение состава команды, (2) уточнение операции. Данные сценарии возникают в случае некорректности задания команды на лингвистическом и ситуативном уровне, соответственно. Тогда в первом случае речь идет ситуации, когда полученная команда является "узнаваемой" для модуля понимания речи на синтаксическом уровне, но предоставленных в составе команды данных не достаточно для перехода на семантический уровень с последующим планированием операции. В этом случае соответствующая информация передается в модуль управления диалогом (см. рисунок 1). В модуле управления диалогом в зависимости от конкретного сценария формируется набор данных, необходимых для формулировки запроса к человеку-оператору для непосредственного указания на недостающую информацию.

В случае некорректности на ситуативном уровне, команда является абсолютно достаточной с точки зрения синтаксиса и семантики, однако существуют ситуативные противоречия при планировании соответствующей операции (например, объект перемещения недоступен для манипулятора).

Для формализации двух указанных сценариев в данной работе использована фреймовая модель, как позволяющая полное описание типовой ситуации при некотором ограничении неопределенности естественно-языкового диалога. В этом случае сам сценарий описывается прото-фреймом, а конкретная реализация диалога фиксируется в виде фрейма-экземпляра. Так, для сценария "уточнение состава команды" прото-фрейм имеет следующий вид: "< (1) исходный текст команды>, < (2) недостающий компонент>, < (3) фокусирующий запрос оператору о недостающем компоненте>, < (4) вторичный текст команды>, < (5) число итераций>, < (6) окончательный вид команды>". Возможность включения в структуру фрейма процедурной информации позволяет - в случае неудовлетворительного уточнения оператора - организовать цикл по заполнению содержимого слотов 1-4 фрейма-сценария.

интерактивная оператор робот речевой интерфейс

Для сценария "уточнение операции" прото-фрейм выглядит следующим образом: "< (1) окончательный вид команды>, < (2) конфликтный компонент команды>, < (3) фокусирующий запрос оператору с указанием на причину конфликта>, < (4) вторичный текст команды>, < (5) число итераций>, < (6) окончательный вид команды>". Здесь понятие конфликт обозначает противоречие между реальной ситуацией, в рамках которой задана команда, и ситуацией, необходимой для выполнения команды, как это понимается, например, в [2]. Со стороны оператора в этом случае могут последовать два действия: подтверждение команды на выполнение или задание новой команды. В первом случае оператор уверен в корректности задания. Во втором случае новая команда будет направлена на выполнение действий по разрешению противоречия.

Применительно к задаче управления диалогом с учетом планирования операций следует оговориться о необходимости введения двух представлений команды: внешнем (вводится оператором) и внутреннем. Последнее используется непосредственно при планировании операции и помимо данным, указанных оператором в виде команды, содержит информацию об условиях выполнимости операции, заложенных на этапе создания системы. Эти данные не зависят от конкретной реализации ЕЯ-команды и относятся к "родовым" свойствам каждой операции. Например, для команды переместить необходимо, чтобы объект перемещения не содержал других предметов на верхней грани.

В подобных задачах недостатком аппарата фреймов, как отмечается, например, в [3], является отсутствие хронологической информации и невозможность учета истории диалога. В этом случае возникает необходимость введения внешнего менеджера диалога, задачей которого является выход из тупиковых веток диалога, если оператор, например, не способен предоставить необходимую уточняющую информацию. В этом случае, по инициативе системы, могут быть предложены возможные готовые варианты ответа, задание другой команды или переход в режим гностических операций. В общем случае можно сказать, что задачей менеджера диалога является ведение фрейма-сценария на основе содержащейся в последнем процедурной информации.

4. Заключение

Наличие описанных выше моделей диалога повышает эффективность речевого интерфейса, так как дает возможность прогнозирования последующих действий оператора в рамках речевого взаимодействия. В самом простом случае прогнозирование может быть основано на данных, удовлетворяющих уточняющему запросу системы, имеющихся в самой системе, но не указанных оператором при инициации диалога. Перечень наиболее вероятных ответов можно использовать, например, в качестве "опорной" информации на этапе распознавания речевого сигнала.

Литература

1. Морозов Д.Н. Фреймовое представление естественно-языковых запросов в задачах управления мобильным манипуляционным роботом // Труды IV Международной научно-практической конференции "Интегрированные модели и мягкие вычисления в искусственном интеллекте" - М.: Физматлит, 2007. - С.333-339.

2. Ющенко А.С. Интеллектуальное планирование в деятельности роботов. - Мехатроника, 2005. - №3. - С.5-18.

3. Ли И.В. Локальный и глобальный уровни управления диалогом // Труды международной конференции "Диалог 2007", С.382-387.

Размещено на Allbest.ru

...

Подобные документы

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.