Нечеткая атрибутная грамматика текста технического задания

Автоматизация семантического анализа текста технического задания. Создание унифицированной структуры текста технического задания. Автоматизированная обработка текста документа с соблюдением примерной структуры, требования к которой изложены в ГОСТах.

Рубрика Программирование, компьютеры и кибернетика
Вид статья
Язык русский
Дата добавления 18.01.2018
Размер файла 36,4 K

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru/

Волгоградский государственный технический университет

НЕЧЕТКАЯ АТРИБУТНАЯ ГРАММАТИКА ТЕКСТА ТЕХНИЧЕСКОГО ЗАДАНИЯ

Заболеева-Зотова А.В., д.т.н., профессор

Орлова Ю.А., к.т.н.

Общеизвестно, что разработка и анализ технической документации требует от лиц, занимающихся проектированием программного обеспечения семантической обработки большого объема технического текста, глубокого знания предметной области и навыков в проектировании. Трудоемкость процесса анализа текста приводит к необходимости его автоматизирования. Однако необычайная сложность проблемы синтеза и анализа семантики технического текста, для решения которой необходимо использовать сембиоз методов искусственного интеллекта, прикладной лингвистики, психологии и т.п., приводит к тому, что она до сих пор не решена.

В данной работе мы пытаемся автоматизировать начальный этап проектирования программного обеспечения - семантический анализ текста технического задания.

Для семантического анализа текста технического задания необходимо создание унифицированной структуры текста технического задания, то есть создание такой грамматики, которая позволит наиболее полно отобразить содержимое технического задания.

Проблема состоит в том, что часть компонентов ТЗ содержит информацию, которая по своему характеру является нечеткой, что обусловлено вариантностью и подвижностью границ языковой нормы и статистическим характером отдельных видов информации. Неточность информации, содержащейся в компонентах ТЗ, относится к семантическому и предметно-зависимому уровню ТЗ и обусловлена сложностью процесса формализации описываемых явлений. Рекомендации по проведению такой формализации формулируются в виде описаний на ЕЯ, апеллирующих к языковой интуиции человека, и могут трактоваться по-разному различными специалистами.

Практически непреодолимой причиной неполноты лингвистической информации является открытость и постоянное развитие ЕЯ: появление новых языковых единиц, изменение свойств существующих единиц и правил их сочетаемости. Такая динамика особенно заметна в подъязыках новых предметных областей с неустоявшейся терминологией.

Другой причиной неполноты лингвистической информации является наличие огромного числа нюансов и языковых особенностей отдельных носителей языка, описать и формализовать которые на сегодняшний день не представляется возможным.

Часть информации, содержащейся в ТЗ может быть ошибочной. Ошибочная информация отличается от неточной тем, что для неточной информации известно, насколько она может не соответствовать действительности. Ошибочная информация может быть маркирована даже как точная, но в то же время полностью противоречить реальной ситуации.

Основными причинами, ведущими к образованию ошибочной информации в ТЗ является устаревание информации, Ошибки ручного ввода, несогласованности при формировании ТЗ различными экспертами, ошибки автоматизированного формирования.

Влияние указанных источников потенциальных ошибок на качество ТЗ может быть ослаблено, однако полностью нейтрализовать его невозможно.

Рассматривая ТЗ как информационный ресурс и выделим его особенности. автоматизированный семантический текст технический

Задачей исследования является автоматизированная обработка текста документа, который изначально создается человеком на естественном языке с соблюдением примерной структуры, требования к которой изложены в ГОСТах.

На данном этапе развития методов анализа текста не представляется возможным анализировать естественный язык без каких-либо ограничений, поэтому необходимо выявить особенности существующей практики написания технических заданий и сформулировать дополнительные требования, которым должно удовлетворять техническое задание, чтобы оно могло быть проанализировано с помощью предлагаемой в данной работе системы.

При проведении исследований было рассмотрено множество различных вариантов ТЗ и детально изучены ГОСТ 19.201-78 и ГОСТ 34.602-89.

В результате было отмечено, что:

а) ТЗ представляет собой документ, написанный техническим языком. ТЗ обладает следующими стилевыми особенностями:

- текст не содержит образных выражений, оценочных прилагательных, почти лишен наречий, естественная полисемичность языка сводится к минимуму использованием заранее определенных терминов;

- текст содержит следующие грамматические конструкции: грамматическая основа с рядом дополнений (доминирующая конструкция), причастные и деепричастные обороты. С точки зрения русского языка причастные и деепричастные обороты эквивалентны отдельным предложениям, где подлежащее заимствуется из основного предложения.

б) Наиболее удобным и распространенным способом описания функций системы, а также ее входных и выходных данных являются пронумерованные предложения на русском языке, причем одной функции или элементу данных соответствует одно предложение.

в) Как правило, для элементов данных указан тип, число элементов данных и название.

г) Для функций часто указывается тип: «Основная», «Дополнительная» или «Вспомогательная».

д) Функция системы описывается согласно концепции «черного ящика», то есть в описание включают ее входы и выходы, не касаясь способа реализации функции и ее внутренних процессов.

е) Текстовая строка, описывающая функцию, как правило, содержит название действия, объект, над которым оно выполняется и источник действия.

ж) Очень часто входом является источник действия, а выходом - объект, реже и входом и выходом функции является объект, тогда источник отсутствует (за счет совпадения источника и объекта), например, функция «сортировка числового массива по возрастанию» имеет числовой массив в качестве входа, выхода, источника и объекта.

На основе рассмотренных особенностей ТЗ сформулированы требования к методике анализа: возможность представления неточной информации и гибкость - процесс обработки ТЗ должен осуществляться с минимально возможными потерями.

Предлагаемая методика анализа текста технического задания (рис.1) содержит формализмы, необходимые для представления семантики требований к программному обеспечению на ранних этапах проектирования. В соответствии с предлагаемой методикой система рассматривается как черный ящик, а предъявляемые к ней требования представляются в виде спецификации функций и определения потоков входных и выходных воздействий.

Рис. 1 Методика анализа текста технического задания

Методика анализа текста технического задания состоит из трех этапов: семантическая обработка текста, создание фреймовой структуры и создание диаграмм потоков данных системы, описанной в техническом задании.

Для реализации первого этапа методики была разработана семантическая модель текста технического задания, включающая требования, сформулированные в виде документа на ограниченном естественном языке; второго этапа - фреймовая структура, являющаяся внутренним представлением требований; третьего этапа - модель программного обеспечения в виде описания требований на графическом языке Data Flow Diagrams.

Семантическая модель текста технического задания содержит разработанную расширенную нечеткую атрибутную грамматику над фреймовой структурой формального документа “Техническое задание”, которая позволяет наиболее полно отобразить содержимое ТЗ.

Расширенная нечеткая атрибутная грамматика, необходимая для автоматизированного анализа текста технического задания, определена в виде:

AG = <N, T, P, S, B, F, A, R(A)>,

где N - конечное множество нетерминальных символов; T - непересекающееся с N множество терминальных символов; Р - конечное множество правил; S - выделенный символ из N, называемый начальным символом; B - множество лингвистических переменных вk,i, соответствующих терминальным символам T (переменная i на k уровне); F - множество функций принадлежности fk,i, определяющих степень принадлежности лингвистических переменных вk,i; A - конечное множество атрибутов, A = AsinUAsem, где Asin - синтаксические атрибуты, Asem - семантические атрибуты; R(A) - конечное множество семантических действий.

Лингвистические переменные из множества B={вk,i}k,i используемые для анализа текста технического задания описывается следующей пятеркой:

вk,i =<в, T(в), U, G, M>,

где в - название лингвистической переменной (наименование и область применения, основание для разработки, назначение разработки, технические требования к программному изделию, стадии и этапы разработки и т.д.); T(в) - языковые выражения. Для лингвистических переменных верхнего уровня они являются лингвистическими переменными, соответствующими терминалам правой части правила. Для лингвистических переменных нижнего уровня - нечеткими переменными, то есть выражениями естественного языка; U - универсум, T(в) U; G - правила морфологического и синтаксического описания языковых выражений, которые определяют синтаксические атрибуты Asin.

Язык представления выражений состоит из констант и правил их последовательного применения. На морфологическом уровне константами являются граммемы (рд - родительный падеж, мн - множественное число). На синтаксическом - названия отношений и групп (ПОДЛ - отношение между подлежащим и сказуемым, ПГ - предложная группа). Для каждого слова входного текста выдается множество морфологических интерпретаций следующего вида: лемма; морфологическая часть речи; набор общих граммем; множество наборов граммем.

Используются следующие синтаксические правила образования текста: деепричастный, причастный, вводный оборот; необособленное согласованное определение в препозиции; количественная группа; последовательность чисел вперемешку со знаками препинания; фрагмент с личной формой глагола, с кратким причастием, с кратким прилагательным, с предикативом, с инфинитивом, с тире, со сравнительным прилагательным; существительное + числовой идентификатор; правила для построения ФИО; слова степени с группой прилагательного или причастия; однородные прилагательные, наречия, инфинитивы, прилагательные сравнительной степени; группы даты, временных отрезков; аналитическая форма сравнительной степени прил. или наречия; наречие + глагол; одно или несколько прилагательных, согласованных по роду, числу и падежу с существительным и другие.

М - семантическое правило для лингвистических переменных, которое индуцируется морфологическими и синтаксическими правилами, так как смысл терма в Т частично определяется его синтаксическим деревом, и семантическими атрибутами Asem.

Методы представления связей между правилами транслируются на язык нечеткой математики. При этом связи представляются нечеткими отношениями, предикатами и правилами, а последовательность преобразований этих отношений - как процесс нечеткого вывода.

Лингвистические переменные верхнего уровня являются составными, то есть включают лингвистические переменные нижнего уровня. Благодаря этому можно поcтроить дерево лингвистических переменных и установить зависимость между ними.

Функции принадлежности из множества F={fk,i}k,i лингвистических переменных {вk,i}k,i, необходимы для построения нечеткого вывода. В частности, каждому правилу грамматики из множества P ставится в соответствие функция принадлежности fk,i. Эта двойственная система подстановок используется для вычисления смысла лингвистической переменной.

Синтаксические атрибуты Asin, используемые в грамматике: 'Название' - текст представляет собой наименование раздела; 'Содержимое' - текст представляет собой содержимое раздела; 'Клауза' - клауза; 'Клауза ТИРЕ' - Фрагмент с тире; 'Группа ГЕНИТ_ИГ' - именительная группа, связанная родительным падежом и др.

Семантические атрибуты, используемые в грамматике, содержат название атрибута Asem и семантические действие R(A): “Фрейм СИСТЕМА=Создание” - создается фрейм СИСТЕМА; ”Слот НАЗВАНИЕ СИСТЕМЫ=Присваивание” - значение присваивается слоту НАЗВАНИЕ СИСТЕМЫ; “Фрейм ПОТОК ДАННЫХ = Создание” - создается фрейм ПОТОК ДАННЫХ; “Слот ВХОД = Присваивание”, “Слот ВЫХОД = Присваивание” - значение присваивается слотам ВХОД, ВЫХОД; “Слот КОЛ-ВО ДАННЫХ = Присваивание” - значение присваивается слоту КОЛИЧЕСТВО ДАННЫХ; “Слот ТИП ДАННЫХ = Присваивание” - значение присваивается слоту ТИП ДАННЫХ; “Слот НАЗВАНИЕ ПОТОКА ДАННЫХ = Присваивание” - значение присваивается слоту НАЗВАНИЕ ПОТОКА ДАННЫХ; “Фрейм ФУНКЦИЯ =Создание” “Слот НАЗВАНИЕ ФУНКЦИИ = Присваивание”- значение присваивается слоту НАЗВАНИЕ ФУНКЦИИ; “Слот НАЗВАНИЕ ДЕЙСТВИЯ = Присваивание” - значение присваивается слоту НАЗВАНИЕ ДЕЙСТВИЯ; “Слот ОБЪЕКТ = Присваивание” - значение присваивается слоту ОБЪЕКТ; “Слот ОГРАНИЧЕНИЕ НА ФУНКЦИЮ = Присваивание - значение присваивается слоту ОГРАНИЧЕНИЕ НА ФУНКЦИЮ и др.

Фрагмент грамматики представлен в таблице 1.

Таблица 1

Фрагмент разработанной расширенной нечеткой атрибутной грамматики над фреймовой структурой технического задания

в1

<Список входов>

:=

<Название списка входов>::'Название' ;<Описание входа>::'Содержимое'<Список входов> | е

в1,1

<Название списка входов>

:=

Текст на ЕЯ, содержащий слова “входные данные”::'Клауза НЕОПРЕД'

в1,2

<Описание входа>

:=

Текст, содержащий “входы” или “входные данные”::'Клауза' <Вход>::“Фрейм ПОТОК ДАННЫХ = Создание”, “Слот ВХОД=Присваивание”

в12,1

<Вход>

:=

[<Число единиц данных>]::“Слот КОЛ-ВО ДАННЫХ = Присваивание” [<Тип данных>]::“Слот ТИП ДАННЫХ = Присваивание” <Название потока данных>:: “Слот НАЗВАНИЕ ПОТОКА ДАННЫХ = Присваивание”

в121,1

<Число единиц данных>

:=

е | «Список» | «Коллекция» | «Файл» | «Дерево» | «Сеть» | «Массив»

в121,2

<Тип данных>

:=

«структура»|«число»|«объект»|«значение»|«дата»|«время»

в2

<Список функций>

:=

<Название списка функций>::'Название' <Описание функции>::”Фрейм ФУНКЦИЯ=Создание” ;<Список функций> | е

в2,1

<Название списка функций>

:=

Текст на ЕЯ, содержащий слова “функции” или “функциональные характеристики”::'Клауза НЕОПРЕД'

в2,2

<Описание функции>

:=

<Название функции>::'Название', “Слот НАЗВАНИЕ ФУНКЦИИ = Присваивание” <Список входов><Список выходов>.

в22,1

<Название функции>

:=

[<Субъект>] <Действие>::“Слот НАЗВАНИЕ ДЕЙСТВИЯ = Присваивание”<Объект>::“Слот ОБЪЕКТ = Присваивание” <Ограничение>::“Слот ОГРАНИЧЕНИЕ НА ФУНКЦИЮ = Присваивание” [<Источник>]

в221,2

<Действие>

:=

слово из списка операций Коллера (А.И. Половинкина)

Семантический анализ текста производится на основе разработанной грамматики текста ТЗ:

1. Каждая лингвистическая переменная технического задания подвергается разбору, в результате чего получается лингвистическое дерево, конечными вершинами которого являются нечеткие переменные.

2. Нечетким переменным на конечных вершинах дерева назначается их смысл и затем с помощью системы правил Р и соответствующих функций принадлежности fk,i вычисляется смысл лингвистической переменной, соответствующей левой части правила.

Продукционные правила P верхнего уровня служат для разбора разделов верхнего уровня. Правила для разбора разделов состоят из двух частей: первая часть служит для разбора названия раздела; вторая часть служит для разбора текстового содержимого раздела.

Для некоторой лингвистической переменной вk,i значение функции принадлежности: µk,i=fk,ik+1,1k+1,2,…,µk+1,n), где конкретное значение µk,i - степень принадлежности лингвистической переменной вk,i. Первоначально будем говорить, что все лингвистические переменные нижнего уровня несут одинаковый вклад в значение функции принадлежности, поэтому можно говорить, что функция принадлежности лингвистической переменной вk,i:

где µk+1,j - степень принадлежности лингвистической переменной вk+1,j; qk+1,j = 1/n - вклад степеней принадлежности в значение функции. На нижнем уровне k функции принадлежности определены.

Вычисленная µk,i сравнивается с µl, являющейся предельным значением степени принадлежности. Если µk,il, и в правилах указаны синтаксические или семантические атрибуты, то создаются фреймы и слоты, в которые помещается текст из соответствующей лингвистической переменной.

3. После этого дерево урезают так, чтобы вычисленные лингвистические переменные оказались конечными вершинами оставшегося поддерева.

Этот процесс повторяется до тех пор, пока не будет вычислен смысл лингвистической переменной, соответствующей корню исходного дерева. Основное назначение описанной процедуры состоит в том, чтобы связать смысл лингвистической переменной со смыслом составляющих ее нечетких переменных посредством грамматики.

Литература

1. Заболеева-Зотова А.В. Атрибутная грамматика формального документа "Техническое задание"// Известия ВолгГТУ. Серия "Актуальные проблемы управления, вычислительной техники и информатики в технических системах": Межвузовский сборник научных статей. Волгоград: ВолгГТУ, 2008. Вып.4, № 2. C. 39-43.

2. Заболеева-Зотова А.В. Анализ текста технического задания с помощью нечеткой атрибутной грамматики// Системные проблемы надёжности, качества, математического моделирования, информационных и электронных технологий в инновационных проектах. Материалы международной конференции и Российской научной школы. 2008. Ч.2. C. 22-28.

3. Орлова Ю.А. Грамматика для анализа текста формального документа "Техническое задание"// Дистанционное обучение - образовательная среда XXI века. Материалы VI международной научно-методической конференции (Минск, 22-23 ноября 2007 г). Минск, 2007. С. 124-126.

Размещено на Allbest.ru

...

Подобные документы

  • Работа в окне документа. Ввод текста. Вставка и удаление текста. Отмена результатов выполненных действий. Перемещение и копирование текста методом "перетащить-оставить". Форматирование текста. Сохранение документа. Шаг вперед: смена регистра.

    лабораторная работа [220,9 K], добавлен 10.03.2007

  • Изучение языков программирования PHP, SQL, C++, HTML. Рассмотрение правил запуска и использования локального сервера Denwer. Составление технического задания по разработке программного продукта. Описание создаваемого мобильного и веб-приложения.

    курсовая работа [212,4 K], добавлен 07.04.2015

  • Структура окна офисного приложения MS Word, ввод текста, копирование и перемещение его фрагментов. Работа со встроенными шрифтами, сохранение, закрытие и открытие документов. Создание нового документа, установка параметров страницы, форматирование текста.

    лабораторная работа [33,7 K], добавлен 26.01.2010

  • Создание нового документа. Редактирование текстовых файлов типа TXT и RTF. Сохранение измененного документа. Изменение шрифта, начертания и размера символов. Отмена последнего действия. Оформление нового текста, форматирование абзаца, удаление текста.

    реферат [158,6 K], добавлен 25.10.2013

  • Основные функции текстового процессора Word. Создание документа Word. Использование шаблонов документов. Удаление, копирование и перемещение текста. Сохранение, закрытие и открытие документа. Изменение шрифтов, выравнивание текста и использование стилей.

    курсовая работа [71,6 K], добавлен 17.08.2011

  • Нормативно-правовые акты Российской Федерации в области информационной безопасности. Порядок организации работ по защите информации в информационных системах. Общий подход к разработкам технического задания на разработку системы защиты этой сферы.

    курсовая работа [31,3 K], добавлен 05.05.2015

  • История появления и развития шифрования текста. Проблема шифрования и дешифрования текстовых сообщений в современности. Создание программы для зашифровки и расшифровки вводимого текста пятью методами: Атбаш, Цезаря, Полибия, Гронсфельда и Винжера.

    курсовая работа [923,6 K], добавлен 26.12.2011

  • Способы запуска и выхода из Word. Элементы интерфейса Microsoft Word. Разделы меню офиса. Отображение на экране необходимой панели инструментов. Копирования, перемещение и удаление фрагмента текста. Автоматизация процессов ввода и редактирования текста.

    лабораторная работа [24,2 K], добавлен 15.11.2010

  • Работа с фигурным текстом. Форматирование и редактирование текста. Редактирование узлов фигурного текста. Привязка текста к фигурам. Выравнивание текста на фигуре. Перспектива, оболочки и выдавливание. Работа с простым текстом.

    реферат [12,7 K], добавлен 21.12.2003

  • Интерфейс текстового редактора MS Word. Редактирование и форматирование текста в MS Word, вставка таблиц, текста WordArt и объектов из другого приложения. Создание схематических диаграмм, использование данных из табличного процессора Microsoft Excel.

    презентация [1022,7 K], добавлен 05.06.2015

  • История развития Интернета и принципы его работы. Сквозные протоколы и шлюзы. Логическая и физическая структура сайта. Основы HTML и форматирование текста. Списки, таблицы, гиперссылки. Мультимедиа на web–странице. Формат задания фреймовой структуры.

    курсовая работа [1,2 M], добавлен 27.03.2009

  • Отечественные и международные стандарты. Основные документы этапа проектирования. Разработка технической концепции, технического задания, эскизного проекта и технического проекта. Основные этапы создания документа. Внесение изменений и их согласование.

    презентация [119,7 K], добавлен 04.04.2013

  • Распознавание текста на изображениях как очень важная задача, имеющая множество практических приложений. Особенности архитектуры интегрированной системы получения текстовой информации из изображений. Общая характеристика методов выделения текста.

    курсовая работа [1,7 M], добавлен 12.06.2016

  • Классификация текстовых редакторов и процессоров. Способы хранения текста в файле. Форматирование документа и его редактирование. Среда текстового редактора. Автоматическая проверка орфографии и синтаксиса текста, автотекст, автозамена, гипертекст.

    курсовая работа [35,0 K], добавлен 25.04.2013

  • Обзор программного обеспечения для оформления контрольных документов, выбор средства реализации системы автоматизации оформления сопровождающей документации. Создание, наладка и тестирование программы для автоматизации работы с рекламными шаблонами.

    дипломная работа [2,0 M], добавлен 17.06.2017

  • Разработка иерархии классов, содержащей не менее трех уровней. Определение базовых и производных классов. Анализ технического задания. Проектирование структуры программы и базовых алгоритмов. Программная реализация разработанной структуры и алгоритмов.

    курсовая работа [34,9 K], добавлен 11.01.2011

  • Необходимость в системах распознавания символов. Виды сканеров и их характеристики. Оптимальное разрешение при сканировании. Программы распознавания текста. Получение электронного документа. FineReader - система оптического распознавания текстов.

    презентация [469,2 K], добавлен 15.03.2015

  • Формальные модели морфологии и семантики. Основные синтаксические концепции. Трансформационная грамматика. Представление о модели "смысл-текст". Виды прагматических знаний. Автоматический анализ и синтез речи. Машинный перевод текста. Экспертные системы.

    курсовая работа [294,2 K], добавлен 19.06.2015

  • Форматирование текста с помощью HTML. Задание цвета на веб-странице. Задание размера шрифта. Физическое и логическое форматирование символов. Вставка специальных символов. Удобочитаемость, содержание и форма шрифта. Подбор шрифта и верстка текста.

    курсовая работа [1,3 M], добавлен 01.10.2014

  • Структура и алгоритм составления рекламного текста. Возможности графики в рекламных текстах. Анализ рекламного текста на основе архетипов К.Г. Юнга. Цвет и шрифт как часть графики в рекламных текстах. Архетипы рекламного текста на примере MacBook Air.

    дипломная работа [8,0 M], добавлен 29.12.2012

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.