Нечеткие математические модели терминосистем для определения предметной области текста

Рассмотрение лингвистических методик формирования словаря-тезауруса. Описание способов нечеткого математического моделирования терминологических систем проектных документов, оценка возможности их применения в системах автоматизированного проектирования.

Рубрика Иностранные языки и языкознание
Вид статья
Язык русский
Дата добавления 18.01.2018
Размер файла 204,6 K

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru/

Ульяновский государственный технический университет

Нечеткие математические модели терминосистем для определения предметной области текста

И.В. Арзамасцева (lingua@ulstu.ru)

Ульяновск

Аннотация

В работе описываются способы нечеткого математического моделирования терминологических систем проектных документов для определения предметной области текста и возможности их использования в системах автоматизированного проектирования.

Введение

Разнообразные лингвистические методики формирования словаря-тезауруса можно обобщить на основе нечеткого математического моделирования терминологической модели промышленного изделия. Нечеткие математические модели должны отражать структуру и характерные признаки терминологической системы в такой степени, что они позволили решить задачу идентификации предметной области проектного документа. Для достижения адекватности и применимости к автоматизированному проектированию подобные математические модели должны обобщать не произвольный корпус текстов, а корпус проектных документов.

1. Математическая модель, построенная на основе редукции конечного количества правил

Входные переменные модели определяются словарями предметной области (в нашем случае Нечеткой логики). В процессе исследования были выделены 6 подсловарей данной предметной области - «Нечеткая логика», «Логика», «Математика», «Компьютер», «Искусственный интеллект» и «Управляющие системы». Таким образом в модели нечеткого вывода выделяем 6 входных переменных, которые могут принимать значения, соответствующие относительной частоте встречаемости терминов данного словаря в множестве терминов предметной области. Обозначим их F, L, M, C, KI и LT.

F - относительная частота встречаемости терминов подсловаря «Нечеткая логика» (X1).

L - относительная частота встречаемости терминов подсловаря «Логика» (X2).

M - относительная частота встречаемости терминов подсловаря «Математика» (X3).

LT - относительная частота встречаемости терминов подсловаря «Управляющие системы» (X4).

C - относительная частота встречаемости терминов подсловаря «Компьютер» (X5).

KI - относительная частота встречаемости терминов подсловаря «Искусственный интеллект» (X6).

Для описания переменных введены три терма {«min», «med» и «max»}, описывающие значения этой переменной.

Очевидно, что степень принадлежности «0» к «min» = 1, а степень принадлежности «0» к «max» - соответственно 0. В качестве значений степени принадлежности возьмем нормированную относительную частоту, описываемую стандартными треугольными функциями принадлежности. На Рис. 1 представлены функции принадлежности первой входной переменной модели.

Рис. 1. Функции принадлежности входной переменной X1

По данным о 30 группах текстов, полученных статистическим путем, были сформулированы нечеткие правила отнесения текста к определенной предметной области (в нашем случае - к области НЛ). [Арзамасцева и др., 2008а]

Выходная переменная отражает принадлежность текста к предметной области НЛ. Для описания переменной использованы два терма {«F», и «nF»}, отражающие принадлежность текста к данной предметной области.

F - степень принадлежности текста к предметной области НЛ.

nF - степень непринадлежности текста к предметной области НЛ.

Для каждого терма использована линейная функция принадлежности:

Рис.2. Функции принадлежности выходной переменной модели

Таким образом, рассмотрена моделирующая зависимость вида

y = f(x1, x2, x3, x4, x5, x6)

с использование одной базы знаний.

Введем оператор Fuzzy, который будет выполнять набор операций: импликация и агрегация. Результатом выполнения этих операций над фаззифицированным вектором входных переменных X оператора F будет множество

где м - функция принадлежности,

Х - входной вектор,

d - степень принадлежности текста к предметной области.

Для базы продукций получаем:

Оператор fuzzy

(xi) =

Получаем следующую математическую модель определения принадлежности текста предметной области на основе нечеткого вывода по Мамдани:

или

Где ? - нечеткая выходная переменная;

x - входная переменная;

i - индекс для входов;

Г - функции принадлежности входных переменных

{A1, A2, A3, A4, A5, A6};

Rk - множество правил.

2. Математическая модель, построенная на основе мультисловарей

лингвистический словарь тезаурус терминологический

Для второй модели в качестве входных параметров системы нечёткого вывода также будем рассматривать 6 нечётких лингвистических переменных (см. модель 1.). А в качестве выходных параметров - 3 нечеткие лингвистические переменные, определяющие принадлежность текста к предметной области: «Fuzzy» - F, «Logik» - L, «Mathematik» - M.

В качестве терм-множества всех лингвистических переменных (ЛП) будем использовать множество Т1={«min», «med», «max», «none»} (Рис.3). При этом каждый из термов ЛП будем оценивать по шкале от 0 до 1, при которой цифре 0 соответствует наименьшая принадлежность терминов текста к определенному подсловарю, а цифре 1 - наибольшая.

Рис.3. Функции принадлежности выходной переменной F

После обработки 18 текстов по НЛ, 10 текстов по математике и 10 текстов по логике программой Fuzzy Base были получены частотные характеристики, на основе которых по средним значениям относительных частот встречаемости терминов построен частотный портрет (Рис. 4.). [Арзамасцева и др., 2008b]

Рис. 4. Частотный портрет

Затем по данным усредненных частот групп текстов каждой предметной области были найдены минимальные и максимальные значения. (Табл.1.)

Табл. 1.

F

L

M

C

LT

KI

F

Среднее

0,39627

0,40753

0,13575

0,00051

0,05615

0,00375

min

0,031

0,086

0,013

0,000

0,000

0,000

max

0,763

0,872

0,771

0,022

0,571

0,044

L

Среднее

0,083

0,739

0,168

0,000

0,009

0,001

min

0,000

0,500

0,049

0,000

0,000

0,000

max

0,337

0,937

0,439

0,000

0,038

0,010

M

Среднее

0,036

0,484

0,477

0,000

0,000

0,003

min

0,000

0,222

0,000

0,000

0,000

0,000

max

0,105

1,000

0,741

0,000

0,000

0,033

По данным этих усредненных частот были сформулированы 3 нечетких правила отнесения текста к предметной области Нечеткой логики, Математики и Логики (система нечёткого вывода типа Мамдани):

ПРАВИЛО 1: ЕСЛИ уровень относительной частоты терминов F в тексте - «средний» И уровень относительной частоты терминов L - «средний» И уровень относительной частоты терминов M - «минимальный» И уровень относительной частоты терминов LT - «минимальный» И термины словарей C и KI - отсутствуют, ТО степень уверенности, что текст принадлежит к предметной области F - максимальная.

ПРАВИЛО 2: ЕСЛИ уровень относительной частоты терминов F в тексте - «минимальный» И уровень относительной частоты терминов L - «максимальный» И уровень относительной частоты терминов M - «минимальный» И термины словарей C, LT и KI - отсутствуют, ТО степень уверенности, что текст принадлежит к предметной области L - максимальная.

ПРАВИЛО 3: ЕСЛИ уровень относительной частоты терминов F в тексте - «минимальный» И уровень относительной частоты терминов L - «средний» И уровень относительной частоты терминов M - «максимальный» И термины словарей C, LT и KI - отсутствуют, ТО степень уверенности, что текст принадлежит к предметной области М - максимальная.

Формализованное множество данных правил выглядит следующим образом:

R1 - IF X1 is «med» AND X2 is «med» AND X3 is «min» AND LT is «min» then Text is F.

R2 - IF X1 is «min» AND X2 is «max» AND X3 is «min» then Text is L.

R2 - IF X1 is «min» AND X2 is «med» AND X3 is «max» then Text is M.

В таблице 2 приведены эти 3 правила базы знаний, сформулированные на основе частотных портретов текстов.

Табл. 2.

Правила

F

L

M

C

KI

LT

Text F

Text L

Text M

1

med

med

min

none

none

min

max

none

none

2

min

max

min

none

none

none

none

max

none

3

min

med

max

none

none

none

none

none

max

Задача идентификации предметной области состоит в определении степени принадлежности определенного текста к предметной области НЛ на основе нечеткого вывода на базе построенной модели. Точность модели будем оценивать с помощью значения среднеквадратической невязки [Штовба, 2003].

Где F(X) - значение выхода нечеткой модели при значении входов, заданных вектором X = [F, L, M, LT, C, KI], М - количество текстов, ? = 1 - степень уверенности принадлежности текста к предметной области НЛ.

На вход модели в качестве степени уверенности принадлежности терминов текста к соответствующему словарю подаются относительные частоты терминов всех подсловарей в каждом тексте.

Рис. 5. Правила нечеткого вывода для вектора данных средних значений текстов по НЛ

Расчет выбранной оценки по первым десяти текстам представлен в таблице 3.

Табл. 3.

F

L

M

C

LT

KI

Text F

Text L

Text M

1993-1

0,256

0,395

0,326

0,000

0,023

0,000

0,775

0,5

0,5

1993-2

0,244

0,415

0,171

0,000

0,171

0,000

0,794

0,5

0,5

1993-3

0,206

0,235

0,382

0,000

0,176

0,000

0,758

0,5

0,5

1993-4

0,453

0,333

0,189

0,000

0,025

0,000

0,811

0,5

0,5

1993-5

0,293

0,414

0,150

0,000

0,143

0,000

0,807

0,5

0,5

1993-6

0,497

0,293

0,156

0,000

0,054

0,000

0,807

0,5

0,5

1993-7

0,053

0,342

0,289

0,000

0,316

0,000

0,500

0,5

0,5

1993-8

0,137

0,402

0,206

0,000

0,255

0,000

0,764

0,5

0,5

1993-9

0,155

0,397

0,207

0,000

0,241

0,000

0,769

0,5

0,5

1993-10

0,139

0,417

0,111

0,000

0,333

0,000

0,765

0,5

0,5

Среднее

0,419

0,409

0,119

0,000

0,048

0,000

0,825

0,5

0,5

Невязка

0,0676

Математическая модель определения принадлежности текста предметной области на основе мультисловарей, построенная на базе нечеткого вывода по Мамдани:

где

? - нечеткая выходная переменная;

x - входная переменная;

i - индекс для входов;

j - индекс для выходов;

Г - функция принадлежности входных переменных {A1, A2, A3, A4, A5, A6};

Rk - множество правил.

3. Использование математических моделей в САПР

В ФНПЦ ОАО «НПО «МАРС»» (г. Ульяновск) уже используется программное средство собственной разработки для автоматизации деятельности архивной службы электронных информационных ресурсов (ЭИР). Однако функционал этого средства недостаточно широк. Требуется доработка данной системы с целью автоматизации части функций архивариусов и интеллектуализации части процессов по управлению информацией. Расширением функционала данной системы является разработанный интеллектуальный сетевой архив электронных информационных ресурсов (ИСА ЭИР).

Ранее в подсистемах индексации применялись следующие модели:

· взвешивание терминов;

· «стоп-листы» - механизм уменьшения размерности индекса и шума вносимого в индекс документа за счет удаления наиболее часто употребляемыми терминами, предлогами;

· «stemming» - приведение термов к основной форме;

· «soundex» - механизмы, учитывающие опечатки и орфографические ошибки;

· устранение проблем синонимии и омонимии. [Наместников, 2009]

Одной из подсистем интеллектуального проектного репозитария является индексатор. Он отбирает из текста стоп-слова и на основе оставшихся терминов частично определяет предметную область документа.

Мы заменили в индексаторе словарь со стоп-словами на словарь-тезаурус, сформированный на основе анализа ТС. Тезаурус ? это терминологический ресурс, реализованный в виде словаря понятий и терминов со связями между ними. Основное назначение тезауруса в нашей системе ? определение предметной области: на основе связей тезауруса можно построить терминосистему, а навигация по связям тезауруса помогает получать на базе ТС точную идентификацию предметной области документа.

На первой стадии анализа в тексте происходит поиск терминов, описанных в Тезаурусе (как слов, так и словосочетаний). На основе связей Тезауруса термины группируются по смысловой близости во фреймы и подфреймы.

Каждый термин в тексте получает свою оценку релевантности относительно содержания документа, в зависимости от того, элементом какой ТС он является. Максимальный вес получают термины той ТС, которые встречались чаще, минимальный - упоминавшиеся термины. Иногда в тексте встречается минимальное количество терминов, но они настолько значимы, что текст необходимо отнести их именно к данной области. В этих случаях в программе используется коэффициент значимости термина, который можно настраивать.

Понятия с определенной таким образом оценкой релевантности образуют терминологический поисковый образ документа или тематическое представление содержания документа. Тематическое представление является основой для рубрицирования и аннотирования.

Для более точного определения предметной области документов необходимо было расширить словари ПО «Нечеткая логика», распределить данные подсловаря «НЛ» по фреймам и построить иерархический словарь-тезаурус.

Список литературы

1. Арзамасцева И.В., Евсеева О.Н. Построение правил нечеткого вывода для идентификации текстов проблемной области // Информационные технологии: межвузовский сборник научных трудов. Ульяновск: УлГТУ, 2008.

2. Арзамасцева И.В., Евсеева О.Н. Построение частотного портрета текстов проблемной области // Информационные технологии: межвузовский сборник научных трудов. Ульяновск : УлГТУ, 2008.

3. Наместников А.М. Интеллектуальные проектные репозитории / А.М. Наместников. - Ульяновск : УлГТУ, 2009.

4. Штовба С.Д. Идентификация нелинейных зависимостей с помощью нечеткого логического вывода в системе MATLAB // Exponenta Pro. Математика в приложениях, №2, 2003. URL: http://soft.mail.ru/journal/pdfversions/519588.pdf

Размещено на Allbest.ru

...

Подобные документы

  • Определение понятия "тезаурус", обзор идеографических словарей. Особенности выявления элементов (семантических групп) и ключевых слов предметной области тезауруса "горный и пешеходный туризм" в русском и испанском языках, приемы сопоставления элементов.

    курсовая работа [55,1 K], добавлен 26.10.2015

  • История отечественного терминоведения. Выявление лексических и семантических особенностей специального текста для применения этих знаний в практике моделирования семантики специального текста. Требования к терминам, их анализ. Понятие фоновой лексики.

    курсовая работа [106,3 K], добавлен 14.11.2009

  • Понятие "термин" и "терминосистема". Способы терминообразования в английском и русском языках: линейные и нелинейные модели. Заимствования в терминологии этих языков. Классификация терминов по содержанию, объекту названия, авторству, формальной структуре.

    дипломная работа [112,3 K], добавлен 26.04.2012

  • Анализ особенностей перевода устойчивых словосочетаний и терминологических клише на основе научных текстов и диссертационных работ. Характеристика научно-технического языка. Анализ текста и выявление влияния контекста на перевод медицинских терминов.

    дипломная работа [159,6 K], добавлен 28.10.2012

  • Лингвостилистические особенности эпистолярного текста. Приемы реорганизации субъектной структуры текста письма при переводе с английского языка на русский. Анализ писем с точки зрения лингвистических и коммуникативно-прагматических особенностей.

    дипломная работа [97,5 K], добавлен 29.07.2017

  • Оценка используемых газет с точки зрения подачи материала. Анализ специфики прогноза и репортажа как подтипов текста. Описание различия в национальных подходах к изображению фрагмента языковой картины мира. Определение характера лингвистических средств.

    дипломная работа [2,8 M], добавлен 01.12.2017

  • Понятие термина и терминологические словосочетания. Проблема полисемии терминологических единиц. Терминологическая лексика в печатных СМИ. Терминологические словосочетания по экономике, особенности их функционирования и перевода на русский язык.

    дипломная работа [149,1 K], добавлен 11.06.2014

  • Теоретические аспекты рассмотрения особенностей перевода устойчивых словосочетаний и терминологических клише на основе научных текстов и диссертационных работ. Анализ конкретного текста и выявление влияния контекста на перевод специальных терминов.

    курсовая работа [77,3 K], добавлен 09.11.2012

  • Понятие и направления исследования текста в современной лингвистике, образующие возможности единиц разных языковых уровней. Сущность и отличительные признаки литературной (авторской) сказки. "Пуськи бятые" как цикл "лингвистических сказок" Петрушевской.

    курсовая работа [38,4 K], добавлен 31.01.2014

  • Изучение проблемы лингвистических аспектов межъязыковой речевой деятельности. Виды официальных документов и их особенности в переводе. Межкультурная коммуникация и юридический перевод. Редактирование и корректура, проверка и вычитывание готового текста.

    курсовая работа [50,7 K], добавлен 11.09.2014

  • Рассмотрение статуса определения в немецком языке в системах частей речи зарубежных и отечественных лингвистов. Характеристика членов предложения. Место определения в иерархии второстепенных членов предложения. Синтаксическая облигаторность определения.

    курсовая работа [44,3 K], добавлен 29.05.2014

  • Оцифровка германских документов в архивах России. Издание специальных немецких терминологических справочников, словарей и тезаурусов. Классификация жанров и специфики военных текстов. Анализ особенностей перевода на примере боевых документов бундесвера.

    дипломная работа [5,4 M], добавлен 16.09.2017

  • Понятие и специфика композиции, сферы применения данного термина. Композиционная структура текста документа. Требования к композиции документа и порядок ее формирования, сущность рубрикации. Правила разбивки текста. Варианты организации текста письма.

    контрольная работа [36,8 K], добавлен 15.10.2010

  • Характеристика терминологических систем как объекта активного и интенсивного изучения в лингвистике. Обзор способов образования юридических терминов в английском языке. Анализ особенностей фразеологической номинации в форме глагольных словосочетаний.

    дипломная работа [94,3 K], добавлен 08.04.2012

  • Фундамент синтаксического анализа. Словоизменительные морфологические средства. Структура системы синтаксического анализатора текста и используемая методика анализа текста. Графематический и фрагментационный анализ. Структура морфологического словаря.

    курсовая работа [194,3 K], добавлен 24.06.2012

  • Современные подходы интерпретации анализа художественно-прозаического текста с учетом его специфики, базовых категорий и понятий. Рассмотрение художественного текста как единства содержания и формы. Практический анализ текста "A Wicked Woman" Дж. Лондона.

    курсовая работа [48,5 K], добавлен 16.02.2011

  • Рассмотрение основных приемов перевода научного текста. Описание понятия, сущности и значимости предпереводческого анализа. Экстраллингвистическое определение особенностей специального текста. Анализ параллельных текстов в терминологическом плане.

    дипломная работа [53,9 K], добавлен 25.04.2015

  • Анализ статьи "О двуязычной ситуации", в которой идет речь о лингвистических проблемах машинного перевода. Основные виды отношений сегментов входного текста и сегментов выходного текста: полная калькируемость, квазикалькируемость и некалькируемость.

    краткое изложение [17,8 K], добавлен 20.04.2011

  • Определение в тексте причастия II (Participle II) в функции определения и перевод причастия и определяемого им слова на русский язык. Дополнение английского текста подходящими по смыслу словами из предложенного словаря. Англо-русский перевод текстов.

    реферат [13,0 K], добавлен 20.05.2009

  • Лексикографическая компетенция и проблемы её формирования. Анализ существующих русскоязычных культурологических словарей и их применения в работе со студентами, изучающими русский язык как иностранный. Структура и содержание словарей различных типов.

    дипломная работа [329,7 K], добавлен 27.07.2017

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.