Создание онтологической модели предметной области на основе дистрибутивно-семантического подхода
Онтологии как компьютерные ресурсы, содержащие формализованное описание фрагмента знаний о мире. Семантическая структуризация – выстраивание когнитивного моста от способа описания мира человеком к методу представления информации в памяти компьютера.
Рубрика | Программирование, компьютеры и кибернетика |
Вид | дипломная работа |
Язык | русский |
Дата добавления | 11.06.2018 |
Размер файла | 1,1 M |
Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже
Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.
Таким образом, в языкознании термин «дистрибуция» употребляется в двух значениях. Во-первых, это - совокупность всех линейных окружений данной языковой единицы, и во-вторых, ? совокупность всех сочетаний исследуемой языковой единицы. Иногда эти значения не дифференцируются, и тогда дистрибуция рассматривается как совокупность всех контекстов языковой единицы. В основе понятия дистрибуции лежит отражение того факта, что каждая языковая единица (за исключением предложения) обладает ограниченной в большей или меньшей степени способностью сочетаться с другими подобными единицами.
Дистрибутивная семантика (векторная модель слов) - область научных исследований, занимающаяся вычислением степени семантической близости между лингвистическими единицами на основании их дистрибуционных признаков в больших массивах лингвистических данных. Модели векторных пространств находят все более широкое применение в исследованиях, связанных с семантическими моделями естественного языка, и имеют разнообразный спектр потенциальных и действующих приложений.
Основными сферами применения дистрибутивных моделей являются:
? разрешение лексической неоднозначности,
? информационный поиск,
? кластеризация документов,
? автоматическое формирование словарей (словарей семантических отношений, двуязычных словарей),
? создание семантических карт,
? моделирование перифраз,
? определение тематики документа,
? определение тональности высказывания,
? биоинформатика.
Теоретические основы данного направления восходят к дистрибутивной методологии З. Харриса [4, 5]. Близкие идеи выдвигали основоположники структурной лингвистики Ф. де Соссюр и Л. Витгенштейн. Дистрибутивная семантика основывается на дистрибутивной гипотезе о том, что лингвистические элементы со схожей дистрибуцией имеют близкие значения [9, 11].
В качестве вычислительного инструмента и способа представления моделей используется линейная алгебра. Информация о дистрибуции лингвистических единиц представляется в виде многоразрядных векторов, а семантическая близость между лингвистическими единицами вычисляется как расстояние между векторами. Многоразрядные вектора образуют матрицу, где каждый вектор соответствует лингвистической единице (слово или словосочетание), а каждое измерение вектора соответствует контексту (документ, параграф, предложение, словосочетание, слово).
Для вычисления меры близости между векторами могут использоваться различные формулы: расстояние Минковского, расстояние Манхеттена, Евклидово расстояние, расстояние Чебышева, скалярное произведение, косинусная мера. Наиболее популярной является косинусная мера:
Существует множество разновидностей моделей дистрибутивной семантики, которые различаются по следующим параметрам:
– тип контекста (размер контекста, правый или левый контекст, ранжирование);
– количественная оценка частоты встречаемости слова в данном контексте (абсолютная частота, энтропия, совместная информация и пр.);
– метод вычисления расстояния между векторами (косинус, скалярное произведение, расстояние Минковского и пр.);
– метод уменьшения размерности матрицы (случайная проекция, сингулярное разложение и пр.).
Наиболее известными моделями дистрибутивной семантики являются латентный семантический анализ, разработанный для решения проблемы синонимии при информационном поиске [6], и модель языка как гиперпространства, разработанная как модель семантической памяти человека[7].
Концепция семантических векторных пространств (CВП) впервые была реализована в информационно-поисковой системе SMART [7]. Идея СВП состоит в представлении каждого документа из коллекции в виде точки в пространстве, т. е. вектора в векторном пространстве. Точки, расположенные ближе друг к другу в этом пространстве, считаются более близкими по смыслу. Пользовательский запрос рассматривается как псевдодокумент и тоже представляется как точка в этом же пространстве. Документы сортируются в порядке возрастания расстояния, т. е. в порядке уменьшения семантической близости от запроса, и в таком виде предоставляются пользователю.
Впоследствии концепция СВП была успешно применена для других семантических задач. Например, в работе [8] контекстное векторное пространство было использовано для оценки семантической близости слов. Данная система достигла результата 92,5% на тесте по выбору наиболее подходящего синонима из стандартного теста английского языка TOEFL, в то время как средний результат при прохождении теста человеком был 64,5%. В настоящее время ведутся активные исследования по унификации модели СВП и выработке общего подхода к различным задачам выявления семантических связей из корпусов текстов [9].
Развитие существующих подходов к построению СВП заключается в использовании значимых словосочетаний (ЗС) вместо отдельных лексем. Под ЗС понимаются лексические последовательности, имеющие тенденцию к совместной встречаемости. В лингвистике для обозначения ЗС используется также термин «коллокация». Этот термин был впервые введен в «Словаре лингвистических терминов» О.С. Ахмановой [10]. Исследованиям коллокаций русского языка посвящено большое количество литературы, например, монография Е.Г. Борисовой [11]. В теоретической лингвистике под коллокациями понимают словосочетания из двух или более слов, которые обусловливают друг друга семантически и грамматически [12]. В корпусной лингвистике коллокациями называют статистически устойчивые словосочетания, причем они могут быть как фразеологизированными, так и свободными.
Для выделения значимых словосочетаний в компьютерной лингвистике используются различные статистические меры (меры ассоциации, меры ассоциативной связанности, англ. association measures), вычисляющие силу связи между элементами в составе коллокации. В литературе упоминается несколько десятков мер ассоциативной связанности. Чаще других используются MI, t-score и log-likelihood [13]. Мера MI (mutual information), введенная в работе [14], сравнивает зависимые контекстно-связанные частоты с независимыми частотами слов в тексте. Если значение MI превосходит определенное пороговое значение, то словосочетание считают статистически значимым. Мера MI вычисляется по следующей формуле:
где n -- первое слово словосочетания; c -- второе слово словосочетания;
f(n,c) -- частота совместной встречаемости двух слов;
f(n), f(c) -- абсолютные частоты встречаемости каждого слова по отдельности;
N -- общее число словоупотреблений в корпусе.
Мера t-score также используется при ответе на вопрос, насколько не случайным является сочетание двух или более слов в тексте. Для вычисления t- score используется следующая формула:
Также достаточно часто применяется мера, известная под названием log- likelihood, или логарифмическая функция правдоподобия, введенная в работе [15]. Для вычисления log-likelihood применяется следующая формула:
Применив различные меры ассоциативной связанности слов к материалам научных патентов, авторы составили частотный словарь значимых словосочетаний для предметной области научных патентов. Примеры выделенных значимых словосочетаний: благородный металл, вспомогательное устройство, жесткий элемент, измерительная ячейка, опорный карниз, оптический луч, система охлаждения, тяжелая фракция.
Приведем пример использования методики построения СВП на основе следующего текстового фрагмента:
“Искусственный интеллект -- наука и технология создания интеллектуальных машин, особенно интеллектуальных компьютерных программ.
Компьютерная лингвистика -- направление искусственного интеллекта, которое ставит своей целью использование математических моделей для описания естественных языков.
Дискретная математика -- область математики, занимающаяся изучением дискретных структур, которые возникают как в пределах самой математики, так и в ее приложениях.
Конструктивная математика -- близкое к интуиционизму течение в математике, изучающее конструктивные построения.”
Применив формулу вычисления косинусной меры между контекстными векторами, получим следующие коэффициенты семантической близости между рассматриваемыми ЗС:
«дискретная математика» и «конструктивная математика» -- 0,95;
«искусственный интеллект» и «компьютерная лингвистика» -- 0,7;
«компьютерная лингвистика» и «дискретная математика» -- 0,52;
«компьютерная лингвистика» и «конструктивная математика» -- 0,4;
«искусственный интеллект» и «дискретная математика» -- 0,36;
«искусственный интеллект» и «конструктивная математика» -- 0,29.
Отметим, что в реальных приложениях такого рода матрицы будут очень большими -- порядка миллионов столбцов (строк). Однако благодаря тому, что подавляющее большинство элементов будет заполнено нулями, реально хранимая информация будет вполне обозримой. Для нахождения ассоциативных связей, которые могут войти в ассоциативный портрет, необходимо выбрать из этой матрицы пары терминов с самыми большими коэффициентами семантической близости (косинусной меры). В данном случае это будут пары («дискретная математика», «конструктивная математика») и («искусственный интеллект», «компьютерная лингвистика»).
2.2 Методы сбора текстов на естественном языке для формирования корпуса предметной области с применением инструмента Keywen
Для компьютерной лингвистики актуальной является фундаментальная научная проблема создания лингвистической и предметной базы для систем извлечения и обработки знаний. Создание вручную универсальных хорошо выверенных тезаурусов требует колоссальных трудовых и временных‚ затрат, поэтому в последние годы ведется поиск новых путей создания лингвистической предметно-ориентированной базы знаний. Одним из таких направлений является создание АППО, на основе которых можно с достаточной надежностью решать большинство важнейших проблем, связанных с информационным поиском, извлечением структур знаний и построением классификаций.
Ассоциативный портрет -- это совокупность наиболее характерных предметных и лингвистических знаний, свойственных определенной предметной области. Под предметными знаниями понимаются присущие предметной области термины, понятия, связанные различного рода ассоциативными связями. Лингвистические знания -- это варианты словарного выражения понятий.
В настоящее время известно значительное количество работ по автоматическому извлечению семантических связей из больших массивов текстов на ЕЯ [1-15]. Наиболее успешные подходы используют метод дистрибутивной семантики и модели семантических векторных пространств (СВП). В основе всех вариантов этого метода лежат количественные оценки, которые характеризуют совместную встречаемость языковых единиц текста в контекстах определенной величины. Основная гипотеза метода состоит в том, что слова, встречающиеся вместе в пределах некоторого текстового интервала, как-то связаны между собой. Для оценки связанности вводится коэффициент «силы связи», который рассчитывается по некоторой формуле. Вне зависимости от вида формулы в ней обычно используются характеристики совместной встречаемости пар слов и одиночной встречаемости каждого из слов.
Величина контекста, в рамках которого осуществляются расчеты коэффициентов «силы связи», как показывают результаты исследований, позво- ляет наиболее вероятно устанавливать:
(а) при малых размерах контекста, ограниченного одним или двумя соседними словами, -- контактные синтагматические связи словосочетаний;
(б) при размере 5-10 слов -- дистантные синтагматические связи и парадигматические отношения;
(в) дальнейшее увеличение ширины контекста до 50-100 слов (размер предложения, сверхфразового единства, абзаца) -- тематические связи между словами.
Значимые словосочетания/термины (ЗС/ЗТ) - это отдельные слова, словосочетания и фразы, которые определяются на основе частотного словаря коллекции в соответствии с методологией построения АППО. К значимым словосочетаниям в частности относятся значимые термины и все короткие фразы коллекции. Для расчета ассоциативной связи (семантической близости) между ЗС/терминами предметной области используется косинусная мера, сравнивающая параметры контекста ЗС (контекстные векторы).
Следует отметить, что посредством ЗС могут быть представлены как отдельные слова, словосочетания и термины, так и более сложные конструкции - объекты и именованные сущности. Иерархические связи между ЗС выбираются из числа ассоциативных связей таким образом, чтобы более общие ЗС имели большее количество ассоциативных связей, при этом учитываются лексико-синтаксические шаблоны, объединяющие данные ЗС.
Для структуризации текстов предметной области и построения иерархии категорий используется методика построения Ассоциативно-иерархического портрета предметной области (отчет РФФИ), в которой для расчета иерархических связей между ЗС/ЗТ используются методы тематического моделирования, такие, как LDA и hLDA. Выделенные по указанным методикам ассоциативные и иерархические связи между значимыми словосочетаниями и терминами позволяют разрабатывать более совершенные методы и метрики/меры подобия научных текстов.
Методы тематического моделирования служат для построения тематической модели коллекции документов. Тематическая модель определяет, к каким темам относится каждый документ и какие слова (термины) образуют каждую тему. Алгоритм построения тематической модели получает на входе коллекцию текстовых документов. На выходе для каждого документа выдается числовой вектор, составленный из оценок степени принадлежности данного документа каждой из тем. Размерность этого вектора, равная числу тем, может либо задаваться на входе, либо определяться моделью автоматически. Задача построения тематической модели ставится следующим образом: задана коллекция текстовых документов D. Каждый документ d из коллекции D представляет собой последовательность терминов Wd = (wi,...,Wnd) из словаря W, где nd - длина документа d. Предполагается, что каждый документ может относиться к одной или нескольким темам. Темы отличаются друг от друга различной частотой употребления слов. Предполагается, что существует конечное множество тем Т, и каждое употребление термина w в каждом документе d связано с некоторой темой t T, которая не известна. Коллекция документов рассматривается как множество троек (d,w,t), выбранных случайно и независимо из дискретного распределения p(d,w,t), заданного на конечном множестве D W T. Документы d D и термины w W являются наблюдаемыми переменными, тема t T является латентной (скрытой) переменной.
Построить тематическую модель коллекции документов D -- означает найти множество тем Т, распределения p(w|t) для всех тем t T и распределения p(t|d) для всех документов d D. Также принимается гипотеза условной независимости, говорящая о том, что появление слов в документе d, относящихся к теме t, описывается общим для всей коллекции распределением p(w|t) и не зависит от документа d, то есть p(w|d, t) = p(w|t).
Согласно определению условной вероятности, формуле полной вероятности и гипотезе условной независимости:
Рис. 4. Представление вероятностного тематического моделирования
Среди вероятностных моделей стоит выделить вероятностный латентный семантический анализ (probabilistic latent semantic analysis, PLSA) и латентное размещение Дирихле (latent Dirichlet allocation, LDA) PLSA основан на латентном семантическом анализе - алгоритме, заключающемся в отображении документа в латентное семантическое пространство. Целью такого отображения является отражение связи между терминами и документами. Для этого разложения используется сингулярное разложение (алгоритм SVD) матрицы частот появления терминов в документе. В методе PLSA вводятся понятия латентных классов, условных вероятностей среди документов и терминов, при этом предполагается, что распределение слов, принадлежащих конкретному классу, не зависит от документа и пары “документ-термин” не связаны между собой. Основные недостатки метода таковы:
— медленная сходимость на больших коллекциях;
— переобучение;
— неединственность и неустойчивость решения.
где T - множество тем,
p(t) - неизвестное априорное распределение тем во всей коллекции, p(d) - априорное распределение на множестве документов,
P - эмпирическая оценка суммарная длина
всех документов,
p(w) - априорное распределение на множестве слов, эмпирическая оценка p(w) = nw/n, где nw - число вхождений слова w во все документы
все распределения - мультиномиальные или
где D - связь между документами d и темами t, - матрица важности тем,
T - связь между темами t и документами d.
Основные недостатки pLSA:
? Число параметров растет линейно по числу документов в коллекции, что может приводить к переобучению модели.
? При добавлении нового документа d в коллекцию распределение p(t|d) невозможно вычислить по тем же формулам, что и для остальных документов, не перестраивая всю модель заново.
Модель латентного размещения Дирихле - это порождающая модель, рассматривающая каждый документ как смесь небольшого количества тем и связывающая появление каждого слова с одной из тем документа. Подходы, которые кластеризуют документы по темам, никак это не учитывают. Эту модель можно использовать для обработки неструктурированной текстовой информации, так как она позволяет автоматически классифицировать новые текстовые документы, оценивать сходство между документами в целях поиска информации и создавать вероятностную модель большой коллекции текстов. Тематическая модель латентного размещения Дирихле в виде следующей формулы:
где Г(z) - гамма-функция;
- векторы документов; - векторы тем.
На выходе алгоритма получаются векторы, показывающие, как распределены темы в каждом документе, и распределения, показывающие, какие слова наиболее вероятны в теме. Основные преимущества таковы:
— обучение без учителя, нет необходимости размечивать тексты;
— хорошо подходит для описания кластерных структур; 5 предложений:
I like to eat broccoli and bananas.
I ate a banana and spinach smoothie for breakfast. Chinchillas and kittens are cute.
My sister adopted a kitten yesterday.
Look at this cute hamster munching on a piece of broccoli. Распределение тем по предложениям:
Предложения 1 и 2: 100% тема A
Предложения 3 и 4: 100% тема B
Предложение 5: 60% тема A, 40 % тема B Распределение слов по темам:
Тема A: 30% broccoli, 15% bananas, 10% breakfast, 10% munching (про еду)
Тема B: 20% chinchillas, 20% kittens, 20% cute, 15% hamster (милые животные)
Ассоциативный портрет предметной области -- это множество ассоциативных связей между значимыми терминами предметной области. Формально АППО определяется как граф G = (V, E) с узлами v из V, представляющими значимые термины/словосочетания и дугами графа (vi,vj,Link,wij) из E, описывающие отношения/связи между словосочетаниями, где wij -- это вес, выражающий силу связи, а Link -- тип связи, определяемый типом контекста. Тип контекста определяется параметрами алгоритма расчета контекстных векторов, такими как размер контекстного окна или тип лексико- синтаксического шаблона/конструкции, связывающей словосочетания.
Идеология АППО базируется на дистрибутивной гипотезе, утверждающей, что семантически близкие (или связанные) лексемы имеют похожий контекст и, наоборот, при похожем контексте лексемы семантически близки. В предлагаемой модели используется расширенная гипотеза, предполагающая, что при сходстве контекстов близкими признаются не только отдельные лексемы, но и произвольные многолексемные фрагменты -- значимые словосочетания.
Получение АППО предполагает реализацию совокупности методов, включающих:
– методы выявления в Интернете текстов определенных предметных областей;
– методы выявления в текстах ЗС и их ранжирования;
– методы выявления и ранжирования ассоциативных связей между ЗС.
Методы основаны на прохождении предварительного обучения на текстах, в том числе взятых из различных интернет-ресурсов.
Обработка больших массивов текстов, постоянно пополняемых в сети Интернет, позволяет собирать необходимые статистические данные для формирования достаточно полной картины о предметной области, представленной в виде семантического контекстного пространства (СКП). Возможность проводить машинное обучение на большом числе примеров придает системе определенную гибкость и улучшает результаты.
Отображение многомерных векторов на плоскость является удобным средством визуализации связей. В результате образуются визуальные карты ЗС. На таких картах расстояние между ЗС тем меньше, чем больше сила их ассоциативной связи, что позволяет выделять сильно связанные и близкие по смыслу ЗС.
Подход предусматривает исследование различных типов и источников контекста, а также различных методов выделения контекста и оценки силы ассоциативной связи по контекстным векторам. Важным представляется исследование таких типов контекста, как простая совместная встречаемость ЗС в тексте, а также совместная встречаемость ЗС в текстах в рамках заданных лексико-синтаксических шаблонов.
Предлагаемые в данном проекте методы и модели позволяют учитывать порядок слов в лексических последовательностях, что необходимо для более качественного решения вышеперечисленных задач, в том числе для выявления ассоциативных связей словосочетаний, объектов и именованных сущностей. Предлагается также разработать средства визуализации, которые позволяют точно отобразить координаты выявленных объектов в двумерном семантическом контекстном пространстве и использовать эвристические методы для установления степени близости объектов.
Дистрибутивно-статический метод позволяет на основе частотной информации о ЕЯ-единицах получать по некоторой заданной формуле количественную характеристику их связанности. Философия данного метода состоит в том, «что семантическую классификацию значимых элементов языка можно с большим‚ основанием индуктивно извлечь из анализа текста, чем получить ее с некоторой точки зрения, внешней по отношению к структуре языка. Следует ожидать, что такая классификация дает более надежные ответы на проблемы синонимии и выражения смысла, чем существующие тезаурусы и списки синонимов, основанные, главным образом, на интуитивно ощущаемых сходствах без адекватной эмпирической проверки».
Онтология и ассоциативно-иерархический портрет взаимно дополняют и обогащают друг друга. Терминология и иерархические связи, заданные в онтологии, служат входными данными для автоматического построения АИППО, который, в свою очередь, дополняет онтологию найденной в Интернете актуальной расширенной лексикой и выявленными связями. В результате получается новая мощная комбинация, превышающая возможности стандартной онтологии по составу и актуальности лексики.
Множество иерархических связей АИППО в совокупности образует классификатор терминов, который помогает в поиске и навигации по терминам предметной области. Классификатор делит предметную область на части, что создает систематичность ее исследования и разработки.
Лексические ресурсы имеют решающее значение в большинстве задач автоматической обработки текстов. Ручное создание лексических ресурсов является трудоемким, подверженным ошибкам процессом, крайне восприимчивым к произволу человеческих решений. Следовательно, существует потребность в автоматизации разработки лексических ресурсов, насколько это возможно.
В данной работе для построения массива документов была использована модифицированная Keywen--технология (KeyCrawler-2) построения интернет-корпусов, аналогичная широко известным методам построения интернет- корпусов[5-10].
Для создания веб-корпуса необходимо выполнение следующих операций:
? загрузка больших объемов данных из Интернета, извлечение текстовой информации;
? идентификация языка загруженных текстов, удаление "неправильных" документов;
? сегментирование текста на абзацы и предложения;
? удаление дублированного контента (идентичные или частично идентичные сегменты текста);
? токенизация - сегментирование текста на слова;
? лингвистическая аннотация - лемматизация и тегирование;
? выгрузка получившегося корпуса в корпус-менеджер (то есть, создание соответствующих индексных структур), которые делают корпус доступным для пользователей [5-10].
Технология Keywen выполняет все эти операции, включая удаление страниц нецелевого языка (а также другого рода страниц, которые желательно исключить), отсечение HTML-кодов и шаблонов, проверку релевантности и удаление дублирования.
KeyCrawler-2 по заданным ключевым терминам строит не только интернет-корпуса естественно-языковых текстов, а также тематические коллекции научных документов (PDF) с названиями, авторами и библиографическими ссылками. При этом путем автоматического анализа библиографических ссылок находятся наиболее значимые научные документы.
Элементы предлагаемого подхода уже были частично апробированы в работах по созданию энциклопедии ключевых понятий KEYWEN (содержит 260 000 статей и 5 000 000 ключевых фраз, число которых постоянно растет) и в ряде работ других участников проекта.
Система Keywen представляет собой средство построения больших энциклопедий по материалам Интернета и на их основе составления рефератов и аналитических статей. Имеется опыт построения корпуса английских текстов из Интернета размером более 1 ТБ, проведены эксперименты по построению русских корпусов текстов для ряда предметных областей.
Рис. 5 Фрагмент статьи Artificial Intelligence из Keywen
На рис. 5 приведен фрагмент статьи Artificial Intelligence из Keywen (http://keywen.com/en/ ARTIFICIAL INTELLIGENCE) с автоматически построенным набором ключевых слов, выбранных из ассоциативных связей термина Artificial Intelligence. В состав ключевых слов входят: MIT, MACHINE, COMPUTER SCIENCE, COGNITIVE SCIENCE, EXPERT SYSTEMS, TURING, MINSKY, REASONING.
Рис. 6 Категории и подкатегории статьи «Искусственный интеллект»
На рис. 6 представлен абзац Categories из той же статьи Artificial Intelligence, демонстрирующий автоматический выбор иерархических связей и доминирующей категории для статьи из набора ассоциативных связей, т. е. из набора ключевых слов статьи.
На рис. 6 также показаны доминирующие категории (Computer Science, Robotics, Science, Intelligence, Cognitive Science), которые система автоматически выбрала для статьи Artificial Intelligence. Для выбора доминирующей категории рассчитывались ассоциативные связи, найденные с использованием английских аналогов для следующих лексико-синтаксических шаблонов: «относиться к», «включать в себя», «классифицировать», «различать», «подразделять», «разделяться на», «входить», «составлять». Возможные шаблоны для русского и немецкого языка описаны в статье [15].
Рис. 7 Фрагмент общего дерева категорий
Из доминирующих категорий строится дерево всех категорий (http://keywen.com/Category Structure), фрагмент которого представлен на рис. 7.
Система построения Веб-корпуса по технологии Keywen называется также системой семантического серфинга. Построение Веб-корпуса начинается с задания списка ключевых терминов и автоматических их запросов в различных поисковых машинах. В результате обработки запросов от поисковых систем получается множество текстовых документов. Это множество просматривается на предмет выделения URL-ссылок, по выбранным ссылкам формируется расширенное множество документов . Множество , в свою очередь, тоже содержит URL-ссылки, потому процесс расширения множества документов можно продолжать и далее, несколькими итерациями. При этом необходимо проверять вновь найденные документы на наличие в них первоначальных ключевых терминов. Эта проверка осуществляется вручную. Последующие итерации вносят существенный вклад в пополнение множества искомых документов и списка ключевых слов. Далее, документы из множества делятся на предложения (или на фрагменты, близкие по длине к обычным предложениям).
3. Построение онтологий по тематике «Компьютерная графика, визуализация и виртуальная реальность»
3.1 Сбор ключевых слов и построение онтологической модели предметной области
Для начала выделения ключевых слов по предметной области “Компьютерная графика” в первую очередь необходимо проанализировать статью из Википедии о данной теме. В ходе проведения семантического анализа текста через систему https://advego.ru/text/seo/ было выявлено, что он состоит из 1615 слов, среди которых 684 значимых слов. В итоге, в таблице 3 представлены первые 10 слов, составляющих семантическое ядро статьи:
Таблица 3. Семантическое ядро статьи о компьютерной графике
Фраза/слово |
Количество |
Частота, % |
|
графика |
46 |
2.85 |
|
изображение |
31 |
1.92 |
|
компьютерный |
24 |
1.49 |
|
векторный |
15 |
0.93 |
|
использоваться |
14 |
0.87 |
|
компьютер |
14 |
0.87 |
|
растровый |
13 |
0.80 |
|
компьютерная графика |
12 |
0.74 / 1.49 |
|
объект |
12 |
0.74 |
|
трехмерный |
12 |
0.74 |
Само семантическое ядро состоит из следующих слов и словосочетаний: графика, изображение, компьютерный, векторный, использоваться, компьютер, растровый, компьютерная графика, объект, трехмерный, пиксель, набор, графический, матрица, получить, представление, система, вид, дисплей, область, полигон, рисунок, создать, способ, являться, оно, проводиться, работа, создание, трёхмерная графика, график, игра, монитор, научный, обработка, описание, получать, представлять, преобразование, программный, средство, число, экран, cgi, вектор, вершина, графики cgi, двигаться, движение, деловой, деловой графики, значение, иллюстративный, картинка, конференция, координата, лишь, математический, память, позволять, примитив, тип, хранение, электронный.
На основе полученных наиболее частотных первых 10 слов по тематике компьютерная графика, в системе https://the.sketchengine.co.uk/ был проведен поиск документов в сети интернет при помощи инструмента WebBootCat. В дальнейшем, был собран корпус по данной тематике, из которого также были извлечены ключевые слова с целью расширения корпуса. В итоге был собран корпус по компьютерной графике состоящий из 303 документов, состоящий из 1.023.776 слов. Данный сборник текстов был отобран на основе следующих ключевых слов: «компьютерная графика» «машинная графика» «синтез изображений» «создание изображений» «визуальная информация» «обработка изображений» «графический интерфейс» «чертежная машина» «автоматизированное проектирование» «визуализация» «научная графика» «графическая обработка» «иллюстративные материалы» «автоматизация проектирования» «плоские изображения» «двумерные изображения» «трехмерные изображения» «двумерная графика» «трехмерная графика» «иллюстративная графика» «произвольное рисование» «графический редактор» «художественная графика» «рекламная графика» «графический пакет» «реалистичные изображения» «трехмерные объекты» «двумерные объекты» «компьютерная анимация» «движущиеся изображения» «мультимедиа» «векторная графика» «растровая графика» «представление изображений» «векторный формат» «векторный рисунок» «растровая картинка» «билинейная интерполяция» «бикубическая интерполяция» «растровый образ» «растровое изображение» «фрактальная графика» «воксельная графика».
Благодаря системе Sketch Engine можно рассмотреть более частое употребление прилагательных с существительным «графика» в рамках собранного корпуса. На рисунке 8 представлены наиболее частотные словоупотребления, к которым относятся: «компьютерный» (подразделяющееся на: «векторный», «двумерный», «растровый» и «трехмерный»); «машинный» (делящееся на: «деловой», «конструкторский» и «контурный»), «иллюстративный» (состоящее из: «трехмерной» и «фрактальной»).
Рис. 8. Значимые словосочетания с «графика»
Самым популярным стало употребление прилагательного «компьютерный». При помощи инструмента WordSketch определяем, с какими другими словами оно встречается, что отображено на рисунке 9.
Рис. 9. Значимые словосочетания с «компьютерный»
Различают основные три статистические меры ассоциации, такие как MI (мера сравнивает зависимые контекстно-связанные частоты с независимыми частотами слов в тексте), t-score (данная мера определяет случайность совместного употребления нескольких слов в тексте) и log-likelihood (логарифмическая функция правдоподобия). На рисунке 10 представлена часть слов из корпуса, отсортированная по LogDice (статистическая мера, основанная на частотности слов w1 и w2), где отображены результаты по MI, t-score и log- likelihood.
Рис. 10. Статистические меры ассоциации корпуса «Компьютерная графика»
Также существует косинусная мера, которая находит ассоциативные связи между двумя терминами, также называемая семантической похожестью. Будем рассматривать пары слов, которые были выявлены в Sketch Engine, как наиболее употребительные со словом «графика». К значимым словосетаниям относятся: «компьютерная графика» (подразделяющаяся на: «векторная графика», «двумерная графика», «растровая графика» и «трехмерная графика»); «машинная графика» (делящаяся на: «деловая графика», «конструкторская графика» и «контурная графика»), «иллюстративная графика» (состоящая из: «трехмерная графика» и «фрактальная графика»).
Семантическая похожесть двух терминов Т1 и Т2 рассчитывается по данным поисковика Google. Для этого делаются запросы терминов Т1 и Т2 в Google и смотрится количество результатов R. Сначала термины Т1 и Т2 в кавычках запрашиваются по отдельности - R(«T1») и R(«T2»), а потом вместе - R(«T1» «T2»). Далее Семантическая похожесть и Семантическое расстояние рассчитываются по формулам:
Семант.похожесть = (R(«T1» «T2») / min(R(«T1»), R(«T2»)))*100% Семант.расстояние = 100% - Семант.похожесть
Пример расчетов:
"компьютерная графика" 484,000 results "векторная графика" 427,000 results
"компьютерная графика" "векторная графика" 101,000 results Семант.похожесть = (101000/427000)*100% = 23,6% Семант.расстояние = 100% - 23,6%= 76,4%
В таблице 4 представлено количество результатов терминов.
Таблица 4. Результаты семантического поиска в Google
R("T1"): "компьютерная графика" - 484,000 |
|||||
R("T2") |
R("T1" "T2") |
Сем. похож. |
Сем. расст. |
||
"векторная графика" |
427,000 |
101,000 |
23,6% |
76,4% |
|
"двумерная графика" |
8,840 |
1,530 |
17,3% |
82,7% |
|
"растровая графика" |
348,000 |
25,600 |
7,36% |
92,64% |
|
"трехмерная графика" |
143,000 |
25,500 |
17,83% |
82,17% |
|
R("T1"): "машинная графика" - 37,500 |
|||||
"деловая графика" |
28,300 |
2,090 |
7,39% |
92,61% |
|
"конструкторская графика" |
4,660 |
392 |
8,41% |
91,59% |
|
"контурная графика" |
4,580 |
2 |
0,04% |
99,96% |
|
R("T1"): "иллюстративная графика" - 9,430 |
|||||
"трехмерная графика" |
143,000 |
1,170 |
0,82% |
99,18% |
|
"фрактальная графика" |
27,100 |
1,440 |
5,31% |
94,69% |
В связи с тем, что в системе Sketch Engine были выявлены наиболее употребительные прилагательные с существительным «графика», то можно определить релевантность различных документов при помощи алгоритма LDA, который предполагает, что документы производятся из смеси тем. Затем эти темы создают слова на основе их распределения вероятности, например, как в модели пошагового руководства. Другими словами, LDA предполагает, что создание документа состоит из следующих этапов:
- Определение количества слов в документе. Предположим, что наш документ содержит 6 слов.
- Определение сочетаний тем в этом документе. Например, в документе может содержаться 1/2 тема "здоровье" и 1/2 тема "овощи".
- Использование множественного распределения по каждому разделу, выводимых слов для заполнения слотов документа. В нашем примере тема «здоровье» -- 1/2 нашего документа или 3 слова. Тема "здоровье" может иметь слово "диета" при 20-процентной вероятности или "Упражнение" на 15%, поэтому она будет заполнена слотами для документа на основе этих вероятностей.
С учетом этого предположения о том, как создаются документы, LDA оттуда и пытается выяснить, какие разделы будут создавать эти документы в первую очередь.
Исходя из этого, через объектно-ориентированный язык Python, с установленными пакетными расширениями Numpy, Scipy, Nltk и gensim можно провести выделение тем из текстовой коллекции, который выделяет только значимые слова в каждом документе. В моем исследовании, с целью улучшения параметров иерархической кластеризации терминов был использован алгоритм LDA. Пример работы алгоритма был основан на следующих документах:
documents = ["Компьютерная графика -- это рисунки и фильмы, созданные с помощью компьютеров", "Двумерная компьютерная графика -- это поколение цифровых изображений, главным образом из моделей, таких как цифровое изображение, и с помощью специальных технологий",
"Основная форма цифрового искусства - пиксельное искусство, создается с помощью программного обеспечения растровой графики, где изображения редактируются на уровне пикселей",
"Векторные графические форматы дополняют растровую графику", "Трехмерная графика - это графика, использующая трехмерное
представление геометрических данных"]
Был использован алгоритм LDA на получение двух тем:
ldamodel = gensim.models.ldamodel.LdaModel(corpus, num_topics=2, id2word = dictionary, passes=100)
print (ldamodel.print_topics(num_topics = 2, num_words = 8)), где слова распределялись следующим образом:
[(0, 0.102*"графика" + 0.078*"форма" + 0.057*"компьютер" + 0.056*"цифровой"'), (1, 0.100*"графика" + 0.057*"использующий" + 0.056*"пиксель" + 0.056*"искусство"')]
Можно сделать вывод, что слова «графика», «форма», «компьютер» и «цифровой» относятся к теме «технология», а набор слов «графика», «использующий», «пиксель» и «искусство» к теме «искусство».
Потом, был повторно использован алгоритм LDA для получения четырех тем, таких как «двумерная графика», «технологии», «искусство» и «компьютерная графика».
[(0, 0.158*"графика" + 0.088*"растовый" + 0.088*"дополнять" + 0.088*"векторный"'), (1, 0.148*"компьютер" + 0.082*"созданный" + 0.082*"использующий" + 0.082*"изображение"'), (2, 0.085*"изображение" + 0.085*"цифровой" + 0.059*"пиксель" + 0.059*"искусство"'), (3, 0.153*"графика" + 0.106*"двумерный" + 0.106*"трехмерный" + 0.059*"использующий"')]
Также, в системе Sketch Engine были выделены наиболее частотные слова. Благодаря выявлению теоретическим путем наиболее близких/похожих по смыслу терминов в этом же списке ключевых слов, мы получим по 10 терминов, описывающих некоторую тему (тематическое моделирование):
Topic 0. «компьютерная графика»: компьютерная графика, трехмерной графики, исходное изображение, визуальное представление, компьютерного моделирования, растровых изображений, цифровых изображений, графической информации, представления информации, пикселей изображения».
Topic 1. «визуализация данных»: визуализации данных, специализированных систем, представления данных, виртуальной среде, методов визуализации, визуальное представление, информационных систем, визуализации результатов, визуального анализа, визуализации информации».
Topic 2. «виртуальная реальность»: виртуального окружения, визуализации информации, визуального анализа, виртуального тела, виртуальной среде, средств визуализации, виртуальная реальность, виртуальной среды, визуализации результатов, виртуального объекта».
Topic 3. «работы алгоритмов»: прикладной математики, схема алгоритма, работы алгоритмов, тематической обработки, реализации алгоритма, новый алгоритм, методов обработки, генетического алгоритма, работы программы, разработанных алгоритмов».
Topic 4. «обработка изображений»: нейронных сетей, цифровых изображений, исходное изображение, обработка изображений, нейронной сети, обработки изображения, визуального анализа, нейронные сети, разрешения изображений, реалистичных изображений».
Topic 5. «геометрическая модель»: численного моделирования, прикладной математики, трехмерных объектов, геометрических моделей, математического моделирования, геометрических объектов, компьютерного моделирования, поверхности объекта, вычислительной математики, геометрического моделирования».
Topic 6. «трехмерные модели»: 3D модели, вычислительной математики, трехмерных объектов, трехмерных моделей, математического моделирования, 3D моделей, компьютерного моделирования, имитационного моделирования, трехмерной сцены, трехмерной графики».
Topic 7. «анализ данных»: обработки информации, визуального анализа, многомерных данных, база данных, информационных систем, предложенного метода, структуры данных, анализ данных, номерного знака, существующих методов».
Topic 8. «программное обеспечение»: программный комплекс, специализированных систем, информационных систем, автоматизированного проектирования, системы управления, работы программы, программных продуктов, программное обеспечение, графического интерфейса, программные средства».
Topic 9. «трассировка лучей»: глобальной освещенности, реалистичных изображений, трассировка лучей, моделирования освещенности, оптических свойств, оптической системы, распространения света, световых сеток, пересечения луча, мягких теней».
Topic 10. «система координат»: координаты точки, система координат, множества точек, облака точек, вычислительной техники, численного решения, наименьших квадратов, дифференциальных уравнений, опорных векторов, компьютерных технологий».
На основе полученных статистических данных в системе Sketch Engine, а также при помощи алгоритма тематического моделирования LDA можно построить онтологическую модель предметной области «компьютерная графика» в программе Protйgй, представленной на рисунке 11.
Рис. 10. Онтологическая модель предметной области «Компьютерная графика»
В рамках построения онтологии были использованы классы и индивидуальные объекты, это можно посмотреть на рисунке 12 отрывок онтологической модели.
Рис. 10. Часть онтологической модели предметной области «Компьютерная графика»
Проведя комплексный статистический анализ предметной области «Компьютерная графика, визуализация и виртуальная реальность», была построена онтологическая модель по способу группировки в виде коллекции.
3.2 Применение онтологической модели «Компьютерная графика, визуализация и виртуальная реальность»
Лексические ресурсы имеют решающее значение в большинстве задач автоматической обработки текстов. Ручное создание лексических ресурсов является трудоемким, подвержено ошибкам, и восприимчиво к произволу человеческих решений. Следовательно, существует потребность в автоматизации разработки лексических ресурсов.
Важным типом лексического ресурса является группирование терминов по категориям. Понятие категории является фундаментальным в когнитивной семантике. Лексическая категория представляет собой набор терминов, которые имеют общие существенные аспекты их значений, например, наборы терминов, обозначающих транспортные средства, виды пищи, имена инструментов и т.д. Один термин может принадлежать более, чем одной категории.
Перед выделением тем текстовая коллекция подвергается предобработке, выделяющей только значимые слова в каждом документе. В нашем исследовании для улучшения параметров иерархической кластеризации терминов используются модели LDA совместно с моделями дистрибутивной семантики и семантических векторных пространств. В методе используется понятие «семантическое контекстное пространство», выраженное термином, где точки пространства соответствуют контекстным векторам не отдельных терминов, а значимых словосочетаний (ЗС). Такое семантическое контекстное пространство, представляющее множество связей между ЗС в некоторой предметной области называется ассоциативно-иерархическим портретом предметной области (АИППО). Значимые словосочетания - это лексические последовательности, имеющие тенденцию к совместной встречаемости (в лингвистике используется термин «коллокация»).
Для выделения ЗС в компьютерной лингвистике используются различные статистические меры ассоциативной связанности (association measures), вычисляющие силу связи между элементами в составе коллокации. По сравнению с существующими методиками, рассматриваемая модель из изначального семантического контекстного пространства, не связанного с конкретной тематикой, автоматически выбирает ту или иную предметную область и ее компоненты: значимые словосочетаний (ЗС), ассоциативные связи и, соответственно, контексты для их выделения. В результате строится система множественных ассоциативных связей, а затем формируется ассоциативно- иерархический портрет предметной области - АИППО.
В методе LDA впервые были построены темы, состоящие не только из набора слов, но содержащие также значимые словосочетания (ЗС). Проект реализуется на сверхбольших объемах данных (big data), свободно представленных в среде Интернет, что существенно повышает качество формируемых АИППО. Обработка больших массивов текстов из Интернета позволяет собирать необходимые статистические данные для формирования достаточно полной картины о ПО, представленной в виде АИППО. Для повышения полноты и точности результатов эта работа осуществлялась методом автоматического Интернет-серфинга. Используемый нами алгоритм поиска порождает в качестве промежуточного результата дайджесты из ключевых фраз конкретной ПО. Поисковый запрос формируется на основе множества ключевых терминов и множества ЗС. Осуществляется перебор всех комбинаций ключевых терминов (единичные термины, пары терминов, тройки и т.д.) так, чтобы длина запроса не превышала определенной границы п. В результате поиска найдено «среднее» количество (порядка нескольких сотен) релевантных документов. Алгоритмы объединения имеют эмпирический характер - значение границы n определяется опытным путем. Затем с помощью поисковых систем (Google, Яндекс и прочих) поисковые запросы обрабатываются, и в результате получается множество M1 текстовых документов. Это множество просматривается на предмет выделения URL- ссылок, по выбранным ссылкам формируется расширенное множество документов М2. Множество М2, в свою очередь, тоже содержит URL- ссылки, потому процесс расширения множества документов можно продолжать и далее, несколькими итерациями. При этом необходимо проверять вновь найденные документы на наличие в них первоначальных ключевых терминов. В этом случае и последующие итерации вносят существенный вклад в пополнение множества искомых документов и списка ключевых слов. Далее, документы из множества М2 делятся на предложения (или на фрагменты, близкие по длине к обычным предложениям). В результате составляется база данных, имеющая значительный объем (до нескольких Тб). По полученной базе данных производятся статистические подсчеты с целью выделения ключевых фраз, значимых словосочетаний и их иерархических связей.
Разработчики СВП отмечают, что основная проблема метода заключается в трудностях учета порядка слов, составляющих контексты. В рамках данного проекта эта проблема решается путем перехода от контекста слов к контексту значимых словосочетаний. Следует отметить, что посредством ЗТ могут быть представлены как отдельные слова, словосочетания и термины, так и более сложные конструкции - объекты и именованные сущности. При подготовке к исследованию был составлен список ключевых терминов по предметной области (ПО) «Компьютерная графика, визуализация и виртуальное окружение в СССР и России» (КГВ).
В ходе исследования Keywen-технология была настроена на поиск в Интернете PDF-документов, содержащих заголовки, упоминания авторов, списки литературы, термины, относящиеся к предметной сфере компьютерная графики. Keywen-технология основана на собственном поисковом роботе, который осуществляет поиск текстов, ассоциированных с заданными ключевыми терминами. Ниже приведен список ключевых терминов, использованных в ходе поиска: компьютерная графика, виртуальная реальность, научная визуализация, геометрическое моделирование, машинная графика, визуальный анализ, методы визуализации, визуализация поверхности, пространственная сцена, пространственное моделирование, многоугольная фигура, системы виртуальной реальности, авиационные тренажеры, визуальная аналитика, визуализация информации, осязаемые изображения, 3d- визуализация, виртуальная среда, графический процессор, виртуальная сцена, очки виртуальной реальности, шлем виртуальной реальности, анализ изображения, 3d-ландшафт, моделирование территории, векторная графика, растровая графика, фрактальная графика, трёхмерная графика, 3d max, визуализация данных, трёхмерная визуализация, объемная визуализация, компьютерная визуализация.
Найденные при помощи Keywen-технологии PDF-файлы были переведены в текстовый формат и далее были преобразованы в формальный XML-формат при помощи специально разработанного лингвистического процессора, который выделял из текста название, авторов и библиографические ссылки. В результате была построена коллекция, содержащая 927 публикаций, включающих 8694 библиографические ссылки. Коллекция представлена на сайте Ngraph.ru.
Авторским коллективом из открытой информации в Интернете был собран большой объем текстов, связанных с КГВ, размером около 30 ГБ, из которого было выделено ядро, содержащее 350 МБ различных не повторяющихся фраз. После получения списка КТ(при анализе дайджеста) было проведено тематическое моделирование ПО с помощью метода LDA, который обрабатывал данные ключевые термины как отдельные слова. Алгоритм LDA был запущен несколько раз с различными параметрами, задающими количество выделяемых тем(topics) и количество наиболее значимых терминов каждой темы.
Формальное представление коллекции было использовано для построения графа цитирований, графа соавторов и его визуализации. Между полными документами коллекции имеется 119 прямых библиографических ссылок, которые связывают 141 документ из коллекции. В коллекции содержится 82 полнотекстовых документа, имеющих ссылки в других документах коллекции и ненулевой индекс цитирования. (Например, в коллекции из трех документов A, B и C, связанных двумя ссылками A->B и C->B, имеется только один документ B, имеющий ссылки со стороны других документов A и C.)
Построенная в данной работе онтология органично бы дополнила структуру поиска по сайту Ngraph.ru. Так как в данном случае онтологическая модель играет роль «словаря», или общего языка, понятного всем участвующим в обмене. Внутри себя каждая система (источник, приемник) может хранить информацию в любом естественном для нее представлении. Экспортируя эту информацию наружу - система должна представить ее в обобщенном виде, для чего используется «словарь», представляющий собой элементы общепринятой информационной модели.
Заключение
В последнее время корпусы языков (коллекции текстов, представленные в натуральных контекстах, исключая экспериментальное вмешательство) занимают одно из основных мест в разных отраслях лингвистики и смежных дисциплинах. Существуют области их применения такие, как: формирование доказательства для решения задач теоретической и прикладной лингвистики, моделирование стадий овладения языком (лексикография) и обработка естественного языка.
К главным источникам лингвистических данных исследователи относят сеть-интернет. Её преимуществами являются то, что она выступает хранилищем разнообразных текстовых данных на различных языках, а также, благодаря возможности его пополнения новыми данными, исполняет роль «возобновляемого» источника языка.
...Подобные документы
Методы представления знаний заданной предметной области. Создание онтологии бортовых информационно управляющих систем автомобиля. Создание среды разработки и приложения для поиска в интернете с использованием онтологии. Проверка эффективности приложения.
презентация [1,6 M], добавлен 25.12.2014Создание множества религиозных понятий и их определение. Преимущества использование платформы Protеgе. Разработка онтологии по предметной области "Буддизм" посредством компьютерной программы Protеgе 4.2.0. Представление онтологии в графическом виде.
курсовая работа [768,0 K], добавлен 18.08.2013Семантическая сеть - совокупность объектов предметной области, отношений между ними. Причинно-следственные связи между двумя объектами в семантической сети. Представление знаний путем использования фреймов, при помощи логики предикатов. Правила продукций.
реферат [46,1 K], добавлен 01.12.2010Информационное обеспечение научных исследований в университете. Разработка онтологии в области управления. Создание глоссария по менеджменту, списка персоналий. Семантическая разметка массива документов. Методика работы с базой научных публикаций.
дипломная работа [3,5 M], добавлен 13.01.2015Потребность отражения человеческих знаний в памяти компьютера. Модели представления знаний. Продукционные и формально-логические модели. Исчисление предикатов первого порядка. Основные свойства теории фреймов. Аналитическая платформа Deductor.
курсовая работа [538,2 K], добавлен 09.04.2015Построение онтологии предметной области для анализа глобальных процессов на основе информации, получаемой из новостных лент. Средства разработки онтологий, используемых для поиска событий, фактов, извлечённых из СМИ; моделирование экономических рисков.
курсовая работа [3,4 M], добавлен 27.08.2017Описание предметной области "Магазин по продаже компьютерных комплектующих". Построение ER и реляционной модели данных, сущности и связи. Создание ER и реляционной модели данных, запросов, представлений, хранимых процедур для предметной области.
курсовая работа [32,2 K], добавлен 15.06.2014Представление знаний в когнитологии, информатике и искусственном интеллекте. Связи и структуры, язык и нотация. Формальные и неформальные модели представления знаний: в виде правил, с использованием фреймов, семантических сетей и нечетких высказываний.
контрольная работа [29,9 K], добавлен 18.05.2009Анализ существующих алгоритмов обработки информации человеком и современных моделей памяти. Разработка алгоритмов и математической модели ассоциативного мышления. Имитационная модель обработки информации. Компьютерный эксперимент по тестированию модели.
курсовая работа [2,3 M], добавлен 19.11.2014База знаний - структурированная информация из области знаний для использования кибернетическим устройством (человеком). Классификация, структура, формат представления знаний, интеллектуальные системы поиска информации. Базы знаний на примере языка Пролог.
презентация [51,3 K], добавлен 17.10.2013Формализации в онтологии областей знаний с помощью концептуальной схемы. Определение атрибутов класса и свойств экземпляров. Создание экземпляров класса и DL-Query запросов. Методика использования для разработки онтологии среды разработки Protege.
курсовая работа [2,0 M], добавлен 18.06.2014Анализ предметной области: порядок медицинского обследования донора крови и ее компонентов. Описание документооборота и обработки информации в стандарте DFD. Разработка смешанной модели описания процесса на основе стандартов IDEFO, DFD и IDEF3.
курсовая работа [29,3 K], добавлен 10.11.2009Анализ предметной области "Конкурс поэтов" на основе объектно-ориентированного подхода. Разработка оконного приложения и описание информационной модели предметной области. Описание разработанных процедур С++ и результатов тестирования приложения.
курсовая работа [355,9 K], добавлен 18.06.2013Понятие и разновидности, подходы к формированию инфологических моделей. Модель информационной системы Захмана, направления ее развития и анализ результатов. Компоненты инфологического уровня описания предметной области. Сбор требований пользователей.
презентация [136,3 K], добавлен 19.08.2013Создание и развитие университетской информационной системы как тематической электронной библиотеки и базы для исследований и учебных курсов. Общее описание системы. Пользовательский графический интерфейс. Программное обеспечение, руководство пользователя.
дипломная работа [1,0 M], добавлен 24.01.2016Преимущества и недостатки моделей представления знаний. Модель, основанная на правилах, фреймовая модель. Семантическая сеть. Структура экспертных систем и этапы их разработки. Механизмы логического вывода. Стратегия "вверх-снизу", "от цели к ситуации").
презентация [195,3 K], добавлен 29.10.2013Исследование основных требований, предъявляемых к инфологической модели. Методы представления предметной области. Инфологическое описание предметной области. Модель "сущность-связь". Типы бинарных связей. Отражение объектов в информационной системе.
презентация [397,3 K], добавлен 29.09.2013Основные модели представления знаний. Системы поддержки принятия решений. Диаграмма UseCase. Разработка базы данных на основе трех моделей: продукционные правила, семантическая сеть, фреймовая модель. Программная реализация системы принятия решений.
курсовая работа [715,1 K], добавлен 14.05.2014Сущность данных и информации. Особенности представления знаний внутри ИС. Изучение моделей представления знаний: продукционная, логическая, сетевая, формальные грамматики, фреймовые модели, комбинаторные, ленемы. Нейронные сети, генетические алгоритмы.
реферат [203,3 K], добавлен 19.06.2010Разработка базы данных для предметной области "Подразделения предприятия – Рабочие помещения". Описание используемых данных, предметной области и результатной информации. Создание запросов, форм и отчетов в базе данных. Описание построения диаграмм.
курсовая работа [5,6 M], добавлен 24.07.2014