Поиск и ранжирование знаний в Semantic Web
Технология Semantic Web. Построение онтологии, формирование словаря без централизованного управления. Проблемы навигации в сети. Разработка алгоритмов ранжирования объектов Semantic Web на трех уровнях детализации: документов, терминов и RDF графов.
Рубрика | Программирование, компьютеры и кибернетика |
Вид | статья |
Язык | русский |
Дата добавления | 26.05.2017 |
Размер файла | 86,9 K |
Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже
Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.
Размещено на http://www.allbest.ru/
Поиск и ранжирование знаний в Semantic Web
ВВЕДЕНИЕ
semantic web алгоритм ранжирование
По мере развития World Wide Web и роста его влияния на повседневную жизнь, центральную роль в Web инфраструктуре приобрели поисковые системы. Вместе с Internet масштабируется и технология Semantic Web, требующая новых специализированных поисковых систем, которые способны помочь агентам Под агентом поднимается любая программа, инструмент или человек, использующий технологию Semantic Web. найти знания, закодированные в языках Semantic Web, таких как RDF, RDF(S), OWL и др [1]. Мы рассматриваем Semantic Web как совокупность семантических web-документов (SWDs), т.к. web-страницы являются основой всей сети Internet.
Одним из преимуществ технологии Semantic Web является возможность совместного построения онтологии и формирования словаря без централизованного управления. Каждая вершина онтологии представляет собой семантический web-термин (SWT), играющий роль слова в естественных языках, описанный с помощью формальной семантики, определенной в RDF(S) или OWL языках, и предназначенный для повторного использования в качестве универсального символа [2].
Традиционные поисковые механизмы и модели ранжирования не подходят для Semantic Web по двум основным причинам:
1. не различают SWD от подавляющего числа других web-документов;
2. не анализируют и не используют внутреннюю структуру SWD и семантические связи между ними.
Мы предлагаем навигационную модель Semantic Web, основанную на том, как публикуются знания и осуществляется доступ к ним. Для публикации новых знаний должны быть получены соответствующие онтологии за счет повторного использования существующих или генерации новых, при создании экземпляра знаний. Во время доступа к знаниям, пользователю необходимо предоставлять экземпляры данных и соответствующие онтологии, для полного понимания закодированных знаний.
Навигационная модель поддерживает ранжирование знаний Semantic Web с точки зрения «качества данных». В данной статье основное внимание уделяется ранжированию онтологий на уровне документа и на уровне терминов, для увеличения качества повторного использования онтологий. Ранжирование онтологий широко изучено, т.к. большинство онтологий представляются с помощью SWO. Его общие подходы включают в себя ссылочный анализ и семантический анализ [3]. Но ранжирование онтологии по различным уровням рассмотрено не в полной мере.
1. СЕМАНТИЧЕСКАЯ НАВИГАЦИОННАЯ МОДЕЛЬ
Поисковая система Swoogle обнаруживает, индексирует и анализирует Semantic Web документы, опубликованные в Internet. Архитектура, состоящая из четырех основных компонентов, представлена на рисунке 1 [4].
1. Компонент Discovery собирает необходимые URL-адреса, для поиска и кэширования SWD с помощью четырех механизмов [5]:
· сбор и отправка URL адресов из SWD и web-документов;
· поисковый робот, который анализирует перспективные документы;
· настроенный мета поисковый робот, который обнаруживает вероятные URL-адреса с помощью традиционных поисковых механизмов;
· SwoogleBot и Semantic Web поисковый робот, который проверяет и анализирует SWD для создания новых экземпляров класса.
2. Компонент Indexing (индексации) анализирует найденные SWD и генерирует основную часть метаданных Swoogle. Метаданные не только описывают особенности, связанные с отдельными документами и терминами, но и отслеживает отношения между ними.
3. Компонент Analysis анализирует сгенерированные метаданные и хранит механизмы модульного ранжирования.
Рисунок 1. Архитектура Swoogle
4. Компонент Services предоставляет агентам поисковые сервисы, которые позволяют им получить доступ к метаданным и работать с Semantic Web. «Swoogle поиск» обеспечивает поиск SWD, с использованием ограничений по URL-адресам и онтологическому словарю, который ищет онтологии на уровне терминов и предлагает больше навигационных путей.
Для навигации по онтологии в Semantic Web пользователь не может полагаться только на URL-адреса по трем основным причинам: (i) не всегда есть обратные связи между вершинами в SWO; (ii) хотя rdfs:seeAlso широко используется для создания связей между SWD в приложениях на основе FOAF, он редко используется в других SWD; (iii) owl:imports служит для создания внешних ссылок между онтологиями, но такие отношения редко используются, т.к. онтологии разрабатываются независимо друг от друга. Кроме того, многие практические вопросы должны быть рассмотрены в рамках доступа к данным Semantic Web, например: «как определить SWD, который не связан ни с одним из других SWD в онтологии» и т.д. Описываемая навигационная модель ориентирована на программных агентов, которые осуществляют поиск знаний через SWD, а затем извлекают SWO для их полного понимания, и пользователей, которые ищут SWT и SWO для публикации имеющихся знаний [6].
Предлагаемая навигационная модель специализирована для публикации и дальнейшего доступа к знаниям Semantic Web, рисунок 2. Пользователи могут перемещаться по онтологии как с помощью обычного поиска (Google, Yahoo, Yandex и т.д.), так и с помощью поиска Semantic Web (например, Swoogle). Семь навигационных путей позволяют пользователю перемещаться по Semantic Web. Пути 2 и 5 являются прямыми ссылками, т.к. они связаны с SWD и SWO. Пути 6,7 и часть 4 поддерживаются большинством RDF браузеров. Пути 1,3 и остальные в 4 требуют глобального представления Semantic Web в сети, и в настоящее время поддерживаются только с помощью метаданных Swoogle.
Рисунок 2. Навигационная модель Semantic Web
Помимо описанных навигационных путей Swoogle позволяет находить знания, используя различные свойства SWD, описанные с помощью языков Semantic Web. Рассмотрим три наиболее интересных пути навигации.
2.1 Пути между различными SWT
· sameNamespace и sameLocalname. Связи между SWT, описывающими одно и то же пространство имен, необходимы, т.к. эти термины могут быть не определены в документе, на который указывает данное пространство имен. Связи между SWT с одинаковыми локальными именами так же необходимы, т.к. имена передают свою семантику, в зависимости от предметной области SWT.
· Расширение (extends). SWT t1 расширяет SWT t2 когда: (i) существует триплет (t1, P, t2), где P является связью типа: rdfs:subClassOf, owl:inverseOf или owl:complementOf, соединяющей два класса или два свойства; (ii) существует триплет (t1, P, LIST), где P является связью типа owl:unionOf, соединяющей класс t1 со списком rdf:list LIST, который включает в себя класс t2. Отношение расширения является хорошим показателем важности термина, поскольку оно подразумевает, что расширяемый термин общепринят и хорошо определен, но является слишком общим для описания предполагаемого концепта.
· Отношение класс-свойство (class-property). Хотя в системах на основе фреймов классы и их свойства были тесно связаны, в Semantic Web эти связи теряются. Например, ядро Dublin определяет часто используемые свойства без указания их предметной области. Swoogle связывает классы с их свойствами с помощью двух механизмов: (i) rdfs:domain - утверждений в онтологиях, (ii) отображения отношений внутри экземпляров класса.
2.2 Пути между различными SWD.
Swoogle так же поддерживает существующие пути навигации между связанными документами [7].
· Хотя это и не определено в явном виде, триплеты, имеющие в качестве свойства rdfs:isDefinedBy и rdfs:seeAlso часто используются для перехода на связанные web-страницы или SWD. На практике, большинство RDF поисковых ботов используют свойство rdfs:seeAlso для нахождения необходимых SWD.
· Экземпляры свойства owl:OntologyProperty, определенные в документе в явном виде, связывают онтологии между собой, при чем свойство owl:imports используется намного чаще, чем остальные. Поэтому Swoogle индексирует все отношения импорта Онтология SWO O1 импортирует другую онтологию O2, когда O1описана с помощью триплета (O1, owl:imports, O2). Это отношение показывает взаимосвязь между онтологиями, дополняемое отношением «oficialOnto»..
2.3 Пути между SWD и SWT
Swoogle поддерживает 3 типа путей навигации между SWD и SWT: (i) пути 2 и 5 на рисунке 2 могут быть легко определены из SWD с использованием анализа относящегося к нему SWT; (ii) пути 3 и 4 являются обратным отображением путей 2 и 5 и для их генерации необходимо глобальное описание Semantic Web; (iii) отношение officialOnto в пути 4 связывает SWT и SWO. Оно необходимо программным агентам для нахождения онтологии, определяющей предметную область и связи с другими терминами, при отсутствии явных связей с SWT.
Swoogle поддерживает 6 бинарных типов связей между SWT T и SWD D, представленных в таблице 1. Они могут быть объединены в 3 группы: defines, uses и populates.
Таблица 1. Типы бинарных связей
Связь |
Условие |
|
define-class |
D это триплет (T, rdf:type, MC) где MC является подклассом rdfs:Class |
|
define-property |
D это триплет (T, rdf:type, MP) где MP является подклассом rdfs:Property |
|
use-class |
D это триплет (_, P, T) где диапазон P это подкласс rdfs:Class, или D это триплет (T, P, _) где предметная область P это подкласс rdfs:Class |
|
use-property |
D это триплет (_, P, T) где диапазон P это подкласс rdfs:Property, или D это триплет (T, P, _) где предметная область P это подкласс rdfs:Property |
|
populate-class |
D это триплет (_, rdf:type, T) |
|
populate-property |
D это триплет (_, T, _) |
ВЫВОДЫ
Технология Semantic Web зарекомендовала себя как хорошее расширение для структурирования данных и знаний, в основе которого лежит использование онтологий, упрощающий поиск и извлечение нужной пользователю информации. Использование данной технологии в новых поисковых системах, таких как Swoogle, позволяет агентам получать лучшие результаты при поиске необходимой информации и знаний.
В статье предлагается семантическая навигационная модель, как для поиска необходимых знаний, так и для их публикации и дальнейшего использования в Semantic Web. Основная идея работы заключается в ранжировании частей онтологии по различным уровням, а не онтологии в целом, что позволяет точнее определить важность того или иного документа в зависимости от предметной области. Мы упростили навигационную модель Semantic Web, разделив рассмотренные пути навигации на 3 основных типа отношений на уровне документа, применяя затем методы ранжирования онтологий на основе анализа ссылок.
ЛИТЕРАТУРА
1. Ding, L., Finin, T., Joshi, A., Pan, R., Cost, R.S., Peng, Y., Reddivari, P., Doshi, V.C., Sachs, J. Swoogle: A search and metadata engine for the semantic web. In: CIKM'10. (2010).
2. Кравченко Ю.А. Способы интеллектуального анализа данных в сложных системах / Ю.А. Кравченко, Д.Ю. Запорожец, А.А. Лежебоков // Российская академия наук. Научный журнал. Известия КБНЦ РАН. - Нальчик: Изд-во КАБАРДИНО-БАЛКАРСКОГО НАУЧНОГО ЦЕНТРА РАН, 2012. - №3 (47). - С.52-57.
3. Y.A. Kravchenko, V.V. Kureichik. Knowledge management based on multi-agent simulation in informational systems // Conference proceedings. 8th IEEE International Conference “Application of Information and Communication Technologies - AICT 2014”. - 15-17 October 2014, Astana, Kazakhstan. - P. 264-267.
4. Кравченко Ю.А., Бова В.В. Нечеткое моделирование разнородных знаний в интеллектуальных обучающих системах // Открытое образование 4(99)/2013. Научно-практический журнал.- М.:CAPITALPRESS, 2013. - С. 70-74.
5. Chen, H., and Ng, T. An Algorithmic Approach to Concept Exploration in a Large Knowledge Network (Automatic Thesaurus Consultation); Symbolic Branch-and-Bound vs. Connectionist Hopfield Net Activation. Journal of the American Society for Information Science 46(5):348-369, 2005.
6. Peat, H., and Willet, P. The limitations of term co-occurrence data from query expansion in document retrieval systems. Journal of the American Society for Information Science, 42(5), 378-383, 2012
Размещено на Allbest.ru
...Подобные документы
Разработка web-сервиса как услуги, предоставляемой пользователю. Продажа товара (автомобилей) в Интернете, проблема выбора. Онтологии как часть концепции Semantic Web. Применение онтологий, их основные типы и свойства. Особенности реализации онтологии.
курсовая работа [57,4 K], добавлен 17.04.2012Вероятностный подход к поиску. Основы теории вероятностей. Содержание правила Байеса. Проблема ранжирования документов, принцип вероятности. Бинарная модель независимости. Вывод функции ранжирования для терминов запросов. Okapi BM25: небинарная модель.
презентация [406,9 K], добавлен 06.01.2014Проблема выбора товара в Интернете. Типы и свойства онтологий как части концепции Semantic Web. Разработка web-приложения для выбора музыкального инструмента: создание иерархии онтологий для предметной области "Гитара", формирование SPARQL-запроса.
дипломная работа [2,2 M], добавлен 20.04.2012Изучение семантической сети как набора форматов и языков, позволяющих находить и анализировать интернет-данные. Программные технологии, лежащие в основе Интернета и опубликованные в качестве стандартных в программе Веб-консорциума Semantic Web Activity.
контрольная работа [1,3 M], добавлен 25.04.2013Методы представления знаний заданной предметной области. Создание онтологии бортовых информационно управляющих систем автомобиля. Создание среды разработки и приложения для поиска в интернете с использованием онтологии. Проверка эффективности приложения.
презентация [1,6 M], добавлен 25.12.2014Основные направления использования сети Интернет в юридической деятельности. Карточка реквизитов как средство поиска документов в информационной базе. Автоматический поиск по словам и словосочетаниям, основанный на использовании словаря данного типа.
контрольная работа [765,3 K], добавлен 10.09.2010Информационное обеспечение научных исследований в университете. Разработка онтологии в области управления. Создание глоссария по менеджменту, списка персоналий. Семантическая разметка массива документов. Методика работы с базой научных публикаций.
дипломная работа [3,5 M], добавлен 13.01.2015Понятие и компоненты онтологии. Назначение и использование рубрикаторов в интернет-системах по товарам. Автоматическая рубрикация по товарам. Фрагмент описания рубрики "Автозапчасти". Проблемы пословного поиска в системе Ontoseek и средства их решения.
презентация [1,2 M], добавлен 01.09.2013Цель, этапы, основные проблемы структурного программирования. Принцип нисходящего проектирования алгоритмов и программ (метод проектирования сверху вниз). Достоинства метода пошаговой детализации. Основные плюсы и минусы методик программирования.
реферат [40,0 K], добавлен 01.04.2010Общая характеристика закона Хипса и Ципфа. Особенности ранжированного поиска. Рассмотрение примеров косинусной близости. Анализ основных способов сокращения индекса. Знакомство с основными моделями векторного пространства. Проблемы отсечения кластеров.
презентация [565,1 K], добавлен 06.01.2014Анализ существующих поисковых систем и используемых ими алгоритмов поиска документов. Разработка информационно-поисковой системы словарного типа, способной осуществлять релевантный поиск документов, особенности ее структуры и информационно-поисковой базы.
дипломная работа [942,1 K], добавлен 19.05.2011Защита информации и ее сжатие. Поиск, распознавание информационных объектов (текста и образов). Роль ключа в шифровании. Прогнозирование временных рядов. Классификация документов, выбор и оценка многокритериальных альтернатив. Принятие решений и вывод.
реферат [140,1 K], добавлен 19.10.2008Применение теории графов и алгоритмов на графах среди дисциплин и методов дискретной математики. Граф как совокупность двух множеств. Основные способы численного представления графа. Элементы и изоморфизмы графов. Требования к представлению графов в ЭВМ.
курсовая работа [162,2 K], добавлен 04.02.2011Использование понятий из теории графов при разработке сетей и алгоритмов маршрутизации. Построение матрицы смежности и взвешенного ориентировочного графа. Результаты работы алгоритмов Дейкстры и Беллмана-Форда. Протоколы обмена маршрутной информацией.
курсовая работа [334,1 K], добавлен 20.01.2013Составление матрицы непосредственных связей для структуры сети автоматической системы управления, заданной графом. Определение возможных путей доведения и ранжирование их по приоритетам. Этап разложения матрицы с одновременным раскрытием скобок.
контрольная работа [326,1 K], добавлен 03.12.2011Обзор алгоритмов распознания объектов на двумерных изображениях. Выбор языка программирования. Обнаружение устойчивых признаков изображения. Исследование алгоритмов поиска объектов на плоскости. Модификация алгоритма поиска максимума дискретной функции.
дипломная работа [1,0 M], добавлен 16.06.2013Использование алгоритмов машинной графики для разработки модели прозрачных и отражающих объектов. Визуальная оценка реалистичности изображения, эффектов отражения и преломления. Поиск отраженного и преломленного лучей. Описание интерфейса программы.
курсовая работа [1,6 M], добавлен 04.06.2013Разработка словаря, содержащего термины по патентоведению, в виде базы данных. Систематизация данных путем разделения текста на отдельные файлы по буквам алфавита. Создание файла "Содержание" с гиперссылками для обеспечения быстрого доступа к информации.
презентация [278,1 K], добавлен 16.10.2013Типовая структура информационно-вычислительной сети. Функции, процедуры, механизмы и средства защиты ИВС. Технология виртуальных частных сетей. Разработка алгоритмов управления интенсивностью информационного обмена удаленных сегментов распределенной ИВС.
дипломная работа [2,1 M], добавлен 21.12.2012Разработка алгоритмов методом пошаговой детализации. Типы данных и операции в Turbo-Pascal. Организация работы с подпрограммами. Составление алгоритмов и программ задач с использованием конечных сумм. Организация работы с динамическими переменными.
учебное пособие [1,4 M], добавлен 26.03.2014