Система поиска документов на основе семантического анализа запроса пользователя и нейросетей

Создание новых средств извлечения знаний из сети, использующих результаты, полученные в области искусственного интеллекта, компьютерной лингвистики, Интернет-технологий. Изучение проблемы формализации естественных языков. Компьютерное толкование смысла.

Рубрика Программирование, компьютеры и кибернетика
Вид статья
Язык русский
Дата добавления 22.01.2018
Размер файла 146,7 K

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru/

Система поиска документов на основе семантического анализа запроса пользователя и нейросетей

к.т.н., доцент А.А. Мальков,

Михайлов Ю.С.

Сеть Интернет содержит огромное количество информации в виде текстов на естественном языке, в том числе научных. Пользователю приходится тратить огромное количество времени и усилий на поиск необходимой информации по запросу на естественном языке, поскольку при поиске должна быть учтена и семантика запроса.

В связи с этим, важной задачей является создание новых средств извлечения знаний из Сети, использующих результаты, полученные в области искусственного интеллекта, компьютерной лингвистики, Интернет-технологий. Такой подход позволит использовать знания эксперта и дополнить их машинной обработкой.

Одной из главных проблем связанных с поиском текстов по запросу на естественных языках, является их неформальность. Среди наиболее известных работ, посвящённых формальному описанию языков, можно выделить работы [1], [2]. Эти работы изначально предназначались для изучения проблемы формализации естественных языков и ориентированы на русскоязычные тексты.

Одним из подходов к формализации языка может быть компьютерное толкование смысла слова на некотором формальном семантическом языке. Основной целью здесь будет моделирование значений слов, предложений, текста. При этом представление знаний на таком формальном языке должно содержать их толкования, на основе которых можно адекватно описать все интуитивно ощущаемые семантические связи между различными словами, предложениями, текстами [2].

Исходя из основных целей компьютерной семантики, можно сделать вывод, что для разработки спецификации "формального" языка на основе русского языка является возможным построение онтологии предметной области запроса. Подсистема семантического анализа запроса должна:

· Выделять формальные концепты - базовые понятия предметной области.

· Выполнять построение связей между концептами - определение соотношений и взаимодействий базовых понятий.

· Обеспечивать трансляцию русскоязычных слов с естественного языка на семантический и в обратном направлении.

· Хранить концепты и связи между ними в специализированных словарях.

Для решения поставленной задачи предлагается следующая система семантического анализа русскоязычного текста, схематично она представлена на рис.1.

На вход подается предложение (запрос) на естественном языке. На первом этапе обработки в предложении система позволяет выделить семантические единицы из запроса пользователя, т.е. запрос представляется как вектор "терминов", т.е. базовых слов с использованием модуля выделения концептов, которые сопоставляются со словоформами в словаре.

Размещено на http://www.allbest.ru/

На их основе при помощи алгоритмов Text Mining [3] строятся кластеры структурных единиц запроса. Эти кластеры будут определять рабочие словари для поиска документов.

Таким образом, каждый документ может быть представлен как вектор, состоящий из набора семантических единиц запроса пользователя[4], каждой из которых приписывается вес в соответствие с семантикой запроса, т.е. определяется главенствующий фактор в запросе и второстепенные. Однако может оказаться, что большая часть терминов содержится в небольшом количестве документов, и очень мало терминов содержится в большом количестве документов. Кроме того, между терминами может существовать семантическая связь, но если термин более широкий термин, чем , то мера близости между терминами будет мала. В результате связь между терминами не будет обнаружена, причем наиболее частые термины будут образовывать отдельные кластеры.

Для найденных базовых слов системой семантического анализа определяется смысловая связь с использованием специального семантического языка. В частности предусмотрен модуль выделения концептов. Система выявляет семантические связи с использованием определенного словаря. Таким образом, могут быть определены семантические кластеры документов, например, при помощи алгоритма самоорганизации [4] и определена степень принадлежности каждого документа семантическим кластерам.

Для обработки и интерпретации результатов поиска большое значение имеет обратная связь с пользователем, которая позволит непосредственно задействовать его знания для, например, корректировки запроса, что намного быстрее приведет к поставленной цели.

Модуль анализа текста выполняет завершающий этап анализа. На данном этапе выполняется расшифровка семантических связей между словами (базовыми концептами) и пользователю выдается результат анализа предложения.

Существующие системы поиска информации имеют ряд значительных недостатков. Во-первых, при поиске возможно получение нерелевантной информации, включающей в себя точные термины с различными смысловыми значениями, что может привести к потере значимой информации. Во-вторых, для нахождения "точной" значимой информации в информационном источнике требуется просмотр и чтение этого источника специалистом, поскольку поисковая система сама по себе не может извлечь такую информацию из текстового представления. В третьих, возникают сложности из-за отсутствия структурированности текстовых источников информации и быстрого их разрастания.

Одним из вариантов решения указанных проблем может быть построение онтологии предметной области, по которой организуется поиск. Одной из особенностей применения онтологий в системах извлечения знаний из текста является необходимость иметь дополнительную лингвистическую составляющую как для распознавания различных способов обозначения понятий (синонимичные термины), так и для семантической интерпретации разнообразных языковых конструкций в отношения между этими понятиями (синонимичные лексико-грамматические конструкции).

На этом этапе, возможно построение онтологии, которая будет представлять предметную область в виде дерева, вершинами которого будут термины, а дуги будут определять отношения между вершинами (объектами). Можно предложить алгоритм формирования онтологии с участием эксперта [3,5,6].

1. Формирование экспертом запроса и работа с рабочими словарями.

2. Семантический анализ запроса специалиста.

3. Формирование концептуальной схемы онтологии на основании профессиональных знаний эксперта в предметной.

а) отбор базовых понятий-концептов - формирование кластеров терминов, включенных в запрос;

б) классификация базовых понятий с формированием абстрактных понятий - имен классов, которые являются "центрами" семантических кластеров. Здесь должны быть построены словари для работы с объектами предметной области. Т.е. должны быть определены тип объектов, их характеристики;

в) определение возможных отношений понятий.

Рис.2. Пример словаря концептов

4. Фактическое наполнение онтологии - соотнесение всех терминов предметной области с понятиями в концептуальной схеме:

а) расширяется словарь понятий за счет наращивания онтологии, если онтология предполагает родовидовые связи (общее->частное, часть->целое) между понятиями одного класса;

Рис.3. Пример становления связей между концептами

б) для каждого понятия словарь дополняется значениями терминов.

5. Формирование лингвистической составляющей:

а) фиксируются синонимичные обозначения каждого термина;

б) описываются способы выражения отношений из онтологии в языке - типовые лексико-грамматические конструкции, для чего используется соответствующий лингвистическому анализатору формализм, например [7].

Очевидно, что построение онтологии позволит осуществлять следующие поиски гораздо быстрее и качественнее, на ее основе возможно построение системы управления знаниями, полученными из текстовой информации.

Рассмотренная система семантического анализа текста может применяться для определения тематики документа, для извлечения смысла из текстовых документов, при модификации и пополнении баз знаний, в экспертных системах, для автоматического аннотирования и реферирования, для более полного сохранения смысла в системах перевода текста, для выявления смысла запроса в поисковых системах, а также во многих других областях. сеть компьютерный лингвистика

В перспективе рассматриваются задачи обратного перевода с формального семантического языка на русский и снижения временных затрат на поиск, развития алгоритмов кластеризации текстов, построения рабочих словарей, онтологий, обучении системы, создании адаптаций.

Список литературы

1. Мельчук И.А. Опыт теории лингвистических моделей "смысл текст": семантика, синтаксис. М.: Наука, 1974. 314 c.

2. В.А. Тузов. Компьютерная семантика русского языка. - СПб.: Изд-во СпбГУ, 2003. 391 с.

3. Feldman D., Hirsh M., Mining Associations in Text in the Presence of Background Knowledge.- Proc. of the 2nd International Conference on Knowledge Discovery (KDD-96), Portland, 1996.

4. Виноградов Г.П., Мальков А.А. Построение семантического хранилища документов по запросу пользователя на основе применения нейросетей. Сборник трудов XIII Всероссийской научно-технической конференции "Нейроинформатика-2011", ч.2. М.:НИЯУ МИФИ, 2010.- С.48-50.

5. Виноградов Г.П., Мальков А.А., Григорьев В.А. Модели группировки объектов на основе самоорганизующихся сетей, использующих механизмы конкуренции и кооперации. Сборник трудов Международной научно-технической конференции AIS'08, CAD-2008, "Интеллектуальные системы", "Интеллектуальные САПР", т.2, М.: Физматлит., с.379-387.

6. Гаврилова Т.А. Использование онтологий в системах управления знаниями // Труды международного конгресса "Искусственный интеллект в XXI веке", Дивноморское, Россия, М., Физматлит. 2001 - c. 21-33.

7. Киселев С.Л., Ермаков А.Е., Плешко В.В. Поиск фактов в тексте естественного языка на основе сетевых описаний // Компьютерная лингвистика и интеллектуальные технологии: труды Международной конференции Диалог'2004. - Москва, Наука, 2004. - C. 282-285.

Размещено на Allbest.ru

...

Подобные документы

  • Понятие искусственного интеллекта как свойства автоматических систем брать на себя отдельные функции интеллекта человека. Экспертные системы в области медицины. Различные подходы к построению систем искусственного интеллекта. Создание нейронных сетей.

    презентация [3,0 M], добавлен 28.05.2015

  • Исследование возможностей всемирной компьютерной сети Интернет и используемых в ней технологий. Приемы эффективного поиска информации по теме "Учет амортизации основных средств" в сетевых ресурсах. Основы языка HTML и методы создания Web-документов.

    курсовая работа [42,6 K], добавлен 09.11.2010

  • Сущность и проблемы определения искусственного интеллекта, его основных задач и функций. Философские проблемы создания искусственного интеллекта и обеспечения безопасности человека при работе с роботом. Выбор пути создания искусственного интеллекта.

    контрольная работа [27,9 K], добавлен 07.12.2009

  • История развития, принцип действия новых технологий в глобальной компьютерной сети Интернет: ADSL, IP-телефонии; их основные преимущества. Характеристика Российского интернета, перспективы его развития. Анализ динамики активности интернет-пользователей.

    реферат [876,9 K], добавлен 04.01.2012

  • Теоретические основы Интернет-технологий и основных служб сети Интернет. Ознакомление с возможностями подключения к сети Интернет. Основные службы сети. Принципы поиска информации в WWW. Обзор современных Интернет браузеров. Программы для общения в сети.

    курсовая работа [385,2 K], добавлен 18.06.2010

  • Области человеческой деятельности, в которых может применяться искусственный интеллект. Решение проблем искусственного интеллекта в компьютерных науках с применением проектирования баз знаний и экспертных систем. Автоматическое доказательство теорем.

    курсовая работа [41,3 K], добавлен 29.08.2013

  • Предпосылки создания сети Интернет. Характеристика наиболее распространенных протоколов: TCP/IP, HTTP, POP3. История создания системы извлечения информации Gopher. Разработка языков разметки HTML, XML, PHP/FI и XHTML, их версии и сферы применения.

    курсовая работа [596,5 K], добавлен 02.04.2013

  • Начало современного этапа развития систем искусственного интеллекта. Особенности взаимодействия с компьютером. Цель когнитивного моделирования. Перспективы основных направлений современного развития нейрокомпьютерных технологий, моделирование интеллекта.

    реферат [24,7 K], добавлен 05.01.2010

  • Характеристика методов поиска информации в Интернете, а именно - с использованием гипертекстовых ссылок, поисковых машин и специальных средств. Анализ новых интернет ресурсов. История возникновения и описание западных и русскоязычных поисковых систем.

    реферат [17,2 K], добавлен 12.05.2010

  • Общая характеристика дисциплины "Основы искусственного интеллекта". Ее предмет, цели и задачи. Особенности и расшифровка ряда понятийных терминов, характеризующих сущность кибернетики. Методы и алгоритмы анализа данных для получения знаний и обучения.

    презентация [10,9 K], добавлен 03.01.2014

  • Программные системы искусственного интеллекта, экспертные системы как их разновидность. Автоматизированное формирование баз знаний в формате CLIPS на основе анализа баз данных СУБД Cache. Программные средства и технологии. Описание программной системы.

    дипломная работа [5,1 M], добавлен 25.05.2012

  • Создание и развитие университетской информационной системы как тематической электронной библиотеки и базы для исследований и учебных курсов. Общее описание системы. Пользовательский графический интерфейс. Программное обеспечение, руководство пользователя.

    дипломная работа [1,0 M], добавлен 24.01.2016

  • Обоснование выбора метода извлечения ключевых слов. Анализ предметной области, проектирование информационной системы поиска релевантных документов. Реализация запросов к электронным библиотекам. Реализация интерфейса системы поиска релевантных документов.

    дипломная работа [1,1 M], добавлен 21.09.2016

  • Понятие искусственного интеллекта в робототехнике и мехатронике. Структура и функции интеллектуальной системы управления. Классификация и типы знаний, представление их с помощью логики предикатов. Суть семантических сетей, фреймовое представление знаний.

    курс лекций [1,1 M], добавлен 14.01.2011

  • Методы представления знаний заданной предметной области. Создание онтологии бортовых информационно управляющих систем автомобиля. Создание среды разработки и приложения для поиска в интернете с использованием онтологии. Проверка эффективности приложения.

    презентация [1,6 M], добавлен 25.12.2014

  • Понятие искусственного интеллекта и интеллектуальной системы. Этапы развития интеллектуальных систем. Модели представления знаний, процедурный (алгоритмический) и декларативный способы их формализации. Построение концептуальной модели предметной области.

    презентация [80,5 K], добавлен 29.10.2013

  • Инструментальные средства проектирования интеллектуальных систем. Анализ традиционных языков программирования и представления знаний. Использование интегрированной инструментальной среды G2 для создания интеллектуальных систем реального времени.

    контрольная работа [548,3 K], добавлен 18.05.2019

  • История создания и основные направления в моделировании искусственного интеллекта. Проблемы обучения зрительному восприятию и распознаванию. Разработка элементов интеллекта роботов. Исследования в области нейронных сетей. Принцип обратной связи Винера.

    реферат [45,1 K], добавлен 20.11.2009

  • Эволюция систем искусственного интеллекта. Направления развития систем искусственного интеллекта. Представление знаний - основная проблема систем искусственного интеллекта. Что такое функция принадлежности и где она используется?

    реферат [49,0 K], добавлен 19.05.2006

  • Понятие, сущность и история создания искусственного интеллекта. Области его практического приложения в человеческой деятельности. Использование его для создания роботизированной техники. Задача создания первой разумной системы на основе сети Интернет.

    презентация [622,3 K], добавлен 01.12.2014

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.