Аспекты создания интеллектуальной поисковой системы для формирования предметно-ориентированных информационных ресурсов

Обеспечение эффективного сетевого доступа к структурированным предметно-ориентированным информационным ресурсам для различных специалистов. Увеличение роли Internet в обществе. Эффективность работы автоматизированной аналитической информационной системы.

Рубрика Программирование, компьютеры и кибернетика
Вид статья
Язык русский
Дата добавления 25.08.2020
Размер файла 273,4 K

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru/

Аспекты создания интеллектуальной поисковой системы для формирования предметно-ориентированных информационных ресурсов

Аверченков В.И.,

Казаков Ю.М.

Динамичное изменение и увеличение объемов информации, требует ее систематизации и структурирования для эффективного использования в производстве и при выполнении научных исследований. В связи с этим одной из наиболее сложных и актуальных проблем является обеспечение эффективного сетевого доступа к структурированным предметно-ориентированным информационным ресурсам для различных специалистов.

Увеличение объема WEB-ресурсов и роли Internet в информационном обеспечении потребностей общества выдвигает на первый план задачи интеллектуализации поиска и хранения информации. Используемые подходы в современных информационных поисковых системах уже не могут удовлетворить потребность пользователей в получении оперативной пертинентной информации. Возросшие объемы информации приводят к ее значительному "зашумлению". При этом все большее применение находят системы и модули, основанные на принципах искусственного интеллекта. Такие системы обеспечивают повышение эффективности поиска и релевантности найденных WEB- ресурсов (документов).

Первой задачей при решении рассматриваемой проблемы является задача мониторинга информационных ресурсов, призванная обеспечить поиск, сбор и агрегирование информации из нескольких заранее определенных источников, накопление и обработку знаний специалистами при решении ими различного рода аналитических задач. В настоящее время мониторинг и некоторые аспекты системного анализа информации в сети Internet выполняются с использованием систем информационного поиска, к которым относятся каталоги, информационно-поисковые системы (ИПС) и метапоисковые системы [1,2].

Однако ни одно из перечисленных средств не позволяет решить задачи полностью. В каталогах не всегда удается найти разделы, соответствующие требуемой предметной области (особенно для узких областей), и перечень информационных ресурсов в них, как правило, не значителен. В результатах поиска ИПС, как правило, присутствует значительный информационный шум. При этом анализ результата поиска, количество ссылок на документы в котором превышает несколько сотен, в таких системах сопряжен со значительными трудностями. И, как правило, большинство существующих поисковых систем в слабой мере агрегируют результаты поиска. Это является особо актуальной проблемой, так как реальное содержимое сети Internet многократно дублируется. Содержимое страниц может повторяться как частично, так и полностью с незначительными изменениями.

Это определяет необходимость разработки систем нового типа - систем формирования знаний, которые позволяли бы использовать значительно шире потенциал Internet.

Целью выполненных исследований являлась разработка математических моделей, методов и средств автоматизации мониторинга и системного анализа распределенной информации в сети Internet. Для этого была разработана интеллектуальная автоматизированная поисковая система, в основе которой лежит новый подход к индексированию информации, ее классификации, лингвистическому распознаванию текстов и формализации алгоритмов представления информации.

Структура предлагаемой системы состоит из следующих частей: многомерного хранилища данных, базы знаний, модуля мониторинга, модуля индексирования, модуля аналитики, модуля поиска, модуля управления и представления информации.

Эффективность работы автоматизированной аналитической информационной системы в значительной степени определяется составом используемых в ней формализованных знаний. База знаний в системе - это связующее звено между хранилищем данных и модулями системы. В нее включены следующие блоки: метаданные, онтология, лингвистический анализ и когнитивное представление.

Основная составная часть базы знаний системы - блок метаданных. Здесь содержится информация о том, что представляют собой данные хранилища, как они взаимосвязаны, какова структура данных, где хранятся данные, как получить доступ к ним и т.д. Доступ к метаданным имеют все модули системы, обслуживающие и использующие хранилище данных. Создание и поддержка блока метаданных производится администратором системы. Этот блок является основой для всех процессов в хранилище и для обеспечения конечных пользователей доступом к информации в нем.

Следующий блок базы знаний - онтология. Этот блок служит для формализации знаний о рассматриваемой предметной области. Внутренним представлением онтологии является тезаурус.

Онтология позволяет улучшить процесс поиска информации. Она позволяет более эффективно классифицировать документы Internet, относя их к определенным узлам, и обеспечивает значительное сужение диапазона поиска требуемых документов, что положительно сказывается на точности результатов поиска. сетевой аналитический информационный

Блок лингвистического анализа в базе знаний служит для понимания системой содержания текстовых документов и запросов пользователя на естественном языке. Он содержит знания, дающие возможность системе разбивать документы и запросы на отдельные слова и выделять из них словосочетания. Кроме этого, блок решает задачи выделения основ слов (слова без окончаний) и нахождения слов сходных по смыслу - синонимов.

Еще один блок базы знаний - блок когнитивного представления. Он служит для предоставления пользователю найденной с помощью данной автоматизированной системы информации в удобном для просмотра, восприятия и анализа виде и включает набор правил, необходимых для выполнения этих функций.

Обобщенная процедура работы интеллектуальной информационной системы состоит в следующем:

1. Периодически с использованием модуля управления системы запускаются на выполнение модули мониторинга и индексирования. Цель работы данных модулей - найти новые и измененные информационные ресурсы в сети Internet, относящиеся к тематике предметной области, на которую ориентирована система, и скорректировать содержание многомерного хранилища данных(ХД) системы в соответствии с текущим состоянием информационных ресурсов.

2. Параллельно с модулями мониторинга и индексирования и независимо от них в системе функционируют другие два модуля - модуль аналитики и модуль поиска. Задача этих модулей - используя многомерное хранилище данных и базу знаний, отобрать данные, соответствующие запросам пользователей, и произвести их аналитическую обработку. При этом, в ответ на запрос выдаются только те данные, информация о которых уже известна системе к моменту поступления запроса, т.е. эти данные проиндексированы и занесены в многомерное хранилище данных.

Одним из важных процессов в системе является мониторинг информации. Под мониторингом в работе понимается процесс постоянного сбора релевантной системе информации из сети Internet с целью дальнейшего ее исследования методами системного анализа. Для обеспечения качественного мониторинга проблемно-ориентированной информации в сети Internet в разрабатываемой системе реализуется два подхода, сущность которых состоит в следующем. Автоматизированная система периодически последовательно взаимодействует со всеми зарегистрированными в системе внешними по отношению к ней средствами информационного поиска и таким образом отбирает проблемно-ориентированную информацию. Также в системе предусмотрена возможность задания экспертами адресов конкретных информационных ресурсов, соответствующих предметной области, которые также исследуются системой.

Структурно модуль мониторинга представляет собой многофункциональный программный продукт. При этом можно выделить функции, обеспечивающие сканирование WEB-ресурсов Internet и занесение найденной информации в хранилище данных. При запуске модуля эти функции реализуют автоматическое определение операционной системы, формируют многоагентный поиск, используя различные ИПС, а также обеспечивают информационное наполнение ХД и ее администрирование. Настройка на конкретную ИПС выполняется в конфигурационном файле. Обработка файла описания поисковых систем производится на этапе составления запросов к ПС и загрузки ПС. При этом на этапе создания запросов к ПС используется параметр описания каждой из ПС, а на этапе обработки запросов используются регулярные выражения, предназначенные для выявления информации о найденных страницах. Также процедура модуля мониторинга обеспечивает возможность редактирования входного файла запросов. Изменение (добавление информации) данного файла может производиться динамически во время работы модуля. Пользователю доступно редактирование вспомогательных файлов, используемых при работе модуля. Для повышения эффективности получения релевантной информации в модуле формируется в полуавтоматическом режиме "черный " список нежелательных документов и сайтов. Также модуль позволяет отслеживать и некоторые статистические данные, необходимые для определения, как текущего рабочего состояния модуля, так и для получения информации об эффективности заданных параметров.

Оперативное управление отобранными в результате сканирования по поисковым запросам и скаченными в ХД документами осуществляется с использованием модуля предварительного администрирования WEB-ресурсов. Модуль включает ряд процедур - это просмотр всего содержимого ХД, удаление, корректировка, пометка на удаление, занесение в черный список документов и сайтов, поиск документов по различным критериям, локальное занесение документа в ХД, статистические данные по типам документов.

Для просмотра ХД разработаны процедуры динамического иерархического формирования каталога документов. Каталог документов представляет собой четырехуровневый индексированный список. На каждом уровне предусматривается введение поискового запроса для документа - по типу поисковой системы, по релевантности, тематическому блоку, поисковой фразе, расширению, дате, размеру, заголовку документа. Для просмотра ХД могут быть использованы от одного до четырех уровней. Это дает возможность расширять либо сужать объем рассматриваемых документов (рис.1). Индексированный список представлен в виде дерева, что обеспечивает возможность перемещаться по различным отсортированным рубрикам. Окно просмотра представляет собой перечень названий документов с рядом дополнительных параметров - пометкой уже просмотренных документов, пометкой документов на удаление, пиктограммами для просмотра документа из Internet, занесением сайта в черный список и т.д. Процедуры динамического формирования каталога позволяют оперативно добавлять и менять поисковые запросы для каждого уровня.

Просмотр информации, содержащейся в документе может осуществляться непосредственно для документа, занесенного в ХД, а также при закачивания его из Internet.

В модуле предусмотрены процедуры формирования статистической информации по характеристикам документов. Так, динамически формируется диаграмма по количеству документов с различным расширением, временем создания, объемом и т.д.

Рисунок 1 - Копия экрана интерфейса модуля администрирования

Таким образом, модули мониторинга и администрирования WEB-ресурсов реализует алгоритмы, осуществляющие формирование запросов внешним средствам поиска, автоматический анализ списка результатов внешних средств поиска, проход по ссылкам Web-страниц, проход по структуре каталогов, проверку соответствия найденных документов тематике предметной области, а также предварительное заполнение семантической сети системы по предметной области, поиск и редактирование документов.

Модуль мониторинга реализован с использованием мультиагентных технологий. В этом случае каждый из агентов ищет информацию в Internet только по своей предметной области. Это позволяет настроить систему для поиска информации одновременно по нескольким предметным областям.

Еще одним важным процессом представляемой системы является процесс индексирования информации.

Цель процесса индексирования - приписать документу некоторое множество идентификаторов (понятий, терминов, ключевых слов), отражающих содержание документа, т.е. составить ему так называемый поисковый образ документа (ПОД). На вход модуля индексирования поступают документы, отобранные средством информационного поиска из внешней среды при помощи модуля мониторинга. На выходе метода индексирования получаются ПОД, которые необходимы средству поиска для выбора соответствующих запросу пользователя документов.

Процесс индексирования состоит из операций: отбора индексационных терминов, используемых для описания содержания документа, и приписывания этим терминам некоторого веса, отражающего предполагаемую значимость. При выполнении индексирования выбираются слова, встречающиеся в каждом документе, и делаются статистические подсчеты, в основе которых находится частота и место появления данного слова в документе. Далее отбрасываются общеупотребительные слова, имеющие высокую частоту, а оставшимся словам приписываются веса в соответствии с ранее проведенными статистическими подсчетами. На заключительном этапе документ помещается в многомерное хранилище данных, а его ПОД - в блок метаданных базы знаний.

Вычисление веса слова в документе осуществляется по формуле [2]:

, (1)

где nt - количество вхождений слова t в документ Dm; l - количество синонимов слова t, используемых в документе Dm; nj - количество вхождений синонима j слова t в документ Dm; kit (kij) - коэффициент, определяющий значимость слова t (j), находящегося в документе Dm на позиции i.

Кластеризация документов применяется для более эффективного хранения и выбора документов из коллекции. Она порождает однородные группы документов, которые более тесно связаны друг с другом, чем с документами из других групп.

Значения близости (связей) между документами в коллекции несут информацию об их совокупной важности, релевантности по отношению к запросам коллекции. Это означает, что если некий документ отвечает поступившему в коллекцию запросу, то (в пространстве документов коллекции) в непосредственной близости от него могут быть найдены документы, в большей степени отвечающие документу запроса.

Важным при кластеризации является выбор меры близости объектов, от которого решающим образом зависит окончательный вариант разбиения объектов на группы при заданном алгоритме разбиения.

В основе процесса классификации информации лежит построение и использование онтологии определенной предметной области. Начальный этап формирования онтологии осуществляется экспертом с использованием модуля управления системы (рис.2). На этом этапе формируются основные узлы сети и им сопоставляются понятия предметной области. Затем осуществляется сопоставление узлам сети конкретных документов из заданной предметной области.

Рисунок 2 - Копия экрана интерфейса формирования узлов онтологии

При построении онтологии предметной области в первую очередь необходимо сформировать список терминов, на основе которого будет создана модель системы. Предварительно формируется полный список терминов без оценки пересечения понятий, которые они представляют, и отношений между терминами. После составления глоссария разрабатывается иерархия понятий (классов), и определяются свойства понятий (слотов).

Использование созданной онтологии, классифицирующей документы конкретной предметной области, конечными пользователями осуществляется через модуль аналитики. С применением данного модуля пользователь формулирует запрос, откликом системы на который являются фрагменты построенной онтологии. Эти фрагменты можно рассматривать в качестве информационной модели изучаемой пользователем темы. Система позволяет осуществлять навигацию по выданным фрагментам сети и просматривать документы, которые им соответствуют.

В результате применения многоагентной архитектуры получена гибкая, легко модифицируемая система, в которой при условии сохранения коммуникационного стандарта между агентами любой отдельный узел (агент) можно заменить, не переделывая и не останавливая при этом всю программу и не меняя архитектуру в целом.. Разработанная система, легко расширяемая, в нее можно добавить еще одного агента, настроенного на другую ИПС.

Представленная система универсальна в том смысле, что подходы, используемые в ней, не зависят от конкретной предметной области. Система может быть настроена на работу с информацией из широкого спектра различных предметных областей.

Разработанная интеллектуальная информационная система значительно облегчает процессы индексирования и поиска самых разнообразных электронных информационных ресурсов и позволяет повысить эффективность работы специалистов.

Возможности новой системы позволяют сэкономить пользователям не только время, но и материальные затраты за счет полной автоматизации процесса сбора информации и сокращения числа исполнителей.

В итоге система предоставляет следующие функциональные возможности [2]:

– собирать определенную (интересующую с точки зрения анализа) информацию из Internet;

– накапливать ее в едином хранилище данных;

– работать с информацией хранилища посредством интерфейса пользователя;

– сохранять полученные в программе отчеты на запросы пользователя.

Реализация предложенного в данной работе подхода позволила разработать эффективный метод доступа к проблемно-ориентированной информации и ее выбора из больших распределенных неструктурированных массивов информации, представляемой в сети Internet.

Литература

1. Аверченков, В.И. Информационный поиск в сети Интернет [Текст]: учеб. пособие / В.И. Аверченков, В.В. Мирошников, С.М. Рощин. - Брянск: БГТУ, 2001. - 204 с.

2. Аверченков, В.И. Мониторинг и системный анализ информации в сети Интернет [Текст] / В.И. Аверченков, С.М. Рощин. - Брянск: БГТУ, 2006. - 160 с.

3. Аверченков, В.И. Аспекты мониторинга и системного анализа предметно ориентированный web-информации [Текст] / В.И. Аверченков, Ю.М. Казаков // Материалы Первой международной научно-технической конференции "Интеллектуальные системы в промышленности и науке".- Суммы.-СГУ, 2007, с. 138-139.

Размещено на Allbest.ru

...

Подобные документы

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.