Разработка автоматизированной системы мониторинга и анализа распределенной информации в сети Интернет на основе мультиагентной стратегии

Анализ работы алгоритмов наиболее распространенных поисковых систем. Разработка автоматизированных систем нового типа, позволяющих проводить проблемно-ориентированный поиск и анализ информации в Интернет и предоставлять пользователю нужные документы.

Рубрика Программирование, компьютеры и кибернетика
Вид статья
Язык русский
Дата добавления 15.08.2020
Размер файла 442,2 K

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru/

Разработка автоматизированной системы мониторинга и анализа распределенной информации в сети Интернет на основе мультиагентной стратегии

Аверченков А.В.,

Леонов Е.А.,

Кравцов Д.В.

В настоящее время основным источником информации, наряду с традиционными (справочники, базы данных, нормативные документы и др.), становится интернет. Информация в интернет по большинству направлений характерна избыточностью, повторяемостью, высокой степенью зашумленности и низкой пертинентностью. Поиск необходимой и релевантной в изучаемой области информации зачастую требует существенных временных затрат. Динамическое изменение и увеличение объемов информации требует систематизации и структурирования. В связи с этим возникает необходимость осуществления в интернет быстрого поиска, мониторинга и анализа информационных ресурсов, для того, чтобы осуществить накопление и обработку знаний специалистами при решении ими различного рода задач.

В настоящее время поставленные задачи решаются путем применения систем информационного поиска. Анализ работы алгоритмов наиболее распространенных поисковых систем показывает, что ни на одном из этапов их работы, процесса индексирования содержимого Интернет и анализа пользовательского запроса, не производится определение тематики страницы, исходя из ее информационного наполнения. Также не производится кластеризация ее содержимого на тематические блоки и направления, либо кластеризация производится иерархически и с небольшой глубиной. алгоритм поисковый автоматизированный

Для решения поставленных проблем требуется разрабатывать автоматизированные системы нового типа, позволяющие проводить проблемно-ориентированный поиск и анализ информации в Интернет и предоставлять пользователю документы, релевантные не только к поисковому запросу, но и к выбранному тематическому направлению. В Брянском государственном техническом университете разработана отраслевая система доступа к информационным ресурсам научного и образовательного назначения по приоритетным направлениям развития науки и техники в области искусственного интеллекта и CALS-технологий на основе мультиагентной стратегии (рис. 1). Схема отображает общую структуру агентов, групп агентов, и их взаимодействий.

Агент поисковых запросов (группа агентов сбора информации) предназначен для составления поисковых запросов на языке внешних поисковых систем. Входными данными являются тезаурус предметной области, поисковая схема и описание языка запросов поисковых систем.

Тезаурус предметной области - это набор терминов, специфичных для рассматриваемой области, то есть те термины, которые с высокой вероятностью могут встретиться в тексте, относящемся к указанной предметной области, и редко встречающиеся в текстах, не относящихся к рассматриваемой предметной области. В качестве предметных областей были выбраны "Искусственный интеллект" и "CALS-технологии". Эти области с помощью тезауруса разбиты на тематические блоки. Для каждого термина в тезаурусе указан тематический блок, с которым можно соотнести термин. В тезаурусе также содержится информация о сочетаемости терминов и их синонимических связях.

Поисковая схема представляет собой набор поисковых запросов, написанных на универсальном языке. Для запросов, так же, как и для терминов тезауруса, определяется тематический блок, к которому они относятся.

Рисунок 1 - Мультиагентная стратегия системы мониторинга и анализа информации

Запросы составляются экспертом предметной области на основе тезауруса. Каждый из запросов должен обязательно содержать ссылки только на специфические термины тезауруса, причем из того же тематического блока. Использование терминов не из тезауруса допускается только в случае, если эти термины указаны как отрицания, то есть не должны содержаться в тексте найденного документа. В случае, если необходимо использовать новый термин в поисковом запросе, эксперт предварительно обязан добавить данный термин в тезаурус и только после этого включать его в запрос. Для составления поисковых запросов разработан интерфейс в рамках администраторского портала.

Описание языка запросов поисковых систем - это набор правил, позволяющих интерпретировать запросы на универсальном языке из поисковой схемы в набор уникальных запросов к конкретным поисковым системам. Оно содержит перечисления операций, понимаемых внешней поисковой системой, с указанием следующих параметров: идентификатор соответствующей операции на универсальном языке; символ операции, применяемый во внешней поисковой системе; приоритет - выражение, состоящее из метасимволов и являющееся маской для определения синтаксической конструкции операции.

Выходными данными агента поисковых запросов является набор уникальных запросов к каждой из описанных ПС. Запросы составляются с учетом уникальных особенностей синтаксиса внешних поисковых систем.

Агент сбора информации от внешних поисковых систем (группа агентов сбора информации) отсылает запросы к внешним поисковым системам (google, rambler, aport и др.), получает страницы с результатами поиска, разбирает полученные страницы с целью выявления интернет-адресов найденных документов и дополнительной метаинформации. Характер и объем получаемой метаинформации зависит от возможностей внешней поисковой системы. Большинство из них предоставляет информацию о размере документа и дату его последнего изменения (если это возможно установить).

Входными данными агента являются набор запросов к внешним поисковым системам, описание правил разбора страниц, полученных от внешних поисковых систем, представляющее набор регулярных выражений, рекурсивно применяемых к исходному тексту, уточняющих область текста, в которой описаны найденные документы. Регулярные выражения, применяемые на последнем этапе разбора, должны выявлять метаинформацию о каждом найденном документе и ссылку на следующую страницу с результатами поиска.

Выходными данными агента является информация о найденных документах с сопровождающей их метаинформацией. В описании документа находится URL найденного документа и опционально следующая информация: заголовок документа, цитата документа, в контексте которой были найдены искомые термины, размер, дата. Также в описании документа содержится информация о параметрах поиска, при которых был найден документ.

Агент прямого поиска документов (группа агентов сбора информации) предназначен для работы с доверенными источниками.

Входными данными являются набор адресов доверенных источников, параметры поиска связанных документов, т.е. глубина рекурсивного просмотра и критерии перехода по ссылкам. Выходные данные соответствуют данным агента сбора информации от внешней поисковой системы за исключением того, что в качестве поискового выражения указывается доверенный источник, а порядковый номер характеризует глубину рекурсивного вызова.

Агент загрузки документов в локальное хранилище данных (группа агентов сбора информации) предназначен для создания зеркальной копии найденного документа в локальном хранилище данных. Полная копия документа необходима для последующего индексирования текста и экономии трафика локальных пользователей.

Входными данными являются URL документов, подлежащих копированию, параметры загрузки (количество совершаемых попыток, максимальное время ожидания ответа сервера, адрес, по которому будет располагаться копия документа и др.), выражения по которым документы заносятся в черный список. Выходными данными являются полные копии найденных документов. По адресу назначения создается каталог, название которого совпадает с полным доменным именем документа. Внутри каталога создается полная копия структуры каталогов и файлов, упоминаемых в адресе и самом документе. Для динамических документов (php, pl, asp) имена файлов содержат передаваемые при запросе параметры. Таким образом решается проблема многовариантного представления одного и того же динамического документа.

Агент работы с черным списком (группа агентов сбора информации) предназначен для осуществления взаимодействия с черным списком (ЧС) и агентами, использующими информацию из ЧС. В его функции входит отсылка адресов документов, подходящих под выражения ЧС, передача списка выражений ЧС, проверка документа на принадлежность ЧС, занесение документа в ЧС, занесение доменного имени в ЧС, операции отмены занесения в ЧС. С данным агентом взаимодействуют агенты загрузки документов в локальное хранилище данных и фильтрации не пертинентных документов.

Входными данными являются черный список и команды управления ЧС с необходимыми параметрами. Выходные данные для каждой команды различаются. В случае, если команда является запросом на выборку, то результатом являются запрашиваемые данные, если команда является управляющей операцией, то выходными данными является подтверждение успешного выполнения операции или же код ошибки.

Агент фильтрации не пертинентных документов (группа агентов сбора информации) имеет различные режимы работы, в зависимости от которых он выполняет действия над различными сущностями. Основным назначением данного агента является просмотр информации, содержащейся в хранилище документов, и отсев не пертинентных документов. Проверка содержимого хранилища выполняется в несколько стадий по мере поступления дополнительной информации о документе. После того как документ найден, производится проверка на совпадения адреса документа с выражениями ЧС и отсев документов в соответствии с ними. Оставшиеся адреса проверяются на доступность для загрузки. После того как создана локальная копия документа, агент фильтрации производит упрощенный анализ содержимого документа и в соответствии с разработанным набором правил делает вывод о заведомой не пертинентности документов, помещая их в ЧС. Данная проверка осуществляется для различных форматов документов на различных стадиях их обработки. Для документов, форматированных с помощью языков текстовой разметки, проверка может осуществляться сразу после загрузки документа. Для документов с более сложной структурой и форматом - только после обработки их агентом перекодирования форматов документов. Завершающим этапом работы данного агента является просмотр индексов документов, по результатом которого также делается вывод о том, что те или иные документы с высокой вероятностью не пертинентны.

Входными данными являются результаты запросов к агенту управления ЧС, информация о документах из хранилища документов, набор правил для оценки пертинентности. Выходными данными являются управляющие команды, отсылаемые агенту управления ЧС на добавления тех или иных документов в ЧС.

Агенты перекодирования форматов документов (группа агентов индексирования) представляют собой группу агентов, назначением которых является перекодирование конкретного исходного формата документа в специально разработанный формат на основе XML. Набор агентов этой группы может расширяться по мере широкого распространения новых форматов хранения документов в сети Интернет. Причем увеличение количества агентов перекодирования форматов не потребует какого-либо изменения других агентов. Статистические исследования процесса работы системы показали, что основными форматами являются: HTML и его расширения, XML, документ Microsoft Word, PDF.

Входными данными являются информация о документе и его содержимое. Выходными данными является XML документ, содержащий теги, ограничивающие блоки с различными уровнями значимости. Основные типами блока являются: название документа, заголовки различных уровней, акцентированный текст, основной текст.

Агент первичного индексирования (группа агентов индексирования) разбирает XML интерпретацию, составленную агентами перекодирования форматов документов, на отдельные слова, собирает по ним информацию и сохраняет ее в первичном индексе документов. Первичный индекс документов содержит информацию о содержимом документов, а также статистику, собранную на основе их содержимого. Такой подход позволяет полностью отделить методику оценки качества документа, смысловой значимости элементов документа и других показателей, не однозначных с точки зрения эффективности их применения. Также разбиение индекса документов на первичный и конечный позволяет использовать различные методики формирования оценки и анализа содержания документа.

Входными данными является XML интерпретации документов. Выходными данными является первичный индекс документов, содержит позицию слова в документе, позицию слова в абзаце, позицию слова в предложении, номер абзаца и номер предложения, в которых встретилось слово, часть речи, начальная форма слова (лемма), род, число, падеж и другие граммемы, тип блока (заголовок, акцентирование).

Агенты конечного индекса (группа агентов индексирования) осуществляют анализ первичного индекса и определяют значимость отдельных элементов (слов) документа для документа в целом. Они также агрегируют информацию, содержащуюся в первичном индексе, для ускорения дальнейшего поиска. Так как методика оценки значимости слова в документе может быть различной и эффективность того или иного метода определяется в конечном счете по эффективности поиска и адекватности вычисления релевантности на основе выводов, сделанных при построении конечного индекса, то возможны реализации ряда конкурирующих агентов данного типа с уникальными индексными базами. Входными данными является первичный индекс, а выходными - конечный индекс документов.

Агент оценки качества документов и релевантности относительно заданной тематики (группа агентов индексирования) осуществляет оценку качества изложения информации в документе по косвенным статистическим показателям, таким, как объем документа, частота и количество появления в тексте документа специфических терминов из предметной области, соотношение объема когнитивной и текстовой информации в документе, наличие источников информации. Также данный агент определяет релевантность документа относительно заданной предметной области исходя из анализа конечного индекса документов. На основании этих оценок каждому документу в хранилище назначается ранг, который впоследствии может использоваться для определения приоритета между документами с совпадающим или близким значением релевантности относительно поискового запроса. Входными данными являются информация в хранилище документов, первичный индекс, тезаурус предметной области, конечный индекс, набор весов для каждого из параметров. Выходными данными является оценка ранга документа.

Агент внутреннего поиска производит поиск документов по запросу, переданному на универсальном языке. Для найденных документов определяется релевантность относительно запроса. Также данный агент поддерживает сортировки результатов и фильтрации в соответствии с переданными параметрами. Входными данными являются конечный индекс, поисковый запрос, параметры вывода результатов поиска. Выходными данными является список найденных документов.

Агент интерпретации поисковых запросов предназначен для интерпретации запроса пользователя на естественном языке во внутренний универсальный язык запросов. Входными данными является запрос пользователя на естественном языке, а выходными - поисковый запрос на универсальном внутреннем языке в формате агента поиска.

Агент классификации документов классифицирует документы, содержащиеся в хранилище документов по пользовательским и экспертным онтологиям. Агент ассоциирует для каждого узла онтологии набор релевантных документов. Агент классификации периодически отслеживает изменение онтологий и пополнение хранилища документов и при изменении ассоциирует их между собой.

Входными данными являются онтологии экспертов - формализованная онтология предметной области составленная экспертами, пользовательские онтологии, конечный индекс документов. Выходными данными являются связи между документами, находящимися в хранилище документов, и узлами онтологий, созданных в системе.

Агент координации является управляющим агентом проекта и координирует действия между другими агентами, имеющимися в системе, а также производит прямые действия по управлению над ними. В этом агенте реализованы функции запуска, приостановки, остановки модулей, а также возможность получения различной служебной информации, такой, как состояние агентов, параметры запуска и др.

Входными параметрами являются управляющие команды, исходящие от агента пользовательского интерфейса. Выходным параметром является информация об успешности или неуспешности совершения той или иной операции по управлению агентом. В случае неудачи исполнения команды - ошибка, полученная при совершении операции. Также в случае запроса на предоставление информации по текущему состоянию, динамике работы и журнала работы агент возвращает запрошенную информацию.

Агент аналитики собирает и агрегирует статистическую информацию о документах, находящихся в хранилище данных. Входными данными являются конечный индекс документов, метаинформация о документах, содержащихся в хранилище данных, аналитический запрос и его параметры. Выходными данными является запрашиваемая статистика. Агенты интерфейса эксперта, администратора и конечного пользователя являются связующим звеном между человеком и разрабатываемой системой и предоставляют развитый интерфейс для взаимодействия, настройки и использования.

Способ взаимодействия между агентами зависит от тех данных, над которыми работает агент, а также от назначения агента. В случае, если основными входными данными агента являются пересылаемые команды управления, то такой агент обычно используется другими агентами напрямую, либо получает данные через протокол HTTP командой GET. В случае, если необходимо передать значительное количество информации, то при передаче используется XML. Ответ таких агентов обычно также осуществляется через протокол HTTP. Большинство агентов взаимодействует через общие данные в БД, из которой выбираются входные данные и сохраняются результаты работы агента. Информация о механизме взаимодействия между агентами получается ими при регистрации в агенте координации. Также через данный агент осуществляется управление агентами и передача параметров.

Разработанная система универсальна в том смысле, что подходы, использованные в ней, не зависят от конкретной предметной области. Система может быть настроена на работу с информацией из широкого спектра различных предметных областей. В качестве информационной основы системы используется разработанная онтология основных понятий предметной области, представленной в виде семантической сети. Для создания и использования онтологии выделяются понятия каждой категории с определением организации связей между ними и списка терминов, которые могут применяться пользователем, при обращении к ней.

Литература

1. Аверченков, В.И. Организационная защита информации [Текст]: учеб. пособие для вузов / В.И. Аверченков, М.Ю. Рытов. - Брянск: Изд-во БГТУ, 2005. - 184 с.

2. Аверченков, В.И. САПР технологических процессов, приспособлений и режущих инструментов [Текст]: учеб. пособие для вузов / В.И. Аверченков, И.А. Каштальян, А.П. Пархутик. - Минск: Вышэйш. шк., 1993. - 288 с

3. Хоффман, Л.Д. Современные методы защиты информации [Текст] / Л.Д. Хоффман; под ред. В.А. Герасименко. - М.: Сов. радио, 1980. - 264 с.

Размещено на Allbest.ru

...

Подобные документы

  • Структура и принципы построения сети Интернет, поиск и сохранение информации в ней. История появления и классификация информационно-поисковых систем. Принцип работы и характеристики поисковых систем Google, Yandex, Rambler, Yahoo. Поиск по адресам URL.

    курсовая работа [3,6 M], добавлен 29.03.2013

  • Сущность и принцип работы глобальной сети Интернет. Поиск информации по параметрам в системе Google. Специализированные системы поиска информации: "КтоТам", "Tagoo", "Truveo", "Kinopoisk", "Улов-Умов". Целесообразное использование поисковых систем.

    презентация [572,6 K], добавлен 16.02.2015

  • Характеристика методов поиска информации в Интернете, а именно - с использованием гипертекстовых ссылок, поисковых машин и специальных средств. Анализ новых интернет ресурсов. История возникновения и описание западных и русскоязычных поисковых систем.

    реферат [17,2 K], добавлен 12.05.2010

  • Описание и классификация современных информационно–поисковых систем. Гипертекстовые документы. Обзор и рейтинги основных мировых поисковых систем. Разработка информационно–поисковой системы, демонстрирующей механизм поиска информации в сети Интернет.

    дипломная работа [1,3 M], добавлен 16.06.2015

  • Средства поиска информации в сети Интернет. Основные требования и методика поиска информации. Структура и характеристика поисковых сервисов. Глобальные поисковые машины WWW (World Wide Web). Планирование поиска и сбора информации в сети Интернет.

    реферат [32,2 K], добавлен 02.11.2010

  • Особенности поиска информации в Интернет: стратегия и методика. Поисковые машины, каталоги и порталы информационных ресурсов. Подбор и введение ключевых слов. Использование режима "расширенный поиск", который имеет каждая из поисковых систем в Интернете.

    реферат [27,3 K], добавлен 06.08.2014

  • Структура справочно-поисковых систем сети Интернет, работа механизмов поиска. Сравнительный обзор справочно-поисковых систем (Gopher, WAIS, WWW, AltaVista, Yahoo, OpenText, Infoseek). Поисковые роботы, наиболее популярные справочно-поисковые системы.

    реферат [28,4 K], добавлен 14.01.2010

  • Общее представление о поисковых службах. Характеристика видов информационно-поисковых систем, анализ их преимуществ и недостатков. Приемы простого поиска с помощью ключевых слов. Сохранение информации на компьютере для ее последующего использования.

    учебное пособие [313,9 K], добавлен 10.10.2011

  • Информационная революция, которую сейчас переживает общество. Проведение структурного анализа документов. Поиск аналоговой информации в системных областях. Поиск информации через сеть интернет. Виды поисковых ресурсов: каталоги и поисковые роботы.

    курсовая работа [58,6 K], добавлен 16.12.2012

  • Интернет и его возможности. Распространенный и недорогой способ подключения к интернет. Схема передачи информации по протоколу TCP/IP. Характеристики адресов разного класса. Поисковые системы, способы поиска и скачивания информации в глобальной сети.

    курсовая работа [245,6 K], добавлен 25.09.2013

  • Рост количества информации в мире, его увеличение в сети Интернет в геометрической прогрессии. Количество сайтов, зарегистрированных в поисковой системе Яндекс. Особенности эффективного поиска информации в сети Интернет. Схема информационных потоков.

    презентация [52,6 K], добавлен 27.08.2013

  • Понятие системы "Интернет", использование, размер сети, количество абонентов и пользователей. Поисковые системы, подход к сбору информации о ресурсах Интернет. Современные поисковые серверы. Работа с каталогами ресурсов, сохранение информации в Интернете.

    реферат [17,6 K], добавлен 02.12.2010

  • Понятие "информация". Интерактивность. Информационный поиск. Интернет как основное средство интерактивного поиска информации. История создания Интернета. Доступ в Интернет. Поисковые ресурсы. Типы поисковых систем. Электронная почта.

    курсовая работа [51,0 K], добавлен 15.02.2007

  • Особенности программных средств (браузеров) для просмотра web-страниц и для работы с электронной почтой (почтовые клиенты). Этапы и методы разработки Интернет-сайта. Средства поиска информации в Интернет. Сравнительная характеристика поисковых сайтов.

    курсовая работа [617,9 K], добавлен 19.06.2010

  • Методы и инструментарий хранения данных во Всемирной сети. Понятие и разновидности гипертекстовых документов и графических файлов. Принципы работы поисковых систем и правила поиска нужной информации. Характеристика некоторых поисковых систем Сети.

    курсовая работа [30,9 K], добавлен 18.04.2010

  • Организация поиска информации по заданной теме в сети Интернет. Поиск с помощью поисковых машин. Преимущества и недостатки метода поиска по ключевому слову (фразе). Поиск в каталогах информационных ресурсов. Преимущества и недостатки предметных каталогов.

    курсовая работа [47,5 K], добавлен 03.11.2010

  • Предпосылки создания сети Интернет. Характеристика наиболее распространенных протоколов: TCP/IP, HTTP, POP3. История создания системы извлечения информации Gopher. Разработка языков разметки HTML, XML, PHP/FI и XHTML, их версии и сферы применения.

    курсовая работа [596,5 K], добавлен 02.04.2013

  • История развития поисковых систем, особенности механизма поиска. Сравнительный обзор справочно-поисковых систем Интернета. Понятие поисковых роботов. Наиболее популярные поисковики для русскоязычного пользователя. Перспективы развития поисковых систем.

    реферат [64,0 K], добавлен 20.12.2012

  • Изучение типов подключения (постоянное по выделенной линии, сеансное телефонное Dial-up), доступа к информации, видов сервисов (интерактивные, прямые, отложенного чтения) и поисковых систем (Lycos, AltaVista, Yahoo, OpenText, WAIS) в сети Интернет.

    контрольная работа [20,2 K], добавлен 26.01.2010

  • Рождение Интернета как Всемирной компьютерной сети. Поиск информации в сети. Интернет как общение, развлечение, самообразование, творчество, саморазвитие, личностный рост, место совершения покупок, сделок и средство заработка. Структура сети Интернет.

    презентация [594,2 K], добавлен 24.11.2013

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.