Комбинаторный подход к оптимальному представлению текстовых документов информационно-поисковых систем

Определение задачи оптимального представления текстовых документов на заключительном этапе функционирования информационно-поисковой системы. Характеристика основных преимуществ использования алгоритма Куна в составе автоматических поисковых серверов.

Рубрика Программирование, компьютеры и кибернетика
Вид статья
Язык русский
Дата добавления 26.04.2017
Размер файла 23,1 K

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru/

Кубанский государственный технологический университет

Комбинаторный подход к оптимальному представлению текстовых документов информационно-поисковых систем

Занин Дмитрий Евгеньевич, аспирант

Кранодар

Аннотация

Задача оптимального представления текстовых документов на заключительном этапе функционирования информационно-поисковой системы представлена как целочисленная, комбинаторная задача о назначениях отранжированному месту в итоговом списке - каждого из найденных документов. Решать задачу предлагается с использованием алгоритма Куна в составе автоматических поисковых серверов.

Ключевые слова: информационно-поисковая система, нейронная сеть хопфилда, ранжирование, оптимизация.

Основная проблема, с которой сталкивается любая информационно-поисковая система (ИПС) - как предоставлять пользователю только релевантные документы, согласно его (пользователя) информационных требований, при этом не показывать, или минимизировать число показанных нерелевантных документов.

Располагая несколькими оценками соответствия смыслового содержания найденной информации требованиям поискового запроса, несколькими ключами поиска, задача ранжировки массива документов становится задачей комбинаторной оптимизации большой размерности, решать которую необходимо в реальном масштабе времени.

Наличие нескольких критериев поиска равнозначно наличию у каждого найденного документа нескольких параметров релевантности по каждому из критериев запросов. Таким образом, в общей постановке задача оптимального представления текстовых документов на заключительном этапе функционирования ИПС выглядит следующим образом:

Дано:

1. Множество V критериев значимости (значимости запросов) информационно-поисковой системы при поиске документов, V = {vi}, i=1,…,n, n - общее количество критериев значимости информационно-поисковой системы на одной итерации ранжирования.

2. Множество D документов найденных ИПС {ds}, s = 1,…,U, где U - общее количество документов найденных ИПС на одной итерации ранжирования.

3. Каждому элементу vi множества критериев значимости, в результате статистических исследований либо экспертных оценок, сопоставлена функция цены - ci, i=1,...,N, характеризующая степень условного "информационного" убытка владельца информационной системы, в случае оценки документа по i-му критерию.

4. Каждый документ dj обладает некоторой релевантностью gj, j= 1,…,M на множестве критериев запроса {vi} и стоимостью p'j, j= 1,…, M (затратами на его размещение в отранжированном списке результатов поиска ИПС).

Требуется:

Синтезировать алгоритм, позволяющий определить подмножество элементов из множества {dj} документов, при котором реализуется одно из следующих условий:

- минимум суммарного ущерба, при заданной P стоимости (ограничениях на стоимость) размещения документов в отранжированном списке ИПС;

- максимум суммарной релевантности G итогового списка отранжированных документов на множестве V критериев значимости, при заданном C ущербе размещения списка.

Задача, представления найденных ИПС документов - многоитерационная задача поиска оптимального состава отранжированных документов носит целочисленный и комбинаторный характер. Динамическое размещение документов в списке требует оперативного решения многопараметрической задачи в реальном масштабе времени.

Обозначим через - NM матрицу производительностей, элементы которой rji представляют собой релевантность документа с номером j относительно i-й позиции в итоговом списке (табл.1).

Таблица 1 - Таблица задачи о назначениях

Документ 1

Документ i

Документ N

Позиция 1

r11

r1i

r1N

Позиция …

Позиция j

rj1

r ji

Позиция M

rM1

rM j

rM N

4. Обозначим через NM матрицу неизвестных, элемент которой xji принимает значение 1, если документ с номером j будет находиться в позиции с номером i, и значение 0, в противном случае.

5. Ограничения математической модели представлены системой уравнений:

(1)

Здесь первое уравнения означает, что каждому документу будет назначено не более чем одна (наиболее эффективная) порядковая позиция в итоговом списке.

Требуется:

Определить матрицу назначений X, при которой имеет место критерий оптимальности:

. (2)

Задача (1) - (2) называется задачей о назначениях с аддитивным критерием оптимальности.

При рассмотрении задачи о назначениях в стандартной форме предполагается, что количество документов равно количеству позиций итогового списка: M=N. Нетрудно показать, что введением фиктивных документов или фиктивных номеров позиций математическая модель в открытой форме (1) эквивалентна модели (3).

(3)

Исходя из того, что матрица ограничений условий (3) является абсолютно унимодулярной (целочисленная матрица называется абсолютно или вполне унимодулярной, если любой ее минор равен 1, -1 или 0), то любой опорный план математической модели (3) является целочисленным, отсюда вытекает эквивалентность математических моделей (1) и (3) [1]. Кроме того, так как из условий (3) и условий неотрицательности переменных автоматически следует, что переменные не могут быть больше 0, исходная математическая модель (1) эквивалентна (с точки зрения поиска оптимального решения задачи о назначениях) математической модели с ограничениями (3), условиями M = N и ограничениями xji, 0, j=1,2,...,M, i=1,2,...,N. информационный текстовый сервер кун

Рассмотрим постановку задачи о назначениях в открытой форме алгоритма Куна (2)-(3). Двойственная к ней задача имеет вид [2]:

(4)

(5)

где M = N.

Не уменьшая общности, будем считать, что коэффициенты rji целые. Пусть y' и z' - допустимое решение задачи (4), (5), т.е. .

Допустимое решение может быть построено двумя способами. Пусть y'j = max rji, где максимум берется по всем i=1,2,...,N, z'i = 0, i=1,2,...,N. Обозначим через P множество тех пар (j,i), для которых y'j + z'i = rji. Рассмотрим простейшую задачу о назначениях с матрицей D, элементы которой dji = 1, если (j,i) P и dji = 0 в противном случае.

Способ 1. Простейшая задача о назначениях с матрицей D имеет решение, т.е. каждый документ назначается на свою позицию и каждая позиция занимается своим документом. Пусть X' - оптимальное решения простейшей задачи о назначениях, тогда X' - будет оптимальным решением и исходной задачи (2)-(3). Действительно, xji = 1, если (j,i) P, т.е. y'j + z'ji = rji, отсюда

т.е. по теореме о равенстве линейных форм прямой и двойственной задач , X' - оптимальное решение исходной задачи.

Способ 2. Простейшая задача о назначениях с матрицей D не имеет решения. Тогда найдется множество документов K, которые могут назначаться согласно матрице D позициям из множества Q, причем мощности множеств равны, соответственно, k и q и при этом k<q. Рассмотрим новые двойственные переменные:

y''j = y'j - 1 , если j K и y''j = y'j в противном случае;

z''i = z'i +1 , если i Q и z''i = z'i в противном случае.

Новые значения двойственных переменных удовлетворяют условиям задач (4), (5) и при этом уменьшают значения критерия двойственной задачи.

Переходим на начало процедуры решения задачи и так до тех пор, пока на очередном шаге не получим решение простейшей задачи о назначениях, которое и определит оптимальное решение исходной задачи.

Конечность алгоритма Куна следует из того, что по теореме о соотношениях линейных форм прямой и двойственной задач

.

Литература

1. Гэри М., Джонсон Д. Вычислительные машины и труднорешаемые задачи.- М.: Мир, 1982. - 416с.

2. Таха Х. Введение в исследование операций. Т. 1. - М.: Мир, 1985.- 282с.

3. Ловас Л., Пламмер М. Прикладные задачи теории графов. Теория паросочетаний в математике, физике, химии. - М.: Мир, 1998.

Размещено на Allbest.ru

...

Подобные документы

  • Анализ существующих поисковых систем и используемых ими алгоритмов поиска документов. Разработка информационно-поисковой системы словарного типа, способной осуществлять релевантный поиск документов, особенности ее структуры и информационно-поисковой базы.

    дипломная работа [942,1 K], добавлен 19.05.2011

  • Понятие информационно-поисковых систем, их сущность и особенности, история возникновения и развития, роль на современном этапе. Внутреннее устройство и элементы поисковой системы. Принцип работы поисковой машины Рамблер, прядок обработки запроса.

    научная работа [222,0 K], добавлен 29.01.2009

  • Описание и классификация современных информационно–поисковых систем. Гипертекстовые документы. Обзор и рейтинги основных мировых поисковых систем. Разработка информационно–поисковой системы, демонстрирующей механизм поиска информации в сети Интернет.

    дипломная работа [1,3 M], добавлен 16.06.2015

  • Основные принципы построения информационно-поисковых систем. Архитектура современных информационно-поисковых систем WWW. Принцип работы поисковых систем. Процесс поиска, информационный язык, перевод, дескриптор, критерий соответствия, индексирование.

    курсовая работа [70,2 K], добавлен 10.06.2014

  • Понятие, структура и классификация информационных систем. Информационно поисковые системы. Исторические предпосылки развития поисковых систем. Понятие поисковых систем. Особенности поисковых систем: структура сети, структура работы поисковых систем.

    курсовая работа [81,9 K], добавлен 28.03.2005

  • Понятие информационно-поисковых систем. История возникновения сети Internet. Основные алгоритмы работы современных словарных информационно-поисковых систем. Быстрый поиск в базе данных и быстрое реагирование системы. Ранжирование результатов поиска.

    курсовая работа [101,1 K], добавлен 01.06.2012

  • Общее представление о поисковых службах. Характеристика видов информационно-поисковых систем, анализ их преимуществ и недостатков. Приемы простого поиска с помощью ключевых слов. Сохранение информации на компьютере для ее последующего использования.

    учебное пособие [313,9 K], добавлен 10.10.2011

  • Критерии эффективности информационно-поисковых систем: требования потребителя, полнота поиска, затраты труда, факторы, влияющие на характеристики. Ошибки при поиске, обусловленные несовершенством языка, процесса индексирования, поиска, другими причинами.

    курсовая работа [77,2 K], добавлен 06.02.2014

  • Изучение классификации поисковых средств по В.В. Дудихину. Поиск информации с помощью поисковых ресурсов. Формирование запросов. Использование ключевых слов. Индексация документов, размещенных на различных серверах. Зарубежные лидеры поисковых систем.

    презентация [775,3 K], добавлен 10.03.2015

  • Компоненты документальной информационно-поисковой системы. Результаты индексирования документов и запросов. Иерархическая, фасетная и эмпирическая классификационные схемы. Дескрипторные информационно-поисковые языки. Примеры дескрипторной статьи.

    презентация [59,2 K], добавлен 14.10.2013

  • Анализ информационно-поисковых систем автоматизации производства. Построение инфологической и логической модели базы данных технологического оборудования для сборочно-монтажных работ. Выбор языка программирования приложения БД. Алгоритм работы программы.

    дипломная работа [2,5 M], добавлен 18.12.2013

  • История развития поисковых систем, особенности механизма поиска. Сравнительный обзор справочно-поисковых систем Интернета. Понятие поисковых роботов. Наиболее популярные поисковики для русскоязычного пользователя. Перспективы развития поисковых систем.

    реферат [64,0 K], добавлен 20.12.2012

  • Оценка качества поисковых систем. Индексирование по ключевым словам. Внутренние представления запросов и документов на информационно-поисковом языке. Способы улучшения поиска при помощи тезаурусов и онтологий. Ранжированный поиск (vector-space model).

    лекция [31,5 K], добавлен 19.10.2013

  • Возможность составления собственного персонального информационно-правового банка по свои индивидуальным предпочтениям - одно из важнейших преимуществ поисковой системы "Гарант". Основные элементы интерфейса информационного комплекса "Консультант".

    курсовая работа [534,5 K], добавлен 14.11.2017

  • Анализ современных информационно-поисковых систем автоматизации производства. Основные виды, требования и параметры технологического оборудования для сборочно-монтажных работ. Разработка физической модели базы данных технологического оборудования.

    дипломная работа [1,5 M], добавлен 02.09.2014

  • Характеристика методов поиска информации в Интернете, а именно - с использованием гипертекстовых ссылок, поисковых машин и специальных средств. Анализ новых интернет ресурсов. История возникновения и описание западных и русскоязычных поисковых систем.

    реферат [17,2 K], добавлен 12.05.2010

  • Анализ поисковых систем. Работа виртуального каталога. Поисковая система с большим количеством проиндексированных документов. Требования к экспертной системе по автоматическому порождению поисковых эвристик. Методы автоматического подбора эвристик.

    курсовая работа [809,9 K], добавлен 25.07.2012

  • Классификация программ обработки текстовых документов. Общие принципы оформления издания. Правила набора текста. Системы распознавания текста (OCR). Комплекс программного обеспечения для настольных издательских систем. Примеры текстовых редакторов.

    презентация [75,0 K], добавлен 13.08.2013

  • Информационно-поисковый тезаурус, его определение и цель разработки. Организация быстрого и эффективного поиска документальной информации. Использование, структура, построение, сфера применения и перспективы развития информационно-поисковых тезаурусов.

    контрольная работа [17,6 K], добавлен 01.08.2009

  • Контекстная реклама как основная статья дохода поисковых систем-лидеров. Понятие цены клика. Формирование цены на основе частот запросов (на примере поисковой системы Рамблер). Основные поисковые системы на российском рынке, перспективы их развития.

    творческая работа [373,4 K], добавлен 07.04.2009

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.