Главная Коллекция "Revolution" Программирование, компьютеры и кибернетика Обработка исходных данных коллекции ClueWeb12

Обработка исходных данных коллекции ClueWeb12

Изучение методов успешного поиска информации в сети Интернет без построения индекса, основываясь только на локальной информации. Описание технологии извлечения содержимого веб-страниц. Характеристика преобразования содержимого страниц с помощью TF-IDF.

Рубрика	Программирование, компьютеры и кибернетика
Вид	дипломная работа
Язык	русский
Дата добавления	28.08.2016
Размер файла	135,2 K

посмотреть текст работы

скачать работу можно здесь

полная информация о работе

весь список подобных работ

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru/

Содержание

Введение

1. Описание исходных данных

2. Технологии

3. Описание формата WARC

3.1 Файл и модель запись

4. Работа с исходными данными

4.1 Предварительная подготовка коллекции документов

4.2 Извлечение содержимого веб-страниц

4.3 Преобразование содержимого страниц с помощью TF-IDF

4.4 Работа с веб-графом

4.5 Обработка дополнительных данных

5. Имплементация поиска

Выводы

Литература

Введение

информация поиск интернет

В современном мире поиск информации играет немаловажную роль. С развитием структуры сети Интернет, количество информации растет с поражающей скоростью. И эту информацию необходимо правильно систематизировать и хранить, для получения быстрого доступа.

В рамках работы было интересно посмотреть, насколько успешно можно осуществить поиск информации в сети Интернет без построения индекса, основываясь только на локальной информации. Известный американский социальный психолог Стэнли Милгрэм проводил эксперимент, где необходимо было доставить письмо незнакомому человеку. Психолог хотел узнать вероятность того, что два случайно выбранных индивидуума могут знать друг друга. Альтернативный взгляд на проблему - представить население в качестве графа социальной сети и предпринять попытку найти среднюю длину пути между двумя любыми вершинами. В данном эксперименте длину пути предлагалось измерять количеством “связей” между любыми двумя людьми. Эксперимент проводился следующим образом: был задан адресат, и послание, которое должно было дойти до него, отдавалось случайно-выбранному человеку. И данный человек должен был переслать его своим знакомым, те в свою очередь своим, до тех пор, пока письмо не достигнет конечной цели. Соответственно, появился интерес посмотреть, насколько такой децентрализованный алгоритм поиска может быть применим к структуре сети Интернет.

Целью работы была проверка, насколько структура Web близка по свойствам к Навигационному Тесному Миру. Навигационный Тесный Мир- граф, в котором имеется возможность от каждой вершины алгоритмом, использующем только локальную информацию, найти любую другую заданную вершину, на основании информации содержащейся в каждой вершине.

Необходимо смоделировать ситуацию, в которой web-crawler сможет найти страницу, которая будет максимально релевантная заданному запросу, переходя от одного сайта к другому, на основании ссылок, содержащихся на каждой странице.

Необходимо написать программу, которая будет разбирать архив формата WARC, извлекать из него страницы и строить Term Frequency Vector. Каждой страницы i из коллекции будет соответствовать Term Frequency Vector t_i. Далее формируется запрос, состоящий из нескольких ключевых слов. Начиная с сайта, выбранного случайным образом, и переходя по ссылкам- “соседям”, мы пытаемся найти такую страницу r, расстояние Dist(t_r, t_q) до которой по косинусной мере будет максимально приближено к 1.

Базовое представление алгоритма поиска:

1. Задаем страницу, которую требуется найти

2. Задаем запрос q

3. Рассматриваем страницу p, выбранную случайным образом в качестве начальной страницы

4. Считаем расстояние Dist(t_p, t_q) к странице p и всех ее соседей N(p)

5. Если в окрестности N(p) нет страницы до которой расстояние было бы больше чем Dist(t_p, t_q), алгоритм останавливается и считается, что страница p - искомая.

6. Переходим в ту страницу p' из N(p) расстояние до которой меньше всего и переходим к шагу 1.

В результате описанного должна получиться статистика, насколько часто такой способ поиска приводит к желаемому результату.

1. Описание исходных данных

В качестве исходных данных был использован датасет The ClueWeb12. Данный датасет представляет из себя слепок интернета за 2012 год, Он состоит из 733 019 372 страниц на английском языке, собранных в период с 10 февраля 2012 года по 10 мая 2012 года. Размер датасета: 6 Терабайт в архивированном виде, 27 Терабайт в распакованном виде. Ранее лаборатория Carnegie Melon University создавала датасет ClueWeb09. (добавить описание)

Датасет представляет из себя собранные веб-документы в формате WARC, собранные следующим способом: большая часть документов была собрана с помощью программы Internet Archive's Heritrix Web Crawler, распределенной между пятью серверами со стандартными настройками.

Изначально датасет состоял из 2 820 500 уникальных ссылок. Данный список был сгенерирован из 10 000 000 ссылок из датасета ClueWeb09, которые имели наилучший результат PageRank. Далее полученные данные были отсортированы с помощью Waterloo spam scores, для отсеивания спам-ссылок. Далее были проанализированы самые популярные сайты англоговорящих стран, их 262. Количество сайтов, добавленных из каждой страны соответствовало населению каждой страны, для примера: США ( 71%), Великобритания (14 %), Канада (7.7%), Австралия (5.2%), Ирландия (3.8 %), Новая Зеландия (3.7%). Также были предоставлены 5 950 ссылок на сайты, связанные с туризмом и путешествиями.

Также были отсортированы сайты, распространяющие спам, вирусы и прочие ссылки, которые не могут быть востребованы для исследовании и анализа структуры Web. Черный список был взят с URLBlacklist.com. Web-crawler фильтровал ссылки, содержащие спам, фишинг, вирусы, ресурсы для хранения файлов (файловые хостинги).

Также были собраны твиты из Twitter Gardenhose Stream. Это было сделано с целью сделать Web Graph более связным.

Web-crawler был настроен на захват текста, css, xml и файлы javascript, изображения и заголовки HTTP типа Response. Программа пропускала файлы мультимедиа: аудио и видео, а также всевозможные архивы: (zip, tar, gz, sit, hqx).

Несмотря на то, что изображения были собраны, из-за соображений размера датасета (более 27 Терабайт в распакованном виде) они недоступны.

После предварительной фильтрации страниц, собранная коллекция была преобразована следующим образом:

1. Было удалено все, что связано с robots.txt

2. Были удалены записи типа WARC Request

3. Были удалены все записи с кодом ответа, отличным от 2хх и 3хх

4. Были удалены все страницы на других языках с помощью Cybozu Labs - библиотека для определения языка на Java.

5. Были удалены все ссылки и страницы, содержащие контент для взрослых

6. Были удалены все документы, размер которых составлял более 10 Мегабайт

7. Были удалены документы, содержащие более миллиона терминов

8. Разделение всего датасета на сегменты, каждый из которых содержит приблизительно 50 миллионов документов. Каждый сегмент разделен на архив формата WARC, размер каждого такого архива составляет приблизительно 1 Гигабайт при распаковке. Данные архивы организованы по директориям, каждая из которых содержит приблизительно по 100 таких архивов.

2. Технологии

Для обработки данного датасета был выбран язык Java. Для обработки архивов формата WARC изначально была выбрана библиотека JWAT

(Java Web Archive Web Toolkit). Однако данная библиотека имеет странную ошибку при чтении заархивированных WARC файлов. Из -за невозможности разархивировать всю коллекцию (как было описано раннее, размер составляет более 27 Терабайт) было отдано предпочтение реализации webarchive-commons с небольшими дополнениями, так как архивы WARC в данном датасете содержат дополнительные нестандартные поля).

Python в качестве языка программирования был отвергнут, из-за недостаточной скорости обработки архивов и текста.

В качестве обработки текста в формат Term Frequency- Inverted Document Frequency была выбрана библиотека Apache Lucene. Для обработки извлеченных из архива страниц была выбрана библиотека JSoup. Датасет сопровождается дополнительными данными:

Таблица соответствия номера ноды в Веб-графе с URL, таблица соответствия URL с уникальным идентификатором внутри датасета, Веб-граф в расширенной версии (с содержанием нод, которые не входят в датасет). Для хранения вышеперечисленной дополнительной информации была использована база данных MYSQL. Для обработки графа была использована библиотека WebGraph. Данная библиотека была специально разработана для изучения Веб-графов.

3. Описание формата WARC

WARC (Web ARChive) - формат, который предлагает “связывание” множество записей ресурсов (в нашем случае ресурсы- это веб-страницы), каждый из которых представляет набор простых текстовых заголовков и обязательных блоков данных в одном файле. Формат типа WARC является расширением формата ARC, который традиционно использовался программами типа web-crawler для хранения результатов как последовательность блоков содержимого, извлеченного из Всемирной Сети Интернет. Каждый файл имел заголовок в одну строку, который очень поверхностно описал содержимое данного файла и его длину. Далее следовали “сообщения-ответы” и непосредственно содержимое данных ответов. Оригинальный формат ARC использовался организацией Internet Archive с 1996 года для управления миллиардами документов.

Основанием для расширения формата ARC послужили множественные дискуссии и опыт организации International Internet Preservation Consortium (IIPC), куда входят национальные библиотеки Австралии, Канады, Дании, Финляндии, Франции, Исландии, Италии, Норвегии, Швеции, Великобритании и США.

Стандарт WARC предлагается как стандартный способ структуризации, управления и хранения миллиардов веб-ресурсов, собранных из Всемирной Сети Интернет и не только. Он должен быть использован как основа для построения приложений сохранения, доступа и обработки контента, собранных программами типа web-crawler.

Создание, хранение и воспроизведение сохраненного содержимого зависит от конкретной имплементации.

Помимо основного содержимого, который записан в формате ARC, расширенный формат WARC вмещает дополнительное (второстепенное) содержимое, такое как назначенные метаданные, событие, определяющие наличие дубликата в записях, сегментация больших веб-ресурсов. Также данный формат может быть более пригоден для общих приложений, которые выполняют какие-либо другие функции, помимо сбора веб-страниц. Для упрощенной обратной совместимости, содержимое файла формата WARC имеет заметные различия от формата ARC.

Формат WARC был создан специальным образом, для упрощенной конвертации уже существующих архивов формата ARC. Учитывая, что с 1996 года таких архивов скопилось огромное количество, стояла приоритетная задача доступа и использования устаревшего формата ARC.

3.1 Файл и модель записи

Файл формата WARC представляют из себя простую связку записей формата WARC. В общем случае, содержимое записи является результатом прямого запроса страницы с сервера, или попытку запроса на извлечение - веб-страницы, встроенные изображения, информация о редиректе на другой ресурс, результаты поиска имени хоста по протоколу DNS. Также возможен так называемый синтезированный

Материал (метаданные, преобразованное содержимое) который обеспечивает дополнительную информацию о заархивированном содержимом.

Запись WARC состоит из заголовка и блока содержимого записи. Между записями WARC принято оставлять две пустые строки.

Основные и обязательные записи, которые должна содержать каждая WARC запись:

1) WARC-Record-ID = "WARC-Record-ID" ":" uri

URI (Uniform Resource Identifier) - строка, определяющая уникальное имя ресурса, содержимое которого хранится в данной записи.

2) Content-Length = "Content-Length" ":" 1*DIGIT

Непосредственно, длина содержимого, хранящегося в данной записи.

3) WARC-Date = "WARC-Date" ":" w3c-iso8601

w3c-iso8601 = <YYYY-MM-DDThh:mm:ssZ>

Формат времени по стандарту [ISO8601]- 14 цифр.

4) WARC-Type = "WARC-Type" ":" record-type

record-type = "warcinfo" | "response" | "resource"

| "request" | "metadata" | "revisit"

| "conversion" | "continuation" | future-type

future-type = token

Тип WARC- записи. Каждый WARC файл должен содержать

warcinfo, для понимания содержимого архива.

5) Сontent-Type = "Content-Type" ":" media-type

media-type = type "/" subtype *( ";" parameter )

type = token

subtype = token

parameter = attribute "=" value

attribute = token

value = token | quoted-string

Согласно [RFC2045] данное поле заголовка описывает информацию, содержащуюся в блоке записей. В качестве примера, записи запроса (request) и ответа (response) протокола HTTP будут выглядеть следующим образом:

'application/http; msgtype=request' и 'application/http; msgtype=response'

6) WARC-Concurrent-To = "WARC-Concurrent-To" ":" uri

Это поле предназначено в основном для того, чтобы объединить все события захвата данного ресурса.

7) WARC-IP-Address = "WARC-IP-Address" ":" (ipv4 | ipv6)

ipv4 = <"dotted quad">

ipv6 = <per section 2.2 of RFC1884>

Интернет адрес по протоколу IP, с которым была организовано соединение для извлечение содержимого, хранящегося в записи

Остальные поля заголовка WARC являются необязательными, и могут быть добавлены в зависимости от конкретной имплементации программы, которая организует сбор данных с просторов сети Интернет.

4. Работа с исходными данными

4.1 Предварительная подготовка коллекции документов

Несмотря на внушительный размер датасета - 2 жестких диска по 3 Терабайта каждый, 27 Терабайт в распакованном виде, проект ClueWeb12 не является самым крупном архивом на данный момент - наиболее известным представителем на данный момент является проект Common Crawl. Размер их датасета уже переходит на Петабайты информации, в их коллекции более 5 000 000 000 сохраненных веб-ресурсов на разных языках, в то время как ClueWeb12 преследовал более скромные цели - около 733 000 000 сайтов, исключительно на английском.

Однако несмотря на все, казалось бы, преимущества датасета Common Crawl, он представляет из себя всего лишь сгруппированные архивы данных, без каких-либо сопутствующих данных. Например, построение Веб-графа ложится на плечи исследователей, к тому же, несмотря на возможность выкачать весь датасет, который обновляется раз в несколько месяцев (последний раз - в феврале 2016 года), трудно представить, сколько ресурсов понадобится лишь для хранения такого огромного объема информации. И это уже не говоря о том, что для исследования потребуется внушительные ресурсы, целые “фермы” мощных серверов.

Ранее Lemur Project предпринимал амбициозную попытку создать слепок интернета на нескольких языках, это был датасет ClueWeb09. Однако из-за настройки программ коллекционирования информации датасет содержал много повторении, пропусков и множество других проблем. Проект учел свои предыдущие ошибки, и на базе ClueWeb09 сделал ClueWeb12.

В нагрузку к самому архиву, проект представляет дополнительные материалы, такие как Веб-граф (более 6 000 000 вершин, для более полного представления структуры Интернета), и информация для перехода между вершинами и непосредственно URL ресурсов. Такие подготовленные данные сильно помогают в анализе навигационных свойств.

Были предприняты попытки обработать всю коллекцию целиком, однако от этой затеи пришлось отказаться. Обработка одного сегмента (20 директорий с 100 файлами формата WARC в каждой) занимала более 20 часов на доступной конфигурации. Были предприняты попытки использовать Apache Hadoop, однако имея в распоряжении только две физические ноды (компьютер и ноутбук), это не давало нужного прироста производительности.

Специально для таких ситуаций, Lemur Project предусмотрел отдельный датасет, собранный из ClueWeb12 - ClueWeb12 B13. Данный датасет представляет из себя 7% выборку из всей созданной коллекции. Это было сделано следующим образом: из каждого файла WARC был взят каждый 14 документ WARC формата WARC-response. В архиве весь датасет весит около 387 Гигабайт, 1.5 Терабайта в распакованном виде. Данный объем уже казался вполне выполнимой задачей на доступных ресурсах. В качестве основы для построения алгоритма поиска была взята данная производная коллекция.

Далее, необходимо было изучить сам формат, в котором хранится вся коллекция- WARC. После просмотра спецификаций, было принято решение использовать библиотеку JWAT - Java Web ARChive. Данная библиотека написана на языке Java, как и большинство программ для сбора, обработки и воспроизведения содержимого веб-страниц.

В первую очередь библиотека привлекала встроенной возможностью обрабатывать файлы формата WARC без необходимости разархивации из формата gunzip (.gz).

Однако в процессе изучения и запуска тестовых программ выяснилось, что данная библиотека не справляется с заявленной возможностью читать поток архива, что приводило к преждевременному закрытию программы.

Также не были учтены специфические поля заголовка, которые были добавлены в каждый файл WARC:

1) WARC-Number-of-Documents - количество документов в данном файле WARC

2) WARC-File-Length - длина данного архива в распакованном виде

3) WARC-Data-Type - специальные обозначения для типов документов, которые были собраны в данном архиве. (wb: Web crawl, tw: Twitter links crawl, wt: WikiTravel crawl)

Также запись WARC типа response имела свое специфичное поле

WARC-TREC-ID. Это уникальный идентификатор, который определяет позицию конкретного документа во всей коллекции ClueWeb12. Однако после изначального сбора и обработки собранных данных, были совершены ошибки, что привело к появлению дубликатов ресурсов. Данный идентификатор был присвоен до фильтрации коллекции с целью удаления дубликатов.

В итоге было принято решение взять за основу реализацию WebArchive-Commons и добавить необходимые специфичные поля заголовка.

Также пришлось взять стандартную реализацию чтения потока из архива GZip из стандартных библиотек языка Java.

4.2 Извлечение содержимого веб страниц

После первичной обработки и извлечения содержимого записи, мы получаем содержимое страницы. Данной обработки недостаточно, чтобы начинать преобразование Tf-Idf (Term Frequency- Inverted Document Frequency), что необходимо для применения алгоритма поиска.

На извлеченной странице содержится огромное количество материала, помимо непосредственного текста - файлы css, элементы javascript, ссылки на ресурсы CDN (Content Delivery Network) для отрисовки стилей страницы или анимации и картинок.

Для данной обработки была выбрана библиотека Jsoup. Она обладает всеми необходимыми методами для извлечения любого элемента страницы.

4.3 Преобразование веб-страниц с помощью TF-IDF

После обработки непосредственно содержимого веб-страницы следующим шагом было преобразование текста с каждой страницы в специальный формат для обеспечения поиска по веб-страницам.

TF-IDF (Term Frequency- Inverted Document Frequency) - мера статистики, которая используется для оценки важности слова в контексте документа, который является в свою очередь, частью корпуса. Корпус- коллекция документов.

Мера TF-IDF используется в анализе текстов и информационном поиске в качестве одного из критериев релевантности документа поисковому запросу, при расчете меры близости документов при кластеризации.

TF (term frequency - частота слова) - отношение числа вхождения некоторого слова к общему количеству слов документа. Таким образом, оценивается важность слова в пределах отдельного документа.

где есть число вхождений слова в документ, а в знаменателе - общее число слов в данном документе.

IDF (inverse document frequency - обратная частота документа) - инверсия частоты, с которой некоторое слово встречается в документах коллекции. Учёт IDF уменьшает вес широкоупотребительных слов. Для каждого уникального слова в пределах конкретной коллекции документов существует только одно значение IDF.

|D| - количество документов в корпусе;

- количество документов, в которых встречается (когда ).

Выбор основания логарифма в формуле не имеет значения, поскольку изменение основания приводит к изменению веса каждого слова на постоянный множитель, что не влияет на соотношение весов.

Таким образом, мера TF-IDF является произведением двух сомножителей:

Большой вес в TF-IDF получат слова с высокой частотой в пределах конкретного документа и с низкой частотой употреблений в других документах.

Для преобразования страниц с помощью TF-IDF была выбрана библиотека Apache Lucene на языке Java. Это высокопроизводительная библиотека специально предназначена для имплементации приложений текстового поиска.

4.4 Работа с Веб-графом

В качестве одного из приложений к основной коллекции ClueWeb12 Lemur Project предоставляет Веб-граф. Вершины в данном графе организованы следующим образом:

1) Вершина 0 - пустая, это сделано для поддержки формата BVGraph

2) Первые 733 019 372 (не считая 0) вершины - вершины, которые представляют собой документы из коллекции

3) Следующие 245 388 725 вершин соответствуют вершинам, которые изначально входили в коллекцию, однако были удалены.

4) Остальные 5 279 298 498 вершин- не входят в собранную коллекцию

Граф предоставлен в двух форматах - стандартном формате ASCII и в специальном BVGraph. С последним форматом работает библиотека WebGraph. Данный формат предпочтительнее, так как BVGraph весит значительно меньше - всего 56 Гигабайт с файлом смещений (offsets) 3.6 Гигабайт. В стандартном формате ASCII граф весит рекордные 617 Гигабайт в распакованном виде. Главное преимущество (помимо размера), которое может предоставить граф в формате BVGraph - случайный (random) доступ к вершинам и их соседям. В то время как чтение ASCII файла может занять огромное количество времени, так как доступ к нему можно обеспечить лишь последовательно (sequential).

Тем более стоит учитывать, что для коллекции ClueWeb12 B13 потребуется лишь часть графа. Однако и это тоже представляет проблему определенного рода. Изначально предполагалось, что вершины, которые не потребуется в поиске, можно будет просто исключить, удалив необходимые ребра.

Несмотря на простоту поставленной задачи, она оказалась практически невыполнимой - WebGraph не имеет интерфейса для редактирования уже созданного графа. Была предпринята попытка последовательного доступа к вершинам и ребрам, и создании “срезов” графа для последующей склейки в один целый, но попытки не увенчались успехом.

Библиотека WebGraph предоставляет метод преобразования графа из формата ASCII во внутренний формат BVGraph, однако предварительно необходимо было избавиться от ненужных вершин. Граф в формате ASCII представляет из себя следующее - на первой строке файла пишется общее количество вершин, далее, на каждой строке идет перечисление всех соседей данной вершины (строка представляет собой порядковый номер вершины), между этими строками специально ставится пустая строка. Из-за огромного размера файла (более 617 Гигабайт) данная попытка тоже не увенчалась успехом. В любом случае, при трансформации графа в формат BVGraph происходит переименование вершин, соответственно для вновь построенного графа для датасета ClueWeb12 B13 придется содержать структуру, которая будет приводить номер вершины нового графа к вершине “старого”. Данную структуру придется хранить в базе данных.. В ходе работы поиска уже приходится обращаться к двум таблицам данных, одна преобразует номер вершины в URL, а другая таблица превращает WARC-TREC-ID (уникальный идентификатор, как было описано ранее) в URL. И это значительно увеличит время выполнение поиска.

4.5 Обработка дополнительных данных

Помимо Веб-графа, Lemur Project предоставляет два файла - Clueweb12_url2nodeId (Преобразование номера вершины Веб-Графа в URL) и Clueweb12_b13_docid2url (Соответствие WARC-TREC-ID и URL). Данные файлы помогают в полной мере работать с Веб-графом и коллекцией, на основании которой этот граф был создан. Проблема начинается с того, что эти данные представлены в простых текстовых файлах и их размер впечатляет- 617 Гигабайт и 47.3 Гигабайт соответственно.

Принимая во внимание тот факт, что для производной коллекции ClueWeb12_B13 не требуется все данные, которые содержатся в этих файлах. Поэтому, принимая во внимание что данная коллекция значительно меньше (7% от общей выборки) оба файлы были обработаны тем же способом, что и коллекция архивов. Из файлов были извлечены каждая 14 запись, это помогло значительно сократить размер конечных файлов - 41 Гигабайт и 5.7 Гигабайт соответственно.

Далее принималось решение, каким образом лучше организовать доступ к данным в этих файлах. Было принято решение организовать базу данных MySQL. Выбор пал на данную СУБД, как одну из самых распространенных и популярных. Были организованы две таблицы: NodeID_to_URL и DocID_to_URL для каждого из файлов соответственно.

5. Имплементация поиска

Имплементация алгоритма делится на две отдельные программы: первая программа обрабатывает веб-страницы, которые извлекаются из коллекции и приводит их к Term Vectors; Вторая часть программы непосредственно производит поиск по полученным векторам.

Блок-схема первой части программы для каждого архива WARC:

Стоит отметить, что преобразование TF-IDF для получения так называемых Term Vectors происходит единожды. Также для проверки результатов поиска был построен индекс в формате Apache Lucene. Первую программу следует воспринимать как подготовку к имплементации алгоритма поиска.

Во второй программе происходит непосредственный поиск. Он организуется следующим образом:

1. Создается текстовый запрос

2. Берется конечная вершина со значением, близким к 1 по косинусной мере

3. Берется случайно выбранная вершина как старт

4. Из Веб-графа извлекается соседи стартовой вершины

3.1 Соседи проверяется на вхождение в коллекцию ClueWeb12. Происходит отсеивание вершин, выходящих за границы.

3.2 Оставшиеся соседи проверяются на вхождение в коллекцию ClueWeb12_B13. Происходит отсеивание вершин, выходящих за границы.

4. Поиск соответствия номера каждой из вершин в таблице DocId_to_URL, получаем WARC-TREC-ID

5. Получаем идентификаторы положения документов в индексе Apache Lucene

6. Считаем расстояние по косинусной мере всех соседей и стартовой вершины.

7. Если искомая вершина не достигнута, переходим к шагу 3. В качестве стартовой вершины выбирается вершина с наилучшим результатом по косинусной мере.

Блок-схема:

В качестве поисковых запросов были взяты темы TREC с 201 по 300. TREC- Text Retrieval Conference- ежегодное событие, на котором происходит тестирование различных технологий по извлечению информации. В 2014 году проводилось расширенное тестирование способов поиска информации в датасете ClueWeb12, а в частности производного датасета ClueWeb12_B13. Отсюда и настолько специфичный набор тем.

Ниже представлена таблица тем TREC:

TREC topic number	Topic
201	raspberry pi
202	uss carl vinson
203	reviews of les miserables
204	rules of golf
205	average charitable donation
206	wind power
207	bph treatment
208	doctor zhivago
209	land surveyor
210	golf gps
211	what is madagascar known for
212	home theater systems
213	carpal tunnel syndrome
214	capital gains tax rate
215	maryland department of natural resources
216	nicolas cage movies
217	kids earth day activities
218	solar water fountains
219	what was the name of elvis presley's home
220	nba records
221	electoral college 2008 results
222	male menopause
223	usda food pyramid
224	making chicken soup from scratch
225	black and gold
226	traverse city
227	i will survive lyrics
228	hawaiian volcano observatories
229	beef stroganoff recipe
230	world's biggest dog
231	what are the seven deadly sins
232	hurricane Irene flooding in manville, nj
233	hair dye
234	dark chocolate health benefits
235	ham radio
236	symptoms of mad cow disease in humans
237	lump in throat
238	george bush sr bio
239	frank lloyd wright biography
240	presidential middle names
241	what is a wiki
242	cannellini beans
243	afghanistan flag
244	old town Scottsdale
245	roosevelt island
246	civil war battles in south Carolina
247	rain man
248	eggs shelf life
249	occupational therapist
250	ford edge problems
251	identifying spider bites
252	history of orcas island
253	tooth abscess
254	barrett's esophagus
255	teddy bears
256	patron saint of mental illness
257	holes by louis sachar
258	hip roof
259	carpenter bee
260	the american revolutionary
261	folk remedies sore throat
262	balding cure
263	evidence for evolution
264	tribe formerly living in alabama
265	F5 tornado
266	symptoms of heart attack
267	feliz navidad lyrics
268	benefits of running
269	marshall county schools
270	sun tzu
271	halloween activites for middle school
272	dreams interpretation
273	wilson's disease
274	golf instruction
275	uss cole
276	how has african american music influence history
277	bewitched cast
278	mister rogers
279	game theory
280	view my internet history
281	ketogenic diet
282	nasa interplanetary missions
283	hairdyes in pa
284	where to find morel mushrooms
285	magnesium rich foods
286	common schizophrenia drugs
287	carotid cavernous fistula treatment
288	fidel castro
289	benefits of yoga
290	norway spruce
291	sangre de cristo mountains
292	history of electronic medical record
293	educational advantage of social networking sites
294	flowering plants
295	how to tie a windsor knot
296	recycling lead acid batteries
297	altitude sickness
298	medical care and jenovah's witnesses
299	pink slime in ground beef
300	how to find the mean

Результаты

После имплементации поиска было произведено следующее тестирование: для каждого запроса было произведено по 10 запусков программы. Ниже, в таблицах приведены результаты тестирования по каждому запросу:

Поля таблиц:

1) target_trec_id- уникальный идентификатор ресурса в коллекции ClueWeb12_B13- желаемый результат поиска

2) experiments - Поле тестирования программы, где 0 - поиск завершился неудачей, а 1 - поиска завершился успехом

3) path_length - длина пути, в случае успеха

Таблица 1: Запрос “raspberry pi”

target_trec_id	clueweb12-1700tw-22-12689
experiments	0	1	1	0	1	0	1	0	0	0
path_length	n/a	3	7	n/a	4	n/a	2	n/a	n/a	n/a

Таблица 2: Запрос “uss carl vinson”

target_trec_id	clueweb12-0602wb-40-19723
experiments	1	0	0	0	0	0	1	0	1	0
path_length	3	n/a	n/a	n/a	n/a	n/a	5	n/a	4	n/a

Таблица 3: Запрос “ reviews of les miserables ”

target_trec_id	clueweb12-0010wb-28-31568
experiments	0	0	0	0	1	1	1	0	1	1
path_length	n/a	n/a	n/a	n/a	2	1	9	n/a	4	3

Таблица 4: Запрос ”rules of golf”

target_trec_id	clueweb12-1512wb-87-09536
experiments	1	1	1	0	1	0	0	0	0	1
path_length	2	5	7	n/a	3	n/a	n/a	n/a	n/a	8

Таблица 5: Запрос ”average charitable donation”

target_trec_id	clueweb12-0210wb-94-21302
experiments	0	0	0	0	0	1	1	0	1	0
path_length	n/a	n/a	n/a	n/a	n/a	1	4	n/a	6	n/a

Таблица 6: Запрос ” wind power”

target_trec_id	clueweb12-1515wb-62-21488
experiments	0	0	0	0	1	0	0	0	0	1
path_length	n/a	n/a	n/a	n/a	1	n/a	n/a	n/a	n/a	9

Таблица 7: Запрос ” bph treatment”

target_trec_id	clueweb12-1905wb-46-06917
experiments	1	1	1	1	1	0	1	1	0	1
path_length	3	1	2	5	4	n/a	9	8	n/a	3

Таблица 8: Запрос ” doctor zhivago”

target_trec_id	clueweb12-0700tw-75-14955
experiments	0	0	0	1	0	1	1	1	0	1
path_length	n/a	n/a	n/a	7	n/a	2	5	1	n/a	1

Таблица 9: Запрос ” land surveyor”

target_trec_id	clueweb12-0211wb-61-09967
experiments	0	0	0	1	1	1	0	1	0	0
path_length	n/a	n/a	n/a	3	7	4	n/a	8	n/a	n/a

Таблица 10: Запрос “golf gps”

target_trec_id	clueweb12-1508wb-62-14300
experiments	1	1	0	1	0	1	0	0	0	0
path_length	1	6	n/a	2	n/a	7	n/a	n/a	n/a	n/a

Таблица 11: Запрос “what is madagascar known for”

target_trec_id	clueweb12-0807wb-32-04301
experiments	0	1	0	0	1	1	1	0	1	0
path_length	n/a	3	n/a	n/a	4	5	7	n/a	8	n/a

Таблица 12: Запрос “home theater systems”

target_trec_id	clueweb12-1103wb-96-17731
experiments	1	1	1	0	0	0	1	0	0	0
path_length	5	3	2	n/a	n/a	n/a	11	n/a	n/a	n/a

Таблица 13: Запрос “carpal tunnel syndrome”

target_trec_id	clueweb12-0812wb-60-28452
experiments	0	0	1	1	1	1	1	0	0	0
path_length	n/a	n/a	4	7	3	2	1	n/a	n/a	n/a

Таблица 14: Запрос “capital gains tax rate”

target_trec_id	clueweb12-0011wb-62-03765
experiments	1	1	1	0	0	0	1	0	1	0
path_length	8	2	2	n/a	n/a	n/a	7	n/a	5	n/a

Таблица 15: Запрос “maryland department of natural resources”

target_trec_id	clueweb12-0004wb-72-22379
experiments	0	1	0	0	1	0	0	0	1	1
path_length	n/a	5	n/a	n/a	1	n/a	n/a	n/a	6	9

Таблица 16: Запрос “nicolas cage movies”

target_trec_id	clueweb12-1704wb-36-10607
experiments	1	1	0	0	1	0	1	1	0	0
path_length	3	2	n/a	n/a	7	n/a	4	8	n/a	n/a

Таблица 17: Запрос “kids earth day activities”

target_trec_id	clueweb12-1700tw-16-18413
experiments	0	0	0	0	1	1	1	0	0	0
path_length	n/a	n/a	n/a	n/a	5	3	2	n/a	n/a	n/a

Таблица 18: Запрос “solar water fountains”

target_trec_id	clueweb12-0300tw-33-01415
experiments	1	0	0	1	1	1	0	0	1	0
path_length	3	n/a	n/a	1	1	2	n/a	n/a	6	n/a

Таблица 19: Запрос “what was the name of elvis presley's home”

target_trec_id	clueweb12-1904wb-94-13134
experiments	1	1	1	1	0	0	0	0	0	0
path_length	3	7	2	4	n/a	n/a	n/a	n/a	n/a	n/a

Таблица 20: Запрос “nba records”

target_trec_id	clueweb12-0305wb-53-32473
experiments	1	1	0	1	1	1	0	0	1	0
path_length	2	1	n/a	6	5	9	n/a	n/a	8	n/a

Таблица 21: Запрос “electoral college 2008 results”

target_trec_id	clueweb12-0102wb-31-05031
experiments	1	0	1	0	0	1	1	0	0	0
path_length	2	n/a	1	n/a	n/a	8	7	n/a	n/a	n/a

Таблица 22: Запрос “male menopause”

target_trec_id	clueweb12-0509wb-14-10674
experiments	0	0	1	1	0	0	0	1	1	1
path_length	n/a	n/a	3	5	n/a	n/a	n/a	2	4	9

Таблица 23: Запрос “usda food pyramid”

target_trec_id	clueweb12-0112wb-09-15320
experiments	1	1	0	0	1	1	0	1	0	0
path_length	2	4	n/a	n/a	3	5	n/a	6	n/a	n/a

Таблица 24: Запрос “ making chicken soup from scratch ”

target_trec_id	clueweb12-1504wb-87-23052
experiments	0	0	0	1	1	1	0	0	0	0
path_length	n/a	n/a	n/a	7	6	1	n/a	n/a	n/a	n/a

Таблица 25: Запрос “black and gold”

target_trec_id	clueweb12-1901wb-47-03420
experiments	1	1	0	0	0	1	1	1	0	0
path_length	3	5	n/a	n/a	n/a	6	4	8	n/a	n/a

Таблица 26: Запрос “traverse city”

target_trec_id	clueweb12-0001wb-40-32929
experiments	1	1	1	0	0	0	1	1	1	0
path_length	4	7	2	n/a	n/a	n/a	5	9	3	n/a

Таблица 27: Запрос “i will survive lyrics”

target_trec_id	clueweb12-1613wb-07-32091
experiments	0	0	0	0	1	1	1	0	1	1
path_length	n/a	n/a	n/a	n/a	5	3	2	n/a	7	4

Таблица 28: Запрос “hawaiian volcano observatories”

дипломная работа "Обработка исходных данных коллекции ClueWeb12" скачать

Подобные документы

Создания интерактивных WEB - страниц для получения информации в сети Интернет с использованием форм, заполняемых пользователем
Изучение возможности создания интерактивных WEB - страниц для получения информации в сети Интернет с использованием форм, заполняемых пользователем. Тег, контейнер, атрибут, их понятие и сущность. Структура любого HTML- документа и использование ссылок.

контрольная работа [28,1 K], добавлен 05.03.2009
Методы поиска информации в Интернете
Средства поиска информации в сети Интернет. Основные требования и методика поиска информации. Структура и характеристика поисковых сервисов. Глобальные поисковые машины WWW (World Wide Web). Планирование поиска и сбора информации в сети Интернет.

реферат [32,2 K], добавлен 02.11.2010
Методы поиска информации в сети интернет. Информационно-поисковые системы
Характеристика методов поиска информации в Интернете, а именно - с использованием гипертекстовых ссылок, поисковых машин и специальных средств. Анализ новых интернет ресурсов. История возникновения и описание западных и русскоязычных поисковых систем.

реферат [17,2 K], добавлен 12.05.2010
Разработка Web-приложения для создания презентаций
Мультимедийное представление информации, аналоги платформ. Разработка структуры сайта, макетов страниц. Верстка шаблонов страниц. Написание серверной логики и кода презентаций. Публикация сайта в сети Интернет. Требования к интерфейсу пользователя.

дипломная работа [983,2 K], добавлен 17.12.2015
Разработка клиент-серверного веб-приложения "Интернет-аукцион"
Концепция Web 2.0. Язык разметки HTML5. Инструментальные средства для создания веб-приложений. Язык объектного анализа и проектирования UML. Осуществление наполнения и тестирования разработанного интернет-магазина. Форматирование содержимого Web-страниц.

дипломная работа [3,9 M], добавлен 05.06.2016
Анализ и разработка информационных ресурсов Интернет
Особенности программных средств (браузеров) для просмотра web-страниц и для работы с электронной почтой (почтовые клиенты). Этапы и методы разработки Интернет-сайта. Средства поиска информации в Интернет. Сравнительная характеристика поисковых сайтов.

курсовая работа [617,9 K], добавлен 19.06.2010
Интернет-технологии
Теоретические основы Интернет-технологий и основных служб сети Интернет. Ознакомление с возможностями подключения к сети Интернет. Основные службы сети. Принципы поиска информации в WWW. Обзор современных Интернет браузеров. Программы для общения в сети.

курсовая работа [385,2 K], добавлен 18.06.2010
Программные средства
Административное устройство сети Интернет. Доступ в Интернет через провайдера. Разработка в среде MS Word с помощью мастера Web-страниц личной Web-страницы. Создание презентации на тему "Создание Web-страниц средствами MS Word" в среде MS PowerPoint".

контрольная работа [2,9 M], добавлен 13.10.2009
Создание и размещение сайта на одном из бесплатных серверов. Поиск информации в Internet
Основные принципы создания сайта: написание HTML-кода страниц в блокноте, сохранение текстовой информации с расширением .htm. Размещение сайта на ресурсах хостинг-провайдеров с помощью Total Commander. Поиск информации в сети Интернет. Работа с Google.

отчет по практике [6,8 M], добавлен 08.09.2013
Глобальная сеть Интернет
Создание информационной сети Интернет и электронной почты. Процесс и протокол передачи гипертекста. Программа просмотра интернет-страниц. Использование новейшей технологии DSL. Скорость передачи данных. Беспроводные сети с использованием радиоканалов.

реферат [22,0 K], добавлен 22.04.2011
Поиск информации в Интернете по теме "Учет текущих обязательств и расчетов с покупателями и заказчиками"
Общие принципы организации поиска информации в сети Интернет. Поиск с помощью каталогов информационных ресурсов и с помощью поисковых машин. Правила поиска информации, касающейся учета текущих обязательств и расчетов с покупателями и заказчиками.

курсовая работа [35,0 K], добавлен 09.11.2010
Internet Explorer - создание Web-страниц
Internet - основные функции. Поиск нужной информации. Быстрое открытие любимых страниц (папка Избранное). Добавление к списку избранного. Поиск посещенных Web-узлов. Электронная почта. Сохранение Web-страниц.

реферат [25,7 K], добавлен 12.06.2007
Поиск информации в Интернете
Рост количества информации в мире, его увеличение в сети Интернет в геометрической прогрессии. Количество сайтов, зарегистрированных в поисковой системе Яндекс. Особенности эффективного поиска информации в сети Интернет. Схема информационных потоков.

презентация [52,6 K], добавлен 27.08.2013
Интернет-магазин с функцией форума по продаже товаров для художников
Языки разметки и таблицы стилей. Базы данных и СУБД для web-приложений. Поддержка, обслуживание и продвижение сайтов. Этапы составления индекса и поиска по нему. Программно-технические средства приложения. Верстка страниц, публикация данных сайта.

дипломная работа [1,6 M], добавлен 12.12.2013
Интернет-магазин по продаже музыкальных CD и DVD дисков
Обработка страниц на web-сервере и модель событий ASP.NET. Разработка компонентов приложения: компоновка и оформление web-страниц, аутентификация и авторизация пользователей, основные элементы интерфейса. Развёртывание web-приложения и модели компиляции.

дипломная работа [1,7 M], добавлен 29.09.2009
Информационные ресурсы сети Интернет
Понятие глобальной компьютерной сети "Интернет". Основы классификации ее информационных ресурсов. Виды информации, хранимой в Интернете и профессиональных базах. Вопросы эффективности и технологии поиска информации в Интернете и профессиональных базах.

реферат [26,1 K], добавлен 22.06.2011
Работа учителя информатики по поддержке сайта учебного заведения
Курс "Web-конструирование" в школе. Основы языка HTML. Изучение языка HTML в школе. Обзор программы ACDSee. Размещение информации на интернет-сайте. Обработка графики для интернет-страниц Adobe Photoshop. Обзор школьных учебников по информатике.

курсовая работа [29,8 K], добавлен 30.06.2009
Передача звука по локальной сети
Понятие информационной технологии. Обобщенная структура компьютерной сети. Разработка программы, позволяющей передавать звук по локальной сети и по глобальной сети Интернет в реальном времени. Создание собственной Интернет-радиостанции с помощью Delphi.

курсовая работа [376,0 K], добавлен 02.07.2010
Поисковые системы информации в сети Интернет
Сущность и принцип работы глобальной сети Интернет. Поиск информации по параметрам в системе Google. Специализированные системы поиска информации: "КтоТам", "Tagoo", "Truveo", "Kinopoisk", "Улов-Умов". Целесообразное использование поисковых систем.

презентация [572,6 K], добавлен 16.02.2015
Система адресации и поиск информации в интернет
Интернет и его возможности. Распространенный и недорогой способ подключения к интернет. Схема передачи информации по протоколу TCP/IP. Характеристики адресов разного класса. Поисковые системы, способы поиска и скачивания информации в глобальной сети.

курсовая работа [245,6 K], добавлен 25.09.2013

Другие документы, подобные "Обработка исходных данных коллекции ClueWeb12"

весь список подобных работ

скачать работу можно здесь

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.