Главная Коллекция "Revolution" Программирование, компьютеры и кибернетика Разработка поисковой системы для корпусной платформы

Разработка поисковой системы для корпусной платформы

Особенности лингвистических систем поиска. Способы ускорения поискового процесса. Исследование логов лингвистических поисковых систем. Анализ логов крупных корпусов полностью русскоязычных и корпусных платформ, ориентированных на несколько языков.

Рубрика	Программирование, компьютеры и кибернетика
Вид	дипломная работа
Язык	русский
Дата добавления	01.08.2017
Размер файла	100,6 K

посмотреть текст работы

скачать работу можно здесь

полная информация о работе

весь список подобных работ

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Страница:

Размещено на http://www.allbest.ru/

Правительство Российской Федерации

Федеральное государственное автономное образовательное учреждение

высшего образования

Национальный исследовательский университет

"Высшая школа экономики"

Факультет гуманитарных наук

Образовательная программа

"Фундаментальная и компьютерная лингвистика"

Разработка поисковой системы для корпусной платформы

Выпускная квалификационная работа студента 4 курса бакалавриата группы №131

Максимова Анастасия Олеговна

Академический руководитель образовательной программы

Научный руководитель канд. филологических наук, доц.

Ю.А. Ландер

канд. филологических наук, доц. Т.А. Архангельский

Москва 2017

Оглавление

Введение

1. Обзор существующих решений

1.1 Обычные поисковые сервисы

1.2 Лингвистические системы поиска

1.3 Способы ускорения процесса поиска

2. Исследование логов лингвистических поисковых систем

1.4 Корпус Leeds

1.5 Национальный корпус русского языка

1.6 Генеральный интернет-корпус русского языка

1.6 Корпуса с платформы webcorpora.net

1.7 Корпус русского литературного языка

1.8 Общие результаты по всем корпусам

Заключение

Список литературы

Приложение

Введение

В наши дни современные поисковые системы достигают значительных успехов в нахождении информации. Так, например, реализован обычный поиск по всем грамматическим формам запроса и полнотекстовый поиск по конкретной заданной словоформе. Некоторые поисковые системы, такие как Google и Яндекс, умеют также реализовывать контекстный поиск, снимая многозначность запроса, определив нужное пользователю значение. Далее, реализован так называемый “user-friendly” функционал, позволяющий системе исправлять ошибки и опечатки в запросе, а также сменить раскладку клавиатуры при необходимости. Казалось бы, все эти улучшения должны сделать поисковые системы практически идеальными, не нуждающимися в доработке. Однако существует совершенно особый тип поиска - лингвистический поиск, использующийся учёными-лингвистами в научных целях, для которого большинство существующих усовершенствований не актуально.

В чём же заключается особенность лингвистических запросов? Во-первых, запросы учёных, как правило, точны и конкретны (ср., утки-мандаринки и утка. Gen. Pl, где Gen. Pl обозначает форму родительного падежа множественного числа, уток). В связи с этим умение исправлять ошибки, опечатки и некорректную раскладку становится бессмысленным, ведь запрос изначально формулируется корректно. Во-вторых, учёный может искать не конкретную словоформу слова, а шаблон такой словоформы или их комбинацию, например, скучать + по + N. Acc / скучать + по + N. Dat для статистического сравнения. В-третьих, лингвисту может понадобиться выдача, отфильтрованная не только по шаблонной структуре, но и по семантическому признаку, например, прилагательные со значением цвета или глаголы со значением движения. Несмотря на умение некоторых поисковых систем определять нужное значение слова в запросе (ср., толстая коса и песчаная коса), для такой семантической фильтрации требуется детальная разметка корпуса текстов, по которым ведётся поиск. Обычно же при индексации текстов для поисковой системы учитывается только морфологическая разметка.

Таким образом, получается, что существующие доработки практически неприложимы к лингвистическим нуждам. Однако существуют и улучшения, связанные с ускорением поиска. Действительно, чем быстрее система найдёт нужную информацию, тем довольнее будет пользователь. В обычных поисковых системах большое внимание уделяется индексации текстов, их ранжированию по приоритетности для пользователя и, собственно, их обработке при поиске. Что же касается лингвистического поиска, основное внимание уделяется индексации текстов, а также морфологической и грамматической разметке. При этом на скорость поиска это не влияет, только на качество. Необходимости же в ранжировании текстов у учёных, как правило, не возникает, поэтому никаких оптимизаций в этой области не осуществляют (Renouf et al. 2005). На основе всего вышесказанного можно прийти к выводу, что собственно ускорением лингвистического поиска разработчики не занимаются. Это не совсем так, однако, это действительно актуальное поле для исследований и реализации рабочих алгоритмов.

Целью настоящей работы является поиск способов улучшения лингвистического поиска. Задачами же в рамках достижения этой цели являются, во-первых, исследование уже существующих методов ускорения поисковых систем (особенно лингвистических), и во-вторых, статистическое изучение логов существующих корпусов русского языка. На основании логов можно сделать выводы о частотности и структуре лингвистических запросов, что позволит сделать алгоритм прикладным. В качестве материалов исследования взяты логи из Национального Корпуса Русского Языка (НКРЯ), нескольких корпусов языков России и корпусов других языков, расположенных на платформе webcorpora.net, Корпуса Русского Литературного Языка (КРЛЯ), Генерального Интернет-корпуса Русского Языка (ГИКРЯ), а также корпуса Leeds. Наконец, основная задача автора заключается в формулировке и создании алгоритма, способного ускорить лингвистический поиск. Программы, написанные при проведении исследования, реализованы на языке программирования Python, и их код можно будет увидеть по ссылке на GitHub (https: // github.com/anastasie57/improvement_of_SE).

1. Обзор существующих решений

1.1 Обычные поисковые сервисы

Уже из введения становится понятно, что не все улучшения и особенности обыкновенных поисковых систем могут быть полезны или в принципе нужны лингвистическому поиску, однако, не учитывать их опыт - достаточно легкомысленное решение. Несмотря на различную целевую направленность обоих типов систем, архитектура в их основе сильно схожа, а потому разработки для одной системы могут быть вполне приложимы и к другой.

Итак, для начала рассмотрим, как работает обычный поиск в Яндексе, Рамблере, Google и других сервисах. Перед запуском собственно поисковых процессов, так называемый "паук" (или “краулер” от английского “crawl”) собирает по всему открытому Интернету тексты с сайтов, из блогов и других источников. По каждому документу создаётся инвертированный индекс: база данных, в которой каждому слову (в его словарной форме) соответствует массив страниц, содержащих его. Эта база данных регулярно обновляется, при помощи того же "паука", проходящего по документам повторно. Когда поисковая база готова, в систему можно отправлять первые запросы. Сначала поисковая система проверяет запрос и при необходимости исправляет ошибки, опечатки и некорректную раскладку клавиатуры. Затем проверяется массив последних заданных запросов за небольшой промежуток времени. В случае если совпадений с этим массивом не обнаруживается, выбирается самый не загруженный сервер, который, собственно, и осуществляет поиск по инвертированному индексу. Полученные результаты ранжируются по актуальности для пользователя и иногда по времени создания документа.

Обращаясь к истории появления поисковых систем в Интернете, нужно сказать о том, что уже в начале разработок стала понятна значительная важность полнотекстового поиска. Действительно, если система не сможет определить, что слова “мяч” и “мячей” - словоформы одной лексемы, выдача ответов на запрос пользователя будет некорректной и далеко не полной. Поэтому уже в конце 1990-х на разных языках программирования начали разрабатывать специальные библиотеки, чей функционал позволял обеспечивать быстрый полнотекстовый поиск. В основном, все такие модули были написаны на языке Java, однако, впоследствии их стало возможно портировать и на другие языки для большего удобства. В настоящий момент основные современные зарубежные поисковые системы - самостоятельные, как Yahoo! или Wikia, и встроенные в какой-либо сервис, как Amazon или Netflix - опираются на одну из трёх основных библиотек полнотекстового поиска: Xapian, Sphinx и Apache Lucene. Apache Lucene является практически самой популярной из них, благодаря наибольшей совместимости с разными языками программирования и наибольшим спектром возможностей поиска: метод использования шаблонов (он же “wildcard”, позволяет заменять букву или часть слова на символ звёздочки (*) и вопроса (?), в зависимости от типа запроса), поиск слов со схожим написанием (и, как следствие, возможность исправлять опечатки и ошибки в запросе), возможность ранжировать и фильтровать поисковую выдачу по разным "полям" текста. Помимо многофункциональности, эта библиотека также отличается высокой скоростью индексации документов, причём поиск может осуществляться одновременно с индексацией, что также позволяет ускорить общий рабочий процесс поиска. Библиотеку Lucene используют только в качестве функционального компонента готовой системы с подходящим для пользователя интерфейсом. Наиболее известными примерами таковых считаются ElasticSearch и Apache Solr. Поиск на основе ElasticSearch осуществляется в таких сервисах, как GitHub, Mozilla, Netflix и Facebook.

Как можно понять из вышесказанного, помимо улучшений скорости самого функционала с помощью использования специальных библиотек, крупные поисковые системы распределяют нагрузку между несколькими серверами, в случае с компаниями уровня Google или Яндекс, число серверов достигает нескольких сотен. С помощью такого распределения удаётся ускорять поиск и не задерживать выдачу ответа многим пользователям из-за сложного запроса одного. Помимо этого, часто используют способ кэширования, то есть хранения, запросов за некоторый последний промежуток времени. Так, когда какая-либо тема становится актуальна для многих пользователей, логичнее сохранять выдачу по её запросу, а не осуществлять поиск каждый раз заново. В основном, эти два способа и являются основными методами ускорения обычного поиска.

1.2 Лингвистические системы поиска

Когда речь заходит о лингвистическом поиске, обнаруживается множество разных точек зрения на то, в чём же должна заключаться "лингвистичность" поиска и каким образом он должен работать. С одной стороны, логично рассматривать создание особенного поискового сервиса, заточенного непосредственно под лингвистические нужды. С другой стороны, при давно существующей общей архитектуре и логике поиска, нерационально не использовать их. Поэтому часто учёные пытаются создать так называемую "обёртку" для обычной существующей поисковой системы.

Если говорить о лингвистической "обёртке" обычного поиска, обычно её суть заключается в дополнительном этапе лингвистической обработки, предваряющий поиск или наоборот дополняющий его после выполнения запроса. Одним из наиболее известных примеров является постоянно пополняемый корпус текстов из Интернета, WebCorp, и его поисковая система, WebCorp Search Engine (Renouf et al. 2005). Авторы этого проекта фактически попытались создать лингвистическую систему, но не с нуля и не с особенным интерфейсом, заточенным под грамматику, а основанную на обычном поиске вроде Google или Yahoo. В чём же заключаются изменения, внесённые Renouf et al.? В первую очередь, они добавили в поисковую выдачу такое важное свойство как контекстуальность. Вывод контекста в несколько слов позволяет пользователю определять разницу в значениях употреблений даже в небольшой выдаче из 10-15 примеров. При этом контекст можно фильтровать, например, убирая из устойчивого выражения одно из слов, чтобы изучить, как в действительности употребляется это выражение.

Далее, авторы проекта ввели возможность просмотра коллокаций и так называемых грамматических профилей (word sketches) для слова или словосочетания из запроса. Эти профили предоставляют грамматическую информацию об искомых словах, а также список наиболее частотных "соседей" слов из запроса и словосочетаний с ними.

Что касается, собственно, поисковой системы в корпусе WebCorp, она отличается от обычных поисковых систем тем, что выносит процесс всей лингвистической обработки текстов и его результаты в отдельную базу данных, разгружая тем самым основную базу данных и обращаясь только к нужным лексико-грамматическим элементам. Помимо этого, в WebCorp Search Engine реализован принцип “wildcard”, позволяющий строго указывать только часть слова, а оставшуюся часть делать рандомной (например, запрос *gate выдаст среди результатов Northgate, Williamgate и др.).

В те же годы, что и WebCorp Search Engine, разрабатывался KWiCFinder. Этот проект схож с вышеупомянутым, отличаясь лишь формой реализации: в отличие от WebCorp SE это дополнение к обычной поисковой системе в виде приложения Windows. Он точно так же, как и первый, умеет предоставлять список коллокаций и лексические профили, но не умеет порождать словоформы изменяемых лексем, а потому не может предоставить хорошую полную выдачу для падежных языков или языков с другими частотными морфологическими изменениями (KWiCFinder 2002). Формат поисковой системы (сайт в Интернете или самостоятельная программа на компьютере пользователя) играет важную роль в тех случаях, когда корпус, по которому проводится поиск, размещён не в Интернете, а скачан пользователем на компьютер, как например Открытый Корпус Русского Языка (OpenCorpora).

Ещё одной попыткой создать удобную лингвистическую оболочку для поисковой системы был проект GoogleLing, разработанный Смарром и Гроу в 2002 году. Противопоставляя свой проект упомянутой выше WebCorp Search Engine, они добавили возможность дополнительного лингвистического анализа запроса и сложного языка запросов (Smarr, Grow 2002). Это означает, что в системе GoogleLing можно запросить любую необходимую форму изменяемого слова или наоборот все её формы.

Самыми известными примерами обособленных самостоятельных лингвистических систем можно назвать Linguistic Search Engine (далее LSE, Kilgarriff 2003) и Search Engine for Applied Linguistic (Fletcher 2004). В 2003 году Адам Килгарифф анонсировал создание LSE, которую он противопоставлял известному проекту WebCorp. Он указывал на то, что последний всё же опирается на Google и другие поисковые системы, лишь конвертируя и передавая пользовательский запрос в существующие системы поиска, по возвращении добавляя в выдачу необходимую лингвистическую информацию, и не является самостоятельно поисковой системой (Kilgarriff 2003). В случае же с LSE разработчики заявляли абсолютную самостоятельность своей системы, отдельный язык запросов и свой собственный веб-краулер, собирающий тексты из Сети в собственную базу. В итоге проект не был запущен, как и проект Флетчера, однако, интересно, что в обоих случаях разработчики рассчитывали опираться на документацию Google и, так или иначе, использовать разработки этой компании.

В последние же несколько лет поиск всех основных корпусов базируется на уже упомянутых выше универсальных библиотеках полнотекстового поиска или на платформе известных обособленных поисковых систем, таких, как Яндекс. Сервер или Google. Например, Мангеймский корпус немецкого языка (COSMAS Corpora, он же DeReKo) и Синтаксический корпус средневекового французского языка (Syntactic Reference Corpus of Medieval French) опираются, соответственно, на системы COSMAS II и TigerSearch, которые основаны на базе ElasticSearch. В свою очередь Британский Национальный Корпус (British National Corpus) использует для поиска собственную систему Xaira, разработанную на Java и схожую по устройству с Apache Lucene. Национальный Корпус Русского Языка использует в качестве основы своей поисковой системы архитектуру Яндекс. Сервера.

Обращаясь в целом к структуре лингвистического поиска, важно отметить, что основным элементом лингвистической системы является корпус текстов или корпусная платформа, по которой, собственно, осуществляется поиск. В зависимости от того, насколько хорошо организован и размечен корпус, поиск будет точнее и качественнее.

Когда собран корпус текстов, объединённых общим свойством: как правило, языком (например, Национальный Корпус Русского Языка) или жанром (например, Корпус текстов из интернет-блогов), каждый текст размечается по необходимым в будущем поисковым аспектам. Понятно, что грамматика и морфология в первую очередь важны учёным-лингвистам в их исследованиях, но при этом есть не менее актуальные свойства речи. Так, в своей обзорной статье Е.А. Гришина говорит о необходимости размечать ударения, акцентуацию и различные интонации в звучащей речи (Grishina 2007). То же актуально и для корпусов поэтической речи. В качестве ещё одного примера можно привести разметку жаргонной и специфической лексики в корпусе газет и интернет-блогов. После успешно размеченного и подготовленного корпуса, в систему встраивается поисковой сервис, позволяющий учитывать грамматические свойства запроса.

Соответственно, при происходящем в реальном времени запросе в первую очередь пользователь формирует при необходимости подкорпус, по которому будет проходить поиск. Далее система ищет запрошенную форму слова в индексе искомой лексемы или все формы слова, если определённая структура не задана в запросе. Выдача поисковых результатов содержит, как правило, несколько слов слева и справа для того, чтобы был ясен контекст. Ранжирование осуществляется безотносительно предпочтений пользователя и обычно основывается на времени создания текста.

1.3 Способы ускорения процесса поиска

Как уже было сказано в предыдущих частях, обычный поиск ускоряют с помощью распределения нагрузки по нескольким серверам и иногда нескольким базам данных, а также с помощью сохранения небольшого объёма запросов и данных по ним за последнее время. То же используется и в лингвистических системах поиска, однако, возможно, что формат хранения таких данных можно усовершенствовать. В связи с этим возникает следующая гипотеза:

А. Помимо сохранения пользовательских настроек корпуса (язык текстов, выбранный подкорпус, и прочие дополнительные характеристики текстов), стоит также сохранять результаты всей поисковой сессии на время сессии, чтобы можно было быстро вернуться к уже найденным только что результатам (Baroni, Kilgarriff 2006).

Действительно, часто в течение одной сессии пользователь последовательно ищет несколько типов конструкций, а затем возвращается к одному из первых для повторной проверки своих идей. Однако, несмотря на вероятную полезность этой гипотезы, её стоит проверить на материале настоящих логов из корпуса.

Здесь же стоит упомянуть, что понимается под словосочетанием "одна поисковая сессия". Автор настоящей работы призывает считать одной законченной поисковой сессией ряд запросов, схожих по тематике и своей структуре, а также не имеющий внутри себя пауз более 15 минут, причём переход через сутки считается возможным. В случае если запросы наоборот заданы слишком часто (раз в одну-пять секунд), считается, что в исследовании участвует несколько пользователей.

Следующая гипотеза больше ориентируется на морфологическую сторону поиска:

Б. Существительные в конкретном падеже ищут чаще, чем просто существительное, поэтому логичнее строить инвертированный индекс не отдельно для существительного и для какого-то падежа, а их пересечение. Это должно значительно ускорить поиск по корпусу (Аброскин 2009).

Другими словами, при обычном поиске пользователь чаще ищет какую-то общую информацию или конкретную, но не связанную с грамматической формой слов. Лингвист же ищет конкретные конструкции или конкретные формы слов. Эта гипотеза также требует статистического подтверждения на настоящих логах.

Итак, получается, что гипотетически рационально хранить, во-первых, самые частотные грамматические или морфологические структуры в отдельном инвертированном индексе и тем самым избавиться от траты времени на пересечение двух индексов. Возможно, стоит также хранить самые частотные лексические запросы отдельно, если таковые существуют для нескольких корпусов одновременно и их частотность статистически значима. Во-вторых, теоретически имеет смысл кэшировать последние запросы, однако, надо выяснить, стоит ли это делать только на время одной поисковой сессии или использовать принципы обычного поиска и хранить запросы всех пользователей.

2. Исследование логов лингвистических поисковых систем

Как уже было упомянуто выше, один из этапов исследования в настоящей работе будет основываться на данных крупных русскоязычных корпусов. Учитывая то, что корпусная платформа, для усовершенствования которой и проводится настоящее исследование, разрабатывается под нужды, как правило, русскоязычных учёных-лингвистов, было решено использовать именно данные о поиске в корпусах русского языка и ориентироваться на запросы, более частотные именно для них. Понятно, что пользоваться корпусной платформой будут не только носители русского языка, однако, они представляют собой значительную составляющую будущей аудитории платформы и поиска, соответственно.

Итак, материалами для статистического исследования стали логи нескольких крупных корпусов, как полностью русскоязычных, так и корпусных платформ, ориентированных на несколько языков:

1. Корпус Leeds, позволяющий осуществлять поиск по нескольким русскоязычным корпусам (НКРЯ, интернет-корпус ruWAC и Газетный корпус),

2. Национальный Корпус Русского Языка (НКРЯ),

3. Генеральный Интернет-Корпус Русского языка (ГИКРЯ),

4. Корпусная платформа Webcorpora.net (корпуса албанского, бесермянского, бурятского, калмыцкого, осетинского и цыганского языков),

5. Корпус Русского Литературного Языка (КРЛЯ).

Данные из корпуса Leeds представлены примерно 100 000 запросов, распределённых по времени с июня 2015 года по май 2017 года. В число этих запросов входят, помимо русскоязычных, также запросы на индоевропейских и китайском языках. Последние в ходе исследования не обрабатывались из-за особенностей устройства иероглифической системы. Основной массив данных, использованных в исследовании, составляют около 9,5 тысяч запросов к русскоязычным корпусам.

Логи запросов из НКРЯ охватывают один месяц, с конца апреля по конец мая 2017 года, и содержат около 575 000 запросов. Стоит учитывать, что часть из этих запросов составляет автоматическая работа программ, скачивающих выдачу по определённым словам из списка. При этом такие случаи можно выявить и не рассматривать в дальнейшем при изучении логов. Несмотря на то, что отчасти картина запросов получается некорректной, всё же данные из Национального Корпуса представляют большой интерес для автора работы из-за большой популярности самого корпуса среди исследователей.

Данные Генерального Интернет-Корпуса Русского языка представлены за период с 23 по 24 апреля 2017 года и содержат более 800 запросов. Важно отметить одну особенность корпуса, отмеченную самими кураторами проекта: бомльшая часть запросов осуществляется студентами-лингвистами в рамках своих исследований, происходящих лишь в определённые периоды времени. В связи с этим велика вероятность проверки гипотезы А о поведении пользователей в течение одной поисковой сессии, но маловероятна возможность проверить, являются ли определённые шаблоны частотными со статистической точки зрения из-за небольшого объёма предоставленных данных.

Корпусная платформа Webcorpora.net включает в себя несколько разноязычных корпусов, и логи оттуда представляют информацию о запросах в корпуса следующих языков: албанский (3 668 запросов), бесермянский (458 запросов), бурятский (1 564 запроса), калмыцкий (11 945 запросов), осетинский (2 870 запросов) и цыганский (563 запроса) - всего около 21 000 запросов. Все данные были запрошены пользователями в различные периоды времени с декабря 2011 года по май 2017 года.

Наконец, данные о запросах в Корпус Русского Литературного Языка представлены за 5 месяцев (с января по май 2017 года) и составляют около 700 запросов.

корпусная платформа лингвистическая поиск

Вся статистика о материалах исследования представлена в таблице 1 для большей наглядности.

Таблица 1. Число запросов, представленных из разных корпусов

Корпус

Количество запросов

Период

Информация о запросах

Leeds

9 671

Июнь 2015 - май 2017

Время запроса, лемма с морфологическими метками или шаблонная грамматическая структура

НКРЯ

574 787

Апрель - май 2017

Время запроса, информация о подкорпусе (если есть), лемма или несколько лемм с морфологическими метками, либо точная словоформа, либо слово с шаблонными символами (*,?)

ГИКРЯ

840

Апрель 2017

Время запроса, лемма с морфологическими метками или слово с шаблонными символами (*,?)

Албанский корпус

3 668

Ноябрь 2016 - май 2017

Логи всех корпусов на платформе webcorpora.net составлены одинаковым образом:

Время запроса, информация о подкорпусе (если есть), лемма или несколько лемм с морфологическими метками, либо точная словоформа, либо слово с шаблонными символами (*,?)

Бесермянский корпус

458

Февраль - май 2017

Бурятский корпус

1 564

Калмыцкий корпус

11 945

Декабрь 2011 - май 2017

Осетинский корпус

2 870

Октябрь 2016 - апрель 2017

Цыганский корпус

563

Ноябрь 2016 - май 2017

КРЛЯ

738

Январь - май 2017

Время запроса, точная словоформа без морфологических меток

1.4 Корпус Leeds

Говоря о данных, представленных корпусом Leeds, нужно сразу указать, что часть запросов можно объединять в пары, так как второй запрос из пары является распространением первого по количеству примеров в выдаче (cut 10 cut 100). Однако это незначительно уменьшает общее количество запросов, а потому можно автоматически отфильтровать подобные "расширяющие" запросы в ходе исследования.

Итак, рассмотрим типы запросов, представленные в логах корпуса Leeds. Благодаря понятному языку запросов CQP (Corpus Query Processor), пользователи могут самостоятельно составлять не только обычные, но и сложные запросы из нескольких частей. Конкретную форму слова можно задать с помощью выражения [word = …], при необходимости добавив морфологические характеристики через знак амперсанта (напр., [word="design" & pos="V. *"] обозначает слово “design" только в форме глагола). Точно так же, воспользовавшись выражением [pos = …], можно задать конкретный шаблон слова, состоящий из его морфологических характеристик, не указывая конкретной леммы (напр., [pos="V. sg. *"] определяет любой глагол единственного числа).

Изучим для начала наиболее частотные шаблоны, задаваемые пользователями, как в качестве отдельного запроса, так и в составе более сложного запроса. Самым популярным шаблоном стал глагол без каких-либо дополнительных характеристик (620 запросов), далее следует шаблон существительного без каких-либо характеристик (509 запросов), затем с сильно меньшим количеством запросов идёт шаблон прилагательного (322 запроса). Все остальные запросы включают в себя дополнительные морфологические характеристики - время, число, лицо, род, форма причастия и деепричастия. Каждый из этих шаблонов был запрошен пользователями значительно меньшее число раз, и потому сам по себе не может считаться частотно значимым. Рассмотрим таблицу 2 с количеством запросов шаблонов разных форм глагола.

Таблица 2. Шаблонные запросы с формами глагола в корпусе Leeds

Запрос

Количество запросов

Расшифровка запроса

[pos='V. s. *']

132

Глагол прошедшего времени

[pos='V. p3. *']

100

Глагол настоящего времени, 3 лицо

[pos='V. g. *']

61

Деепричастие

[pos='V. gp. *']

39

Деепричастие несовершенного вида

[pos='V. p. *']

37

Глагол настоящего времени

[pos='V. s. sf. *']

24

Глагол прошедшего времени, единственное число, женский род

[pos='V. n. *']

21

Инфинитивная форма глагола

[pos='V. ps. *']

16

Причастие прошедшего времени

[pos='V. p3p. *']

11

Глагол настоящего времени, 3 лицо, множественное число

[pos='V. p3s. *']

11

Глагол настоящего времени, 3 лицо, единственное число

[pos='V. p. *']

7

Причастие

[pos='V. p. s. *']

5

Глагол настоящего времени, единственное число

[pos='V. gs. *']

4

Деепричастие совершенного вида

Действительно, каждый из вариантов шаблонов глагола был менее частотен по сравнению с самостоятельными шаблонами глагола, существительного и прилагательного. Однако, можно заметить, что основные характеристики глагольной формы пересекаются, в особенности время и число. Обратим внимание, что если отдельно глагол прошедшего времени без каких-либо дополнительных меток запрашивали 132 раза, то сама характеристика прошедшего времени указывалась в других шаблонах 44 раз. Аналогично, самостоятельно глагол настоящего времени искали 37 раз, а в составе других шаблонов - 166 раз. В результате получается, что глагол настоящего и прошедшего времени искали, соответственно, 203 и 176 раз, что уже может быть сопоставимо с частотой запросов обычного глагола.

Теперь рассмотрим аналогичным способом ситуацию с существительными. Важно отметить, что много запросов, связанных с существительными, формулируется пользователями с помощью указания двух возможных падежей. Например, в запросе [word="ждать"] [pos="N. [ga]. *"] cut 100 указаны два возможных падежа для существительного после глагола ждать: родительный (g - genitive) и винительный (a - accusative). В других шаблонах также встречаются такие двойные сочетания именительного и винительного падежей ([lemma="ждать"] [pos="N. [na]. *"] cut 100), именительного и творительного падежей ([word="он"] [word="был"] [pos="N. [ni]. *"] cut 10). В силу того, что в подобных падежах запрашиваются оба падежа, в следующей таблице такие двойные сочетания будут разделены по графам отдельных падежей.

Таблица 3. Шаблонные запросы с формами существительного в корпусе Leeds

Запрос

Количество запросов

Расшифровка запроса

[pos='N. a. *']

124

Существительное винительного падежа

[pos='N. g. *']

103

Существительное родительного падежа

[pos='N. i. *']

86

Существительное творительного падежа

[pos='N. n. *']

77

Существительное именительного падежа

[pos='N. y']

45

Одушевлённое существительное

[pos='N. sg. *']

36

Существительное родительного падежа, единственное число

[pos='N. sa. *']

28

Существительное винительного падежа, единственное число

[pos='N. s. *']

17

Существительное, единственное число

[pos='N. p. *']

17

Существительное, множественное число

[pos='N. d. *']

11

Существительное дательного падежа

[pos='N. pg. *']

10

Существительное родительного падежа, множественное число

[pos='N. mpny']

10

Одушевлённое существительное мужского рода именительного падежа, множественное число

[pos='N. l. *']

8

Существительное предложного падежа

[pos='N. mpay']

7

Одушевлённое существительное мужского рода винительного падежа, множественное число

[pos='N. pny']

6

Одушевлённое существительное именительного падежа, множественное число

[pos='N. m. *']

5

Существительное мужского рода

[pos='N. mpa. *']

4

Существительное мужского рода винительного падежа, множественное число

[pos='N. ms. *']

3

Существительное мужского рода, единственное число

[pos='N. m. ay']

3

Одушевлённое существительное мужского рода винительного падежа

[pos='N. pi. *']

3

Существительное творительного падежа, множественное число

[pos='N. pl. *']

2

Существительное предложного падежа, множественное число

Подсчитаем, как и в случае с глаголами, частоты основных характеристик существительного: падежей, числа и рода. Наиболее частотным стал винительный падеж, указанный в различных шаблонах 166 раз. Существительное в единственном числе искали 89 раз (практически в 2 раза чаще, чем множественное число), и, наконец, существительные мужского рода искали 32 раза в имеющейся выборке логов.

Понятно, что частотность различных шаблонов выросла при обработке запросов вида [word = …], однако, заявленная гипотеза Б актуальна лишь для шаблонных запросов, а не конкретных словоформ леммы. Подводя итоги, можно сделать вывод, что статистически значимой является лишь частотность шаблона "глагол настоящего времени" (203 запроса при 620 запросах простого глагола, т.е.16,7% от всего количества глагольных запросов). Таким образом, для искомого корпуса гипотезу можно считать подтверждённой, однако, данных одного корпуса, причём в таком небольшом объёме недостаточно для общего подтверждения.

Обратимся к гипотезе А, касающейся повторяющихся запросов в рамках одной сессии поиска. Подобных случаев во всём массиве данных встретилось около 30, каждый из которых составлял примерно 20 запросов, 4-5 из которых являлись повторами ранее заданных запросов. Однако в качестве максимального подходящего примера опишем следующую ситуацию. Пользователь провёл масштабное исследование, задав более 270 запросов в течение нескольких часов. Каждый запрос строился по принципу "глагол движения" + "предлог" + "существительное", причём поиск иногда вёлся лишь по глаголам движения (выйти, зайти, пройти, уйти и др.) вне словосочетания. Пользователь попеременно возвращался к предыдущим запросам, меняя предлоги или существительные, или же воспроизводя их без изменений. Ниже представлена часть этой поисковой сессии:

Таблица 4. Отрывок поисковой сессии с глаголами, однокоренными к идти в корпусе Leeds

15: 21: 16 2015 ticks 0, Searching: RNC2010-MOCKY for: MU (meet [lemma='выйти'] [word='из'] - 0 1)

15: 21: 23 2015 ticks 0, Searching: RNC2010-MOCKY for: MU (meet [lemma='выйти'] [word='из-за'] - 0 1)

15: 21: 33 2015 ticks 1, Searching: RNC2010-MOCKY for: MU (meet [lemma='выйти'] [word='за'] - 0 1)

15: 22: 00 2015 ticks 1, Searching: RNC2010-MOCKY for: MU (meet (meet [lemma='выйти'] [word='за'] - 0 1) [lemma='рамка'] - 0 2) cut 10

15: 22: 00 2015 ticks 0, Searching: RNC2010-MOCKY for: MU (meet (meet [lemma='пройти'] [word='к'] - 0 1) [lemma='стол'] - 0 2) cut 10

15: 22: 05 2015 ticks 1, Searching: RNC2010-MOCKY for: [lemma="выйти"] [word="за"] cut 100

15: 22: 08 2015 ticks 1, Searching: RNC2010-MOCKY for: MU (meet [lemma='выйти'] [word='за'] - 0 1)

15: 22: 12 2015 ticks 0, Searching: RNC2010-MOCKY for: MU (meet [lemma='пройти'] [word='через'] - 0 1)

При изучении данного отрывка можно заметить, что некоторые запросы сделаны с очень небольшой паузой между собой, что логично может вызвать предположение о том, что исследование проводил не один пользователь, а несколько. Даже в этом случае, гипотеза А всё равно подтверждается, так как во время нескольких поисковых сессий пользователи так или иначе возвращались к ранее сформулированным запросам, а, значит, сохранение уже найденные данные на время сессии будет вполне осмысленным шагом. Более обширный отрывок этой крупной поисковой сессии представлен в приложении А.

1.5 Национальный корпус русского языка

Говоря об особенностях логов в Национальный корпус, стоит упомянуть тот факт, что при переходе между страницами выдачи для одного запроса этот запрос отправляется систему несколько раз. Другими словами, если пользователь задал запрос, а потом просмотрел три страницы выдачи, то в логах будут записаны три одинаковых запроса (по одному на каждую страницу). В связи с этой особенностью логи перед самим изучением были отфильтрованы, и повторяющиеся запросы, идущие подряд, были удалены из общего файла. Также важно упомянуть, что, как и в корпусе Leeds, поисковой интерфейс Национального корпуса позволяет пользователю задавать сложные составные запросы, указывая при необходимости морфологические характеристики лемм или самостоятельные шаблоны. В логах все данные о запросе пользователя объединяются в одно выражение, перемежаемые знаком амперсанта (&). При этом, достаточно большое количество запросов задавались с помощью указания конкретной словоформы или словосочетания в специальном поле "Слово или фраза" (соответствующее выражение выглядит как [req = …]).

Рассмотрим же наиболее частотные шаблоны, задаваемые пользователями для исследования гипотезы Б. Как и в корпусе Leeds, чаще всего пользователи использовали шаблоны для поиска простых частей речи без каких-либо морфологических меток: чаще всего в запросах встречалось существительное (41 858 запросов), затем глагол (40 771 запрос) и прилагательное (40 323 запроса). Далее с большим отставанием идёт наречие (18 296 запросов) и предлог (2 329 запросов). Составим таблицу аналогичную предыдущим для шаблонов, включающих в себя существительные. Перед изучением таблицы 5 важно отметить, что в таблицу были вынесены наиболее частотные запросы (заданные более 150 раз), а более редкие запросы присоединялись по принципу, описанному выше: более подробные запросы разделялись на более общие запросы.

Таблица 5. Шаблонные запросы с формами существительного в НКРЯ

Запрос

Количество запросов

Расшифровка запроса

S,gen

3 538

Существительное родительного падежа

S,nom

2 918

Существительное именительного падежа

S,acc

2 359

Существительное винительного падежа

S,dat

1 961

Существительное дательного падежа

S, ins

1 646

Существительное творительного падежа

S, (gen|gen2|dat|acc|acc2|ins|loc|loc2),sg, (m|f|mf),anim

505

Одушевлённое существительное любого косвенного или винительного падежа, любого рода, единственного числа

S,loc

363

Существительное предложного (местного) падежа

S,nom,sg, (m|f|mf),anim

357

Одушевлённое существительное именительного падежа любого рода, единственного числа

S, inan

256

Неодушевлённое существительное

S,anim

253

Одушевлённое существительное

S,nom,pl

168

Существительное именительного падежа, множественного числа

S,pl

159

Существительное множественного числа

S,acc,pl

157

Существительное винительного падежа, множественного числа

S,gen, inan

153

Неодушевлённое существительное родительного падежа

Как можно заметить, в итоговой таблице всё же есть запросы, распространяющие другие, более общие. Как и в случае с первым изученным корпусом, выделим наиболее часто запрашиваемые падежи. Самым популярным является родительный падеж, вошедший в составные запросы и запрашиваемый отдельно, - он встретился в 4 196 запросах. Далее следуют именительный (3 443 запроса) и винительный (3 021 запрос) падежи. Единственное число встретилось в запросе практически в два раза чаще, чем множественное (862 и 484 запроса, соответственно). Одушевлённые существительные искали 1 115 раз, в то время, как неодушевлённые всего 409 раз. По роду различия в запросах были не значительны, как правило, пользователь задаёт "любой" род, либо женский или мужской с одинаковой частотой.

Теперь обратим внимание на таблицу с наиболее частотными шаблонными запросами, включающими в себя различные глагольные формы.

Таблица 6. Шаблонные запросы с формами глагола в НКРЯ

Запрос

Количество запросов

Расшифровка запроса

V, inf

1452

Инфинитив глагола

V, indic

781

Глагол изъявительного наклонения

V,praet

721

Глагол прошедшего времени

V, indic,praet,act

656

Активный глагол изъявительного наклонения, прошедшего времени

V,pl

353

Глагол множественного числа

V,praes

337

Глагол настоящего времени

V,tran

326

Переносный глагол

V, indic,praet,act, ipf

305

Активный глагол изъявительного наклонения, прошедшего времени, несовершенного вида

V, (indic|imper|imper2)

303

Глагол изъявительного или повелительного наклонений

V, inf, ipf

204

Инфинитив глагола несовершенного вида

V, indic,praes,act, ipf

176

Активный глагол изъявительного наклонения, настоящего времени, несовершенного вида

V,praet,act

130

Активный глагол прошедшего времени

V,praet,pf

118

Глагол прошедшего времени, совершенного вида

V, ipf

113

Глагол несовершенного вида

V, indic,praet,sg,n,act

94

Активный глагол изъявительного наклонения, прошедшего времени, единственного числа, среднего рода

V,praet,sg,f

94

Глагол прошедшего времени, единственного числа, женского рода

Отметим, что в случае с глагольными шаблонами частота менее популярных шаблонов прибавлялась к частоте более популярных для создания более общей картины. Изучив значения, приведённые в таблице 6, можно определить, что глаголы прошедшего времени упоминались в шаблонах запросов гораздо чаще по сравнению с настоящим временем (2 118 и 513 запросов, соответственно). В сравнении с обычными глагольными запросами (без дополнительных меток), количество шаблонов с указанием прошедшего времени глагола составляет 5, 19%.

Подводя итоги, можно сказать, что данные, полученные в ходе изучения логов НКРЯ, во многом совпадают с данными, полученными из логов корпуса Leeds. Действительно, существительные родительного и винительного падежей ищут чаще, по сравнению с другими составными шаблонами, но при этом несравнимо реже простых POS-шаблонов. Точно так же глаголы прошедшего времени встречаются в запросах значительно чаще, чем любые другие специальные формы глаголов.

Наконец, перейдём к гипотезе А о повторениях запросов в рамках одной сессии. В качестве самых ярких примеров, подтверждающих гипотезу, можно привести следующие поисковые сессии:

пользователь изучал структуры вида "местоимение в именительном падеже" + "прилагательное довольный в именительном падеже", меняя лицо и число местоимения, а также число прилагательного, сделав в сумме более 75 запросов за несколько часов, из которых около 20 было повторами ранее заданных запросов,

Пример: gramm1=SPRO,nom,sg,1p&gramm2=A,nom,sg, (m|f|mf) &lex2=довольный,

пользователь провёл исследования схожие с вышеописанным, заменив прилагательное в одном случае на успешный (69 запросов, 10 повторов), а в другом на свободный (93 запроса, 24 повтора),

пользователь изучал словосочетания вида "глагол мышления" (думать и однокоренные, размышлять и др.) + "над" + "проблемой", каждый раз задавая конкретное словосочетание с конкретной словоформой (используя выражение [req=…]) и в итоге совершив 171 запросов, 40 из которых повторялись,

пользователь сравнивал употребления слов мороженый/замороженный с различными продуктами питания (овощи, фрукты, ягоды, мясо, рыба), проведя сессию из 12 запросов, из которых 6 запросов повторяли ранее заданные,

Пример: lex1="заморожен*"&lex2=мясо+|+рыба

В общей сложности подобных длинных поисковых сессий с повторяющимися запросами было представлено около 30 в логах НКРЯ, что составляет около 3 660 запросов. Среди всех этих запросов 627 являлись повторами ранее заданных запросов и не были дубликатами, возникшими из-за просмотра выдачи. В процентном соотношении повторы представляют чуть больше 17,1%.

1.6 Генеральный интернет-корпус русского языка

Данные интернет-корпуса позволили подтвердить гипотезу А, связанную с поведением пользователей в течение одной поисковой сессии. Несмотря на небольшое количество данных, представленных за два дня, в логах представлены две поисковые сессии, длившиеся в течение часа и более:

пользователь провёл сессию из более, чем 20 различных запросов, строившихся по шаблону "наречие с усилительным значением" (напр., гораздо, ещё, всё) + "более" + "причастие настоящего или прошедшего времени" (напр., знающий/знавший, говорящий/говоривший, могущий/могший), возвращаясь иногда к запросам, заданным двумя или тремя разами ранее,

Пример: [word=гораздо] [word=более] [word=говоривш.],

пользователь изучал структуры вида "твёрдый, как" + "существительное", сравнивая сочетания со словами камень, железо, алмаз и сталь и время от времени вновь задавая запросы с существительными, использованными ранее,

Пример: [word=твёрд. *] [word=,] [word=как] [word=камень].

Итак, две описанные выше поисковые сессии содержат в общей сложности 230 запросов, что составляет 27,38% от общего числа предоставленных запросов. Однако в качестве примеров приведены лишь два самых крупных случая, в то время, как похожие серии запросов были совершены в тот же период времени, но в меньших масштабах (напр., пользователь сравнивал конструкции "одеть пальто", "одеть костюм" и другие).

Как можно заметить из вышеприведённых примеров, в Генеральном корпусе часто используется поиск конкретной словоформы ([word = …]) с символом шаблонного поиска. Во всех остальных случаях требований к конкретной словоформе нет, и запросы задаются с помощью указания исходной формы лексемы ([lemma = …]). Таким образом, получается, что гипотеза, основанная на идее из статьи (Аброскин 2009), не получает подтверждения и в данном случае.

1.6 Корпуса с платформы webcorpora.net

Притом, что далеко не все запросы, заданные к обсуждаемым корпусам, были сформулированы на русском языке, гипотезе А удалось найти подтверждение в ряде случаев. Рассмотрим их ниже:

в албанском корпусе пользователь провёл сессию из 82 запросов вида "lex1=filloj&lex2=tл&lex3=di&use_distance=same_sentence", время от времени меняя первую (mbaroj, pushoj, praj, dлshtoj) и иногда вторую лексему (tл, mл, e, sл), повторив всего 25 запросов,

в калмыцком корпусе пользователь задал более 25 запросов вида "lex1=чигн&lex2=уга&use_distance=same_sentence", меняя первую лексему (чигн, бол) и вторую (уга, угай, биш, биший), повторив 4 ранее заданных запроса,

в осетинском корпусе пользователь провел ряд схожих по структуре поисковых сессий из 11-15 запросов с 3-4 повторяющимися запросами (всего таких сессий в логах 9); все запросы строились по принципу "lex1=раст&lex2=зынын", где одна из лексем это переходный глагол, а другая - зависимое от него существительное или прилагательное, причём иногда пользователь менял лексемы местами.

Как и в предыдущих случаях, случаи длительных поисковых сессий подтверждают гипотезу А, процент повторяющихся запросов в разных сессиях варьируется от 16% до 30%.

Что же касается гипотезы, связанной с частотными шаблонами запросов, данные, полученные в ходе обработки, не представляют достаточно ясной картины. Это связано с тем, что к корпусам разных языков пользователи задают запросы с шаблонами разных характеристик. Так, в цыганском корпусе пользователи чаще всего ищут простые существительные (731 запрос) и прилагательные (322 запроса), что практически в 20 и 10 раз, чаще, чем следующий по частоте шаблон глагола (35 запросов). В калмыцком и албанском чаще всего ищут глагольные шаблоны и шаблоны существительного. В албанском количество этих запросов, соответственно, 601 и 240, а в калмыцком - 191 и 103, причём отдельно показатели будущего и прошедшего времени искали 258 и 227 раз, соответственно. Остальные корпуса представляют незначительное количество шаблонов с морфологическими характеристиками частей речи, а потому не представляют статистической значимости.

1.7 Корпус русского литературного языка

Несмотря на то, что данные корпуса литературного русского языка были представлены в значительном объёме, выдвинутую гипотезу об особо частотных морфологических шаблонах ни подтвердить, ни опровергнуть не удалось, так как, в основном, все запросы формулировались в виде конкретной словоформы (иногда со специально указанным ударением с помощью символа +), без каких-либо морфологических меток. Что касается гипотезы, связанной с одной поисковой сессией, ей нашлось подтверждение в ряде случаев:

сессия из 4 запросов, повторившаяся трижды в течение суток, в течение которой пользователь изучал выдачу по запросам "дорог", "до+рог", "доро+г", после чего возвращался к одному из запросов;

сессия из 8 запросов, дважды повторившаяся и схожая по строению с предыдущим случаем: пользователь задавал запросы "замок", "за+мок" и "замо+к", меняя попеременно ударение;

сессия из 5 запросов, в ходе которой пользователь поочерёдно запрашивал различные словоформы лексемы "молодой", включая краткие формы, единожды вернувшись к изначальному запросу.

Другими словами, гипотеза о том, что в течение одной поисковой сессии пользователь не только последовательно задаёт различные запросы, но и иногда возвращается к предыдущим запросам, подтвердилась, однако масштабы подтверждающих случаев незначительны (4,47% от всего числа запросов).

1.8 Общие результаты по всем корпусам

Принимая во внимание все выше описанные результаты, можно сделать вывод о том, что обе гипотезы подтверждены, хотя и каждая на своём наборе данных. Возникает главный вопрос, насколько в итоге значимы масштабы полученных данных.

Сперва рассмотрим результаты, подтвердившие гипотезу А, касающуюся пользовательского поведения во время поиска по корпусу. В каждом из корпусов были найдены случаи поисковых сессий, состоящих из значительного количества запросов и содержащих от 4 до 28% повторов. Несмотря на то, что в сравнении с общим числом запросов к корпусам, количество таких повторов становится крайне маленьким (менее 1%), в рамках отдельных сессий поиска, привязанных к одному исследованию, дополнительное кэширование запросов может уменьшить временные затраты поисковой системы. Так, в случаях таких длительных сессий запросы, как правило, строятся по одной структуре, меняя лишь значение одного из свойств или меняя одну лексему на другую, а, значит, каждый запрос обрабатывается одинаковое количество времени. Таким образом, убирая необходимость повторять 15% запросов (среднее количество повторов в рамках одной сессии), мы уменьшаем время общего п...

Страница:

1
2

дипломная работа "Разработка поисковой системы для корпусной платформы" скачать

Подобные документы

Организация поисковой системы во всемирной глобальной сети
Описание и классификация современных информационно–поисковых систем. Гипертекстовые документы. Обзор и рейтинги основных мировых поисковых систем. Разработка информационно–поисковой системы, демонстрирующей механизм поиска информации в сети Интернет.

дипломная работа [1,3 M], добавлен 16.06.2015

Организация и алгоритмы работы поисковых систем
Понятие и классификация поисковых систем, история их развития и структурные элементы. Характеристика существующих моделей поиска, анализ его качества. Особенности обработки запроса поисковой системой, подготовки базы данных и процесса выдачи результатов.

курсовая работа [2,6 M], добавлен 15.04.2014

Анализ существующих информационно-поисковых систем
Понятие информационно-поисковых систем, их сущность и особенности, история возникновения и развития, роль на современном этапе. Внутреннее устройство и элементы поисковой системы. Принцип работы поисковой машины Рамблер, прядок обработки запроса.

научная работа [222,0 K], добавлен 29.01.2009

Поисковые системы Интернета
История развития поисковых систем, особенности механизма поиска. Сравнительный обзор справочно-поисковых систем Интернета. Понятие поисковых роботов. Наиболее популярные поисковики для русскоязычного пользователя. Перспективы развития поисковых систем.

реферат [64,0 K], добавлен 20.12.2012

Методы поиска информации в сети интернет. Информационно-поисковые системы
Характеристика методов поиска информации в Интернете, а именно - с использованием гипертекстовых ссылок, поисковых машин и специальных средств. Анализ новых интернет ресурсов. История возникновения и описание западных и русскоязычных поисковых систем.

реферат [17,2 K], добавлен 12.05.2010

Анализ гипертекстовых документов с различных сайтов с целью автоматизированного сбора данных
Анализ существующих поисковых систем и используемых ими алгоритмов поиска документов. Разработка информационно-поисковой системы словарного типа, способной осуществлять релевантный поиск документов, особенности ее структуры и информационно-поисковой базы.

дипломная работа [942,1 K], добавлен 19.05.2011

Современные поисковые системы
Организация хранения данных. Система управления базами данных. Поиск информации, обзор существующих поисковых систем. Особенности работы поискового движка. Использование индексов в поисковых системах. Особенности поиска различных видов информации.

курсовая работа [4,6 M], добавлен 14.05.2014

Оценка и анализ эффективности работы информационно-поисковых систем
Критерии эффективности информационно-поисковых систем: требования потребителя, полнота поиска, затраты труда, факторы, влияющие на характеристики. Ошибки при поиске, обусловленные несовершенством языка, процесса индексирования, поиска, другими причинами.

курсовая работа [77,2 K], добавлен 06.02.2014

Информационно-поисковые системы
Основные принципы построения информационно-поисковых систем. Архитектура современных информационно-поисковых систем WWW. Принцип работы поисковых систем. Процесс поиска, информационный язык, перевод, дескриптор, критерий соответствия, индексирование.

курсовая работа [70,2 K], добавлен 10.06.2014

Автоматизированные информационно – поисковые системы
Понятие, структура и классификация информационных систем. Информационно поисковые системы. Исторические предпосылки развития поисковых систем. Понятие поисковых систем. Особенности поисковых систем: структура сети, структура работы поисковых систем.

курсовая работа [81,9 K], добавлен 28.03.2005

Поисковая система
История поисковых систем. Классификация информационных систем по степени автоматизации. Три основных способа поиска информации в Интернете. Отличие поисковых систем от каталогов. Назначение и типы информационных систем государственных учреждений.

курсовая работа [368,5 K], добавлен 13.05.2015

Доходы поисковых систем
Контекстная реклама как основная статья дохода поисковых систем-лидеров. Понятие цены клика. Формирование цены на основе частот запросов (на примере поисковой системы Рамблер). Основные поисковые системы на российском рынке, перспективы их развития.

творческая работа [373,4 K], добавлен 07.04.2009

Методы и формы организации поиска в рамках ресурса
Основные критерии и требования к средствам поиска по ресурсу. Технологии создания инструментов поиска. Способы поиска по ресурсу. Принцип действия поиска по ключевым словам и при помощи поисковых систем. Разработка ресурса "Поиск по ресурсу" в виде блога.

курсовая работа [983,7 K], добавлен 01.02.2015

Семантические сети. Системы анализа текста и синтеза речи
Появление поисковых систем. Применение семантических сетей для анализа текста. Определение релевантности, ранжирование и индексация. Особенности программы Balabolka. Системы анализа речи. Современные особенности поиска. Развитие сервисов поисковых систем.

реферат [3,2 M], добавлен 22.04.2015

Информационно-поисковые системы
Понятие информационно-поисковых систем. История возникновения сети Internet. Основные алгоритмы работы современных словарных информационно-поисковых систем. Быстрый поиск в базе данных и быстрое реагирование системы. Ранжирование результатов поиска.

курсовая работа [101,1 K], добавлен 01.06.2012

Поисковые системы
Рассмотрение поисковых систем интернета как программно-аппаратного комплекса с веб-интерфейсом, предоставляющего возможность поиска информации. Виды поисковых систем: Archie, Wandex, Aliweb, WebCrawler, AltaVista, Yahoo!, Google, Яндекс, Bing и Rambler.

реферат [24,3 K], добавлен 10.05.2013

Обзор современных поисковых систем в интернет
Краткая история развития поисковых систем. Обзор мировых и российских поисковых систем: Google, Yahoo, Baidu, Yandex, Rambler, Апорт, Mail.ru. Текстовый процессор Microsoft Word. Табличный редактор Excel. Организация рабочего места оператора ЭВМ.

курсовая работа [66,3 K], добавлен 20.12.2008

Применение поисковой системы "Rambler" для организации поиска и систематизации экономической информации
Понятие и принципы работы, внутренняя структура и элементы, история формирования и развития поисковой системы "Rambler". Исследование и анализ, а также оценка эффективности данной поисковой системы для поиска экономической информации в интернете.

курсовая работа [4,0 M], добавлен 10.05.2015

Организация хранения и поиска информации в сети Internet
Методы и инструментарий хранения данных во Всемирной сети. Понятие и разновидности гипертекстовых документов и графических файлов. Принципы работы поисковых систем и правила поиска нужной информации. Характеристика некоторых поисковых систем Сети.

курсовая работа [30,9 K], добавлен 18.04.2010

Средства поиска информации. Поисковые системы
Изучение классификации поисковых средств по В.В. Дудихину. Поиск информации с помощью поисковых ресурсов. Формирование запросов. Использование ключевых слов. Индексация документов, размещенных на различных серверах. Зарубежные лидеры поисковых систем.

презентация [775,3 K], добавлен 10.03.2015

Другие документы, подобные "Разработка поисковой системы для корпусной платформы"

главная

рубрики

по алфавиту

вернуться в начало страницы

вернуться к началу текста

вернуться к подобным работам

Рубрики

По алфавиту

Закачать файл

весь список подобных работ

скачать работу можно здесь

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.

Корпус	Количество запросов	Период	Информация о запросах
Leeds	9 671	Июнь 2015 - май 2017	Время запроса, лемма с морфологическими метками или шаблонная грамматическая структура
НКРЯ	574 787	Апрель - май 2017	Время запроса, информация о подкорпусе (если есть), лемма или несколько лемм с морфологическими метками, либо точная словоформа, либо слово с шаблонными символами (*,?)
ГИКРЯ	840	Апрель 2017	Время запроса, лемма с морфологическими метками или слово с шаблонными символами (*,?)
Албанский корпус	3 668	Ноябрь 2016 - май 2017	Логи всех корпусов на платформе webcorpora.net составлены одинаковым образом: Время запроса, информация о подкорпусе (если есть), лемма или несколько лемм с морфологическими метками, либо точная словоформа, либо слово с шаблонными символами (*,?)
Бесермянский корпус	458	Февраль - май 2017
Бурятский корпус	1 564
Калмыцкий корпус	11 945	Декабрь 2011 - май 2017
Осетинский корпус	2 870	Октябрь 2016 - апрель 2017
Цыганский корпус	563	Ноябрь 2016 - май 2017
КРЛЯ	738	Январь - май 2017	Время запроса, точная словоформа без морфологических меток

Запрос	Количество запросов	Расшифровка запроса
[pos='V. s. *']	132	Глагол прошедшего времени
[pos='V. p3. *']	100	Глагол настоящего времени, 3 лицо
[pos='V. g. *']	61	Деепричастие
[pos='V. gp. *']	39	Деепричастие несовершенного вида
[pos='V. p. *']	37	Глагол настоящего времени
[pos='V. s. sf. *']	24	Глагол прошедшего времени, единственное число, женский род
[pos='V. n. *']	21	Инфинитивная форма глагола
[pos='V. ps. *']	16	Причастие прошедшего времени
[pos='V. p3p. *']	11	Глагол настоящего времени, 3 лицо, множественное число
[pos='V. p3s. *']	11	Глагол настоящего времени, 3 лицо, единственное число
[pos='V. p. *']	7	Причастие
[pos='V. p. s. *']	5	Глагол настоящего времени, единственное число
[pos='V. gs. *']	4	Деепричастие совершенного вида

15: 21: 16 2015 ticks 0, Searching: RNC2010-MOCKY for: MU (meet [lemma='выйти'] [word='из'] - 0 1)
15: 21: 23 2015 ticks 0, Searching: RNC2010-MOCKY for: MU (meet [lemma='выйти'] [word='из-за'] - 0 1)
15: 21: 33 2015 ticks 1, Searching: RNC2010-MOCKY for: MU (meet [lemma='выйти'] [word='за'] - 0 1)
15: 22: 00 2015 ticks 1, Searching: RNC2010-MOCKY for: MU (meet (meet [lemma='выйти'] [word='за'] - 0 1) [lemma='рамка'] - 0 2) cut 10
15: 22: 00 2015 ticks 0, Searching: RNC2010-MOCKY for: MU (meet (meet [lemma='пройти'] [word='к'] - 0 1) [lemma='стол'] - 0 2) cut 10
15: 22: 05 2015 ticks 1, Searching: RNC2010-MOCKY for: [lemma="выйти"] [word="за"] cut 100
15: 22: 08 2015 ticks 1, Searching: RNC2010-MOCKY for: MU (meet [lemma='выйти'] [word='за'] - 0 1)
15: 22: 12 2015 ticks 0, Searching: RNC2010-MOCKY for: MU (meet [lemma='пройти'] [word='через'] - 0 1)