Разработка поисковой системы для корпусной платформы
Особенности лингвистических систем поиска. Способы ускорения поискового процесса. Исследование логов лингвистических поисковых систем. Анализ логов крупных корпусов полностью русскоязычных и корпусных платформ, ориентированных на несколько языков.
Рубрика | Программирование, компьютеры и кибернетика |
Вид | дипломная работа |
Язык | русский |
Дата добавления | 01.08.2017 |
Размер файла | 100,6 K |
Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже
Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.
Далее рассмотрим гипотезу Б о большей частотности некоторых шаблонов в сравнении с другими. Как показали результаты проведённого исследования простые POS-запросы (part of speech, “частеречные”) оказались наиболее частотными среди прочих, причём разрыв между запросами "глагол", "существительное" и "прилагательное" и менее распространёнными запросами значителен - первых больше практически в 10 раз и больше. Далее наиболее популярными шаблонами среди глагольных форм и форм существительного являются, соответственно, "глагол прошедшего времени" и "существительное именительного/родительного/винительного падежа". Однако если количество простых шаблонов может быть сравнимо с общим числом запросов к корпусу (каждый из простых шаблонов собрал около 10% запросов), то дополненные шаблоны встречались значительно реже. В связи с этим подвести итоги изучения искомой гипотезы можно следующим образом: для значительного ускорения поиска по корпусу осмысленно строить индекс не только для различных лемм, но и для основных типов запросов (основные части речи + выделенные частотные). При этом если шаблоны основных частей речи точно смогут ускорить процесс поиска, то дополненные шаблоны, скорее, окажут не такой заметный эффект.
Наконец, уходя от обсуждения выдвинутых гипотез, обратимся к общей картине запросов в различные корпуса. В описанных выше результатах исследования не раз упоминались пользовательские запросы, заданные не с помощью шаблонов или специального поискового синтаксиса, а в формате конкретной словоформы или словосочетания. В разных корпусах соотношение подобных запросов было разным, однако, в целом, конкретно сформулированных запросов оказалось больше. Результаты сравнения представлены в таблице ниже.
Таблица 7. Количество запросов из разных корпусов, разделённых по типам
Корпус |
Количество шаблонных запросов |
Количество "точных" запросов |
|
Leeds |
3 057 |
7 910 |
|
НКРЯ |
373 854 |
518 236 |
|
ГИКРЯ |
172 |
1 748 |
|
Албанский корпус |
1 363 |
472 |
|
Бесермянский корпус |
85 |
8 |
|
Бурятский корпус |
96 |
202 |
|
Калмыцкий корпус |
1 574 |
108 |
|
Осетинский корпус |
70 |
98 |
|
Цыганский корпус |
117 |
2 |
|
КРЛЯ |
0 |
738 |
|
Всего |
380 388 |
529 522 |
Как можно заметить, "точных" запросов в общей сложности действительно больше, чем шаблонных запросов. Скорее всего, количество запросов, заданных шаблонным способом, связано с тем, как устроен пользовательский интерфейс поисковых систем. Так, корпуса Leeds и КРЛЯ предлагают пользователям использовать специальный синтаксис запросов, представленный в отдельном файле, в то время как НКРЯ, корпуса с платформы webсorpora.net и ГИКРЯ предлагают специальный интерфейс, в котором пользователь может просто выбрать необходимые морфологические характеристики, которые впоследствии будут обработаны системой уже с нужным синтаксисом. Таким образом, получается, что теория, выдвинутая в (Smarr, Grow 2002), о том, что установленный язык запросов более удобен для пользователей, чем специальный интерфейс для указания морфологических свойств слов, оказывается не столь однозначна и может быть опровержима сравнением настоящих логов корпуса.
Что же касается сложности запросов, практика показала, что пользователи склонны задавать запросы с одной морфологической меткой гораздо чаще, чем с несколькими. Так, в НКРЯ запросы, включающие в себя один морфологический шаблон, задали 342 882 раза за всё время, а запросы с двумя и более шаблонами - 30 972 раза. В корпусе Leeds запросы с одним шаблоном задавали 2 648 раз, при наличии всего 203 запросах с двумя и более морфологическими шаблонами.
Все программы, использованные в ходе статистического исследования, были написаны автором проекта на языке программирования Python с использованием различных общедоступных модулей и являются практически универсальными для обработки логов упомянутых корпусов.
Заключение
Итак, подведём итоги проделанной работы и рассмотрим, какие из поставленных целей в результате оказались достигнуты. Сразу стоит отметить, что проведённое сравнительное исследование логов основных крупных русскоязычных корпусов является актуальным, так как ранее подобных сравнений не делалось. Некоторые учёные выдвигали различные гипотезы, касающиеся поведения пользователей во время поисковой сессии, однако, никак не подтверждали их в своих работах на реальных материалах. При этом корпуса, участвовавшие в настоящем исследовании, значительно различаются по объёму и специфике текстов, а также по аудитории пользователей, что позволило сделать исследование более репрезентативным.
Обращаясь к целям искомой работы, в первую очередь стоит уделить внимание теоретическому обзору основных поисковых систем, как лингвистических, так и обычных, за последние 20 лет с акцентом на методах ускорения поискового процесса. В рамках этого обзора особое внимание также уделено разным мнениям о том, в чём должна заключаться "лингвистичность" поиска и какие именно доработки обыкновенного поиска нужны лингвистам. Подобного подробного сравнительного исследования всех типов лингвистических поисковых систем, насколько известно, ранее не было, что также увеличивает актуальность проделанной работы.
Далее перейдём к статистическому исследованию, проведённому на материалах 4 крупнейших русскоязычных корпусов, а также разноязычных корпусов с платформы webcorpora.net. В начале исследования были выдвинуты две гипотезы, связанные с доработками принципа хранения данных: одна гипотеза была связана с кэшированием данных на время одной поисковой сессии, а вторая - с отдельным хранением индексов по особо частотным морфологическим шаблонам. Первая гипотеза подтвердилась на большинстве данных, так как в каждом из корпусов нашлось немало случаев длительных поисковых сессий с повторяющимися запросами. Учитывая то, что количество повторно заданных запросов составляло в среднем 15% от общего числа запросов сессии, кратковременное кэширование данных позволило бы уменьшить общее время поисковой сессии на 15%. Мы предлагаем сохранять кэшированные данные в течение 5-6 часов после окончания поисковой сессии, так как примерно в 30% случаев пользователь воспроизводит сессию повторно в течение этого периода времени. Вторая гипотеза была ориентирована на отдельное индексирование морфологических шаблонов, чаще всего встречающихся в запросах пользователей. Эта гипотеза основана на идее, высказанной в работе (Аброскин 2009), и заключается в том, что некоторые распространённые морфологические шаблоны будут частотнее других. В итоге гипотезу удалось подтвердить на материалах НКРЯ и Leeds. Наиболее частотными оказались простые, не распространённые шаблоны частей речи - глагола, существительного и прилагательного. Опираясь на то, что каждый из этих шаблонов запрашивался пользователями в среднем 10% от общего числа запросов, можно считать, что отдельное индексирование данных по этим шаблонам сможет ускорить поиск. Помимо этих основных шаблонов, были обнаружены менее частотные шаблоны - "глагол прошедшего времени" и "существительное именительного/родительного/винительного падежа". В сравнении с упомянутыми ранее простыми шаблонами, эти запрашивались пользователями значительно реже, но при этом были гораздо частотнее всех прочих составных шаблонов. Можно предположить, что при возможности обработать больший объём данных можно получить результаты с более значимой частотностью этих шаблонов. Пока же предлагается индексировать эти шаблоны так же, как и обычные простые, с тем, чтобы ускорить поиск, пусть и незначительно.
Наконец, в рамках статистического исследования был проведён сравнительный анализ различных типов запросов пользователей ("точный" и шаблонный тип запросов, простые и составные запросы). Проведённый анализ позволяет выяснить, какие запросы удобнее для пользователей, что впоследствии может помочь в общем улучшении поисковой системы.
Таким образом, можно сказать, что данная работа справилась со всеми поставленными целями, как теоретическими, так и практическими.
Говоря о возможных перспективах развития проекта, можно, во-первых, провести более масштабное исследование, основанное на данных корпусов за более обширный период времени. Это позволило бы сделать картину запросов более разнообразной и более полной. Во-вторых, большую актуальность представляют доработки существующих библиотек полнотекстового поиска. Так, например, не во всех упомянутых библиотеках реализован поиск слов на некотором расстоянии друг от друга (например, "иметь {2 words} жизни", где 2 слова в фигурных скобках могут быть абсолютно любыми). Наконец, ещё одним путём развития проекта может стать масштабное исследование предпочтений пользователей касательно способа формулирования сложных составных запросов. Как было отмечено выше, некоторые пользователи предпочитают специальный язык запросов, а другим удобнее задавать сложные запросы через специальный интерфейс. Исследование этого вопроса может позволить сделать поисковую систему более удобной для пользователей, а, значит, и более качественной.
Список литературы
1. Аброскин 2009 - А.А. Аброскин. Поиск по корпусу: проблемы и методы их решения // Национальный корпус русского языка: 2006-2008. Новые результаты и перспективы. СПб.: Нестор-История, 2009, 277-282.
2. Гришина, Плунгян 2005 - Гришина Е.А., Плунгян В.А. Перспективы развития Национального корпуса русского языка // Национальный корпус русского языка: 2003-2005. М.: Индрик, 2005, 330-339.
3. Поляков 2005 - Поляков А.Е. Технология подготовки информации в Национальном корпусе русского языка // Национальный корпус русского языка: 2003-2005. Результаты и перспективы. - М., 2005, 175-192.
4. Baroni, Kilgarriff 2006 - Marco Baroni, Adam Kilgarriff, Large linguistically-processed web corpora for multiple languages, Proceedings of the Eleventh Conference of the European Chapter of the Association for Computational Linguistics: Posters & Demonstrations, April 05-06, 2006, Trento, Italy
5. Brin, Page 1998 - Brin, S. and Page, L. (1998) The Anatomy of a Large-Scale Hypertextual Web Search Engine. In: Seventh International World-Wide Web Conference (WWW 1998), April 14-18, 1998, Brisbane, Australia.
6. The British National Corpus, version 3 (BNC XML Edition). 2007. Distributed by Oxford University Computing Services on behalf of the BNC Consortium. URL: http://www.natcorp. ox. ac. uk/
7. Evert 2001 - Evert, S. (2001) CQP Query Language Tutorial. Institut fьr Maschinelle Sprachverarbeitung, Universitдt Stuttgart
8. Grishina 2007 - Grishina, E. Text Navigators in Spoken Russian. / Proceedings of the workshop “Representation of Semantic Structure of Spoken Speech” (CAEPIA'2007, Spain, 2007, 12-16.11.07, Salamanca), Salamanca, 2007
9. Kilgarriff 2003 - Kilgarriff, A. Linguistic Search Engine. In K. Simov and P. Osenova (eds.), Proceedings of the Workshop on Shallow Processing of Large Corpora (SProLaC 2003), 27 March 2003, held in conjunction with the Corpus Linguistics 2003 conference, (University Centre for Computer Corpus Research on Language Technical Papers). Lancaster: UCREL, Computing Department, Lancaster University.
10. KWiCFinder 2002 - KWiCFinder. (2002). http://miniappolis.com /KWiCFinder/KWiCFinderHome.html
11. Levene 2011 - Levene, M. An Introduction to Search Engines and Web Navigation. 2011
12. Renouf et al. 2005 - Renouf, A., A. Kehoe & J. Banerjee The WebCorp Search Engine: a holistic approach to Web text Search, in Electronic Proceedings of CL2005, University of Birmingham, 2005
13. Sharoff 2005 - Sharoff, S. Methods and tools for development of the Russian Reference Corpus. In D. Archer, A. Wilson, P. Rayson (eds.) Corpus Linguistics Around the World. Amsterdam: Rodopi, pages 167-180, 2005.
14. Smarr, Grow 2002 - Smarr, J. and Grow, T. (2002), 'GoogleLing: The Web as a linguistic corpus'.
15. Lьdeling, Anke, Evert, Stefan, and Baroni, Marco (2007). Using Web data for linguistic purposes. In M. Hundt, N. Nesselhauf, and C. Biewer, editors, Corpus Linguistics and the Web, volume 59 of Language and Computers - Studies in Practical Linguistics, pages 7-24. Rodopi, Amsterdam, New York.
Приложение
15: 15: 47 2015 ticks 2, Searching: RNC2010-MOCKY for: [lemma="выйти"] [word="из-под"] cut 100 |
|
15: 15: 50 2015 ticks 0, Searching: RNC2010-MOCKY for: MU (meet (meet [lemma='выйти'] [word='из-под'] - 0 1) [lemma='контроль'] - 0 2) cut 10 |
|
15: 15: 51 2015 ticks 1, Searching: RNC2010-MOCKY for: MU (meet [lemma='выйти'] [word='к'] - 0 1) |
|
15: 16: 01 2015 ticks 0, Searching: RNC2010-MOCKY for: MU (meet (meet [lemma='выйти'] [word='за'] - 0 1) [lemma='предел'] - 0 2) cut 10 |
|
15: 16: 06 2015 ticks 0, Searching: RNC2010-MOCKY for: MU (meet (meet [lemma='выйти'] [word='к'] - 0 1) [lemma='река'] - 0 2) cut 10 |
|
15: 16: 13 2015 ticks 0, Searching: RNC2010-MOCKY for: MU (meet (meet [lemma='выйти'] [word='за'] - 0 1) [lemma='рамка'] - 0 2) cut 10 |
|
15: 16: 19 2015 ticks 0, Searching: RNC2010-MOCKY for: MU (meet (meet [lemma='выйти'] [word='к'] - 0 1) [lemma='гость'] - 0 2) cut 10 |
|
15: 16: 24 2015 ticks 0, Searching: RNC2010-MOCKY for: MU (meet (meet [word="выйти"] [word="из"] - 0 1) [word="под"] - 1 2) cut 10 |
|
15: 16: 31 2015 ticks 23, Searching: RUWAC for: [lemma='выйти'] [lemma='из-под'] |
|
15: 16: 43 2015 ticks 1, Searching: RNC2010-MOCKY for: MU (meet (meet [lemma='выйти'] [word='к'] - 0 1) [lemma='озеро'] - 0 2) cut 10 |
|
15: 16: 47 2015 ticks 0, Searching: RNC2010-MOCKY for: MU (meet [lemma="выйти"] [word="к"] - 0 1) cut 10 |
|
15: 16: 48 2015 ticks 1, Searching: RNC2010-MOCKY for: [lemma="выйти"] [word="к"] cut 100 |
|
15: 16: 59 2015 ticks 0, Searching: RNC2010-MOCKY for: MU (meet [lemma='выйти'] [word='за'] - 0 1) |
|
15: 17: 03 2015 ticks 0, Searching: RNC2010-MOCKY for: [word="выйти"] [word="из"] [word="под"] [pos="N. *"] cut 10 |
|
15: 17: 04 2015 ticks 1, Searching: RUWAC for: MU (meet (meet [lemma='выйти'] [lemma='из-под'] - 0 1) [lemma='кисть'] - 0 2) cut 10 |
|
15: 17: 06 2015 ticks 0, Searching: RNC2010-MOCKY for: MU (meet (meet [lemma='выйти'] [word='за'] - 0 1) [lemma='ворота'] - 0 2) cut 10 |
|
15: 17: 07 2015 ticks 0, Searching: RUWAC for: MU (meet (meet [lemma='выйти'] [lemma='из-под'] - 0 1) [lemma='нав¬веса'] - 0 2) cut 10 |
|
15: 17: 08 2015 ticks 0, Searching: RUWAC for: MU (meet (meet [lemma='выйти'] [lemma='из-под'] - 0 1) [lemma='нав¬веса'] - 0 2) cut 10 |
|
15: 17: 16 2015 ticks 0, Searching: RNC2010-MOCKY for: MU (meet (meet [lemma='выйти'] [word='из-под'] - 0 1) [lemma='перо'] - 0 2) cut 10 |
|
15: 17: 17 2015 ticks 0, Searching: RNC2010-MOCKY for: MU (meet (meet [lemma='выйти'] [word='за'] - 0 1) [lemma='дверь'] - 0 2) cut 10 |
|
15: 17: 18 2015 ticks 1, Searching: RUWAC for: MU (meet (meet [lemma='выйти'] [lemma='из-под'] - 0 1) [lemma='перо'] - 0 2) cut 10 |
|
15: 17: 40 2015 ticks 1, Searching: RNC2010-MOCKY for: MU (meet [lemma='выйти'] [word='из-под'] - 0 1) |
|
15: 17: 48 2015 ticks 0, Searching: RNC2010-MOCKY for: MU (meet (meet [lemma='выйти'] [word='из-под'] - 0 1) [lemma='перо'] - 0 2) cut 10 |
|
15: 17: 48 2015 ticks 0, Searching: RNC2010-MOCKY for: MU (meet (meet [lemma='выйти'] [word='из-под'] - 0 1) [lemma='перо'] - 0 2) cut 10 |
|
15: 18: 03 2015 ticks 1, Searching: RNC2010-MOCKY for: [lemma="выйти"] [word="на"] cut 100 |
|
15: 18: 19 2015 ticks 0, Searching: RNC2010-MOCKY for: MU (meet [lemma="выйти"] [word="из-под"] - 0 1) cut 10 |
|
15: 18: 26 2015 ticks 1, Searching: RNC2010-MOCKY for: MU (meet [lemma='выйти'] [word='на'] - 0 1) |
|
15: 18: 26 2015 ticks 1, Searching: RNC2010-MOCKY for: MU (meet [lemma='выйти'] [word='на'] - 0 1) |
|
15: 18: 29 2015 ticks 0, Searching: RNC2010-MOCKY for: [word="выйти"] [word="из"] [word="за"] [pos="N. g. *"] |
|
15: 18: 31 2015 ticks 0, Searching: RNC2010-MOCKY for: MU (meet (meet [lemma='выйти'] [word='на'] - 0 1) [lemma='улица'] - 0 2) cut 10 |
|
15: 18: 31 2015 ticks 0, Searching: RNC2010-MOCKY for: MU (meet (meet [lemma='выйти'] [word='на'] - 0 1) [lemma='улица'] - 0 2) cut 10 |
|
15: 18: 35 2015 ticks 1, Searching: RNC2010-MOCKY for: MU (meet [word="выйти"] [word="на"] - 0 1) cut 10 |
|
15: 18: 41 2015 ticks 0, Searching: RNC2010-MOCKY for: MU (meet [lemma="выйти"] [word="на"] - 0 1) cut 10 |
|
15: 18: 44 2015 ticks 1, Searching: RNC2010-MOCKY for: MU (meet [lemma='выйти'] [word='на'] - 0 1) |
|
15: 18: 45 2015 ticks 1, Searching: RNC2010-MOCKY for: MU (meet [word="выйти"] [word="на"] - 0 1) cut 10 |
|
15: 18: 49 2015 ticks 1, Searching: RNC2010-MOCKY for: MU (meet [lemma='выйти'] [word='на'] - 0 1) |
|
15: 18: 54 2015 ticks 1, Searching: RNC2010-MOCKY for: MU (meet (meet [lemma='выйти'] [word='на'] - 0 1) [lemma='улица'] - 0 2) cut 10 |
|
15: 18: 58 2015 ticks 1, Searching: RNC2010-MOCKY for: MU (meet [lemma='выйти'] [word='на'] - 0 1) |
|
15: 19: 03 2015 ticks 1, Searching: RNC2010-MOCKY for: [word="выйти"] [word="на"] cut 10 |
|
15: 19: 09 2015 ticks 0, Searching: RNC2010-MOCKY for: MU (meet (meet [lemma='выйти'] [word='на'] - 0 1) [lemma='балкон'] - 0 2) cut 10 |
|
15: 19: 10 2015 ticks 0, Searching: RNC2010-MOCKY for: MU (meet (meet [lemma='выйти'] [word='на'] - 0 1) [lemma='сцена'] - 0 2) cut 10 |
|
15: 19: 20 2015 ticks 1, Searching: RNC2010-MOCKY for: MU (meet [lemma='выйти'] [word='на'] - 0 1) |
|
15: 19: 26 2015 ticks 0, Searching: RNC2010-MOCKY for: MU (meet (meet [lemma='выйти'] [word='на'] - 0 1) [lemma='работа'] - 0 2) cut 10 |
|
15: 19: 30 2015 ticks 2, Searching: RNC2010-MOCKY for: MU (meet [lemma='выйти'] [word='из'] - 0 1) |
|
15: 19: 30 2015 ticks 47, Searching: RUWAC for: [lemma='выйти'] [word='на'] |
|
15: 19: 40 2015 ticks 0, Searching: RNC2010-MOCKY for: MU (meet (meet [lemma='выйти'] [word='из'] - 0 1) [lemma='машина'] - 0 2) cut 10 |
|
15: 19: 52 2015 ticks 0, Searching: RNC2010-MOCKY for: MU (meet (meet [lemma='выйти'] [word='из'] - 0 1) [lemma='мода'] - 0 2) cut 10 |
|
15: 19: 57 2015 ticks 5, Searching: RUWAC for: MU (meet (meet [lemma='выйти'] [word='на'] - 0 1) [lemma='свобода'] - 0 2) cut 10 |
|
15: 20: 39 2015 ticks 0, Searching: RNC2010-MOCKY for: MU (meet [lemma="выйти"] [word="за"] - 0 1) cut 10 |
|
15: 20: 42 2015 ticks 0, Searching: RNC2010-MOCKY for: [word="выйти"] [word="на"] cut 10 |
|
15: 20: 43 2015 ticks 1, Searching: RNC2010-MOCKY for: MU (meet [lemma='выйти'] [word='на'] - 0 1) |
|
15: 20: 45 2015 ticks 0, Searching: RNC2010-MOCKY for: MU (meet (meet [lemma='выйти'] [word='на'] - 0 1) [lemma='экран'] - 0 2) cut 10 |
|
15: 20: 50 2015 ticks 0, Searching: RNC2010-MOCKY for: MU (meet [word="выйти"] [word="за"] - 0 1) cut 10 |
|
15: 21: 03 2015 ticks 17, Searching: RUWAC for: [lemma='выйти'] [lemma='на'] |
|
15: 21: 14 2015 ticks 4, Searching: RUWAC for: MU (meet (meet [lemma='выйти'] [word='на'] - 0 1) [lemma='берег'] - 0 2) cut 10 |
|
15: 21: 14 2015 ticks 4, Searching: RUWAC for: MU (meet (meet [lemma='выйти'] [lemma='на'] - 0 1) [lemma='сцена'] - 0 2) cut 10 |
|
15: 21: 16 2015 ticks 0, Searching: RNC2010-MOCKY for: MU (meet [lemma='выйти'] [word='из'] - 0 1) |
|
15: 21: 23 2015 ticks 0, Searching: RNC2010-MOCKY for: MU (meet [lemma='выйти'] [word='из-за'] - 0 1) |
|
15: 21: 33 2015 ticks 1, Searching: RNC2010-MOCKY for: MU (meet [lemma='выйти'] [word='за'] - 0 1) |
|
15: 21: 55 2015 ticks 0, Searching: RNC2010-MOCKY for: MU (meet [lemma='пройти'] [word='к'] - 0 1) |
|
15: 22: 00 2015 ticks 1, Searching: RNC2010-MOCKY for: MU (meet (meet [lemma='выйти'] [word='за'] - 0 1) [lemma='рамка'] - 0 2) cut 10 |
|
15: 22: 00 2015 ticks 0, Searching: RNC2010-MOCKY for: MU (meet (meet [lemma='пройти'] [word='к'] - 0 1) [lemma='стол'] - 0 2) cut 10 |
|
15: 22: 05 2015 ticks 1, Searching: RNC2010-MOCKY for: [lemma="выйти"] [word="за"] cut 100 |
|
15: 22: 08 2015 ticks 1, Searching: RNC2010-MOCKY for: MU (meet [lemma='выйти'] [word='за'] - 0 1) |
|
15: 22: 12 2015 ticks 0, Searching: RNC2010-MOCKY for: MU (meet [lemma='пройти'] [word='через'] - 0 1) |
|
15: 22: 18 2015 ticks 0, Searching: RNC2010-MOCKY for: MU (meet [lemma="выйти"] [word="на"] - 0 1) cut 10 |
|
15: 22: 21 2015 ticks 1, Searching: RNC2010-MOCKY for: MU (meet (meet [lemma='пройти'] [word='через'] - 0 1) [lemma='весь'] - 0 2) cut 10 |
|
15: 22: 32 2015 ticks 0, Searching: RNC2010-MOCKY for: MU (meet [word="пройти"] [word="через"] - 0 1) cut 10 |
|
15: 22: 33 2015 ticks 1, Searching: RNC2010-MOCKY for: MU (meet (meet [lemma='пройти'] [word='через'] - 0 1) [lemma='горнило'] - 0 2) cut 10 |
|
15: 22: 34 2015 ticks 2, Searching: RNC2010-MOCKY for: [lemma='выйти'] [word='из'] |
|
15: 22: 41 2015 ticks 1, Searching: RNC2010-MOCKY for: MU (meet [lemma='выйти'] [word='за'] - 0 1) |
|
15: 22: 44 2015 ticks 0, Searching: RNC2010-MOCKY for: MU (meet (meet [lemma='выйти'] [word='за'] - 0 1) [lemma='граница'] - 0 2) cut 10 |
|
15: 22: 50 2015 ticks 0, Searching: RNC2010-MOCKY for: MU (meet [lemma='пройти'] [word='мимо'] - 0 1) |
|
15: 22: 53 2015 ticks 0, Searching: RNC2010-MOCKY for: MU (meet (meet [lemma='выйти'] [word='из'] - 0 1) [lemma='кабинет'] - 0 2) cut 10 |
|
15: 22: 58 2015 ticks 0, Searching: RNC2010-MOCKY for: MU (meet (meet [lemma='выйти'] [word='на'] - 0 1) [lemma='старт'] - 0 2) cut 10 |
|
15: 23: 13 2015 ticks 1, Searching: RNC2010-MOCKY for: [lemma='выйти'] [word='на'] |
|
15: 23: 18 2015 ticks 0, Searching: RNC2010-MOCKY for: MU (meet (meet [lemma='выйти'] [word='на'] - 0 1) [lemma='улица'] - 0 2) cut 10 |
|
15: 23: 38 2015 ticks 0, Searching: RNC2010-MOCKY for: MU (meet (meet [lemma='пройти'] [word='мимо'] - 0 1) [lemma='внимание'] - 0 2) cut 10 |
|
15: 23: 52 2015 ticks 1, Searching: RNC2010-MOCKY for: MU (meet (meet [lemma='пройти'] [word='мимо'] - 0 1) [lemma='дверь'] - 0 2) cut 10 |
|
15: 23: 55 2015 ticks 1, Searching: RNC2010-MOCKY for: MU (meet (meet [lemma='выйти'] [word='на'] - 0 1) [lemma='кухня'] - 0 2) cut 10 |
|
15: 24: 14 2015 ticks 0, Searching: RNC2010-MOCKY for: MU (meet [lemma='выйти'] [word='к'] - 0 1) |
|
15: 24: 19 2015 ticks 0, Searching: RNC2010-MOCKY for: [lemma='выйти'] [word='из-за'] |
|
15: 15: 47 2015 ticks 2, Searching: RNC2010-MOCKY for: [lemma="выйти"] [word="из-под"] cut 100 |
|
15: 15: 50 2015 ticks 0, Searching: RNC2010-MOCKY for: MU (meet (meet [lemma='выйти'] [word='из-под'] - 0 1) [lemma='контроль'] - 0 2) cut 10 |
Размещено на Allbest.ru
...Подобные документы
Описание и классификация современных информационно–поисковых систем. Гипертекстовые документы. Обзор и рейтинги основных мировых поисковых систем. Разработка информационно–поисковой системы, демонстрирующей механизм поиска информации в сети Интернет.
дипломная работа [1,3 M], добавлен 16.06.2015Понятие и классификация поисковых систем, история их развития и структурные элементы. Характеристика существующих моделей поиска, анализ его качества. Особенности обработки запроса поисковой системой, подготовки базы данных и процесса выдачи результатов.
курсовая работа [2,6 M], добавлен 15.04.2014Понятие информационно-поисковых систем, их сущность и особенности, история возникновения и развития, роль на современном этапе. Внутреннее устройство и элементы поисковой системы. Принцип работы поисковой машины Рамблер, прядок обработки запроса.
научная работа [222,0 K], добавлен 29.01.2009История развития поисковых систем, особенности механизма поиска. Сравнительный обзор справочно-поисковых систем Интернета. Понятие поисковых роботов. Наиболее популярные поисковики для русскоязычного пользователя. Перспективы развития поисковых систем.
реферат [64,0 K], добавлен 20.12.2012Характеристика методов поиска информации в Интернете, а именно - с использованием гипертекстовых ссылок, поисковых машин и специальных средств. Анализ новых интернет ресурсов. История возникновения и описание западных и русскоязычных поисковых систем.
реферат [17,2 K], добавлен 12.05.2010Анализ существующих поисковых систем и используемых ими алгоритмов поиска документов. Разработка информационно-поисковой системы словарного типа, способной осуществлять релевантный поиск документов, особенности ее структуры и информационно-поисковой базы.
дипломная работа [942,1 K], добавлен 19.05.2011Организация хранения данных. Система управления базами данных. Поиск информации, обзор существующих поисковых систем. Особенности работы поискового движка. Использование индексов в поисковых системах. Особенности поиска различных видов информации.
курсовая работа [4,6 M], добавлен 14.05.2014Критерии эффективности информационно-поисковых систем: требования потребителя, полнота поиска, затраты труда, факторы, влияющие на характеристики. Ошибки при поиске, обусловленные несовершенством языка, процесса индексирования, поиска, другими причинами.
курсовая работа [77,2 K], добавлен 06.02.2014Основные принципы построения информационно-поисковых систем. Архитектура современных информационно-поисковых систем WWW. Принцип работы поисковых систем. Процесс поиска, информационный язык, перевод, дескриптор, критерий соответствия, индексирование.
курсовая работа [70,2 K], добавлен 10.06.2014Понятие, структура и классификация информационных систем. Информационно поисковые системы. Исторические предпосылки развития поисковых систем. Понятие поисковых систем. Особенности поисковых систем: структура сети, структура работы поисковых систем.
курсовая работа [81,9 K], добавлен 28.03.2005История поисковых систем. Классификация информационных систем по степени автоматизации. Три основных способа поиска информации в Интернете. Отличие поисковых систем от каталогов. Назначение и типы информационных систем государственных учреждений.
курсовая работа [368,5 K], добавлен 13.05.2015Контекстная реклама как основная статья дохода поисковых систем-лидеров. Понятие цены клика. Формирование цены на основе частот запросов (на примере поисковой системы Рамблер). Основные поисковые системы на российском рынке, перспективы их развития.
творческая работа [373,4 K], добавлен 07.04.2009Основные критерии и требования к средствам поиска по ресурсу. Технологии создания инструментов поиска. Способы поиска по ресурсу. Принцип действия поиска по ключевым словам и при помощи поисковых систем. Разработка ресурса "Поиск по ресурсу" в виде блога.
курсовая работа [983,7 K], добавлен 01.02.2015Появление поисковых систем. Применение семантических сетей для анализа текста. Определение релевантности, ранжирование и индексация. Особенности программы Balabolka. Системы анализа речи. Современные особенности поиска. Развитие сервисов поисковых систем.
реферат [3,2 M], добавлен 22.04.2015Понятие информационно-поисковых систем. История возникновения сети Internet. Основные алгоритмы работы современных словарных информационно-поисковых систем. Быстрый поиск в базе данных и быстрое реагирование системы. Ранжирование результатов поиска.
курсовая работа [101,1 K], добавлен 01.06.2012Рассмотрение поисковых систем интернета как программно-аппаратного комплекса с веб-интерфейсом, предоставляющего возможность поиска информации. Виды поисковых систем: Archie, Wandex, Aliweb, WebCrawler, AltaVista, Yahoo!, Google, Яндекс, Bing и Rambler.
реферат [24,3 K], добавлен 10.05.2013Краткая история развития поисковых систем. Обзор мировых и российских поисковых систем: Google, Yahoo, Baidu, Yandex, Rambler, Апорт, Mail.ru. Текстовый процессор Microsoft Word. Табличный редактор Excel. Организация рабочего места оператора ЭВМ.
курсовая работа [66,3 K], добавлен 20.12.2008Понятие и принципы работы, внутренняя структура и элементы, история формирования и развития поисковой системы "Rambler". Исследование и анализ, а также оценка эффективности данной поисковой системы для поиска экономической информации в интернете.
курсовая работа [4,0 M], добавлен 10.05.2015Методы и инструментарий хранения данных во Всемирной сети. Понятие и разновидности гипертекстовых документов и графических файлов. Принципы работы поисковых систем и правила поиска нужной информации. Характеристика некоторых поисковых систем Сети.
курсовая работа [30,9 K], добавлен 18.04.2010Изучение классификации поисковых средств по В.В. Дудихину. Поиск информации с помощью поисковых ресурсов. Формирование запросов. Использование ключевых слов. Индексация документов, размещенных на различных серверах. Зарубежные лидеры поисковых систем.
презентация [775,3 K], добавлен 10.03.2015