К вопросу о разработке методики поиска научной информации с использованием специализированных программных комплексов

Рассмотрение проблемы поиска научной информации в условиях больших объемов данных сети Интернет, содержащих значительное количество шумовой информации. Взаимосвязь между семантическим пространством исследователя и эффективностью поиска научной информации.

Рубрика Программирование, компьютеры и кибернетика
Вид статья
Язык русский
Дата добавления 20.09.2018
Размер файла 115,3 K

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru/

К вопросу о разработке методики поиска научной информации с использованием специализированных программных комплексов

Ахметгалеев Р.Р.

Аннотации

В статье рассматриваются проблемы поиска научной информации в условиях больших объемов данных сети Интернет, содержащих значительное количество шумовой информации. Приведены результаты анализа современных подходов и инструментов поиска научной информации, где изложены их основные недостатки. Особо подчеркивается взаимосвязь между семантическим пространством исследователя и эффективностью поиска научной информации. В контексте указанной взаимосвязи отмечается актуальность вопросов создания подходов по повышению эффективности поиска. В качестве одного из таких подходов предлагается методика поиска, основанная на использовании специализированной системы поиска. Кратко рассматриваются архитектура и принципы работы разрабатываемой системы.

Ключевые слова: системы поиска информации, методы индексации, НИР, релевантность поиска, научная работа.

TO THE QUESTION OF SCIENTIFIC INFORMATION SEARCHING METHOD DEVELOPMENT WITH USAGE OF SPECIALIZED SOFTWARE COMPLEXES

Akhmetgaleev R.R.

Akhmetgaleev Rustam Ramilevich - Graduate Student,

DEPARTMENT OF COMPUTER ENGINEERING, IZHEVSK STATE TECHNICAL UNIVERSITY M.T. KALASHNIKOV, IZHEVSK

Abstract: the article deals with the scientific information searching problems in conditions of large volumes of data, which is containing a considerable amount of noise information and storing in the Internet. The results of the analysis of modern approaches and scientific information searching tools are presented, where their main disadvantages are stated. Particular emphasis is placed on the relationship between the researcher semantic space and the effectiveness of the scientific information search. In the context of this relationship, the relevance of issues of creating approaches for improvement searching effectiveness is noted. As one such approach, a search technique based on the usage of a specialized search system is proposed. Briefly discusses the architecture and working principles of the specialized search system which is under development now. Keywords: information retrieval systems, indexing methods, research, search relevance, scientific work.

В настоящее время быстрое развитие информационных технологий способствует стремительному увеличению объема информации, хранящейся в сети Интернет. Так, например, результаты исследований компании International Data Corporation, ведущей свою деятельность в сфере анализа данных, показывают, что до 2020 года объем информации будет увеличиваться более чем в два раза каждые два года [1]. Кроме того, схожая тенденция лавинообразного роста информации наблюдается и в науке. В своих исследованиях аналитики Л. Борнманн и Р. Мутц делают выводы о том, что невозможно точно подсчитать объемы научной информации, однако можно оценить темп ее увеличения, который составляет около 8-9% в год [2]. Данный показатель эквивалентен удвоению мировых научных результатов примерно каждые девять лет. На графике 1, представленном ниже, отражены темпы роста объема научных трудов.

Рис. 1. Данные по оценке примерного объема научной информации

Значительно увеличивающиеся объемы данных в сети Интернет приводят к тому, что необходимая научная информация теряется в больших массивах неконструктивной, шумовой или дублирующейся информации. Еще одной причиной усложнения поиска научной информации является то, что современные поисковые машины оптимизированы для поиска фактологической и справочной информации. Стоить отметить, что в настоящее время эти задачи решаются на достаточно высоком уровне. Однако возможностей тех же самых поисковых машин недостаточно для качественного поиска научной информации. Это обусловлено, в первую очередь, тем, что исследователь стремится найти научные труды, способствующие достижению его целей, в условиях недостаточно широкого семантического пространства в определенной сфере знаний. Перечисленные факторы заметно снижают эффективность и качество информационного поиска. информация научный семантический

Отличительной особенностью современных информационных поисковых систем (ИПС) является, то что пользователю предоставляется одно поле, куда он мог бы ввести текст своего запроса. В случае с поиском фактологической и справочной информации такой подход в дизайне поисковых систем давно себя зарекомендовал с положительной стороны. При этом точность результатов поиска, во многом зависит от того, насколько полно текст поискового запроса отражен в найденных документах. Однако в случае поиска научной информации более важным является семантическое соответствие найденного текста и запроса, поскольку ключевые слова запроса подбираются в соответствии с целями исследователя и ожидается, что в найденных текстах будет отражена информация необходимая для решения поставленных задач. Помимо этого, во многих поисковых машинах отсутствуют такие функции, как поиск по компонентам научной работы и прочим атрибутам. В настоящее время предпринимаются попытки адаптировать существующие ИПС под специфику поиска научной информации посредством добавления дополнительных критериев поиска. Однако они существенно не повышают эффективность поиска научной информации. В связи с этим развиваются специализированные ИПС, предназначенные для организации эффективного поиска научной информации. Тенденция развития специализированных ИПС подтверждается значительным количеством опубликованных трудов в данной области. Анализируя работы по специализированным ИПС была составлена обобщенная архитектура таких систем, она отображена на рисунке 2. Одним из главных компонент такой системы является модуль индексации. То, насколько точно будут выполнены задачи классификации документов, поиска по ключевым словам и терминам, а также задачи выделения терминов из текста, напрямую зависит от качества реализации модуля индексации и используемых в нем алгоритмов. Несмотря на развитие таких систем, проблемы построения эффективного процесса информационного поиска сохраняются, поскольку исследователь работает в ограниченном семантическом пространстве. При этом недостаточно проработаны механизмы, способные снизить барьеры между семантическим пространством исследователя и массивом информации, в которой происходит поиск. Это также является негативным фактором, снижающим эффективность поиска.

Рис. 2. Обобщенная архитектура систем поиска научной информации

На основе проведенного обзора и анализа специализированных ИПС и методов индексации текста были сделаны следующие выводы о недостатках существующих в современных специализированных системах поиска научной информации:

§ используемые алгоритмы индексации в современных ИПС показывают не очень высокую степень точности в задачах извлечения терминов из текстов;

§ не учитываются особенности поиска научной информации, которые заключаются в том, что поисковый запрос составляется в соответствии с семантическим пространством исследователя. При этом высока вероятность ситуации, когда в хранилище документов может присутствовать необходимая информация, однако она не попадает в результирующую выборку из-за того что семантическое пространство документа и запроса сильно различаются. Это в свою очередь приводит к необходимости тратить дополнительное время на поиск;

§ отсутствуют механизмы поиска по компонентам научных работ.

Для устранения вышеизложенных недостатков предлагается методика проведения поиска научной информации с использованием специализированной ИПС, архитектура которой показана на рисунке 3. В рамках предлагаемой методики лежит итерационный подход по уточнению поисковых запросов.

Рис. 3. Архитектура системы поиска научной информации в рамках предлагаемой методики

Предлагаемая ИПС работает в несколько этапов: предварительный анализ информации, формирующий выборку документов-кандидатов; поиск среди документов-кандидатов. Назначением модуля W2V является генерация терминов, семантически схожих с используемыми в запросе, на основе текстов документов-кандидатов. Это нужно для того, чтобы уменьшить барьер между семантическим пространством исследователя и информацией, в которой производится поиск. Кроме того, дополнительными возможностями системы является поиск по компонентам научных работ (цель, объект, предмет и прочее), таких как диссертации и авторефераты.

Алгоритм работы предлагаемой ИПС:

§ Шаг 1. Предварительный поиск научной информации по заданному запросу, и составление предварительной выборки документов;

§ Шаг 2. Формирование индексной информации для поиска в полученной выборке документов;

§ Шаг 3. Обработка запроса пользователя модулем W2V для формирования набора запросов; ? Шаг 4. Выполнение поиска научной информации в предварительной выборке документов; ? Шаг 5. Выдача результатов.

Если поиск ведется в авторефератах и диссертациях, то есть в тех документах для которых на данный момент в системе имеется объект формально описывающий их структуру, то больший приоритет получают документы, имеющие совпадения с запросом в конструктах.

На текущий момент прорабатываются способы оценки точности результатов выдаваемых предлагаемой ИПС.

Список литературы / References

1. Bornmann L., Mutz R. Growth rates of modern science: A bibliometric analysis based on the number of publications and cited references // Journal of the Association for Information Science and Technology, 2012. № 02.

2. Vesset D. et al. IDC FutureScape: Worldwide Big Data and Analytics, Predictions // [Электронный ресурс]. Режим доступа: www.cloudera.com/ (дата обращения: 20.05.2017).

Размещено на Allbest.ru

...

Подобные документы

  • Средства поиска информации в сети Интернет. Основные требования и методика поиска информации. Структура и характеристика поисковых сервисов. Глобальные поисковые машины WWW (World Wide Web). Планирование поиска и сбора информации в сети Интернет.

    реферат [32,2 K], добавлен 02.11.2010

  • Характеристика методов поиска информации в Интернете, а именно - с использованием гипертекстовых ссылок, поисковых машин и специальных средств. Анализ новых интернет ресурсов. История возникновения и описание западных и русскоязычных поисковых систем.

    реферат [17,2 K], добавлен 12.05.2010

  • Пути поиска и обработки информации в современном мире, оценка преимуществ Всемирной сети в данном процессе. Сайты, распространенные в российском сегменте Интернета, которые наиболее часто используются пользователями для поиска необходимой информации.

    эссе [13,2 K], добавлен 11.10.2014

  • Рост количества информации в мире, его увеличение в сети Интернет в геометрической прогрессии. Количество сайтов, зарегистрированных в поисковой системе Яндекс. Особенности эффективного поиска информации в сети Интернет. Схема информационных потоков.

    презентация [52,6 K], добавлен 27.08.2013

  • Простота поиска информации в системе "Google.ru", его технологии и функции. История термина и его применение. Выбор условий поиска, автоматическое исключение общих слов. Калькулятор и конвертирование валют. Похожие страницы и проверка правописания.

    реферат [19,2 K], добавлен 21.02.2011

  • Особенности поиска информации в Интернет: стратегия и методика. Поисковые машины, каталоги и порталы информационных ресурсов. Подбор и введение ключевых слов. Использование режима "расширенный поиск", который имеет каждая из поисковых систем в Интернете.

    реферат [27,3 K], добавлен 06.08.2014

  • Системный блок как основной блок компьютерной системы. Портативные и карманные компьютеры. Защита информации в ЭВМ. Преимущество криптосистем с двумя ключами. Организация поиска информации в глобальной сети Интернет. Комбинированные системы поиска.

    контрольная работа [21,8 K], добавлен 16.01.2011

  • Интернет и его возможности. Распространенный и недорогой способ подключения к интернет. Схема передачи информации по протоколу TCP/IP. Характеристики адресов разного класса. Поисковые системы, способы поиска и скачивания информации в глобальной сети.

    курсовая работа [245,6 K], добавлен 25.09.2013

  • Сущность и принцип работы глобальной сети Интернет. Поиск информации по параметрам в системе Google. Специализированные системы поиска информации: "КтоТам", "Tagoo", "Truveo", "Kinopoisk", "Улов-Умов". Целесообразное использование поисковых систем.

    презентация [572,6 K], добавлен 16.02.2015

  • Общие принципы организации поиска информации в сети Интернет. Поиск с помощью каталогов информационных ресурсов и с помощью поисковых машин. Правила поиска информации, касающейся учета текущих обязательств и расчетов с покупателями и заказчиками.

    курсовая работа [35,0 K], добавлен 09.11.2010

  • Методы и инструментарий хранения данных во Всемирной сети. Понятие и разновидности гипертекстовых документов и графических файлов. Принципы работы поисковых систем и правила поиска нужной информации. Характеристика некоторых поисковых систем Сети.

    курсовая работа [30,9 K], добавлен 18.04.2010

  • Хранение данных в сети Internet. Гипертекстовые документы, виды файлов. Графические файлы, их виды и особенности. Поисковые системы и правила поиска информации. Обзор поисковых систем сети Internet. Все о поисковых системах Yandex, Google, Rambler.

    курсовая работа [918,3 K], добавлен 26.03.2011

  • Организация поиска информации по заданной теме в сети Интернет. Поиск с помощью поисковых машин. Преимущества и недостатки метода поиска по ключевому слову (фразе). Поиск в каталогах информационных ресурсов. Преимущества и недостатки предметных каталогов.

    курсовая работа [47,5 K], добавлен 03.11.2010

  • Библиографический поиск в сети Интернет, его принципы и используемые методы. Приемы патентного поиска научно-практических разработок по теме своей научной работы, составление соответствующего отчета. Инженерное творчество в подготовке специалистов.

    практическая работа [33,9 K], добавлен 14.04.2014

  • Понятие глобальной компьютерной сети "Интернет". Основы классификации ее информационных ресурсов. Виды информации, хранимой в Интернете и профессиональных базах. Вопросы эффективности и технологии поиска информации в Интернете и профессиональных базах.

    реферат [26,1 K], добавлен 22.06.2011

  • Информационная революция, которую сейчас переживает общество. Проведение структурного анализа документов. Поиск аналоговой информации в системных областях. Поиск информации через сеть интернет. Виды поисковых ресурсов: каталоги и поисковые роботы.

    курсовая работа [58,6 K], добавлен 16.12.2012

  • Теоретические основы Интернет-технологий и основных служб сети Интернет. Ознакомление с возможностями подключения к сети Интернет. Основные службы сети. Принципы поиска информации в WWW. Обзор современных Интернет браузеров. Программы для общения в сети.

    курсовая работа [385,2 K], добавлен 18.06.2010

  • Автоматизированная обработка информации: понятия и технология. Организация размещения, обработки, поиска, хранения и передачи информации. Защита информации от несанкционированного доступа. Антивирусные средства защиты информации. Сетевые технологии.

    методичка [28,8 K], добавлен 14.01.2009

  • Понятие и принципы работы, внутренняя структура и элементы, история формирования и развития поисковой системы "Rambler". Исследование и анализ, а также оценка эффективности данной поисковой системы для поиска экономической информации в интернете.

    курсовая работа [4,0 M], добавлен 10.05.2015

  • Теоретические сведения об алгоритмах поиска подстроки в строке. Глобализация информации в сети Internet. Интеллектуальный поиск. Алгоритм последовательного (прямого) поиска, Рабина и их применение. Анализ алгоритмов. Реализация программного кода.

    курсовая работа [230,8 K], добавлен 12.02.2009

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.