Алгоритм построения списка библиографических описаний из систем цитирования в условиях неполной определённости

Разработка алгоритма для построения агрегированного списка библиографических описаний из систем цитирования. Анализ сходства публикаций, представленных в системах цитирования Ринц и Scopus. Особенности выявления одинаковых публикаций в системах.

Рубрика Программирование, компьютеры и кибернетика
Вид дипломная работа
Язык русский
Дата добавления 02.04.2019
Размер файла 129,7 K

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru/

ФГБОУ ВО "Оренбургский государственный университет"

Алгоритм построения списка библиографических описаний из систем цитирования в условиях неполной определённости

Болдырев П.А., Крылов И.Б., Блинов В.Д.

Основное содержание работы

На сегодняшний день существует ряд систем цитирования, которые позволяют конечному пользователю осуществлять поиск научных и учебных изданий авторов. К наиболее популярным в России зарубежным системам цитирования можно отнести Web of Science [1] и Scopus [2], к российским - российский индекс научного цитирования (РИНЦ) [3]. В большинстве случаев результаты поиска представлены в плохо структурированном виде - в виде строк с библиографическим описанием. Помимо этого в различных системах цитирования библиографические описания могут быть сформированы по различным алгоритмам, либо с ошибками в описании. По этим причинам возникают проблемы при построении агрегированного списка библиографических описаний из различных систем цитирования [4, 5].

Целью данной работы является разработка алгоритма для построения агрегированного списка библиографических описаний из систем цитирования.

Задача по построению агрегированного списка библиографических описаний предполагает анализ сходства публикаций, представленных в системах цитирования РИНЦ и SCOPUS. В связи с этим для выявления одинаковых публикаций необходимо использовать специализированные алгоритмы нечёткого сравнения текстов.

Обзор алгоритмов нечёткого сравнения текстов представлен в таблице 1.

Таблица 1 - Обзор алгоритмов нечёткого сравнения текстов

Наименование алгоритма

Назначение

Саундэкс

Поиск английских слов с орфографическими ошибками.

Дэйч-Мокотофф

Поиск европейских фамилий, написанных по-разному.

NYSIIS

Поиск иностранных слов с ошибками.

Метафон, Двойной метафон

Поиск английских слов с ошибками.

Каверфон 2.0

Поиск английских слов с орфографическими ошибками.

Левенштейн

Поиск орфографических и пунктуационных ошибок.

Биграмм, n-грамм

Поиск орфографических ошибок, анализ редактированного текста, опечаток.

Ратклифф

Анализ редактированного текста.

Джаро-Винклер

Поиск орфографических ошибок.

Алгоритм шинглов

Поиск схожих веб-документов.

В результате для дальнейшего рассмотрения, опираясь на широкий универсальность использования, были выбраны алгоритмы биграмм (n-грамм), Левенштейна и шинглов.

Обобщённая блок-схема алгоритма биграмм (n-грамм) представлена на рисунке 2.

Рисунок 2 - Обобщённая блок-схема алгоритма биграмм (n-грамм)

Биграммное сходство между двумя строками определяется числом совпадающих символьных дуплетов в обоих строках. Алгоритм можно обобщить на n-граммы. Две строки разделяются на биграммы. Окончательно, сходство вычисляется по формуле:

, (1)

где m - число совпадающих биграмм, a - число биграмм в первой строке b - число биграмм во второй строке.

Обобщённая блок-схема алгоритма Левенштейна представлена на рисунке 3.

Рисунок 3 - Обобщённая блок-схема алгоритма Левенштейна

Дистанция редактирования Левенштейна между двумя строками определяется как минимальное число вставок, замен и удалений символов, которые необходимы для того, чтобы преобразовать первую строку во вторую. Дистанция ноль означает, что строки идентичны.

Обобщённая блок-схема алгоритма шинглов представлена на рисунке 4.

агрегированный список цитирование одинаковая публикация

Рисунок 4 - Обобщённая блок-схема алгоритма шинглов

Алгоритм шинглов [6] - алгоритм, разработанный для поиска копий и дубликатов рассматриваемого текста в веб-документе. В качестве длины шинглов выбрана длина в 2 слова. Для оценки качества работы алгоритма, реализованного для построения агрегированного списка библиографических описаний на основе рассмотренных алгоритмов нечёткого сравнения строк, необходимо определить критерий оценки качества. Обзор основных критериев представлен в таблице 2.

Таблица 2 - Обзор основных критериев

Наименование критерия

Формула расчёта

Точность

Полнота

F-мера

Предсказанная

частота положительных результатов

Критерий "точность" показывает отношение истинно-положительных результатов к общему количеству положительных результатов. Критерий "полнота" показывает отношение истинно-положительных результатов к общему количеству истинных результатов. Критерий "F-мера" представляет собой среднее гармоническое по критериям "точность" и "полнота". Критерий "предсказанная частота положительных результатов" показывает отношение количества положительных предсказаний к общему количеству объектов. Данный показатель мало говорит о качестве классификации, но несёт информацию о том, как классификатор оценивает распределение по классам.

Наиболее подходящим критерием для задачи построения агрегированного списка публикаций является критерий "F-мера", поскольку учитывает одновременно "точность" и "полноту".

В данном случае точность рассчитывается, как частное от числа истинно добавленных библиографических описаний в агрегированный список к общему числу добавленных библиографических описаний. Полнота рассчитывается, как частное от числа истинно добавленных библиографических описаний в агрегированный список к общему числу истинных библиографических описаний, которые могли быть добавлены или не добавлены в агрегированный список публикаций.

Результаты настройки параметров алгоритмов на обучающей выборке представлены в таблице 3.

Таблица 3 - Результаты настройки параметров алгоритмов

Алгоритм

Настраиваемый параметр

Значение параметра

Левенштейна

Расстояние Левенштейна

4

N-грамм (биграмм)

Процент совпавших биграмм

83

Шинглов

Процент совпавших

хэш-функций

80

В качестве тестовой выборки использован список публикаций одного из авторов Оренбургского государственного университета, имеющего достаточное количество публикаций как в системе цитирования РИНЦ, так и в SCOPUS (46 - в SCOPUS, 175 - в РИНЦ). Помимо F-меры учитывалось время работы алгоритма.

Результаты работы алгоритмов биграмм, Левенштейна и шинглов при построении агрегированного списка библиографических описаний представлены в таблицах 4, 5, 6.

Таблица 4 - Результат работы алгоритма биграмм

Предсказано "+"

Предсказано "-"

Всего

Фактически "+"

144

11

155

Фактически "-"

0

66

66

Всего

144

77

221

Таблица 5 - Результат работы алгоритма Левенштейна

Предсказано "+"

Предсказано "-"

Всего

Фактически "+"

155

0

155

Фактически "-"

1

65

66

Всего

156

65

221

Таблица 6 - Результат работы алгоритма шинглов

Предсказано "+"

Предсказано "-"

Всего

Фактически "+"

155

0

155

Фактически "-"

2

64

66

Всего

157

64

221

Результаты расчёта критериев представлены в таблице 7.

Таблица 7 - Результаты расчёта критериев

Точность

Полнота

F-мера

Время

работы, с

Алгоритм n-грамм

1

0,9290

0,9632

8

Алгоритм Левенштейна

0,9935

1

0,9967

20

Алгоритм шинглов

0,9872

1

0,9935

2

В результате, для построения агрегированного списка библиографических описаний выбран алгоритм шинглов. Разработанный алгоритм показал высокую скорость работы и приемлемую точность построения списка библиографических описаний.

Список литературы

1. Web of Science [Электронный ресурс]: поисковая платформа. - Электрон. дан. - Режим доступа: http://isiknowledge.com. - Загл. с экрана. - 25.12.2018.

2. Scopus [Электронный ресурс]: библиографическая и реферативная база данных. - Электрон. дан. - Режим доступа: http://www.scopus.com/. - Загл. с экрана. - 25.12.2018.

3. Научная электронная библиотека eLIBARAR.ru [Электронный ресурс]: научная электронная библиотека. - Электрон. дан. - Москва: 2000. - Режим доступа: http://elibrary.ru. - Загл. с экрана. - 25.12.2018.

4. Болдырев, П.А. Разработка агрегирующей системы анализа публикационной активности учёных на основе международных и российской систем цитирования в условиях ограниченного доступа / П.А. Болдырев, И.Б. Крылов // Всероссийская научно-методическая конференция "Университетский комплекс как региональный центр образования, науки и культуры". - Оренбург, 2016. - С.2602-2608.

5. Болдырев, П.А. Обзор программных средств в области анализа публикационной активности учёных [Электронный ресурс] / П.А. Болдырев, И.Б. Крылов // XXIII студенческая международная заочная научно-практической конференция "Молодёжный научный форум: технические и математические науки". - Москва, 2015. - Режим доступа: http://nauchforum.ru/ru/node/6914. - Загл. с экрана (дата обращения: 25.12.2018).

6. Зеленков, Ю.Г. Сравнительный анализ методов определения нечетких дубликатов для Web-документов / Ю.Г. Зеленков, И.В. Сегалович // Труды 9-ой Всероссийской научной конференции "Электронные библиотеки: перспективные методы и технологии, электронные коллекции" - RCDL'2007, Переславль-Залесский, Россия, 2007.

Размещено на Allbest.ru

...

Подобные документы

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.