Алгоритм построения списка библиографических описаний из систем цитирования в условиях неполной определённости
Разработка алгоритма для построения агрегированного списка библиографических описаний из систем цитирования. Анализ сходства публикаций, представленных в системах цитирования Ринц и Scopus. Особенности выявления одинаковых публикаций в системах.
Рубрика | Программирование, компьютеры и кибернетика |
Вид | дипломная работа |
Язык | русский |
Дата добавления | 02.04.2019 |
Размер файла | 129,7 K |
Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже
Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.
Размещено на http://www.allbest.ru/
ФГБОУ ВО "Оренбургский государственный университет"
Алгоритм построения списка библиографических описаний из систем цитирования в условиях неполной определённости
Болдырев П.А., Крылов И.Б., Блинов В.Д.
Основное содержание работы
На сегодняшний день существует ряд систем цитирования, которые позволяют конечному пользователю осуществлять поиск научных и учебных изданий авторов. К наиболее популярным в России зарубежным системам цитирования можно отнести Web of Science [1] и Scopus [2], к российским - российский индекс научного цитирования (РИНЦ) [3]. В большинстве случаев результаты поиска представлены в плохо структурированном виде - в виде строк с библиографическим описанием. Помимо этого в различных системах цитирования библиографические описания могут быть сформированы по различным алгоритмам, либо с ошибками в описании. По этим причинам возникают проблемы при построении агрегированного списка библиографических описаний из различных систем цитирования [4, 5].
Целью данной работы является разработка алгоритма для построения агрегированного списка библиографических описаний из систем цитирования.
Задача по построению агрегированного списка библиографических описаний предполагает анализ сходства публикаций, представленных в системах цитирования РИНЦ и SCOPUS. В связи с этим для выявления одинаковых публикаций необходимо использовать специализированные алгоритмы нечёткого сравнения текстов.
Обзор алгоритмов нечёткого сравнения текстов представлен в таблице 1.
Таблица 1 - Обзор алгоритмов нечёткого сравнения текстов
Наименование алгоритма |
Назначение |
|
Саундэкс |
Поиск английских слов с орфографическими ошибками. |
|
Дэйч-Мокотофф |
Поиск европейских фамилий, написанных по-разному. |
|
NYSIIS |
Поиск иностранных слов с ошибками. |
|
Метафон, Двойной метафон |
Поиск английских слов с ошибками. |
|
Каверфон 2.0 |
Поиск английских слов с орфографическими ошибками. |
|
Левенштейн |
Поиск орфографических и пунктуационных ошибок. |
|
Биграмм, n-грамм |
Поиск орфографических ошибок, анализ редактированного текста, опечаток. |
|
Ратклифф |
Анализ редактированного текста. |
|
Джаро-Винклер |
Поиск орфографических ошибок. |
|
Алгоритм шинглов |
Поиск схожих веб-документов. |
В результате для дальнейшего рассмотрения, опираясь на широкий универсальность использования, были выбраны алгоритмы биграмм (n-грамм), Левенштейна и шинглов.
Обобщённая блок-схема алгоритма биграмм (n-грамм) представлена на рисунке 2.
Рисунок 2 - Обобщённая блок-схема алгоритма биграмм (n-грамм)
Биграммное сходство между двумя строками определяется числом совпадающих символьных дуплетов в обоих строках. Алгоритм можно обобщить на n-граммы. Две строки разделяются на биграммы. Окончательно, сходство вычисляется по формуле:
, (1)
где m - число совпадающих биграмм, a - число биграмм в первой строке b - число биграмм во второй строке.
Обобщённая блок-схема алгоритма Левенштейна представлена на рисунке 3.
Рисунок 3 - Обобщённая блок-схема алгоритма Левенштейна
Дистанция редактирования Левенштейна между двумя строками определяется как минимальное число вставок, замен и удалений символов, которые необходимы для того, чтобы преобразовать первую строку во вторую. Дистанция ноль означает, что строки идентичны.
Обобщённая блок-схема алгоритма шинглов представлена на рисунке 4.
агрегированный список цитирование одинаковая публикация
Рисунок 4 - Обобщённая блок-схема алгоритма шинглов
Алгоритм шинглов [6] - алгоритм, разработанный для поиска копий и дубликатов рассматриваемого текста в веб-документе. В качестве длины шинглов выбрана длина в 2 слова. Для оценки качества работы алгоритма, реализованного для построения агрегированного списка библиографических описаний на основе рассмотренных алгоритмов нечёткого сравнения строк, необходимо определить критерий оценки качества. Обзор основных критериев представлен в таблице 2.
Таблица 2 - Обзор основных критериев
Наименование критерия |
Формула расчёта |
|
Точность |
||
Полнота |
||
F-мера |
||
Предсказанная частота положительных результатов |
Критерий "точность" показывает отношение истинно-положительных результатов к общему количеству положительных результатов. Критерий "полнота" показывает отношение истинно-положительных результатов к общему количеству истинных результатов. Критерий "F-мера" представляет собой среднее гармоническое по критериям "точность" и "полнота". Критерий "предсказанная частота положительных результатов" показывает отношение количества положительных предсказаний к общему количеству объектов. Данный показатель мало говорит о качестве классификации, но несёт информацию о том, как классификатор оценивает распределение по классам.
Наиболее подходящим критерием для задачи построения агрегированного списка публикаций является критерий "F-мера", поскольку учитывает одновременно "точность" и "полноту".
В данном случае точность рассчитывается, как частное от числа истинно добавленных библиографических описаний в агрегированный список к общему числу добавленных библиографических описаний. Полнота рассчитывается, как частное от числа истинно добавленных библиографических описаний в агрегированный список к общему числу истинных библиографических описаний, которые могли быть добавлены или не добавлены в агрегированный список публикаций.
Результаты настройки параметров алгоритмов на обучающей выборке представлены в таблице 3.
Таблица 3 - Результаты настройки параметров алгоритмов
Алгоритм |
Настраиваемый параметр |
Значение параметра |
|
Левенштейна |
Расстояние Левенштейна |
4 |
|
N-грамм (биграмм) |
Процент совпавших биграмм |
83 |
|
Шинглов |
Процент совпавших хэш-функций |
80 |
В качестве тестовой выборки использован список публикаций одного из авторов Оренбургского государственного университета, имеющего достаточное количество публикаций как в системе цитирования РИНЦ, так и в SCOPUS (46 - в SCOPUS, 175 - в РИНЦ). Помимо F-меры учитывалось время работы алгоритма.
Результаты работы алгоритмов биграмм, Левенштейна и шинглов при построении агрегированного списка библиографических описаний представлены в таблицах 4, 5, 6.
Таблица 4 - Результат работы алгоритма биграмм
Предсказано "+" |
Предсказано "-" |
Всего |
||
Фактически "+" |
144 |
11 |
155 |
|
Фактически "-" |
0 |
66 |
66 |
|
Всего |
144 |
77 |
221 |
Таблица 5 - Результат работы алгоритма Левенштейна
Предсказано "+" |
Предсказано "-" |
Всего |
||
Фактически "+" |
155 |
0 |
155 |
|
Фактически "-" |
1 |
65 |
66 |
|
Всего |
156 |
65 |
221 |
Таблица 6 - Результат работы алгоритма шинглов
Предсказано "+" |
Предсказано "-" |
Всего |
||
Фактически "+" |
155 |
0 |
155 |
|
Фактически "-" |
2 |
64 |
66 |
|
Всего |
157 |
64 |
221 |
Результаты расчёта критериев представлены в таблице 7.
Таблица 7 - Результаты расчёта критериев
Точность |
Полнота |
F-мера |
Время работы, с |
||
Алгоритм n-грамм |
1 |
0,9290 |
0,9632 |
8 |
|
Алгоритм Левенштейна |
0,9935 |
1 |
0,9967 |
20 |
|
Алгоритм шинглов |
0,9872 |
1 |
0,9935 |
2 |
В результате, для построения агрегированного списка библиографических описаний выбран алгоритм шинглов. Разработанный алгоритм показал высокую скорость работы и приемлемую точность построения списка библиографических описаний.
Список литературы
1. Web of Science [Электронный ресурс]: поисковая платформа. - Электрон. дан. - Режим доступа: http://isiknowledge.com. - Загл. с экрана. - 25.12.2018.
2. Scopus [Электронный ресурс]: библиографическая и реферативная база данных. - Электрон. дан. - Режим доступа: http://www.scopus.com/. - Загл. с экрана. - 25.12.2018.
3. Научная электронная библиотека eLIBARAR.ru [Электронный ресурс]: научная электронная библиотека. - Электрон. дан. - Москва: 2000. - Режим доступа: http://elibrary.ru. - Загл. с экрана. - 25.12.2018.
4. Болдырев, П.А. Разработка агрегирующей системы анализа публикационной активности учёных на основе международных и российской систем цитирования в условиях ограниченного доступа / П.А. Болдырев, И.Б. Крылов // Всероссийская научно-методическая конференция "Университетский комплекс как региональный центр образования, науки и культуры". - Оренбург, 2016. - С.2602-2608.
5. Болдырев, П.А. Обзор программных средств в области анализа публикационной активности учёных [Электронный ресурс] / П.А. Болдырев, И.Б. Крылов // XXIII студенческая международная заочная научно-практической конференция "Молодёжный научный форум: технические и математические науки". - Москва, 2015. - Режим доступа: http://nauchforum.ru/ru/node/6914. - Загл. с экрана (дата обращения: 25.12.2018).
6. Зеленков, Ю.Г. Сравнительный анализ методов определения нечетких дубликатов для Web-документов / Ю.Г. Зеленков, И.В. Сегалович // Труды 9-ой Всероссийской научной конференции "Электронные библиотеки: перспективные методы и технологии, электронные коллекции" - RCDL'2007, Переславль-Залесский, Россия, 2007.
Размещено на Allbest.ru
...Подобные документы
Информационное обеспечение научных исследований в университете. Разработка онтологии в области управления. Создание глоссария по менеджменту, списка персоналий. Семантическая разметка массива документов. Методика работы с базой научных публикаций.
дипломная работа [3,5 M], добавлен 13.01.2015Выделение сущностей для создания структуры хранения данных. Выбор технологии ввода данных таксационных описаний. Разработка программного обеспечения для ввода данных таксационных описаний и его реализация. Безопасность геоинформационной системы.
дипломная работа [2,1 M], добавлен 20.07.2012Исследование программного средства для управления базой данных с информацией о фильмах. Составление алгоритма удаления и добавления элемента в указанное место двунаправленного списка. Характеристика поиска, вывода на экран и сортировки элементов списка.
курсовая работа [94,5 K], добавлен 23.09.2011Процессы индивидуализации, интеллектуализации и веб-ориентации традиционных обучающих систем как важные особенности современных компьютерных технологий обучения. Знакомство с программными средствами для построения компетентностно-ориентированных моделей.
дипломная работа [2,7 M], добавлен 04.10.2014Анализ функции и разработка алгоритма по ее вычислению. Программирование отдельных блоков и структур алгоритма. Структура Паскаль-программы. Раздел описаний, подпрограммы, тело программы. Полная Паскаль-программа в соответствии с разработанным алгоритмом.
курсовая работа [241,8 K], добавлен 30.01.2016Начальное представление систем нечеткого вывода: логический вывод, база знаний. Алгоритм Мамдани в системах нечеткого вывода: принцип работы, формирование базы правил и входных переменных, агрегирование подусловий, активизация подзаключений и заключений.
курсовая работа [757,3 K], добавлен 24.06.2011Анализ нормативно-правовой базы, обоснование направлений создания обеспечения комплексной защиты информации в автоматизированных системах. Разработка методики оценки, выбор путей повышения эффективности защитных мероприятий в автоматизированных системах.
дипломная работа [368,5 K], добавлен 17.09.2009Этапы развития моделирования явлений, процессов, объектов, устройств и систем. Примеры математического, имитационного и физического построения. Воспроизведение транспортных систем городов с помощью программы для визуализации транспортной схемы VISUM.
реферат [29,5 K], добавлен 16.12.2010Анализ моделей и средств построения игровой компьютерной среды предметной области. Разработка алгоритмов построения игровой компьютерной среды. Отладка и экспериментальное тестирование компьютерной игры "Представление знаний в информационных системах".
дипломная работа [2,9 M], добавлен 12.08.2017Представление (построение, создание) списка данных в виде линейного однонаправленного списка. Формирование массива данных. Вывод данных на экран. Алгоритм удаления, перемещения данных. Сортировка методом вставки. Алгоритм загрузки данных из файла.
курсовая работа [2,1 M], добавлен 16.05.2015Проектирование информационной системы учета научных публикаций в среде Adobe Dreamweaver. Анализ существующих технологий разработки в сервисе. Системы управления базами данных. Конструктор сущности "users", "papers". Функционал системы учета публикаций.
дипломная работа [2,6 M], добавлен 14.08.2015Способы организации вычислительного процесса в системах с несколькими процессорами. Разработка программы на основе алгоритмов мультипроцессорных систем при пакетной обработке задач. Вычисление основных показателей эффективности для каждого алгоритма.
курсовая работа [102,3 K], добавлен 21.06.2013Составление алгоритма сортировки линейной вставкой. Понятие однонаправленного циклического списка символов, реализация процедуры подсчета суммы элементов и составление алгоритма. Прямое представление дерева, алгоритм работы с ним на абстрактном уровне.
контрольная работа [32,8 K], добавлен 20.01.2012Создание баз хозяйственных договоров, банков и членов временных трудовых коллективов в среде разработки Delphi. Логическая структура линейного двусвязного списка. Способ упорядочения и алгоритм сортировки списка. Руководство пользования программой.
курсовая работа [749,4 K], добавлен 14.02.2016Определение назначения и описание функций дискового кэша как промежуточного буфера с быстрым доступом к информации. Процесс кэширования внешних накопителей. Построение алгоритма, описание интерфейса и разработка программы для работы с двусвязным списком.
курсовая работа [2,1 M], добавлен 21.01.2014Обзор средств построения систем электронной коммерции, их преимущества и основные направления развития. Особенности корпоративных серверов Microsoft. Разработка программного механизма для ведения статистики по действиям пользователя в разных модулях.
отчет по практике [1,6 M], добавлен 26.06.2014Безопасное состояние информационной системы. Основные утверждения (факты). Алгоритм построения графа распределения ресурсов для стратегии избежания тупиков. Структуры данных для алгоритма банкира, пример его использования. Алгоритм обнаружения тупиков.
презентация [1,3 M], добавлен 24.01.2014Экспертные системы как направление исследований в области искусственного интеллекта по созданию вычислительных систем, умеющих принимать решения, схожие с решениями экспертов в заданной предметной области. Принципы построения алгоритма и его оценка.
курсовая работа [517,2 K], добавлен 12.06.2015Обоснование использования виртуальной модели, средства для разработки функциональных модулей. Разработка виртуальной модели "Представление знаний в информационных системах". Разработка алгоритмов построения виртуальной модели предметной области.
дипломная работа [1,4 M], добавлен 12.08.2017Словесный, графический, табличный, программный способы представления алгоритма. Основные конструкции в любом алгоритмическом языке. Теория обнаружения, различения и оценивания сигналов. Радиолокационные системы обнаружения. Система распознавания образов.
презентация [4,8 M], добавлен 09.06.2015