Способ решения задачи исключения дублирования персональных данных в информационных системах

Изучение проблемы поиска дублирующихся записей в системах хранения и обработки персональных данных клиентов. Рассмотрение алгоритмов поиска дублирующихся субъектов. Определение расстояния между словами или текстовыми полями по методу Левенштейна.

Рубрика Программирование, компьютеры и кибернетика
Вид статья
Язык русский
Дата добавления 10.08.2018
Размер файла 20,1 K

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru/

Способ решения задачи исключения дублирования персональных данных в информационных системах

Вахрушев Иван Николаевич, аспирант

Ржеуцкая Светлана Юрьевна, кандидат наук, доцент

Вологодский государственный университет

В процессе функционирования информационной системы возможна ситуация, когда одна и та же информация в базе данных встречается несколько раз, то есть дублируется. Иногда такая избыточность обоснована и реализована искусственно, например, для повышения надёжности. Однако в большинстве случаев дублирование информации недопустимо и приводит к фатальным ошибкам. Также большое количество дубликатов ведёт к нерациональному использованию вычислительных ресурсов. Наиболее остро проблема поиска дублирующихся записей стоит в системах хранения и обработки персональных данных, где возможно частичное совпадение сведений о клиентах [3].

Решить проблему дублирования персональных данных средствами СУБД (системы управления базой данных) не представляется возможным. Все известные методы идентификации объектов в базах данных оперируют точным равенством сравниваемых полей и бессильны при наличии ошибок и пропусков данных [1, 2]. В связи с этим данные нельзя непосредственно сравнивать между собой, а нужно применять более сложные алгоритмы нечёткого сопоставления и поиска по сходству.

Под записью будем понимать совокупность сведений о клиенте (реквизитов), достаточных для функционирования информационной системы. Под субъектом (клиентом) будем понимать физическое или юридическое лицо, сведения о котором хранятся в информационной системе. Термин «дублирование субъектов» будем использовать для описания ситуации, когда один и тот же субъект присутствует в справочнике субъектов два и более раз. дублирующийся текстовый левенштейн алгоритм

Для разработки и реализации алгоритмов поиска дублирующихся субъектов предлагается:

полагать, что необязательно проверять (сравнивать) все реквизиты из анкеты клиента, достаточно сравнить некоторые наиболее важные, обязательные для заполнения реквизиты, и на основании совпадения только этих реквизитов практически гарантированно можно сделать вывод о том, что субъекты повторяют друг друга;

считать, что дублирующимися субъектами являются субъекты, у которых «набор» проверяемых реквизитов совпадает полностью (точно) либо степень совпадения неполная, но допустима.

Здесь вводим понятие «процент совпадения» реквизитов субъектов. Процент совпадения - это процент, которые задается пользователем и определяет, какая точность требуется при сравнении одного реквизита у разных субъектов для того, чтобы полагать эти реквизиты совпадающими (а клиентов, соответственно, дублирующими друг друга). Степень совпадения позволит учесть, что возможны различия (ошибки) в одном и том же реквизите для разных субъектов, например, если оператор при вводе информации о субъекте допустил ошибку.

Разрабатываемые алгоритмы нечеткого сопоставления записей могут применяться в различных системах, где организованы хранение и обработка персональных данных субъектов, для исключения дублирования. Мотивом для разработки послужила необходимость модернизации процедуры проверки справочника субъектов АБС «RS-Bank/Pervasive».

Ключевой частью разрабатываемых алгоритмов будут являться алгоритмы нечёткого сопоставления строк или, иначе говоря, анализа строк. Термин анализ строк (string matching) здесь будем использовать для описания класса задач, связанных с вычислением расстояния между двумя строками, то есть с вычислением метрики. Существуют несколько метрик, основные - это расстояние Хемминга и расстояние Левенштейна. Расстояние Хемминга (Hamming) между двумя строками одинаковой длины определяется как число позиций, в которых символы не совпадают. Если допускается сравнение строк разной длины, то минимальная общая цена преобразования будет равна одной из метрик, предложенных Левенштейном (Levenstein).

Функция Левенштейна играет роль фильтра, заведомо отбрасывающего неприемлемые варианты (у которых значение функции больше некоторой заданной константы).

С точки зрения приложений определение расстояния между словами или текстовыми полями по Левенштейну обладает следующими недостатками:

при перестановке местами слов или частей слов получаются сравнительно большие расстояния;

расстояния между абсолютно разными короткими словами оказываются небольшими, в то время как расстояние между сильно похожими длинными словами оказываются значительными.

В настоящее время имеются программные продукты, такие как ispell, aspell, agrep и glimpse, которые позволяют проверять орфографию или определять схожесть двух строк. Однако их использование для решения проблемы дублирования персональных данных практически невозможно.

Одним из наиболее распространенных орфографических алгоритмов нечёткого сопоставления строк является метод динамического программирования Вагнера-Фишера, идея которого состоит в последовательной оценке расстояния между всё более длинными префиксами строк с помощью матрицы весов замен. Затраты времени и памяти можно оцениваются как O(mn), однако, этот метод прост в реализации и эффективен для строк небольшой длины.

Вычислив расстояние Левенштейна, можно найти процент совпадения строк по следующей формуле:

где percent_of_simil - процент совпадения; max_len - длина наибольшей строки; - расстояние Левенштейна.

Отсюда видим одно из ограничений данного подхода: для коротких строк различие даже в одном символе будет приводить к низкому проценту совпадения.

Для реализации процедуры проверки субъектов на дублирование будем объединять реквизиты субъектов в группы. При этом в одной группе может быть несколько категорий реквизитов: обязательные (О), условные (У) и информационные (И). Информационные реквизиты не проверяются и необходимы для формирования протокола выполнения процедуры. Условные реквизиты являются дополнительными и проверяются только в том случае, если обязательные реквизиты не заданы или совпали не полностью. Например, задана группа реквизитов (табл. 1).

Таблица 1. Параметры проверки субъектов на дублирование

Форма

Реквизиты

Уровень

%

ЮЛ

(1) Документ: ИНН, рег.номер

О

100

(2) + Документ: КПП, рег.номер

О

100

(3) Документ: ОГРН, рег.номер

У

90

(4) Наименование

У

90

Группа может использоваться для проверки при вводе и редактировании субъектов - юридических лиц. Сначала проверяем по «ИНН+КПП» (проверяем вместе, причем по строгому совпадению на 100%), если вдруг они не совпадают (или не заданы), то проверяем по «ОГРН» и «Названию». При этом возможны следующие ситуации.

Если совпадают (1+2); значит, субъекты - дубли, при этом 3 и 4 даже не сравниваем (совпали все О-реквизиты, У-реквизиты не влияют на результат, их не проверяем, чтобы не тратить время).

Совпадает (1); (2) задан, но не совпадает; тогда проверяем (3) и (4), если совпадают оба, субъекты - дубли, иначе (3 и 4 не совпадают), значит, субъекты - не дубли (совпали не все О-реквизиты, поэтому проверяем все У-реквизиты, и если все У-реквизиты совпадают, то субъекты будут дублями).

Если (1) не совпадает, то (2) не проверяется, а пара (1+2) считается несовпавшим реквизитом, далее - проверяем (3) и (4); если они оба совпадают, то субъект считается дублем.

Для проверки справочника субъектов на дублирование необходимо каждую запись последовательно сравнить со всеми другими записями справочника. При этом одновременно сравниваются только две записи. Поскольку может быть задано несколько групп реквизитов, то проверку выполняем по реквизитам каждой из групп. В случае обнаружения дублёров информация о них выводится в протокол процедуры и фиксируется в справочнике субъектов посредством механизма категорий.

Данный подход позволяет достаточно эффективно отыскивать потенциальных дублёров и поддерживать справочник субъектов в актуальном состоянии. Однако в связи с тем, что размеры сравниваемых реквизитов невелики (в среднем 5-15 символов), временные затраты на анализ строк также получаются достаточно малыми, и здесь на первое место выходит стоимость дисковых операций. На поиск и считывание необходимых сведений о субъекте расходуется времени гораздо больше, чем непосредственно на сравнение. По результатам тестирования для больших справочников субъектов (50000-150000 записей) процедура проверки нуждается в оптимизации, так как время проверки в таких случаях получается неприемлемо большим.

Список литературы

Солодков, А. Идентификация сложных объектов нечисловой природы в СУБД с наличием ошибок и пропусков данных [Электронный ресурс] / А.Ю. Солодков. - Саратовский государственный технический университет, 2003. Режим доступа: http://iu4.bmstu.ru

Райордан, Р. Основы реляционных баз данных: Пер. с англ./ Р Райордан. - М.: Издательско-торговый дом «Русская Редакция», 2001. - 384 с.: ил.

Graham, S. String Search [Электронный ресурс] / Stephen A. Graham. - UK. School of Electronic Engineering Science University College of North Wales, 1992. - Режим доступа: http://read.at/infoscope/string_search/Stephen-92/index.html

Размещено на Allbest.ru

...

Подобные документы

  • Правовое регулирование защиты персональных данных. Общий принцип построения соответствующей системы. Разработка основных положений по охране личных документов. Подбор требований по обеспечению безопасности персональных данных в информационных системах.

    дипломная работа [1,3 M], добавлен 01.07.2011

  • Актуальность защиты информации и персональных данных. Постановка задачи на проектирование. Базовая модель угроз персональных данных, обрабатываемых в информационных системах. Алгоритм и блок-схема работы программы, реализующей метод LSB в BMP-файлах.

    курсовая работа [449,5 K], добавлен 17.12.2015

  • Базовая модель угроз персональных данных, обрабатываемых в информационных системах персональных данных. Метод сокрытия информации в наименьших битах графических контейнеров. Алгоритм и блок-схема работы программы, реализующей метод LSB в BMP-файлах.

    курсовая работа [475,1 K], добавлен 05.12.2014

  • Основы безопасности персональных данных. Классификация угроз информационной безопасности персональных данных, характеристика их источников. Базы персональных данных. Контроль и управление доступом. Разработка мер защиты персональных данных в банке.

    дипломная работа [3,2 M], добавлен 23.03.2018

  • Особенности работы "поисковика" дублирующихся файлов на диске. Выбор среды программирования. Разработка программного продукта. Основные требования, предъявляемые к программе, производящей поиск дублирующихся файлов на диске. Отображение скрытых файлов.

    курсовая работа [1,8 M], добавлен 28.03.2015

  • Анализ структуры распределенной информационной системы и обрабатываемых в ней персональных данных. Выбор основных мер и средств для обеспечения безопасности персональных данных от актуальных угроз. Определение затрат на создание и поддержку проекта.

    дипломная работа [5,3 M], добавлен 01.07.2011

  • Особенности проведения поиска по реквизитам документа, контексту, специализированным классификаторам (тематический), интеллектуальный. Средства и инструменты поиска в компьютерных справочно-правовых системах "гарант", "консультантплюс", "кодекс".

    реферат [25,9 K], добавлен 19.03.2016

  • Анализ сетевой инфраструктуры, специфика среды исполнения и принципов хранения данных. Обзор частных моделей угроз персональных данных при их обработке с использованием внутрикорпоративных облачных сервисов. Разработка способов защиты их от повреждения.

    курсовая работа [41,7 K], добавлен 24.10.2013

  • Технологии защиты персональных данных и их применение. Юридический аспект защиты персональных данных в России. Описание результатов опроса среди рядовых российских пользователей. Прогноз развития технологий в связи с аспектом защиты персональных данных.

    дипломная работа [149,6 K], добавлен 03.07.2017

  • Определение степени исходной защищенности персональных данных в информационной системе. Факторы, создающие опасность несанкционированного доступа к персональным данным. Составление перечня угроз персональным данным, оценка возможности их реализации.

    контрольная работа [21,5 K], добавлен 07.11.2013

  • Законодательные основы защиты персональных данных. Классификация угроз информационной безопасности. База персональных данных. Устройство и угрозы ЛВС предприятия. Основные программные и аппаратные средства защиты ПЭВМ. Базовая политика безопасности.

    дипломная работа [2,5 M], добавлен 10.06.2011

  • Рассмотрение и анализ моделей и алгоритмов семантического поиска в мультиагентной системе поддержки пользователей. Ознакомление с интерфейсом чата с ботом. Изучение и характеристика экспериментальных оценок релевантности и пертинентности запросов.

    дипломная работа [3,0 M], добавлен 13.10.2017

  • Характеристика сущности и назначения автоматизированных информационных систем (АИС), под которыми понимают совокупность информационных массивов технических, программных и языковых средств, предназначенных для сбора, хранения, поиска, обработки данных.

    контрольная работа [24,4 K], добавлен 29.08.2010

  • Методы реализации алгоритмов сортировки и алгоритмов поиска на языках программирования высокого уровня. Программирование алгоритмов сортировки и поиска в рамках создаваемого программного средства на языке Delphi. Создание руководства пользователя.

    курсовая работа [1,7 M], добавлен 16.04.2012

  • Информационные и автоматизированные системы управления технологическими процессами на промышленных предприятиях. Базы данных в автоматизированных системах управления. Системы планирования ресурсов предприятия, сбора и аналитической обработки данных.

    контрольная работа [486,7 K], добавлен 29.10.2013

  • Исследование проблемы сравнения звуковых файлов и определение степени их схожести. Сравнение файлов с использованием метода нечеткого поиска, основанного на метрике (расстоянии) Левенштейна. Сравнение MIDI-файлов и реализация алгоритмов считывания.

    курсовая работа [2,0 M], добавлен 14.07.2012

  • Предпосылки создания системы безопасности персональных данных. Угрозы информационной безопасности. Источники несанкционированного доступа в ИСПДн. Устройство информационных систем персональных данных. Средства защиты информации. Политика безопасности.

    курсовая работа [319,1 K], добавлен 07.10.2016

  • Характеристика основных патентных баз данных, используемых при проведении патентно-информационного поиска в Интернете. Стратегия патентного поиска и системы патентной классификации. Использование логических операторов и ключевых слов при поиске.

    презентация [1,9 M], добавлен 15.09.2011

  • Система контроля и управления доступом на предприятии. Анализ обрабатываемой информации и классификация ИСПДн. Разработка модели угроз безопасности персональных данных при их обработке в информационной системе персональных данных СКУД ОАО "ММЗ".

    дипломная работа [84,7 K], добавлен 11.04.2012

  • Хранение данных в сети Internet. Гипертекстовые документы, виды файлов. Графические файлы, их виды и особенности. Поисковые системы и правила поиска информации. Обзор поисковых систем сети Internet. Все о поисковых системах Yandex, Google, Rambler.

    курсовая работа [918,3 K], добавлен 26.03.2011

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.